[[Rの備忘録]] [[詳細はここ:http://en.wikipedia.org/wiki/Quantile]] 一般論として -第1四分位数 --データを小さい順に並びかえた時,データを 1:3に分ける値 -- データ数が N で N/4 が割り切れる場合,N/4番目のデータと N/4+1番目のデータを平均した値 -- データ数が割り切れない場合, [N/4+1]番目の値 -第3四分位数 -- データをを小さい順に並びかえた時,データを 3:1に分ける値 -- データ数が N で N/4 が割り切れる場合,3N/4番目のデータと 3N/4+1番目のデータを平均した値 -- データ数が割り切れない場合, [3N/4+1]番目の値 - 四分位数範囲 -- 第3四分位数から第1四分位数を引いた値です. - ヒゲ -- 中央の箱から上下に点線が伸びていますが,この長さは四分位数範囲で決まります.箱の下辺から伸びる点線の先は,「第1四分位数-1.5×四分位数範囲」より大きいデータに対応します.箱の上辺から伸びる点線の先は,「第3四分位数+1.5×四分位数範囲」より小さいデータに対応します.そして点線の先に白抜きの点がある場合,それは「外れ値」の疑いのあるデータです.「外れ値」は,データ全体からすると,極端に小さい,あるいは極端に大きなデータにあたり,記録者の入力ミスである可能性すらあります. ------------------------------ R の boxplot で,四分位数範囲とヒンジ散布度のカンケーがどうなってたか,すぐ忘れる 四分位数範囲Interquartile range:IQR は第3四分位数の第1四分位数の差 ヒンジ散布度 hinge spread は上側ヒンジ(中央値より上の値の中央値)と下側ヒンジ(中央値より下の値の中央値)の差 従って二つは一致しない. R では前者が使われているが,?boxplot.stats を実行すると以下のような説明がある < The two ‘hinges’ are versions of the first and third quartile, i.e., close to ‘quantile(x, c(1,3)/4)’. The hinges equal the quartiles for odd n (where ‘n <- length(x)’) and differ for even n. Whereas the quartiles only equal observations for ‘n % % 4 == 1’ (n = 1 mod 4), the hinges do so _additionally_ for ‘n % % 4 == 2’ (n = 2 mod 4), and are in the middle of two observations otherwise. >