boxplot
一般論として
- 第1四分位数
- データを小さい順に並びかえた時,データを 1:3に分ける値
- データ数が N で N/4 が割り切れる場合,N/4番目のデータと N/4+1番目のデータを平均した値
- データ数が割り切れない場合, [N/4+1]番目の値
- 第3四分位数
- データをを小さい順に並びかえた時,データを 3:1に分ける値
- データ数が N で N/4 が割り切れる場合,3N/4番目のデータと 3N/4+1番目のデータを平均した値
- データ数が割り切れない場合, [3N/4+1]番目の値
- 四分位数範囲
- 第3四分位数から第1四分位数を引いた値です.
- ヒゲ
- 中央の箱から上下に点線が伸びていますが,この長さは四分位数範囲で決まります.箱の下辺から伸びる点線の先は,「第1四分位数-1.5×四分位数範囲」より大きいデータに対応します.箱の上辺から伸びる点線の先は,「第3四分位数+1.5×四分位数範囲」より小さいデータに対応します.そして点線の先に白抜きの点がある場合,それは「外れ値」の疑いのあるデータです.「外れ値」は,データ全体からすると,極端に小さい,あるいは極端に大きなデータにあたり,記録者の入力ミスである可能性すらあります.
R の boxplot で,四分位数範囲とヒンジ散布度のカンケーがどうなってたか,すぐ忘れる
四分位数範囲Interquartile range:IQR は第3四分位数の第1四分位数の差
ヒンジ散布度 hinge spread は上側ヒンジ(中央値より上の値の中央値)と下側ヒンジ(中央値より下の値の中央値)の差
従って二つは一致しない.
R では前者が使われているが,?boxplot.stats を実行すると以下のような説明がある
The two ‘hinges’ are versions of the first and third quartile, i.e., close to ‘quantile(x, c(1,3)/4)’. The hinges equal the quartiles for odd n (where ‘n <- length(x)’) and differ for even n. Whereas the quartiles only equal observations for ‘n % % 4 == 1’ (n = 1 mod 4), the hinges do so _additionally_ for ‘n % % 4 == 2’ (n = 2 mod 4), and are in the middle of two observations otherwise.
Link: R_old_tips3(2076d)
Rの備忘録(4113d)
Last-modified: 2010-08-11 (水) 12:02:47 (5338d)