boxplot - RとLinuxと...

RとLinuxと...


boxplot

Rの備忘録

詳細はここ

一般論として

  • 第1四分位数
    • データを小さい順に並びかえた時,データを 1:3に分ける値
    • データ数が N で N/4 が割り切れる場合,N/4番目のデータと N/4+1番目のデータを平均した値
    • データ数が割り切れない場合, [N/4+1]番目の値
  • 第3四分位数
    • データをを小さい順に並びかえた時,データを 3:1に分ける値
    • データ数が N で N/4 が割り切れる場合,3N/4番目のデータと 3N/4+1番目のデータを平均した値
    • データ数が割り切れない場合, [3N/4+1]番目の値
  • 四分位数範囲
    • 第3四分位数から第1四分位数を引いた値です.
  • ヒゲ
    • 中央の箱から上下に点線が伸びていますが,この長さは四分位数範囲で決まります.箱の下辺から伸びる点線の先は,「第1四分位数-1.5×四分位数範囲」より大きいデータに対応します.箱の上辺から伸びる点線の先は,「第3四分位数+1.5×四分位数範囲」より小さいデータに対応します.そして点線の先に白抜きの点がある場合,それは「外れ値」の疑いのあるデータです.「外れ値」は,データ全体からすると,極端に小さい,あるいは極端に大きなデータにあたり,記録者の入力ミスである可能性すらあります.

R の boxplot で,四分位数範囲とヒンジ散布度のカンケーがどうなってたか,すぐ忘れる

四分位数範囲Interquartile range:IQR は第3四分位数の第1四分位数の差

ヒンジ散布度 hinge spread は上側ヒンジ(中央値より上の値の中央値)と下側ヒンジ(中央値より下の値の中央値)の差

従って二つは一致しない.

R では前者が使われているが,?boxplot.stats を実行すると以下のような説明がある

The two ‘hinges’ are versions of the first and third quartile, i.e., close to ‘quantile(x, c(1,3)/4)’. The hinges equal the quartiles for odd n (where ‘n <- length(x)’) and differ for even n. Whereas the quartiles only equal observations for ‘n % % 4 == 1’ (n = 1 mod 4), the hinges do so _additionally_ for ‘n % % 4 == 2’ (n = 2 mod 4), and are in the middle of two observations otherwise.

 
Link: Rの備忘録(1737d)
Last-modified: 2010-08-11 (水) 12:02:47 (2962d)