boxplot の変更点 - アールメカブ

アールメカブ


boxplot の変更点


[[Rの備忘録]]

[[詳細はここ:http://en.wikipedia.org/wiki/Quantile]]

一般論として

-第1四分位数
--データを小さい順に並びかえた時,データを 1:3に分ける値
-- データ数が N で N/4 が割り切れる場合,N/4番目のデータと N/4+1番目のデータを平均した値
-- データ数が割り切れない場合, [N/4+1]番目の値

-第3四分位数
-- データをを小さい順に並びかえた時,データを 3:1に分ける値
-- データ数が N で N/4 が割り切れる場合,3N/4番目のデータと 3N/4+1番目のデータを平均した値
-- データ数が割り切れない場合, [3N/4+1]番目の値

- 四分位数範囲
-- 第3四分位数から第1四分位数を引いた値です.

- ヒゲ
-- 中央の箱から上下に点線が伸びていますが,この長さは四分位数範囲で決まります.箱の下辺から伸びる点線の先は,「第1四分位数-1.5×四分位数範囲」より大きいデータに対応します.箱の上辺から伸びる点線の先は,「第3四分位数+1.5×四分位数範囲」より小さいデータに対応します.そして点線の先に白抜きの点がある場合,それは「外れ値」の疑いのあるデータです.「外れ値」は,データ全体からすると,極端に小さい,あるいは極端に大きなデータにあたり,記録者の入力ミスである可能性すらあります.


------------------------------

R の boxplot で,四分位数範囲とヒンジ散布度のカンケーがどうなってたか,すぐ忘れる

四分位数範囲Interquartile range:IQR は第3四分位数の第1四分位数の差

ヒンジ散布度 hinge spread は上側ヒンジ(中央値より上の値の中央値)と下側ヒンジ(中央値より下の値の中央値)の差

従って二つは一致しない.

R では前者が使われているが,?boxplot.stats を実行すると以下のような説明がある

<
The two ‘hinges’ are versions of the first and third quartile, i.e., close to ‘quantile(x, c(1,3)/4)’.  
The hinges equal the      quartiles for odd n (where ‘n <- length(x)’) and differ for even n. 
Whereas the quartiles only equal observations for ‘n % % 4 ==      1’ (n = 1 mod 4), the hinges do so _additionally_ for ‘n % % 4 ==  2’ (n = 2 mod 4), and are in the middle of two observations  otherwise.
>