- 追加された行はこの色です。
- 削除された行はこの色です。
[[Rの備忘録]]
[[詳細はここ:http://en.wikipedia.org/wiki/Quantile]]
一般論として
-第1四分位数
--データを小さい順に並びかえた時,データを 1:3に分ける値
-- データ数が N で N/4 が割り切れる場合,N/4番目のデータと N/4+1番目のデータを平均した値
-- データ数が割り切れない場合, [N/4+1]番目の値
-第3四分位数
-- データをを小さい順に並びかえた時,データを 3:1に分ける値
-- データ数が N で N/4 が割り切れる場合,3N/4番目のデータと 3N/4+1番目のデータを平均した値
-- データ数が割り切れない場合, [3N/4+1]番目の値
- 四分位数範囲
-- 第3四分位数から第1四分位数を引いた値です.
- ヒゲ
-- 中央の箱から上下に点線が伸びていますが,この長さは四分位数範囲で決まります.箱の下辺から伸びる点線の先は,「第1四分位数-1.5×四分位数範囲」より大きいデータに対応します.箱の上辺から伸びる点線の先は,「第3四分位数+1.5×四分位数範囲」より小さいデータに対応します.そして点線の先に白抜きの点がある場合,それは「外れ値」の疑いのあるデータです.「外れ値」は,データ全体からすると,極端に小さい,あるいは極端に大きなデータにあたり,記録者の入力ミスである可能性すらあります.
------------------------------
R の boxplot で,四分位数範囲とヒンジ散布度のカンケーがどうなってたか,すぐ忘れる
四分位数範囲Interquartile range:IQR は第3四分位数の第1四分位数の差
ヒンジ散布度 hinge spread は上側ヒンジ(中央値より上の値の中央値)と下側ヒンジ(中央値より下の値の中央値)の差
従って二つは一致しない.
R では前者が使われているが,?boxplot.stats を実行すると以下のような説明がある
<
The two ‘hinges’ are versions of the first and third quartile, i.e., close to ‘quantile(x, c(1,3)/4)’.
The hinges equal the quartiles for odd n (where ‘n <- length(x)’) and differ for even n.
Whereas the quartiles only equal observations for ‘n % % 4 == 1’ (n = 1 mod 4), the hinges do so _additionally_ for ‘n % % 4 == 2’ (n = 2 mod 4), and are in the middle of two observations otherwise.
>