#contents * z値 [#h0900c84] まず補足として &mathml(z); 値を学ぶ. z 値とは,データが正規分布にしたがっている場合,そのデータの平均の信頼区間などを推定するための基礎となる数値である. 今,平均が 0 標準偏差が 1 である場合,Excel では以下のようにすれば,95 % 範囲を求める基礎となるz 値が求まる. norminv(0.025,0,1) norminv(0.095,0,1) あるいは,平均が50,標準偏差が10の場合,以下で求まる. normsinv(0.025,50,10) normsinv(0.095,50,10) この点は,小さな方が,平均を中心として 95% の下限の値.上が上限となっている.ただ,一般には平均を 0 ,標準偏差を 1 にする処理を行って,その z 値を利用することが広く行われている.これを標準化と言う.数値を標準化するには,あるデータの数値から平均を引き,その上で標準偏差で割れば良い.あるいは standardize(数値,平均,標準偏差) という関数を使う. *t 分布 [#a4938fe5] //16ー20歳の女性の身長の母平均を推定したい.ただ t 分布を発見したのは Gosset であり,1908年に Student という偽名で論文を発表した.そのため,この分布はスチューデントのt分布と呼ばれる. ところで,前回までサンプル数の多いデータについては,その母集団の平均を以下のように推定できると話した. #mathml(z = \frac{X - \mu}{\sigma \sqrt{N}}) ここで &mathml(X); はサンプルから求めた平均. &mathml(\sigma); は母集団の標準偏差を表す.ところが実際には,母集団の平均は分からないことが普通で,従って母集団の標準偏差も分からない.そこで,ゴセットは,母集団に関する情報がなくとも,サンプルから計算した平均と標準偏差を使って,母集団の平均を推測する方法を考え出した.それが以下である. #mathml(t = \frac{X - \mu}{s \sqrt{N}}) ここで &mathml(s); はサンプルから求めた標準偏差である.この値を&mathml(t); 値といって,ゴセットはこの値から平均の範囲を確率的に推定する方法を発見したのである.この方法の基礎になっている分布を「t 分布」という. ところが,この &mathml(t); 値 はサンプル数が大きい場合は,普通の「正規分布」と同じ結果になる.そこで,サンプル数が 30 を越える場合は,を&mathml(t); 値 ではなく,&mathml(z); 値とみなして処理を行って構わない. さて,t 分布は以下のように使う. 以下,鳥居泰彦,「はじめての統計学」より * 問1: [#d38cc175] ある工場が製造している電球の寿命の母平均を推定したい.そのために20個のサンプルを調べてみた.すると平均は 2550 時間.その標準偏差は 246 と求められた.このデータをもとに,この工場の製造する電球の母平均を 95%の範囲で推定せよ.p.165 ある工場が製造している電球の寿命の母平均を推定したい.そのために20個のサンプルを調べてみた.すると平均は 2550 時間.その標準偏差は 246 と求められた.このデータをもとに,この工場の製造する電球の母平均を 95%の範囲で推定せよ.p.163 - ヒント まず,前回使った正規分布での 1.96 に相当する値が t 値ではいくつかを求めます. 前者は normsinv(0.05/2) で,後者は tinv(0.05,19) で求まります. すなわち,求められた標本標準偏差をデータ数の平方根で割り,これに tinv(0.05,19) かけた数値を差し引きしたのが,t 分布における95%の区間推定です. * 問2: [#a83a47b3] ある工場が製造しているある製品の寿命を調べるため,0個のサンプルを集めて実験してみた.それぞれの寿命は以下のようになった. 2610, 2480, 2560, 2590, 2490, 2570, 2560, 2520, 2510, 2620 このデータから,母平均の推定せよ.p.167 * 問3: [#lc33aa20] あるエレベータ(11人乗り)の」利用客から11人を選んで調査したところ標本の体重平均は65キロであった.満員の場合の総重量は 95% の範囲で,どれくらいと見積もっておけば良いか.ただし利用者の体重の母標準偏差は &mathml(\sigma); = 10 kg であることが,過去のデータから分かっているものとする.また11人の総体重の母標準偏差は,平均体重の標準偏差を11倍すれば良い.p.153 - ヒント なお,データ数が少なくとも,何らかの理由から母集団の標準偏差が分かっている時には,正規分布の時の数値 1.96 を利用して区間推定する.ただし母平均は分かっていないのだから,母標準偏差を利用客数の平方根で割る処理を忘れないように. * t 検定 [#s754d3b9] ここからは,現実に広く行われている統計解析について触れる. まずある中学校の,ある学年の二つのクラスについて英語の試験を課したとする. ここでの関心は,同じ中学校の同じ学年なので,この二つのクラスに英語の差はないかどうかを調べるという課題である. もちろん試験結果には運がつきものなので,各生徒の成績をまとめたクラス平均は,二つのクラスで一致することはまずないであろう.しかし,二つのクラスの平均点に差が出たのは偶然であって,実際には二つのクラスの平均に差はない.言い方をかえると,&color(red){二つのクラスの平均は,ある母平均に一致する};と考えられる.これが,本当かどうかを調べて見るのが &color(red){t検定};である. ここで,配布したエクセルシートを使って,エクセルで検定してみよう.