「統計学」 - 質問＜２５０６＞

お便り

日付２００５／１１／１２

回答者亀田馬志

もう何でもっと数学が得意な人がこーゆー問題答えてあげないのかなあ･･････。
僕は今年になってどーゆーわけか『確率統計』に関わるハメになっただけなんで、
ハッキリ言うと間違った回答する可能性があります。が、これは自分自身の為でも
あるんで、敢えてこの問題に対しても解答を試みてみます。暴挙と言ってもいいで
しょう(笑)。
まあ、間違った事を書いた場合は遠慮ない指摘が来るでしょうし、そう言った意味
では安心してはいるんですがね･･････。

まずは『検定とは役立たず』だと言った話から始めたいと思います(笑)。いや、
マジです(笑)。
『確率統計』では本当は何よりも一番大事なのは『推定』なんですが、どうも教科
書の最後の方に書かれている為か、『一番重要で難しい項目』だと思われているよ
うです。
しかしそれは誤解です(笑)。高校の教科書の価値観で敢えて言うと、『歴史の教科
書』で言う『現代史』であるとか(笑)、『物理の教科書』で言う『量子論』です。
そんなに神経質になるほど必要性がある箇所でもないのです。
基本的に命題が〇か×か判定するのが『検定』の理想なのですが、実際のトコ、得
られる結論は×か?か、と言う酷い中途半端さ。しかも、検定に利用される、70年代
のエロ劇画雑誌“エロ〇ピア”の某有名看板作家の筆名みたいな(笑)、有意確率(後
述)は固定されて出てくるような性質のものではなくって、実際は検定しようとする
データの“サンプル数”にかなり依存します。
どういう事かと言うと、有意確率が有意水準以下に収まる為には膨大な数のデータが
あれば事足りると言うケースが多いのです。それが、この『検定』と言う作業の原理
的にデタラメなところなのです。
ソースは忘れたんですが、最近の論文なんかでも、この『検定』の誤用が目立ってい
るらしく、あんまりにも酷いので、一部では『検定を使用してるような論文は受け付
けません』とか言い始めているようです。これも個人で扱える安価な統計ソフトが出
回ってきたお陰でしょうが、実際には弊害の方が大きいようですね。
そんなワケで、『実験の計画を立てる前に良く統計学者に相談しましょう』等と言う
ほとんどサラ金のCMみたいなフレーズを最近良く目にするようになって来たのです。
『事前の計画/確認が大事だよ』と(笑)。
と言うワケで実際問題としては、一般人が『検定』をやろうなどと言った大それた事
は考えるべきではない、ってのが無難な結論です。そんなのは専門家の統計学者に任
せておけばいいのです。
『各研究者も統計の基礎知識を持つべきだ』なんて論もあるようですが、とんでもあ
りません。そんなの暴論です(笑)。
専門家とはプロフェッショナル(それで飯を食ってる人達)の事なんで、その手のやや
こしい話は専門家に任せておくべきです。どうして他人の飯の種を奪おうとするので
すか(笑)!!!一般教養として『検定』が必要かどうかも非常に疑問だと思います。
どこの世界に一般人が法律知識を勉強して自分一人で裁判で闘おうなどトチ狂った事
を考えるでしょうか(笑)?もうホントに一般人は『検定』に関わるべきじゃないです。
君子危うきに近寄らず、です(笑)。

『検定』にも色々ありますが、『検定の分かり辛さ』として、タイトルが良く分から
ん、って事があります。例えば、『独立性の検定』等と言われたとき、僕だったら
『独立の検定＝どれくらい独立なのか調べるのかな?』とか思うんですが、あにはか
らんや、実際は『独立性を否定したいが為の検定』なんです。どうしてこうもタイト
ルがひねくれているのでしょうか(笑)?
これは何かの前衛映画のタイトルなんでしょうか(笑)?
マジで頭に来ます(笑)。タイトルのせいで自分が何をやりたくって何をやっているの
か分からなくなる･･････。最悪です。
今度統計学者にでも会ったら、全人類の恨みを代理して喉笛にでも噛み付いてやりま
すか(笑)。

さて、てな与太言っててもしゃーないんで、問題を見て行きたいと思います。

１）正規母集団N(μ,δ^2)から大きさ20の標本について，標本平均45，
不偏分散$8^{2}$を得た．これより母平均μ＝50といえるか，危険率1％で検定せよ．

1問目はオーソドックスな問題ですね。『母平均の検定』と言われるものです。どん
な確率統計の教科書にも載っているでしょう。
1番最初の手順は恐らく知っているでしょうから、そこだけは天下り式に行きます。
帰無仮説$H_{0}$と対立仮説$H_{1}$は次の二つです。

$H_{0}$:母平均は50である
$H_{1}$:母平均は50ではない
危険率(有意水準)を1％とする。

そして『検定統計量(色々ある)』を計算して、それが危険率(有意水準)よりも小さけ
れば帰無仮説$H_{0}$を『棄却』して対立仮説を『採用する』、そうじゃなければ『どっち
が正しいかはハッキリとは言えない』ってのが基本的な流れです。
さて、『母平均の検定』には原則的に2種類ありまして、一つは『母分散が分かってい
る場合』、もう一つは『母分散が分かってない場合』です。今回は後者の場合で、t分
布を利用した通称『t-検定』を行います。が、一つここでハッキリとさせておかなけ
ればなりません。
『t-検定』を行う場合、通常『標本分散』を用いるのですが、厳密には不偏分散≠標
本分散です。しかしながら最近のトレンドでは、不偏分散＝標本分散で扱ってるケー
スも少なくなく、挙句の果てに『標本不偏分散』とか言ってる場合もあり、この問題
の『不偏分散$8^{2}$を得た』と言うのも厳密にはどれを指しているのか皆目検討が付き
ません。よって、最近のトレンドに従って、この場合の不偏分散$8^{2}$は標本不偏分散
だ、とします。
さて、この問題の場合の検定統計量をどうするかと言う問題があるのですが、次の定
理があります。

『確率変数$X_{1}$,$X_{2}$,…,$X_{n}$が互いに独立で、かつ同じ正規分布N(μ,σ^2)に従うなら
ば、それらの標本平均を

X^(エックスハットと読む)＝($X_{1}$＋$X_{2}$＋…＋$X_{n}$)/n

標本不偏分散を

$U^{2}$＝{Σ($X_{i}$－X^$)^{2}$}/(n－1)　　(Σはi＝1からnまでの総和)

とするとき、統計量

T_(n－1)＝(X^－μ)/(U/$\sqrt{\quad}$n) (n≧2)

は自由度n－1のt-分布に従う』

要するにt-分布ってのは確率変数Tによって形作られる『確率分布』なんです。これを
利用しよう、と言うのが『t-検定』です。
そこで統計量(確率変数の実現値)tを次のように計算してみましょう。

t＝|x^－μ|/(u/$\sqrt{\quad}$n)

ここで全部小文字にした訳ですが、コレは問題で与えられた『実現値』を表していま
す。(納得いかないんですが、確率･統計の記述にはそう言う“お約束”があるようで
す。)
今、x^＝45、μ＝50、u＝8、n＝20となってます。全部代入すると、

　　　　　　　　t≒2.795084972

と言う値になります。これがt-分布上の確率変数なんです。
さて、ここで普通はt-分布表を用いるのですが･････せっかくパソコン上なので、表
計算ソフトエクセルで実際どの程度の確率なのか見てみましょうか。エクセルを起動
してみて下さい。
エクセルのどのセルでもいいのですが、次のように記入します。(ここからコピペし
ても構いません)

=tdist(2.795084972,19,2)
　　　　　　　　↑　　　　↑　　↑ ↑
　　　　t-分布の関数の指定｜自由度。今回は『サンプル数－1』より19
　　　　　　　　　　　　　｜ |
　　　　　　　　　　確率変数tの値　 |
　　　　　　　　　　　　　　　　　　|
　　　　　　　両側検定なので2を指定。この話はまたいつか。

それでリターンキーを押すと、

　　　　　　　　　　0.011546608

と言う値が返ってきます。要するに1.15％程となり、明らかに1％より大きいです。
よって危険率(有意水準)1％では帰無仮説$H_{0}$は棄却できません。(仮に1％より小さけ
れば帰無仮説は棄却出来ます。)
よって結論は『どっちなのか分からん』です(笑)。いや、マジです(笑)。
こう言う場合は『平均値は50でないとは言えない』とか数学的には言うのですが、だ
からと言って『平均値が50である』とは断言出来ないのです。ですから、『平均値は
50でないとは言えない(んだけど、かと言って50だとは言えないよね。明言は避けま
しょう。)』とカッコして註が付く。
よって『ハッキリした事は何も言えず』、『何の為に検定を行ったのか良く分からん』
歯がゆさってのが結論になります(笑)。
いやあ、検定って素晴らしいですよね(笑)。バカ(笑)?

（２）2つの中学校A,Bで数学のテストを行ったところ次の結果を得た．A,Bの分散
は等しいといえるか，危険率5％で検定せよ．
標本数　標本平均　不偏分散
A 25 63 140
B 21 60 120

これも色々調べまわったんですよねえ･･･大変でした(笑)。原則的に僕は『検定』
大っ嫌いなんです(笑)。『確率･統計』も大っ嫌い(笑)。
使う検定技法は『二群の等分散性の検定』と呼ばれるものみたいです。一体これは
日本語でしょうか(笑)?
基本的に『平均値の差の検定』をやる前の『予備検定』ならしく、これだけを独立
してやる事は少ないようです。(よって上のデータの中では、今回は標本平均は使用
しません。)

帰無仮説$H_{0}$:AとBの母分散は等しい
対立仮説$H_{1}$:AとBの母分散は等しくない
危険率(有意水準)は5％とする。

実はこの問題の場合もエクセルを使用するとサクサクと進みます。まず、この問題の
場合は『F-分布』と言われる確率密度関数を用いて検定を行うのですが、その前に検
定統計量$F_{0}$を算出します。
検定統計量$F_{0}$はAの不偏分散をU_A、Bの不偏分散をU_Bとして、

$F_{0}$＝U_A/U_B (U_A＞U_B)

となります。この$F_{0}$がF分布の確率変数となるのです。代入すると、140÷120で
1.166666667となりますね。
さて、F-分布には第1自由度、第2自由度と2つワケが分からない数字がありますが、
あんま考え込まなくっていいです。不偏分散の大きいデータのサンプル数－1が第1自
由度、不偏分散の小さいデータのサンプル数－1が第2自由度となります。それをエク
セルに計算させればいい。書式は次の通り。

=fdist(1.166666667,24,20)
　　　　　　　　↑　　　　↑　　↑　↑
　　　　 F-分布の関数名　|　第1自由度
　　　　　　　　　　　　　|　　　第2自由度
　　　　　　　　　　確率変数$F_{0}$の値

んでリターンキーを押すと、

　　　　　　　　　　0.366219725

って値が返ってきます。要するに36.6％程ですね。全然危険率(有意水準)より大きい
です。
よって結論としては、『AとBの母分散は等しくないとは言えない(けれども同じとも
言えない)』です。要するに『どっちか分からんから結論保留』って事です。
何なんでしょうね、この問題(笑)?

（３）1条に10粒ずつ，60条に農作物の種子をまいて発芽の実験を行ったところ次の
結果を得た．
発芽状況は二項分布に合っているといえるか，危険率5％で検定せよ．

１条の発芽数　　｜0 1 2 3 4 5 6 7 8 9 10 計
実測した条の数　｜5 6 12 18 9 5 2 2 0 1 0 60

いや、これがまた難問でした。
まず、このテの『××分布に従っているのか?』検定するのを、一般に『適合度検定』
と言います。ここでピンと来た人は偉いんですが、原理的には『適合しない事を期待
する検定』です(笑)。決して『適合するのを期待して行う検定』ではない(笑)。チク
ショウ、統計学者め(笑)。
ところで『二項分布への適合度検定』ってのはどこ探しても実例が無いんですね。大体
あるのが『正規分布への適合度検定』、あって『ポアソン分布への適合度検定』です。
これが困ったもんだ。
ただ、ある種『作業に共通している』部分があるので、『恐らくこうやってやるので
はないか?』と言うのを書いていきます。間違っていたら指摘して下さい。
母集団がk個の排反する事象･･････と理屈書いて行ってもイイんですが、やめときま
す(笑)。その辺りは多分教科書の『適合度検定』に書いてあるでしょうから、そっち
見た方が早い。よって要点を記述します。
発想は実測値(この場合は実測した条の数)と理論値(ある確率分布で推定されるだろ
う条の数)の間にギャップがどれだけあるのか調べる、ってのが鍵となります。これ
がどの適合度検定でも共通している部分です。
そしてそれを推し量る統計量として

　　　　(χ_0$)^{2}$＝Σ(実測値－理論値$)^{2}$/理論値

を定義します。この統計量(確率変数)はχ^2分布のものです。よって、このテの検定
を通称『χ^2検定』と呼びます。
まずはいつも通り帰無仮説$H_{0}$と対立仮説$H_{1}$から。

$H_{0}$:発芽状況は二項分布である
$H_{1}$:発芽状況は二項分布ではない
危険率(有意水準)は5％とする。

まず最初に二項分布の確率pを推定しないといけません。(と言うのもこの場合、二項
分布の母比率pは不明だからです。)では一体どうすれば良いのでしょうか?

1条の発芽数実測した条の数相対度数
確率変数X $f_{i}$ $f_{i}$/60
0 5 0.083333333
1 6 0.1
2 12 0.2
3 18 0.3
4 9 0.15
5 5 0.083333333
6 2 0.033333333
7 2 0.033333333
8 0 0
9 1 0.016666667
10 0 0
計 60

単純に、『平均何粒発芽しているのか?』考えてみます。要するにXの期待値X^を求め
てみればいいわけです。期待値X^はこの場合、加重平均の定義に従って、

X^＝Σ$x_{i}$*$f_{i}$/60 (Σはi＝0からi＝10までの総和)
＝(0×5＋1×6＋2×12＋3×18＋4×9＋5×5＋6×2＋7×2＋8×0＋9×1＋10×0)÷60
＝3

となります。つまり平均で3粒しか発芽してないんですね。(これはヒストグラム描い
ても予想できるでしょう。)『何粒中?』と言う問に対しては、題意より『1条10粒中』
です。要するに発芽率pは推定で30％なんです。酷い発芽率ですね(笑)。農家だった
ら泣いてます(笑)。
そうすると、『発芽率30％の二項分布』はどうなるか計算してみましょうか。いよい
よエクセルに挑戦してみましょう。まずは上の相対度数表をエクセルのセルA1から
セルC14まで入力してみて下さい。
そして、セルD2にB(10,0.3)とでも入力して、セルD3に次のように入力します。

=binomdist(a3,10,0.3,false)

そしてセルD3をセルD13までコピペします。(今回は関数の説明はしません。
質問＜２３７２＞を参照して下さい)
すると次のようになるはずです。

1条の発芽数実測した条の数相対度数
　確率変数X 　　　　$f_{i}$ 　　$f_{i}$/60 B(10,0.3)
　　　　　0 　　　　　5 0.083333333 0.028247525
　　　　　1 　　　　　6 0.1 0.121060821
　　　　　2 　　　　12 0.2 0.233474441
　　　　　3 　　　　18 0.3 0.266827932
　　　　　4 　　　　　9 0.15 0.200120949
　　　　　5 　　　　　5 0.083333333 0.102919345
　　　　　6 　　　　　2 0.033333333 0.036756909
　　　　　7 　　　　　2 0.033333333 0.009001692
　　　　　8 　　　　　0 0 0.001446701
　　　　　9 　　　　　1 0.016666667 0.000137781
　　　　10 　　　　　0 0 5.9049E-06
　　　　計　　　　60

何となく『相対度数』と理論値である二項分布『B(10,0.3)』は似かよっているよう
ないないような･･････。このままでは比較しようがないですね。
そこで『実測した条の数』に対応した『理論的な条の数』を作り出してみたい、と思
います。便宜上『期待値』とでも呼びましょうか。
(註:コレは通常の平均値としての“期待値”、では無くって単なる“理論的に期待さ
れる値”の意味合いが強そうです。この辺り、専門用語自体が混乱してて、“期待度
数”等と言った言い方もあるようです。しかしながら相対度数とは対応していない。
数学らしからぬムチャクチャな用語が流通しております。)
期待値は次のように定義されます。

期待値$E_{i}$＝条の総数×二項分布で計算された理論上の確率

エクセルではセルE2に『期待値』と書き込んで、セルE3に次のように入力します。

=d3*$b$14

そしてセルE13までコピペします。次のようになるはずです。

1条の発芽数実測した条の数相対度数
　確率変数X 　　　　$f_{i}$ 　　$f_{i}$/60 B(10,0.3) 期待値
　　　　　0 　　　　　5 0.083333333 0.028247525 1.694851494
　　　　　1 　　　　　6 0.1 0.121060821 7.26364926
　　　　　2 　　　　12 0.2 0.233474441 14.00846643
　　　　　3 　　　　18 0.3 0.266827932 16.00967592
　　　　　4 　　　　　9 0.15 0.200120949 12.00725694
　　　　　5 　　　　　5 0.083333333 0.102919345 6.175160712
　　　　　6 　　　　　2 0.033333333 0.036756909 2.20541454
　　　　　7 　　　　　2 0.033333333 0.009001692 0.54010152
　　　　　8 　　　　　0 0 0.001446701 0.08680203
　　　　　9 　　　　　1 0.016666667 0.000137781 0.00826686
　　　　10 　　　　　0 0 5.9049E-06 0.000354294
　　　　計 60

そして次がちょっとエクセル上の操作がややこしいのですが、原則的に『期待値』が
1以下の部分は全部併合しないといけません。エクセルの表を見ると、『1乗の理論上
の発芽数』は7～10は全部合わせても1以下なんです。よって、6以上は全部足さない
といけません。
手順を説明します。まずは

①セルA1からB8までをコピー。それをセルA16にペーストする。
②セルE2からE8までをコピー。次にセルC17を選択した後、マウスの右クリックを
して『形式を選択して貼り付け』を選ぶ。貼り付け項目から『値』を選択。そのま
ま『OK』を選ぶ。
③セルA24に『6』と入力。
④セルB24に次のように入力。

　　　　 =sum(b9:b13)

リターンキーを押す。
⑤セルC24に次のように入力。

=sum(e9:e13)

リターンキーを押す。
⑥セルA26に『P値』と記入します

そうすると次のようになる筈です。

1条の発芽数実測した条の数
　確率変数X 　　　　$f_{i}$ 期待値
　　　　　0 　　　　　5 1.694851494
　　　　　1 　　　　　6 7.26364926
　　　　　2 　　　　12 14.00846643
　　　　　3 　　　　18 16.00967592
　　　　　4 　　　　　9 12.00725694
　　　　　5 　　　　　5 6.175160712
　　　　　6 　　　　　5 2.840939244

　　　　P値

さて、ここまで来て、やっと『χ^2検定』に入るんですが、ここでショートカット
します。まずはセルB26を選択して下さい。
エクセル上部のメニューバーの中に『挿入』ってちょっとHなプルダウンメニュー
がある筈なんですが、そこで『関数』を選択して下さい。
そしたら『関数の挿入』ってポップアップが出てくると思いますんで、『関数の分
類』で『統計』を、関数名で『CHITEST』を選択して下さい。
そうすると今度は『関数の引数』ってポップアップが出てくると思いますが、実測値
範囲に

B18:B24

と入力、そして期待値範囲に

C18:C24

と入力して、『OK』ボタンを押してください。
そうすると有意確率『P値』の値が計算されて出てくるハズです。有意確率P値は

　　　　　　　　　　　0.132515078

となって、約13.3％。有意水準5％より大幅に上回っています。
よって帰無仮説$H_{0}$は棄却されず、結論は

『二項分布に適合してないとは言えない(けれどもハッキリ適合しているとも言えない)』

要するにやっぱり、日本語に直すと、

『良く分からん』

となります(笑)。
検定ってヘンでしょ(笑)?(問題がヘンなのか･笑?)
普通の発想なら『二項分布に適合している証拠』を徹底的に追及しても良さそうなの
に、統計学者はその逆をやるわけです(笑)。
まあ、『こんなの一般人じゃ扱い辛いよな』ってのを分かるだけでもメッケモンなの
かもしれません(笑)。非常に消極的ですが(笑)。ヘンな数学だ(笑)。
以上です。