質問<3242>2006/6/12
from=梅
「統計学」


統計について初歩的な質問ですが、教えて下さい。例えば
1、XがN(-2、2^2)に従うとき次のxを求めよ。
  P(X<x)=0.999
 の時に0.499になるZの正規分布表を見て、私はP(Z=3.1)で 出したのですが、
教科書の回答ではP(Z=3.09)でだしていま す。四捨五入して0.499になるのは
いくつかあるのですが、どう 考えたらいいですか。
2、また、例えばP(Z=2.0)の時、0.477250ですが、四捨五入し て、0.4773と
したり、0.4772としている場合があるのですがどち らがいいのでしょうか。小数第5位
で四捨五入と思っているので すが。
3、また確立を求めるときにP(2<x<5)の時とP(2≦x≦5) の時の答え方は違っ
てきますか?正規分布や正規母集団の時によ って出し方が違ってくるのですか?
今過去問をしながらこの点で考えてしまっています。

★完全解答希望★

お便り2006/6/12
from=亀田馬志


う~ん・・・・・・正規分布表ですか。
あんまり使わんから分かりません(笑)。

まあ、原則的には「誤差範囲の問題」とも言えます。
ちょっと見てみましょうか。

1、XがN(-2、2^2)に従うとき次のxを求めよ。
  P(X<x)=0.999

ここで、「正規分布表」でどーなんだ、との話なんですが、実は教科書によって精度が
違うんですよ。
例えば。

1)内田老鶴圃:「統計データ解析」正規分布表

zの値は3.09(.4990)まで。よって3.10の議論は出来ない。

2)東京大学出版会:「自然科学の統計学」正規分布表

上側確率としてz=3.09の時p=0.00100、z=3.10の時p=0.000968

3)福村出版:「ベイズ統計学入門」正規分布表

z=3.00(p=0.999)まで記載なので議論ならず。

4)ナカニシヤ出版:「フレッシュマンから大学院生までのデータ解析・R言語」正規分布表

上側確率としてz=2.99(p=0.001)まで記載なので議論ならず。

5)東京大学出版会:「ベイズ統計入門」正規分布表

上側確率としてz=3.09の時p=0.0010、z=3.10の時p=0.0010として記載(結果変わらず)

6)岩波書店:「確率・統計入門」正規分布表

上側確率としてz=3.09の時p=0.0010、z=3.10の時p=0.00097として記載

もういい加減に止めておきますが(笑)、結局「梅さんが使用している教科書」によっても、
また精度が恐らく変わってくるでしょう。その教科書を見ない限り、どの辺りの精度で
解答を要求しているのか分からない、とも言えるのです。(上見たら分かりますが、
結果z=3.09と3.10で変わらない値だったら議論そのものがバカバカしくなる、ってのも
お分かりでしょう。両者ともある範囲での近似値なのですから。)
よって方策としては、

「パソコンで計算した方がマシ」

ってのが一つの答え、ですね。

例えばMicrosoft Excelですと、

=normsinv(確率)

が書式です。これで0.999のzの値を求めると、

3.090252582

と言う値が返ってきます。よって当然計算誤差は含むでしょうが、パソコンの計算を
信頼するんだったら、この辺り+いくつか、が問題の要求している値になります。
フリー統計解析ソフトRなんかでは、

> qnorm(c(0.999), mean=0, sd=1, lower.tail=TRUE)
[1] 3.090232

と出てきますし、MATLAB互換フリーソフトOctaveなんかでは

> stdnormal_inv(0.999)
ans = 3.0902

と出て来ます。多分この辺りの値(z=3.0902)がX<x辺りのギリギリなんでしょう。
いずれにせよ、正規分布表の意味を十全と捉えるのなら、梅さんの解答(xはあくまで
含まない)z=3.10がマシな答えでしょうし、距離が近いので、と言った理由でしたら、
3.09も一つの答えとも言えると思います。
蛇足ですが、多分、その教科書の著者は正規分布表を使って解いてないとは思います。
僕としては梅さんの解答の方がスッキリとするのですが、多分先生の方はパソコンで
チャチャチャと問題を解いて、正規分布表と照合せずに解答を書いたのではないか、
と推測します。

>また、例えばP(Z=2.0)の時、0.477250ですが、四捨五入し て、0.4773と
したり、0.4772としている場合があるのですがどち らがいいのでしょうか。

どちらでも。僕はあんまり四捨五入もしないので(笑)。
要求されているレベルによって変わる、と思います。(もしくは自分が要求している
レベルによって、でしょうね。)

>小数第5位で四捨五入と思っているのですが。

それも根拠がありますか?
正規分布表でも確かに少数点第5位で四捨五入ってのも多いですが、それも単に慣習
でしょう。
上の色々な教科書から抜き出した正規分布表でさえ、同じ桁数で四捨五入しているに
しても、値が変わってくる例もあるのです。
ですから、手持ちの教科書の正規分布表だけを鵜呑みにしても危険ですよ。パソコン
使った方がイイとは思います(もちろんパソコンはパソコンで計算誤差がありますがね)。

Microsoft Excelの場合:

=normsdist(2)
0.977249938

∴0.477249938

フリー統計解析ソフトRの場合:

> pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)
[1] 0.9772499

∴0.4772499

MATLAB互換フリーソフトOctaveの場合:

> stdnormal_cdf (2)
ans = 0.97725

∴0.47725

まあ、この辺りだろう、と(笑)。
しかもExcelやRの結果を見る限り、梅さんが仰ってた『P(Z=2.0)の時、0.477250』
でさえ、『近似値』なのです。

>3、また確立を求めるときにP(2<x<5)の時とP(2≦x≦5) の時の答え方は
違ってきますか?
正規分布や正規母集団の時によって出し方が違ってくるのですか?

これは理論的には違います。前者は2と5を含みませんが後者は含みます。
具体的には前者はx≦2、x≧5の範囲の確率を計算したアト、1から両確率を足し合わせた
モノを引いた確率です。
後者は与えられた確率分布を2~5の範囲で定積分したモノです。当然変わってきます
よね(誤差がどの程度かは知りませんが)。
このテの計算はフリー統計解析ソフトRが得意な範囲なんで、
分布を標準正規分布としてちょっとRにやらせてみましょう。

前者の計算:

> 1-pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)-pnorm(c(5), mean=0, sd=1, lower.tail=FALSE)
[1] 0.02274985

後者の計算:

> integrate(dnorm, 2, 5)
0.02274985 with absolute error < 2.5e-16

表面上の数値は変わりませんが、後者の計算ですと、やはり計算誤差が大きいらしいです。
2.5×10^(-16)くらい上の数値に『加算されている』と考えてもまあ、間違ってないんじゃ
ないですかね?
まあ、この辺りを『正確に考えて正確に計算する』と言うのは確かに難しいんですが、概念
的な違い、と言うのは把握して頂きたいです。