質問

質問＜３２４２＞2006/6/12
from=梅
「統計学」

統計について初歩的な質問ですが、教えて下さい。例えば
1、XがＮ（-2、2＾2）に従うとき次のｘを求めよ。
　　Ｐ（X＜x）＝0.999
　の時に0.499になるＺの正規分布表を見て、私はＰ（Ｚ＝3.1）で　出したのですが、
教科書の回答ではＰ（Ｚ＝3.09）でだしていま　す。四捨五入して0.499になるのは
いくつかあるのですが、どう　考えたらいいですか。
2、また、例えばＰ（Ｚ＝2.0）の時、0.477250ですが、四捨五入し　て、0.4773と
したり、0.4772としている場合があるのですがどち　らがいいのでしょうか。小数第5位
で四捨五入と思っているので　すが。
3、また確立を求めるときにＰ（2＜ｘ＜5）の時とＰ（2≦ｘ≦5）　の時の答え方は違っ
てきますか？正規分布や正規母集団の時によ　って出し方が違ってくるのですか？
今過去問をしながらこの点で考えてしまっています。

★完全解答希望★

お便り２００６／６／１２
from=亀田馬志

う～ん･･････正規分布表ですか。
あんまり使わんから分かりません(笑)。

まあ、原則的には｢誤差範囲の問題｣とも言えます。
ちょっと見てみましょうか。

1、XがＮ（-2、2＾2）に従うとき次のｘを求めよ。
　　Ｐ（X＜x）＝0.999

ここで、｢正規分布表｣でどーなんだ、との話なんですが、実は教科書によって精度が
違うんですよ。
例えば。

1)内田老鶴圃:｢統計データ解析｣正規分布表

zの値は3.09(.4990)まで。よって3.10の議論は出来ない。

2)東京大学出版会:｢自然科学の統計学｣正規分布表

上側確率としてz=3.09の時p＝0.00100、z＝3.10の時p＝0.000968

3)福村出版:｢ベイズ統計学入門｣正規分布表

z＝3.00(p＝0.999)まで記載なので議論ならず。

4)ナカニシヤ出版:｢フレッシュマンから大学院生までのデータ解析･R言語｣正規分布表

上側確率としてz＝2.99(p＝0.001)まで記載なので議論ならず。

5)東京大学出版会:｢ベイズ統計入門｣正規分布表

上側確率としてz＝3.09の時p＝0.0010、z＝3.10の時p＝0.0010として記載(結果変わらず)

6)岩波書店:｢確率･統計入門｣正規分布表

上側確率としてz＝3.09の時p＝0.0010、z＝3.10の時p＝0.00097として記載

もういい加減に止めておきますが(笑)、結局｢梅さんが使用している教科書｣によっても、
また精度が恐らく変わってくるでしょう。その教科書を見ない限り、どの辺りの精度で
解答を要求しているのか分からない、とも言えるのです。(上見たら分かりますが、
結果z＝3.09と3.10で変わらない値だったら議論そのものがバカバカしくなる、ってのも
お分かりでしょう。両者ともある範囲での近似値なのですから。)
よって方策としては、

｢パソコンで計算した方がマシ｣

ってのが一つの答え、ですね。

例えばMicrosoft Excelですと、

=normsinv(確率)

が書式です。これで0.999のzの値を求めると、

3.090252582

と言う値が返ってきます。よって当然計算誤差は含むでしょうが、パソコンの計算を
信頼するんだったら、この辺り＋いくつか、が問題の要求している値になります。
フリー統計解析ソフトRなんかでは、

> qnorm(c(0.999), mean=0, sd=1, lower.tail=TRUE)
[1] 3.090232

と出てきますし、MATLAB互換フリーソフトOctaveなんかでは

＞ stdnormal_inv(0.999)
ans = 3.0902

と出て来ます。多分この辺りの値(z＝3.0902)がX＜x辺りのギリギリなんでしょう。
いずれにせよ、正規分布表の意味を十全と捉えるのなら、梅さんの解答(xはあくまで
含まない)z＝3.10がマシな答えでしょうし、距離が近いので、と言った理由でしたら、
3.09も一つの答えとも言えると思います。
蛇足ですが、多分、その教科書の著者は正規分布表を使って解いてないとは思います。
僕としては梅さんの解答の方がスッキリとするのですが、多分先生の方はパソコンで
チャチャチャと問題を解いて、正規分布表と照合せずに解答を書いたのではないか、
と推測します。

＞また、例えばＰ（Ｚ＝2.0）の時、0.477250ですが、四捨五入し　て、0.4773と
したり、0.4772としている場合があるのですがどち　らがいいのでしょうか。

どちらでも。僕はあんまり四捨五入もしないので(笑)。
要求されているレベルによって変わる、と思います。(もしくは自分が要求している
レベルによって、でしょうね。)

＞小数第5位で四捨五入と思っているのですが。

それも根拠がありますか?
正規分布表でも確かに少数点第5位で四捨五入ってのも多いですが、それも単に慣習
でしょう。
上の色々な教科書から抜き出した正規分布表でさえ、同じ桁数で四捨五入しているに
しても、値が変わってくる例もあるのです。
ですから、手持ちの教科書の正規分布表だけを鵜呑みにしても危険ですよ。パソコン
使った方がイイとは思います(もちろんパソコンはパソコンで計算誤差がありますがね)。

Microsoft Excelの場合:

=normsdist(2)
0.977249938

∴0.477249938

フリー統計解析ソフトRの場合:

＞ pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)
[1] 0.9772499

∴0.4772499

MATLAB互換フリーソフトOctaveの場合:

＞ stdnormal_cdf (2)
ans = 0.97725

∴0.47725

まあ、この辺りだろう、と(笑)。
しかもExcelやRの結果を見る限り、梅さんが仰ってた『Ｐ（Ｚ＝2.0）の時、0.477250』
でさえ、『近似値』なのです。

＞3、また確立を求めるときにＰ（2＜ｘ＜5）の時とＰ（2≦ｘ≦5）　の時の答え方は
違ってきますか？
正規分布や正規母集団の時によって出し方が違ってくるのですか？

これは理論的には違います。前者は2と5を含みませんが後者は含みます。
具体的には前者はx≦2、x≧5の範囲の確率を計算したアト、1から両確率を足し合わせた
モノを引いた確率です。
後者は与えられた確率分布を2～5の範囲で定積分したモノです。当然変わってきます
よね(誤差がどの程度かは知りませんが)。
このテの計算はフリー統計解析ソフトRが得意な範囲なんで、
分布を標準正規分布としてちょっとRにやらせてみましょう。

前者の計算:

＞ 1-pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)-pnorm(c(5), mean=0, sd=1, lower.tail=FALSE)
[1] 0.02274985

後者の計算:

＞ integrate(dnorm, 2, 5)
0.02274985 with absolute error ＜ 2.5e-16

表面上の数値は変わりませんが、後者の計算ですと、やはり計算誤差が大きいらしいです。
2.5×10^(-16)くらい上の数値に『加算されている』と考えてもまあ、間違ってないんじゃ
ないですかね?
まあ、この辺りを『正確に考えて正確に計算する』と言うのは確かに難しいんですが、概念
的な違い、と言うのは把握して頂きたいです。