質問<3242>2006/6/12
統計について初歩的な質問ですが、教えて下さい。例えば 1、XがN(-2、2^2)に従うとき次のxを求めよ。 P(X<x)=0.999 の時に0.499になるZの正規分布表を見て、私はP(Z=3.1)で 出したのですが、 教科書の回答ではP(Z=3.09)でだしていま す。四捨五入して0.499になるのは いくつかあるのですが、どう 考えたらいいですか。 2、また、例えばP(Z=2.0)の時、0.477250ですが、四捨五入し て、0.4773と したり、0.4772としている場合があるのですがどち らがいいのでしょうか。小数第5位 で四捨五入と思っているので すが。 3、また確立を求めるときにP(2<x<5)の時とP(2≦x≦5) の時の答え方は違っ てきますか?正規分布や正規母集団の時によ って出し方が違ってくるのですか? 今過去問をしながらこの点で考えてしまっています。 ★完全解答希望★
お便り2006/6/12
from=亀田馬志
う~ん・・・・・・正規分布表ですか。 あんまり使わんから分かりません(笑)。 まあ、原則的には「誤差範囲の問題」とも言えます。 ちょっと見てみましょうか。 1、XがN(-2、2^2)に従うとき次のxを求めよ。 P(X<x)=0.999 ここで、「正規分布表」でどーなんだ、との話なんですが、実は教科書によって精度が 違うんですよ。 例えば。 1)内田老鶴圃:「統計データ解析」正規分布表 zの値は3.09(.4990)まで。よって3.10の議論は出来ない。 2)東京大学出版会:「自然科学の統計学」正規分布表 上側確率としてz=3.09の時p=0.00100、z=3.10の時p=0.000968 3)福村出版:「ベイズ統計学入門」正規分布表 z=3.00(p=0.999)まで記載なので議論ならず。 4)ナカニシヤ出版:「フレッシュマンから大学院生までのデータ解析・R言語」正規分布表 上側確率としてz=2.99(p=0.001)まで記載なので議論ならず。 5)東京大学出版会:「ベイズ統計入門」正規分布表 上側確率としてz=3.09の時p=0.0010、z=3.10の時p=0.0010として記載(結果変わらず) 6)岩波書店:「確率・統計入門」正規分布表 上側確率としてz=3.09の時p=0.0010、z=3.10の時p=0.00097として記載 もういい加減に止めておきますが(笑)、結局「梅さんが使用している教科書」によっても、 また精度が恐らく変わってくるでしょう。その教科書を見ない限り、どの辺りの精度で 解答を要求しているのか分からない、とも言えるのです。(上見たら分かりますが、 結果z=3.09と3.10で変わらない値だったら議論そのものがバカバカしくなる、ってのも お分かりでしょう。両者ともある範囲での近似値なのですから。) よって方策としては、 「パソコンで計算した方がマシ」 ってのが一つの答え、ですね。 例えばMicrosoft Excelですと、 =normsinv(確率) が書式です。これで0.999のzの値を求めると、 3.090252582 と言う値が返ってきます。よって当然計算誤差は含むでしょうが、パソコンの計算を 信頼するんだったら、この辺り+いくつか、が問題の要求している値になります。 フリー統計解析ソフトRなんかでは、 > qnorm(c(0.999), mean=0, sd=1, lower.tail=TRUE) [1] 3.090232 と出てきますし、MATLAB互換フリーソフトOctaveなんかでは > stdnormal_inv(0.999) ans = 3.0902 と出て来ます。多分この辺りの値(z=3.0902)がX<x辺りのギリギリなんでしょう。 いずれにせよ、正規分布表の意味を十全と捉えるのなら、梅さんの解答(xはあくまで 含まない)z=3.10がマシな答えでしょうし、距離が近いので、と言った理由でしたら、 3.09も一つの答えとも言えると思います。 蛇足ですが、多分、その教科書の著者は正規分布表を使って解いてないとは思います。 僕としては梅さんの解答の方がスッキリとするのですが、多分先生の方はパソコンで チャチャチャと問題を解いて、正規分布表と照合せずに解答を書いたのではないか、 と推測します。 >また、例えばP(Z=2.0)の時、0.477250ですが、四捨五入し て、0.4773と したり、0.4772としている場合があるのですがどち らがいいのでしょうか。 どちらでも。僕はあんまり四捨五入もしないので(笑)。 要求されているレベルによって変わる、と思います。(もしくは自分が要求している レベルによって、でしょうね。) >小数第5位で四捨五入と思っているのですが。 それも根拠がありますか? 正規分布表でも確かに少数点第5位で四捨五入ってのも多いですが、それも単に慣習 でしょう。 上の色々な教科書から抜き出した正規分布表でさえ、同じ桁数で四捨五入しているに しても、値が変わってくる例もあるのです。 ですから、手持ちの教科書の正規分布表だけを鵜呑みにしても危険ですよ。パソコン 使った方がイイとは思います(もちろんパソコンはパソコンで計算誤差がありますがね)。 Microsoft Excelの場合: =normsdist(2) 0.977249938 ∴0.477249938 フリー統計解析ソフトRの場合: > pnorm(c(2), mean=0, sd=1, lower.tail=TRUE) [1] 0.9772499 ∴0.4772499 MATLAB互換フリーソフトOctaveの場合: > stdnormal_cdf (2) ans = 0.97725 ∴0.47725 まあ、この辺りだろう、と(笑)。 しかもExcelやRの結果を見る限り、梅さんが仰ってた『P(Z=2.0)の時、0.477250』 でさえ、『近似値』なのです。 >3、また確立を求めるときにP(2<x<5)の時とP(2≦x≦5) の時の答え方は 違ってきますか? 正規分布や正規母集団の時によって出し方が違ってくるのですか? これは理論的には違います。前者は2と5を含みませんが後者は含みます。 具体的には前者はx≦2、x≧5の範囲の確率を計算したアト、1から両確率を足し合わせた モノを引いた確率です。 後者は与えられた確率分布を2~5の範囲で定積分したモノです。当然変わってきます よね(誤差がどの程度かは知りませんが)。 このテの計算はフリー統計解析ソフトRが得意な範囲なんで、 分布を標準正規分布としてちょっとRにやらせてみましょう。 前者の計算: > 1-pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)-pnorm(c(5), mean=0, sd=1, lower.tail=FALSE) [1] 0.02274985 後者の計算: > integrate(dnorm, 2, 5) 0.02274985 with absolute error < 2.5e-16 表面上の数値は変わりませんが、後者の計算ですと、やはり計算誤差が大きいらしいです。 2.5×10^(-16)くらい上の数値に『加算されている』と考えてもまあ、間違ってないんじゃ ないですかね? まあ、この辺りを『正確に考えて正確に計算する』と言うのは確かに難しいんですが、概念 的な違い、と言うのは把握して頂きたいです。