質問<2242>2005/3/23
from=亀田馬志
「確率に付いての質問」


またまたお邪魔致します。確率についての質問です。
ある出現確率pがあるとします。コイントスでも何でもイイんですが、
pは充分大きな試行回数Nを取って、出現回数nにより、

・p=n/N

で表される数です。
次に不出現確率を考えます。不出現確率は

・1-p

で書き表されます。さて、次に『連続不出現確率』ってのを考えます。
『連続不出現確率』を便宜上qとすると、『ある事象がk回不出現する確率』は

・(1-p)^k=q

で書き表されます。これを対数使って整理すると、ネピア数を底とした対数をlnとして、

・ln[1-p]^k=q
・kln[1-p]=ln[q]
・k=ln[q]/ln[1-p]

となります。kは『連続不出現の回数』を示唆しています。
さて、『連続不的中確率q』ってのは絶対ゼロにはならないのはご承知の通りだと
思います。つまりkは『無限大』に成り得そうな数字です。
ところが実際はそうではないようなカンジです。と言うのも、元々Nと言うのは
『充分大きな試行回数』ではありますが、『無限大ではない』。
と言う事は前提として、

・k<N

でなければならない、ってのが条件です。(もっと言うと、k>Nであったなら、
そもそも第一前提のp=n/Nってのが崩れてしまいます。)
もうちょっと突っ込めば、kは条件下で考えられる最大値N-nを超えてはならない。
つまり

・k<N-n

でないと成り立たないような気がします。つまり

・ln[q]/ln[1-p]<N-n

であると言う事です。
何度かエクセルで『連続不的中の回数』を乱数でシミュレーションしてみたんですが、
実際はN-nなんかより遥かに小さい数値で決着が付くようです。(確かにその方が自然
ですよね。“ハズれまくったアトに当たりまくる”、なんて方がよっぽど不自然です。)
つまり『連続不的中確率q』の設定如何によっては、kの価が『適切な有限の領域』に
閉じ込める事が出来るんじゃないか、ってのが質問の趣旨です。どっかにそんな便利な
数学的定理ってのはないんでしょうか?

★希望★完全解答★

お便り2005/3/31
from=juin


コインを投げる場合を考える。表が出る確率をpとする。
N回なげて、表が出た回数をnとする。大数の法則により
lim(n/N)=p (as N->∞)が成り立つ。
0<p<1の場合、裏が連続してk回出る確率は、(1-p)^k
なので、kがどんなに大きくても正の数になります。
連続して出る裏の回数の平均値は(1-p)/p回です。


お便り2005/4/2
from=亀田馬志


>>juinさん
お便りありがとう御座います。

>連続して出る裏の回数の平均値は(1-p)/p回です。
これ書き換えると
・(N-n)/n
ですよね。意味は
・(試行回数-事象数)/事象数
・・・・・・なるほど。確かにそうなりそうなカンジです。

ここでちょっと基礎的な質問です。
・(1-p)/p回
の具体的な導き出し方を知りたいです。

ここで疑問が2つ出てきています。

①連続不出現確率qの設定如何によっては取りえる最大の値kってのが
 存在するのか?
ってのが一つ。これは大数の法則、
lim(n/N)=p (as N->∞)

に拠って数理上は確かにNは無限大をも取り得る数値ではあります。
ただし、実用上の問題を考えると
……例えばエクセルで乱数を1,000個程作って実験してみたんですが
(つまり試行回数は1,000ですよね)p=0.25程に設定してやって最大不出現数を
調べてみたんですが、20~24くらいの範囲が最大値っぽく見えるのです。
つまり実用での確率上、設定如何によってはmaxのkってのが存在する可能性が
高いのではないか。そしてそれを保証しそうな数学的定理がないのかな、
ってのが質問の主旨であります。

②平均値は(1-p)/p回
これ自体も偏差が存在して、何かの関数(例えば標準偏差とか)に
従うのでしょうか?


お便り2005/7/16
from=亀田馬志


自分で自分の質問に答えるなんてのは珍しいケースでしょう(笑)。面白い(笑)。
まあ、でも出来るだけ『未解決問題』減らした方が良いでしょうから、
ま、いいか(笑)。僕ってテキトーだし(笑)。

x 回の連続失敗のあと x+1 回目に初めて成功する確率分布を『幾何分布』と言い
ます。これ統計の教科書に載ってなかったんだよな(苦笑)。
x 回連続して失敗する確率は q^x で,x+1 回目成功する確率をp とすると,その
積が『幾何分布』となります。当然p+q=1として、

・f( x ) = (q^x)*p ,  x = 0,1,… , p > 0, q > 0

そうすると、分布関数F(x)を考えると

・F(x)=Σ(q^x)*p

となり、アトは『信頼区間何%の場合最大連続不的中数がいくらになるのか?』
考えればイイ、と言う問題に帰着しました。何だ、簡単な問題じゃねえか(苦笑)。
コレも『幾何分布』知らなかったから分かんなかったんだよな(苦笑)。クソ(苦笑)。
ただ上記のΣ絡みの方程式解くのは非常にメンド臭い。そこで数学的な厳密性が
どうなんだか知らんが、『幾何分布』の近似として『指数分布』使ってみようと思う。
ここで指数分布とは

・f(x)=p*e^(-p*x)

と言う『確率密度関数』。概形は非常に『幾何分布』そっくりだし、扱うトピックも
『連続不成功性』なので、適用範囲も同じです。てなワケで問題ねえだろ(笑)。
ここで指数分布の『分布関数』を求めると、積分区間を0からzまでとして、

・F(z)=∫{p*e^(-p*x)}dx
   =-e^(-p*x)|_0^z
   =-e^(-p*z)+e^(0)
   =-e^(-p*z)+1

上式書き換えると、

・e^(-p*z)=1-F(z)

両辺対数取って、

・-p*z=ln|1-F(z)|
∴z=-ln|1-F(z)|÷p

ここで1-F(z)ってのは100%-信頼区間(%)のコト。要するに『危険率』を表して
いる。例えば成功率p=25%で99%信頼区間の場合(危険率1%として)、

・z=-ln|1%|÷25%
 ≒18

って事になる。ゆえに100回に99回は連続不出現回数は18までと言う事。逆に言うと
100回に1回は18回を越えちゃう。
アトは信頼区間の精度を上げていけばオッケー。な~んだ~~。簡単だったや。
以上。