高等学校数学B/確率分布と統計的な推測

本項は高等学校数学Bの「確率分布と統計的な推測」の解説です。

この分野は数学Iのデータの分析、数学Aの確率と関連があります。

同じく数学Bの数列、数学Ⅱの微分・積分の考えを既習であるものとします。また、この分野を学習後に同じく数学Bの数学と社会生活で扱うデータ解析の内容も参照することを推奨します。

k{\displaystyle k}は自然数で1kn{\displaystyle 1\leq k\leq n}を満たすものとします。

目次

確率分布

確率分布

確率変数と確率分布

試行の結果によってどの値をとるか定まり、とり得る値の各々に対してその値をとる確率が定まるような変数を確率変数と呼ぶ。

確率変数X{\displaystyle X}のとり得る値がx1,x2,,xn{\displaystyle x_{1},x_{2},\cdots ,x_{n}}であるとき、X{\displaystyle X}が値xk{\displaystyle x_{k}}をとる確率 をP(X=xk){\displaystyle P(X=x_{k})}axkb{\displaystyle a\leq x_{k}\leq b}である確率 P(aXb){\displaystyle P(a\leq X\leq b)}のように表す。

P(X=xk){\displaystyle P(X=x_{k})}pk{\displaystyle p_{k}}と表すこととすると、xk{\displaystyle x_{k}}pk{\displaystyle p_{k}}の対応関係は以下のようになる。

X{\displaystyle X}x1{\displaystyle x_{1}}x2{\displaystyle x_{2}}{\displaystyle \cdots }{\displaystyle \cdots }xn{\displaystyle x_{n}}
P{\displaystyle P}p1{\displaystyle p_{1}}p2{\displaystyle p_{2}}{\displaystyle \cdots }{\displaystyle \cdots }pn{\displaystyle p_{n}}1{\displaystyle 1}

この対応関係をX{\displaystyle X}確率分布あるいは単に分布と呼び、確率変数X{\displaystyle X}はこの分布に従うという。

このとき、常にpk0{\displaystyle p_{k}\geq 0}であり、k=1npk=1{\displaystyle \sum _{k=1}^{n}p_{k}=1}である。期待値と分散

X{\displaystyle X}の確率分布が以下の表であるとする。

X{\displaystyle X}x1{\displaystyle x_{1}}x2{\displaystyle x_{2}}{\displaystyle \cdots }{\displaystyle \cdots }xn{\displaystyle x_{n}}
P{\displaystyle P}p1{\displaystyle p_{1}}p2{\displaystyle p_{2}}{\displaystyle \cdots }{\displaystyle \cdots }pn{\displaystyle p_{n}}1{\displaystyle 1}

このとき、k=1nxkpk{\displaystyle \sum _{k=1}^{n}x_{k}p_{k}}X{\displaystyle X}期待値と呼び、E(X){\displaystyle E(X)}またはm{\displaystyle m}またはμ{\displaystyle \mu }で表す(μ{\displaystyle \mu }はギリシャ文字で、アルファベットのm{\displaystyle m}に対応する文字である)。

次に、確率変数(Xm)2{\displaystyle (X-m)^{2}}を考える。この確率変数の期待値をX{\displaystyle X}分散と呼び、V(X){\displaystyle V(X)}で表すこととする(Vは「分散」の英語「Variance」の略。Var(X){\displaystyle \mathrm {Var} (X)}と書く場合もある)。

このとき、期待値の定義からV(X)=E{(Xm)2}=k=1n(xkm)2pk{\displaystyle V(X)=E\{(X-m)^{2}\}=\sum _{k=1}^{n}(x_{k}-m)^{2}p_{k}}であり、V(X){\displaystyle V(X)}の単位は測定単位の二乗(例えばX{\displaystyle X}の単位がcm{\displaystyle \mathrm {cm} }ならV(X){\displaystyle V(X)}の単位はcm2{\displaystyle \mathrm {cm} ^{2}})である。そこで、V(X){\displaystyle {\sqrt {V(X)}}}X{\displaystyle X}標準偏差と呼び、σ(X){\displaystyle \sigma (X)}で表すこととする(σ{\displaystyle \sigma }Σ{\displaystyle \Sigma }の小文字である)。

分散を表す式を変形すると、

V(X)=k=1n(xkm)2pk{\displaystyle V(X)=\sum _{k=1}^{n}(x_{k}-m)^{2}p_{k}}

=k=1n(xk22mxk+m2)pk{\displaystyle =\sum _{k=1}^{n}(x_{k}^{2}-2mx_{k}+m^{2})p_{k}}

=k=1nxk2pk2mk=1nxkpk+m2k=1npk{\displaystyle =\sum _{k=1}^{n}x_{k}^{2}p_{k}-2m\sum _{k=1}^{n}x_{k}p_{k}+m^{2}\sum _{k=1}^{n}p_{k}}

=k=1nxk2pk2mm+m21{\displaystyle =\sum _{k=1}^{n}x_{k}^{2}p_{k}-2m\cdot m+m^{2}\cdot 1}

=k=1nxk2pkm2{\displaystyle =\sum _{k=1}^{n}x_{k}^{2}p_{k}-m^{2}}

となり、k=1nxk2pk{\displaystyle \sum _{k=1}^{n}x_{k}^{2}p_{k}}は確率変数X2{\displaystyle X^{2}}の期待値に等しいのでV(X)=E(X2){E(X)}2{\displaystyle V(X)=E(X^{2})-\{E(X)\}^{2}}が成り立つ。


今までの事項を纏めると以下のようになる。

X{\displaystyle X}の期待値:E(X)=m=μ=k=1nxkpk{\displaystyle E(X)=m=\mu =\sum _{k=1}^{n}x_{k}p_{k}}
X{\displaystyle X}の分散:V(X)=E{(Xm)2}=E(X2){E(X)}2{\displaystyle V(X)=E\{(X-m)^{2}\}=E(X^{2})-\{E(X)\}^{2}}
X{\displaystyle X}の標準偏差:σ(X)=V(X){\displaystyle \sigma (X)={\sqrt {V(X)}}}


確率変数X{\displaystyle X}の期待値・分散・標準偏差のことをそれぞれX{\displaystyle X}分布の平均・分散・標準偏差とも呼ぶ。標準偏差は分布の平均を中心としてxk{\displaystyle x_{k}}の散らばる傾向の程度を表しており、標準偏差の値が小さいほどxkは分布の平均の近傍に集中する


なお、分散と標準偏差を纏めて散布度、代表値と合わせて分布の特性値と呼ぶ。

サンクトペテルブルクのパラドックス次のようなゲームを考える。「公正なコイン1枚を表が出るまで繰り返し投げ、表が出たら終了する。コインを投げた回数をn{\displaystyle n}とするとき、2n1{\displaystyle 2^{n-1}}円の賞金がもらえる。」n{\displaystyle n}回目に表が出る確率をpn{\displaystyle p_{n}}、賞金をXn{\displaystyle X_{n}}とおくと、Xn{\displaystyle X_{n}}は確率変数であり、pn=(12)n112=(12)n,Xn=2n1{\displaystyle p_{n}=({\frac {1}{2}})^{n-1}\cdot {\frac {1}{2}}=({\frac {1}{2}})^{n},X_{n}=2^{n-1}}なので、裏が出続けたときのこのゲームの期待値はk=1pkXk=k=1(12)k2k1=k=1(12)kk+1=k=112={\displaystyle \sum _{k=1}^{\infty }p_{k}X_{k}=\sum _{k=1}^{\infty }({\frac {1}{2}})^{k}2^{k-1}=\sum _{k=1}^{\infty }({\frac {1}{2}})^{k-k+1}=\sum _{k=1}^{\infty }{\frac {1}{2}}=\infty }(円)となり、参加費がいくらであってもこのゲームに参加した方が良いと考えられる。この結論は本当に正しいのだろうか?参加費を一万円と設定すると、参加費よりも大きい賞金が得られる確率は14回以上連続で裏が出る場合で、(12)140.006{\displaystyle ({\frac {1}{2}})^{14}\fallingdotseq 0.006}%以下と非常に小さい。主催者の立場になると、現実的に大きな金額を支払うことはできないので、賞金に上限を設定する必要がある。例えば、20回まで裏が出続けた場合はそこで打ち切りとし、220=1048576{\displaystyle 2^{20}=1048576}すなわち約105万円を上限とする。このときの期待値はk=120pkXk+(12)20220=202+1=11{\displaystyle \sum _{k=1}^{20}p_{k}X_{k}+({\frac {1}{2}})^{20}\cdot 2^{20}={\frac {20}{2}}+1=11}(円)となる。上限を設定した途端、期待値は{\displaystyle \infty }から十数円程度に変わってしまった。現実的に考えると期待値は十数円程度に収まることがわかったが、「主催者が資金を無限に持っている」という前提で思考実験したときについては解決していない。この場合については、対数で定義される「効用」という概念を用いてこのパラドックスを回避する方法が見つかっている。この話題からは、「あらかじめゲームを何回繰り返すかを決めておけば、比較的公平な賭け金を設定できる」ということがわかる。逆に、「賭け金が公平かどうか確かめる」ことも同様にできる。確率変数の変換

X{\displaystyle X}の確率分布が以下の表であるとする。

X{\displaystyle X}x1{\displaystyle x_{1}}x2{\displaystyle x_{2}}{\displaystyle \cdots }{\displaystyle \cdots }xn{\displaystyle x_{n}}
P{\displaystyle P}p1{\displaystyle p_{1}}p2{\displaystyle p_{2}}{\displaystyle \cdots }{\displaystyle \cdots }pn{\displaystyle p_{n}}1{\displaystyle 1}

a,b{\displaystyle a,b}を定数とすると、一次式Y=aX+b{\displaystyle Y=aX+b}で定められるY{\displaystyle Y}も確率変数となり、そのとる値はyk=axk+b{\displaystyle y_{k}=ax_{k}+b}となる。よってY{\displaystyle Y}の確率分布は以下の表のようになる。

Y{\displaystyle Y}y1{\displaystyle y_{1}}y2{\displaystyle y_{2}}{\displaystyle \cdots }{\displaystyle \cdots }yn{\displaystyle y_{n}}
P{\displaystyle P}p1{\displaystyle p_{1}}p2{\displaystyle p_{2}}{\displaystyle \cdots }{\displaystyle \cdots }pn{\displaystyle p_{n}}1{\displaystyle 1}

確率変数X{\displaystyle X}に対して上のようなY{\displaystyle Y}を考えることを確率変数の変換と呼ぶ。

Y{\displaystyle Y}の期待値・分散・標準偏差は以下のようになる。 E(Y)=k=1nykpk=k=1n(axk+b)pk=ak=1nxkpk+bk=1npk=aE(X)+b{\displaystyle E(Y)=\sum _{k=1}^{n}y_{k}p_{k}=\sum _{k=1}^{n}(ax_{k}+b)p_{k}=a\sum _{k=1}^{n}x_{k}p_{k}+b\sum _{k=1}^{n}p_{k}=aE(X)+b}

V(Y)=k=1n{ykE(Y)}2pk=a2k=1n{xkE(X)}2pk=a2V(X){\displaystyle V(Y)=\sum _{k=1}^{n}\{y_{k}-E(Y)\}^{2}p_{k}=a^{2}\sum _{k=1}^{n}\{x_{k}-E(X)\}^{2}p_{k}=a^{2}V(X)} ykE(Y)=axk+b{aE(X)+b}=a{xkE(X)}{\displaystyle \because y_{k}-E(Y)=ax_{k}+b-\{aE(X)+b\}=a\{x_{k}-E(X)\}}

σ(Y)=V(Y)=|a|V(X)=|a|σ(X){\displaystyle \sigma (Y)={\sqrt {V(Y)}}=|a|{\sqrt {V(X)}}=|a|\sigma (X)}

同時分布

確率変数X,Y,Z,{\displaystyle X,Y,Z,\cdots }と実数a,b,c,{\displaystyle a,b,c,\cdots }に対しX=a,Y=b,Z=c,{\displaystyle X=a,Y=b,Z=c,\cdots }が同時に成り立つ確率をP(X=a,Y=b,Z=c,){\displaystyle P(X=a,Y=b,Z=c,\cdots )}のように表すこととする。

2つの確率変数X,Y{\displaystyle X,Y}についてとりうる値がそれぞれx1,x2,,xn{\displaystyle x_{1},x_{2},\cdots ,x_{n}}y1,y2,,ym{\displaystyle y_{1},y_{2},\cdots ,y_{m}}であるとする。P(X=xi,Y=yj)=rij{\displaystyle P(X=x_{i},Y=y_{j})=r_{ij}}とおいたとき、以下の表のように全てのi,j{\displaystyle i,j}の組み合わせにおいて(xi,yj){\displaystyle (x_{i},y_{j})}pij{\displaystyle p_{ij}}との対応が得られる。

X{\displaystyle X}\Y{\displaystyle Y}y1{\displaystyle y_{1}}y2{\displaystyle y_{2}}{\displaystyle \cdots }{\displaystyle \cdots }{\displaystyle \cdots }ym{\displaystyle y_{m}}
x1{\displaystyle x_{1}}r11{\displaystyle r_{11}}r12{\displaystyle r_{12}}{\displaystyle \cdots }{\displaystyle \cdots }{\displaystyle \cdots }r1m{\displaystyle r_{1m}}p1{\displaystyle p_{1}}
x2{\displaystyle x_{2}}r21{\displaystyle r_{21}}r22{\displaystyle r_{22}}{\displaystyle \cdots }{\displaystyle \cdots }{\displaystyle \cdots }r2m{\displaystyle r_{2m}}p2{\displaystyle p_{2}}
{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \vdots }{\displaystyle \vdots }
{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \vdots }{\displaystyle \vdots }
{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \vdots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \ddots }{\displaystyle \vdots }{\displaystyle \vdots }
xn{\displaystyle x_{n}}rn1{\displaystyle r_{n1}}rn2{\displaystyle r_{n2}}{\displaystyle \cdots }{\displaystyle \cdots }{\displaystyle \cdots }rnm{\displaystyle r_{nm}}pn{\displaystyle p_{n}}
q1{\displaystyle q_{1}}q2{\displaystyle q_{2}}{\displaystyle \cdots }{\displaystyle \cdots }{\displaystyle \cdots }qm{\displaystyle q_{m}}1{\displaystyle 1}

このような対応をX{\displaystyle X}Y{\displaystyle Y}同時分布という。

i,j{\displaystyle i,j}について、それぞれP(X=xi)=j=1mrij=pi,P(Y=yj)=i=1nrij=qj{\displaystyle P(X=x_{i})=\sum _{j=1}^{m}r_{ij}=p_{i},P(Y=y_{j})=\sum _{i=1}^{n}r_{ij}=q_{j}}が成り立つので、X,Y{\displaystyle X,Y}の確率分布はそれぞれ以下のようになる。

X{\displaystyle X}x1{\displaystyle x_{1}}x2{\displaystyle x_{2}}{\displaystyle \cdots }{\displaystyle \cdots }xn{\displaystyle x_{n}}
P{\displaystyle P}p1{\displaystyle p_{1}}p2{\displaystyle p_{2}}{\displaystyle \cdots }{\displaystyle \cdots }pn{\displaystyle p_{n}}1{\displaystyle 1}
Y{\displaystyle Y}y1{\displaystyle y_{1}}y2{\displaystyle y_{2}}{\displaystyle \cdots }{\displaystyle \cdots }ym{\displaystyle y_{m}}
P{\displaystyle P}q1{\displaystyle q_{1}}q2{\displaystyle q_{2}}{\displaystyle \cdots }{\displaystyle \cdots }qm{\displaystyle q_{m}}1{\displaystyle 1}

確率変数の和の期待値

2つの確率変数X,Y{\displaystyle X,Y}について、和X+Y{\displaystyle X+Y}もまた確率変数であり、同時分布表と確率変数変換の等式から、確率変数の和の期待値についてE(X+Y)=E(X)+E(Y){\displaystyle E(X+Y)=E(X)+E(Y)}E(aX+bY)=aE(X)+bE(Y){\displaystyle E(aX+bY)=aE(X)+bE(Y)}が成り立つことがわかる。これは確率変数が3つ以上であっても同様に成り立つ。事象の独立・従属

一般に2つの事象A,B{\displaystyle A,B}においてPA(B)=P(B){\displaystyle P_{A}(B)=P(B)}が成り立つとき、事象A{\displaystyle A}が起こることは事象B{\displaystyle B}の起こる確率に無関係である。これを事象A{\displaystyle A}は事象B{\displaystyle B}独立であるという。このとき、確率の乗法定理によりP(AB)=P(A)P(B){\displaystyle P(A\cap B)=P(A)P(B)}が成り立つ。この式はPB(A)=P(A){\displaystyle P_{B}(A)=P(A)}と同値であるため、事象B{\displaystyle B}が起こることも事象Aの起こる確率に無関係、つまり事象B{\displaystyle B}は事象A{\displaystyle A}に独立であると言える。よって、P(AB)=P(A)P(B){\displaystyle P(A\cap B)=P(A)P(B)}が成り立つとき、2つの事象A,B{\displaystyle A,B}互いに独立である。独立でない場合は2つの事象A,B{\displaystyle A,B}従属であるという。なお、事象A,B{\displaystyle A,B}の独立・従属と対応する確率変数X,Y{\displaystyle X,Y}の独立・従属は一致する。確率変数の積の期待値

2つの確率変数X,Y{\displaystyle X,Y}について、積XY{\displaystyle XY}もまた確率変数である。X,Y{\displaystyle X,Y}互いに独立なとき、同時分布表より確率変数の積の期待値は以下のように計算される。

E(XY)=i=1nj=1m(xiyj)(piqj)=i=1nxipij=1myjqj=E(X)E(Y){\displaystyle E(XY)=\sum _{i=1}^{n}\sum _{j=1}^{m}(x_{i}y_{j})(p_{i}q_{j})=\sum _{i=1}^{n}x_{i}p_{i}\cdot \sum _{j=1}^{m}y_{j}q_{j}=E(X)E(Y)}

これは3つ以上の確率変数においても互いに独立ならば成立する。確率変数の和の分散

確率変数X+Y{\displaystyle X+Y}の分散について考える。

V(X+Y)=E{(X+Y)2}{E(X+Y)}2{\displaystyle V(X+Y)=E\{(X+Y)^{2}\}-\{E(X+Y)\}^{2}}

=E(X2+2XY+Y2){E(X)+E(Y)}2{\displaystyle =E(X^{2}+2XY+Y^{2})-\{E(X)+E(Y)\}^{2}}

=E(X2)+2E(XY)+E(Y2){E(X)}22E(X)E(Y){E(Y)}2{\displaystyle =E(X^{2})+2E(XY)+E(Y^{2})-\{E(X)\}^{2}-2E(X)E(Y)-\{E(Y)\}^{2}}

このとき、確率変数X,Y{\displaystyle X,Y}互いに独立ならばE(XY)=E(X)E(Y){\displaystyle E(XY)=E(X)E(Y)}を用いることで、

上式=E(X2)+E(Y2){E(X)}2{E(Y)}2{\displaystyle =E(X^{2})+E(Y^{2})-\{E(X)\}^{2}-\{E(Y)\}^{2}}

=[E(X2){E(X)}2]+[E(Y2){E(Y)}2]{\displaystyle =[E(X^{2})-\{E(X)\}^{2}]+[E(Y^{2})-\{E(Y)\}^{2}]}

=V(X)+V(Y){\displaystyle =V(X)+V(Y)}と変形できる。

同様に、確率変数変換の等式より確率変数X,Y{\displaystyle X,Y}互いに独立ならばV(aX+bY)=a2V(X)+b2V(Y){\displaystyle V(aX+bY)=a^{2}V(X)+b^{2}V(Y)}が成り立つ。

これらは3つ以上の確率変数においても互いに独立ならば成立する。確率変数の積の分散(発展)

確率変数XY{\displaystyle XY}の分散について考える。

分散の性質よりV(XY)=E(X2Y2){E(X)}2{E(Y)}2{\displaystyle V(XY)=E(X^{2}Y^{2})-\{E(X)\}^{2}\{E(Y)\}^{2}}と変形できる。

X,Yが互いに独立ならばX2,Y2も互いに独立であるので、E(X2Y2)=E(X2)E(Y2){\displaystyle E(X^{2}Y^{2})=E(X^{2})E(Y^{2})}が成り立つ。

よってV(XY)=E(X2)E(Y2)E(X)2E(Y)2{\displaystyle V(XY)=E(X^{2})E(Y^{2})-{E(X)}^{2}{E(Y)}^{2}}となる。

ここで分散の性質より上式は[V(X)+{E(X)}2][V(Y)+{E(Y)}2]{E(X)}2{E(Y)}2{\displaystyle [V(X)+\{E(X)\}^{2}][V(Y)+\{E(Y)\}^{2}]-\{E(X)\}^{2}\{E(Y)\}^{2}}と変形できるので、

展開してV(XY)=V(X)V(Y)+{E(X)}2V(Y)+{E(Y)}2V(X){\displaystyle V(XY)=V(X)V(Y)+\{E(X)\}^{2}V(Y)+\{E(Y)\}^{2}V(X)}となる。

これは3つ以上の確率変数においても互いに独立ならば成立する。


なお、上記で紹介した確率変数の和の分散、確率変数の積の期待値・分散については、確率変数が従属である場合には確率変数のとる値を用いて直接計算する必要がある。

共分散と分散

数学Iで扱ったように、データ系列x, yについて、xの偏差とyの偏差の積の平均値を共分散と呼び、Sxy{\displaystyle S_{xy}}で表した。

確率変数X,Y{\displaystyle X,Y}に対して共分散はCov[X,Y]{\displaystyle \mathrm {Cov} [X,Y]}と書かれる(「Cov」は「共分散」の英語「Covariance」の略)。


共分散の定義式を先述の期待値の性質を用いて変形する。Cov[X,Y]=E[{XE(X)}{YE(Y)}]{\displaystyle \mathrm {Cov} [X,Y]=E[\{X-E(X)\}\{Y-E(Y)\}]}=E{XYYE(X)XE(Y)+E(X)E(Y)}{\displaystyle =E\{XY-YE(X)-XE(Y)+E(X)E(Y)\}}=E(XY)E{YE(X)}E{XE(Y)}+E{E(X)E(Y)}{\displaystyle =E(XY)-E\{YE(X)\}-E\{XE(Y)\}+E\{E(X)E(Y)\}}{\displaystyle \because }和の期待値は期待値の和)=E(XY)E(X)E(Y)E(Y)E(X)+E(X)E(Y){\displaystyle =E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)}{\displaystyle \because }定数倍は期待値の外に出せる・定数の期待値はその定数そのもの)=E(XY)E(X)E(Y){\displaystyle =E(XY)-E(X)E(Y)}

つまり、共分散は「(期待値の積)-(積の期待値)」で容易に求まる。


ここでY=X{\displaystyle Y=X}を代入すると、共分散の定義式はE[{XE(X)}2]{\displaystyle E[\{X-E(X)\}^{2}]}、上で求めた式はE(X2){E(X)}2{\displaystyle E(X^{2})-\{E(X)\}^{2}}と、いづれの場合もX{\displaystyle X}の分散V(X){\displaystyle V(X)}に一致する。

すなわち、共分散は分散を拡張した概念であるといえる。


共分散を用いると、独立でない場合の確率変数の積の期待値・和の分散を表すことができる。E(XY)=E(X)E(Y)+Cov[X,Y]{\displaystyle E(XY)=E(X)E(Y)+\mathrm {Cov} [X,Y]}(※上で求めた共分散と期待値の関係より)V(X±Y)=V(X)±2Cov[X,Y]+V(Y){\displaystyle V(X\pm Y)=V(X)\pm 2\mathrm {Cov} [X,Y]+V(Y)}(※定義通りE([{XE(X)}±{YE(Y)}]2){\displaystyle E([\{X-E(X)\}\pm \{Y-E(Y)\}]^{2})}を計算すれば求まる)

二項分布

確率p{\displaystyle p}A{\displaystyle A}B{\displaystyle B}かの2通りの結果をとる試行(ベルヌーイ試行)を独立にn回繰り返したときA{\displaystyle A}が起こる回数X{\displaystyle X}の確率分布は反復試行の確率より以下のようになる。ただし、0<p<1,q=1p{\displaystyle 0<p<1,q=1-p}である。

X{\displaystyle X}0{\displaystyle 0}1{\displaystyle 1}{\displaystyle \cdots }{\displaystyle \cdots }r{\displaystyle r}{\displaystyle \cdots }{\displaystyle \cdots }n{\displaystyle n}
P{\displaystyle P}nC0qn{\displaystyle {}_{n}\mathrm {C} _{0}q^{n}}nC1pqn1{\displaystyle {}_{n}\mathrm {C} _{1}pq^{n-1}}{\displaystyle \cdots }{\displaystyle \cdots }nCrprqnr{\displaystyle {}_{n}\mathrm {C} _{r}p^{r}q^{n-r}}{\displaystyle \cdots }{\displaystyle \cdots }nCnpn{\displaystyle {}_{n}\mathrm {C} _{n}p^{n}}1{\displaystyle 1}

表の確率は二項定理の展開式の各項と一致している。 このような分布のことを二項分布と呼び、B(n,p){\displaystyle B(n,p)}のように書く。確率変数X{\displaystyle X}が二項分布B(n,p){\displaystyle B(n,p)}に従うことをXB(n,p){\displaystyle X\sim B(n,p)}と表す。


事象A{\displaystyle A}の起こる確率がp{\displaystyle p}である試行を独立にn回行うとき、第k{\displaystyle k}回目の試行で事象A{\displaystyle A}が起これば1{\displaystyle 1}、起こらなければ0{\displaystyle 0}の値をとる確率変数をXk{\displaystyle X_{k}}とおく。

このとき、Xk{\displaystyle X_{k}}は以下のような確率分布に従う。

Xk{\displaystyle X_{k}}1{\displaystyle 1}0{\displaystyle 0}
P{\displaystyle P}p{\displaystyle p}q{\displaystyle q}1{\displaystyle 1}

このような確率分布をベルヌーイ分布(0-1分布)という。

ベルヌーイ分布の期待値は定義よりE(Xk)=1p+0q=p

{\displaystyle E(X_{k})=1\cdot p+0\cdot q=p}

である。分散はE(Xk2)=12p+02q=p

{\displaystyle E(X_{k}^{2})=1^{2}\cdot p+0^{2}\cdot q=p}

よりV(Xk)=E(Xk2){E(X)}2=pp2=p(1p)=pq

{\displaystyle V(X_{k})=E(X_{k}^{2})-\{E(X)\}^{2}=p-p^{2}=p(1-p)=pq}

である。

X=k=1nXk{\displaystyle X=\sum _{k=1}^{n}X_{k}}とおくと、確率変数X{\displaystyle X}n{\displaystyle n}回の反復試行において事象A{\displaystyle A}が起こる回数であるから、XB(n,p){\displaystyle X\sim B(n,p)}である。

よって、確率変数の和の期待値・分散を求める公式を用いて、

E(X)=E(k=1nXk)=k=1nE(Xk)=k=1np=np{\displaystyle E(X)=E(\sum _{k=1}^{n}X_{k})=\sum _{k=1}^{n}E(X_{k})=\sum _{k=1}^{n}p=np}

V(X)=V(k=1nXk)=k=1nV(Xk)=k=1npq=npq{\displaystyle V(X)=V(\sum _{k=1}^{n}X_{k})=\sum _{k=1}^{n}V(X_{k})=\sum _{k=1}^{n}pq=npq}

である。

纏めると、以下のようになる。

XB(n,p){\displaystyle X\sim B(n,p)}のとき、

E(X)=np{\displaystyle E(X)=np}V(X)=npq{\displaystyle V(X)=npq}σ(X)=npq{\displaystyle \sigma (X)={\sqrt {npq}}}

ただし、q=1p{\displaystyle q=1-p}

負の二項分布成功確率がp{\displaystyle p}であるベルヌーイ試行を独立に繰り返すとき、k{\displaystyle k}回成功するまでの失敗回数Xが従う確率分布を負の二項分布と呼ぶ。n{\displaystyle n}回成功するまでの失敗回数をr{\displaystyle r}q=1p{\displaystyle q=1-p}とすると、重複組合せを用いてP(X=r)=nHrpnqr{\displaystyle P(X=r)={}_{n}\mathrm {H} _{r}p^{n}q^{r}}と計算できる。このとき、E(X)=nqp,V(X)=nqp2{\displaystyle E(X)={\frac {nq}{p}},V(X)={\frac {nq}{p^{2}}}}が成り立つ。負の二項分布を「a{\displaystyle a}回成功するまでの試行回数X」で定義することもある。この場合、a{\displaystyle a}回成功するまでにb{\displaystyle b}回試行する確率はP(X=a)=a1Cb1paqab{\displaystyle P(X=a)={}_{a-1}\mathrm {C} _{b-1}p^{a}q^{a-b}}と計算でき、E(X)=ap,V(X)=aqp{\displaystyle E(X)={\frac {a}{p}},V(X)={\frac {aq}{p}}}が成り立つ。

正規分布

連続型確率変数

度数分布表で表された、ある変量X{\displaystyle X}についてのデータがある。このとき、Xが階級値をとる確率はその階級の相対度数であると考えて良い。つまり、X{\displaystyle X}は階級値の値をとる確率変数であり、その分布は相対度数の分布と一致する。この確率分布を図示するには、各階級の上の長方形の面積がその階級の相対度数を表すようなヒストグラムを書けば良い。

データの大きさを増し、階級の幅も狭くしていくと、ヒストグラムの形は一つの曲線に近づいていく。そこで、連続的な値をとる確率変数X{\displaystyle X}に対し、aXb{\displaystyle a\leq X\leq b}となる確率がy{\displaystyle y}x{\displaystyle x}グラフ上の曲線y=f(x){\displaystyle y=f(x)}と直線x=a,x=b{\displaystyle x=a,x=b}x{\displaystyle x}軸で囲まれた領域の面積で表されるように一つの曲線を対応させる。このような曲線をX{\displaystyle X}分布曲線という。

連続的な値をとる確率変数を連続型確率変数といい、f(x){\displaystyle f(x)}確率密度関数と呼ぶ。なお、f(x){\displaystyle f(x)}の定義域は実数全体のことも、その一部分のこともある。今まで扱ってきたような、飛び飛びの値をとる確率変数は離散型確率変数と呼ぶ。なお、離散型確率変数に対してf(k)=P(X=k){\displaystyle f(k)=P(X=k)}を満たす関数f(k){\displaystyle f(k)}確率質量関数という。

確率密度関数の性質

常にf(x)0{\displaystyle f(x)\geq 0}
P(aXb)=abf(x)dx{\displaystyle P(a\leq X\leq b)=\int _{a}^{b}f(x)\,dx}
X{\displaystyle X}のとる値の範囲がαXβ{\displaystyle \alpha \leq X\leq \beta }のとき、αβf(x)dx=1{\displaystyle \int _{\alpha }^{\beta }f(x)\,dx=1}

b=a{\displaystyle b=a}の場合はP(X=a)=aaf(x)dx=0{\displaystyle P(X=a)=\int _{a}^{a}f(x)dx=0}である。これは、定性的には「とり得る値が無限個あるうちからある1つの定数に定まる確率は0」と説明される。

以下、特に断りがない場合、確率変数は連続型であるとする。


確率変数X{\displaystyle X}のとる値の範囲がαXβ{\displaystyle \alpha \leq X\leq \beta }でその確率密度関数がf(x){\displaystyle f(x)}であるとき、期待値・分散・標準偏差は定積分を用いて以下のように定義される。

E(X)=m=αβxf(x)dx{\displaystyle E(X)=m=\int _{\alpha }^{\beta }xf(x)\,dx}

V(X)=αβ(xm)2f(x)dx{\displaystyle V(X)=\int _{\alpha }^{\beta }(x-m)^{2}f(x)\,dx}

σ(X)=V(X){\displaystyle \sigma (X)={\sqrt {V(X)}}}

これはα=,β={\displaystyle \alpha =-\infty ,\beta =\infty }の場合も含む。

離散型確率変数の期待値・分散の公式と比べると、k=1n{\displaystyle \sum _{k=1}^{n}}αβ{\displaystyle \int _{\alpha }^{\beta }}に、xk{\displaystyle x_{k}}x{\displaystyle x}に、pk{\displaystyle p_{k}}f(x){\displaystyle f(x)}に置き換えただけで同じ形をしていることがわかる。累積分布関数(発展)

確率密度関数のグラフを直線x=u{\displaystyle x=u}で区切った左側の面積をF(u){\displaystyle F(u)}と置くと、F(u){\displaystyle F(u)}x{\displaystyle x}u{\displaystyle u}以下の値を取る確率(累積確率)に一致する。このとき、F(x){\displaystyle F(x)}累積分布関数または確率分布関数と呼ぶ。その定義より、累積分布関数と確率密度関数の間にはF(x)=xf(t)dtf(x)=F(x){\displaystyle F(x)=\int _{-\infty }^{x}f(t)\,dt\iff f(x)=F'(x)}という関係がある。つまり、確率密度関数のx=u{\displaystyle x=u}における値f(u){\displaystyle f(u)}は累積分布関数F(x){\displaystyle F(x)}x=u{\displaystyle x=u}における微分係数である。実際には累積分布関数が微分不可能な場合があるため、累積分布関数を確率密度関数の原始関数として定義することが多い。正規分布

確率変数X{\displaystyle X}が実数m{\displaystyle m}と正の実数σ{\displaystyle \sigma }を用いて表される関数f(x)=12πσe(xm)22σ2{\displaystyle f(x)={\frac {1}{{\sqrt {2\pi }}\sigma }}e^{-{\frac {(x-m)^{2}}{2\sigma ^{2}}}}}を確率密度関数に持つとき、このX{\displaystyle X}の分布を正規分布またはガウス分布と呼び、N(m,σ2){\displaystyle N(m,\sigma ^{2})}のように表す。また、曲線y=f(x){\displaystyle y=f(x)}正規分布曲線と呼ぶ。ここでは、確率変数X{\displaystyle X}が正規分布N(m,σ2){\displaystyle N(m,\sigma ^{2})}に従うことをXN(m,σ2){\displaystyle X\sim N(m,\sigma ^{2})}と表すこととする。

XN(m,σ2){\displaystyle X\sim N(m,\sigma ^{2})}のとき、m=E(X),σ=σ(X){\displaystyle m=E(X),\sigma =\sigma (X)}が成り立つ。証明は数Ⅲレベルの積分の知識が必要なため省略する。なお、e=2.71828{\displaystyle e=2.71828\cdots }は「ネイピア数」と呼ばれる無理数である。詳しくは数学Ⅲの微分で扱う。

また、以下のような性質がある。

正規分布の性質

平均値と最頻値と中央値が一致する

曲線は直線x=m{\displaystyle x=m}に関して対称で、f(x){\displaystyle f(x)}x=m{\displaystyle x=m}で最大値をとる。

x{\displaystyle x}軸を漸近線とする

標準偏差の値の大小と曲線の山の高低が対応している。

正規分布は連続型確率変数の分布の代表例である。身の周りの現象の中には、観測される変量の分布が正規分布に近いものが多くあり、正規分布を有効に利用することができる。最も有名な例を出すと、偏差値の導出に利用されている。標準正規分布

正規分布のうち、特にN(0,1){\displaystyle N(0,1)}標準正規分布と呼ぶ。

XN(m,σ2){\displaystyle X\sim N(m,\sigma ^{2})}のとき、Y=aX+b{\displaystyle Y=aX+b}とするとYN(am+b,a2σ2){\displaystyle Y\sim N(am+b,a^{2}\sigma ^{2})}であることが知られている。そこでZ=Xmσ{\displaystyle Z={\frac {X-m}{\sigma }}}とするとZN(0,1){\displaystyle Z\sim N(0,1)}でありf(z)=12πez2n{\displaystyle f(z)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {z^{2}}{n}}}}が成り立つ。

このように、正規分布に従うある確率変数を標準正規分布に従う確率変数に変換することを、標準化と呼ぶ。

※どのような確率分布であっても、Z=XE(E)σ(X){\displaystyle Z={\frac {X-E(E)}{\sigma (X)}}}とおけばE(Z)=0,V(Z)=1{\displaystyle E(Z)=0,V(Z)=1}が成り立つことが知られている。これを標準化公式という。正規分布の場合はY=aX+b{\displaystyle Y=aX+b}というアフィン変換に対して分布の種類を変えないので「標準化後も正規分布」と言うことができる。


標準正規分布に従う確率変数Z{\displaystyle Z}においてP(0Zu)=p(u){\displaystyle P(0\leq Z\leq u)=p(u)}としたとき、p(u){\displaystyle p(u)}がとる値を纏めた表を(標準)正規分布表と呼ぶ。正規分布を利用する際には必須になる表であり、大学入試においても問題冊子の最後の方に載せられていることが多い。本書の最終項に載せているので、演習問題を解くときに利用すると良い。

一般の分布であっても、応用上は分布表の値を参照するかエクセル等に計算させる場合が殆どである。


標準正規分布における確率について、次の等式が成り立つ。P(uZ0)=P(0Zu)=p(u)

{\displaystyle P(-u\leq Z\leq 0)=P(0\leq Z\leq u)=p(u)}

P(uZu)=2p(u)

{\displaystyle P(-u\leq Z\leq u)=2p(u)}

P(Z0)=P(Z0)=0.5

{\displaystyle P(Z\leq 0)=P(Z\geq 0)=0.5}


なお、正規分布表の値は累積密度関数F(x)=1+erf(xm2σ)2{\displaystyle F(x)={\frac {1+\mathrm {erf} ({\frac {x-m}{{\sqrt {2}}\sigma }})}{2}}}x=u{\displaystyle x=u}における微分係数である。ここでerf(x){\displaystyle \mathrm {erf} (x)}誤差関数と呼ばれる特殊関数で、erf(x)=2π0xet2dt{\displaystyle \mathrm {erf} (x)={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt}で定義される。


正規分布から構成される確率分布としてt{\displaystyle t}分布、χ2{\displaystyle \chi ^{2}}分布、F{\displaystyle F}分布の3つが存在する。他によく用いられる分布として、一様分布とポアソン分布が存在する。ベルヌーイ分布は一様分布の特別な場合である。詳しくは理数数学で解説する。正規化

二項分布B(n,p){\displaystyle B(n,p)}に従う確率変数X{\displaystyle X}について、X=r{\displaystyle X=r}となる確率をn{\displaystyle n}を大きくしながら計算し、そのグラフを書くと、次第にグラフが左右対称になっていくことがわかる。 そこで、二項分布を正規分布で近似することを考える。

二項分布の正規分布による近似

n{\displaystyle n}が十分大きいとき、XB(n,p){\displaystyle X\sim B(n,p)}ならば近似的にXN(np,npq){\displaystyle X\sim N(np,npq)}である。

一般に、ある確率分布に従う変数を正規分布に従う変数に近似する変換を正規化あるいは正規近似と呼ぶ。

二項分布に従う確率変数を正規化した後、さらに標準化することで正規分布表を活用することができる。先ほどの標準化の式にm=np,σ=npq{\displaystyle m=np,\sigma ={\sqrt {npq}}}を代入するだけなので、そこまで手間はかからない。

なお、二項分布においてはベルヌーイ試行の確率p{\displaystyle p}が0.5に近ければ近いほど正規近似の精度が上がることが知られている。


二項分布のn{\displaystyle n\to \infty }の極限を考えると、正規分布に分布収束することが知られている。これはド・モアブル=ラプラスの定理(或いは中心極限定理)によって示される。

半整数補正XB(16,0.5){\displaystyle X\sim B(16,0.5)}とするとm=160.5=8,σ=160.5(10.5)=2{\displaystyle m=16\cdot 0.5=8,\sigma ={\sqrt {16\cdot 0.5\cdot (1-0.5)}}=2}である。ここで、整数r(1r16){\displaystyle r(1\leq r\leq 16)}に対しP(X=r){\displaystyle P(X=r)}r{\displaystyle r}を底辺の中心とする幅1の長方形の面積で表されるようなr{\displaystyle r}P{\displaystyle P}グラフを考える。このグラフにYN(8,22){\displaystyle Y\sim N(8,2^{2})}の確率密度関数のグラフを重ねると、例えばP=P(6X10){\displaystyle P=P(6\leq X\leq 10)}についてPP(5.5Y10.5){\displaystyle P\fallingdotseq P(5.5\leq Y\leq 10.5)}であることがわかる。Z=Y82{\displaystyle Z={\frac {Y-8}{2}}}とおくとZN(0,1){\displaystyle Z\sim N(0,1)}であるからPP(1.25Z1.25)=2p(1.25)=0.78870{\displaystyle P\fallingdotseq P(-1.25\leq Z\leq 1.25)=2p(1.25)=0.78870}二項分布から直接求めると(0.5)16k=61016Ck=0.78988{\displaystyle (0.5)^{16}\cdot \sum _{k=6}^{10}{}_{16}\mathrm {C} _{k}=0.78988\cdots }であり、高い精度で近似できることがわかる。このように、m,σ{\displaystyle m,\sigma }について0.5だけらして置き換えることを半整数補正と呼ぶ。なお、半整数補正を行わないで計算すると、PP(6Y10)=P(1Z1)=2p(1)=0.68269{\displaystyle P\fallingdotseq P(6\leq Y\leq 10)=P(-1\leq Z\leq 1)=2p(1)=0.68269}となり、近似値が小さくなる。np,nq{\displaystyle np,nq}がともに5より大きいならば、半整数補正により実用上十分な精度で近似値を確保することができる。半整数補正を行わない場合はnp,nq{\displaystyle np,nq}ともにかなり大きくないと良い精度にならない。

統計的な推測

標本調査

調べたい対象全体のデータを集める調査を全数調査と呼ぶ。国勢調査などがこれにあたる。全数調査は対象が厖大な場合に多くの労力・時間・費用を必要とする。また、工場等においては調査によって製品が傷つく場合(耐久試験など)には好ましくない。このような場合、対象全体から一部を抜き出して調べ、その結果から全体の状況を推測する調査を行う。このような調査を標本調査と呼ぶ。

標本調査における調べたい対象全体の集合を母集団、調査のために母集団から抜き出された要素の集合を標本と呼び、母集団から標本を抜き出すことを標本の抽出と呼ぶ。また、母集団の要素の個数を母集団の大きさ、標本の要素の個数を標本の大きさと呼ぶ。なお、ここでの「母」は「そこから何かを生じさせるもとになるもの」を意味する(「酵母」、「母校」等と同じ用法)。

標本調査では標本を母集団の正しい縮図にするために、標本が特別な属性を持つものに偏らないようにする必要がある。母集団の各要素を等しい確率で抽出することを無作為抽出と呼び、無作為抽出で選ばれた標本を無作為標本と呼ぶ。無作為抽出では乱数賽や乱数表などが用いられることがある。詳しくは「w:乱数生成」を参照。

全ての要素を母集団全体から無作為抽出することは容易ではないため、層化抽出法、クラスター抽出法、多段抽出法などさまざまな抽出方法が編み出されており、それぞれに長所・短所が存在する。母集団分布

母集団に属する要素についてのデータをある変量の値の集合と考えることで、 ここまで扱ってきたような統計的手法が使える。

大きさN{\displaystyle N}の母集団において、変量x{\displaystyle x}のとる値と要素の個数をそれぞれx1x2xn,f1f2fn{\displaystyle x_{1}x_{2}\cdots x_{n},f_{1}f_{2}\cdots f_{n}}と置く。 このとき、変量xの度数分布表は以下のようになる。

階級値x1x2xn{\displaystyle x_{1}x_{2}\cdots \cdots x_{n}}
度数f1f2fn{\displaystyle f_{1}f_{2}\cdots \cdots f_{n}}N{\displaystyle N}


また、変量x{\displaystyle x}の平均μ{\displaystyle \mu }と標準偏差σ{\displaystyle \sigma }は以下のように求められる。

μ=1Nk=1nxkfk=k=1nxkfkN{\displaystyle \mu ={\frac {1}{N}}\sum _{k=1}^{n}x_{k}f_{k}=\sum _{k=1}^{n}x_{k}{\frac {f_{k}}{N}}}

σ=1Nk=1n(xkμ)2fk=k=1n(xkμ)2fkN{\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{k=1}^{n}(x_{k}-\mu )^{2}f_{k}}}={\sqrt {\sum _{k=1}^{n}(x_{k}-\mu )^{2}{\frac {f_{k}}{N}}}}}


この母集団から大きさn=1{\displaystyle n=1}で無作為抽出するとき、その要素における変量x{\displaystyle x}の値X{\displaystyle X}は偶然に支配されるが、X=xk{\displaystyle X=x_{k}}となる確率pk{\displaystyle p_{k}}pk=fkN{\displaystyle p_{k}={\frac {f_{k}}{N}}}で与えられる。

よってX{\displaystyle X}は以下のような確率分布を持つ確率変数と考えられる。

X{\displaystyle X}x1x2xn{\displaystyle x_{1}x_{2}\cdots \cdots x_{n}}
P{\displaystyle P}f1Nf2NfnN{\displaystyle {\frac {f_{1}}{N}}{\frac {f_{2}}{N}}\cdots \cdots {\frac {f_{n}}{N}}}N{\displaystyle N}

この確率分布は母集団の相対度数の分布と一致する

※このことから、度数分布に於いて相加平均の式で求めたE(X){\displaystyle E(X)}と期待値の式で求めたE(X){\displaystyle E(X)}が常に一致することがわかる。則ち期待値は相加平均の拡張であり、期待値を平均とも呼ぶのはこれが由来である。

一般に、母集団における変量xの分布を母集団分布、その平均値を母平均、分散を母分散、標準偏差を母標準偏差と呼ぶ。 上の確率分布から、大きさ1の無作為標本における変量x{\displaystyle x}の値X{\displaystyle X}と母平均μ{\displaystyle \mu }、母分散σ2{\displaystyle \sigma ^{2}}、母標準偏差σ{\displaystyle \sigma }について、E(X)=μ,V(X)=σ2,σ(X)=σ{\displaystyle E(X)=\mu ,V(X)=\sigma ^{2},\sigma (X)=\sigma }が成り立つ。

実際の統計では母集団の大きさが非常に大きく、母集団分布は度数分布と同様に連続型確率変数の分布として近似される。そこで、正規分布に近似することで具合が良くなる場合が多い。復元抽出

母集団から標本を抽出するのに、毎回元に戻しながら次のものを取り出す抽出を復元抽出と呼ぶ。逆に、取り出したものを戻さずに続けて抽出することを非復元抽出と呼ぶ。

大きさn{\displaystyle n}の標本の要素における変量x{\displaystyle x}の値をX1,X2Xn{\displaystyle X_{1},X_{2}\cdots X_{n}}と置く。標本が復元抽出によるものならば、母集団から大きさ1の標本を無作為抽出することをn{\displaystyle n}回繰り返す反復試行であるから、Xk{\displaystyle X_{k}}はそれぞれが母集団分布に従う互いに独立な確率変数となる。非復元抽出の場合でも、母集団の大きさN{\displaystyle N}が標本の大きさn{\displaystyle n}より十分大きい(N>>n{\displaystyle N>>n})場合には近似的に復元抽出による標本と見なすことができる。標本平均

大きさn{\displaystyle n}の標本について、X¯=1nk=1nXk{\displaystyle {\overline {X}}={\frac {1}{n}}\sum _{k=1}^{n}X_{k}}標本平均S2=1nk=1n(XkX¯)2{\displaystyle S^{2}={\frac {1}{n}}\sum _{k=1}^{n}(X_{k}-{\overline {X}})^{2}}標本分散S=1nk=1n(XkX¯)2{\displaystyle S={\sqrt {{\frac {1}{n}}\sum _{k=1}^{n}(X_{k}-{\overline {X}})^{2}}}}標本標準偏差と呼ぶ。

Xk{\displaystyle X_{k}}は「母集団から標本を抽出する」という試行の結果で値が定まる確率変数なので、X¯,S2,S{\displaystyle {\overline {X}},S^{2},S}も同様の試行の結果で値が定まる確率変数である。

復元抽出の場合、確率変数の値Xk{\displaystyle X_{k}}は大きさ1の標本の確率変数と見なすことができ、それぞれ母集団分布に従うので、E(Xk)=μ,V(Xk)=σ2,σ(Xk)=σ{\displaystyle E(X_{k})=\mu ,V(X_{k})=\sigma ^{2},\sigma (X_{k})=\sigma }が成り立つ。

Xk{\displaystyle X_{k}}はそれぞれ互いに独立なので、確率変数の和の期待値・分散を求める公式より E(X¯)=E(1nk=1nXk)=1nk=1nE(Xk)=1nnμ=μ{\displaystyle E({\overline {X}})=E({\frac {1}{n}}\sum _{k=1}^{n}X_{k})={\frac {1}{n}}\sum _{k=1}^{n}E(X_{k})={\frac {1}{n}}\cdot n\mu =\mu }

V(X¯)=V(1nk=1nXk)=1n2k=1nV(Xk)=1n2nσ2=σ2n{\displaystyle V({\overline {X}})=V({\frac {1}{n}}\sum _{k=1}^{n}X_{k})={\frac {1}{n^{2}}}\sum _{k=1}^{n}V(X_{k})={\frac {1}{n^{2}}}\cdot n\sigma ^{2}={\frac {\sigma ^{2}}{n}}}

σ(X¯)=V(X¯)=σn{\displaystyle \sigma ({\overline {X}})={\sqrt {V({\overline {X}})}}={\frac {\sigma }{\sqrt {n}}}}

非復元抽出の場合もN>>n{\displaystyle N>>n}ならば同様である。標本比率

母集団全体の中である特性Aを持つ要素の割合を特性Aの母比率、標本の中で特性Aを持つ要素の割合を特性Aの標本比率と呼ぶ。

特性Aの母比率がp{\displaystyle p}である十分大きな母集団から、大きさがnの標本を無作為抽出するとき、標本の中で特性Aを持つ要素の個数をT{\displaystyle T}とおくと、TB(n,p){\displaystyle T\sim B(n,p)}である。ここで、q=1p{\displaystyle q=1-p}として正規化すると、近似的にTN(np,npq){\displaystyle T\sim N(np,npq)}である。

特性Aの標本比率をR{\displaystyle R}とおくと、R=Tn{\displaystyle R={\frac {T}{n}}}よりR{\displaystyle R}は確率変数であり、 E(R)=1nE(T)=1nnp=p{\displaystyle E(R)={\frac {1}{n}}E(T)={\frac {1}{n}}\cdot np=p}

V(R)=1n2E(T)=1n2npq=pqn{\displaystyle V(R)={\frac {1}{n^{2}}}E(T)={\frac {1}{n^{2}}}\cdot npq={\frac {pq}{n}}}

であるので、近似的にRN(p,pqn){\displaystyle R\sim N(p,{\frac {pq}{n}})}である。


特性Aの母比率がp{\displaystyle p}である母集団において、特性Aを持つ要素を1、持たない要素を0で表す変量x{\displaystyle x}を考える。このとき、Xk{\displaystyle X_{k}}はそれぞれ1または0である。特性Aの標本比率R{\displaystyle R}はこれらのうち値が1であるものの割合であるから、R=1nk=1nXk=X¯{\displaystyle R={\frac {1}{n}}\sum _{k=1}^{n}X_{k}={\overline {X}}}が成り立つ。よって、標本比率は標本平均の特別な場合である。

一般に、標本平均X¯{\displaystyle {\overline {X}}}について以下の法則が成り立つ。

標本平均の分布

標本の大きさn{\displaystyle n}が大きいとき、近似的にX¯N(μ,σ2n){\displaystyle {\overline {X}}\sim N(\mu ,{\frac {\sigma ^{2}}{n}})}である。

母集団分布が正規分布のとき、常にX¯N(μ,σ2n){\displaystyle {\overline {X}}\sim N(\mu ,{\frac {\sigma ^{2}}{n}})}である。

大数たいすうの法則

標本標準偏差について、limnσ(X¯)=limnσn=0{\displaystyle \lim _{n\to \infty }\sigma ({\overline {X}})=\lim _{n\to \infty }{\frac {\sigma }{\sqrt {n}}}=0}より、n{\displaystyle n}が大きくなるとX¯{\displaystyle {\overline {X}}}は母平均μ{\displaystyle \mu }の近くに集中して分布する。すなわち、X¯{\displaystyle {\overline {X}}}μ{\displaystyle \mu }に近い値をとる確率をp{\displaystyle p}とすると、limnp=1{\displaystyle \lim _{n\to \infty }p=1}である。

limn{\displaystyle \lim _{n\to \infty }}は「n{\displaystyle n}を限りなく大きくする」という意味の記号である。詳しくはこちらを参照。

したがって、以下が成り立つ。

大数の法則

大きさn{\displaystyle n}の無作為標本の標本平均X¯{\displaystyle {\overline {X}}}n{\displaystyle n}が大きくなるにつれて母平均μ{\displaystyle \mu }に近づく。

区間推定

母平均の推定

母集団が大きいとき、母平均を求めるには時間も労力も相当にかかる。そこで、標本平均から母平均を推定することを考える。

標本の大きさn{\displaystyle n}が大きいとき、近似的にX¯N(μ,σ2n){\displaystyle {\overline {X}}\sim N(\mu ,{\frac {\sigma ^{2}}{n}})}であるのは先程学んだ。X¯{\displaystyle {\overline {X}}}の標準化を考えてZ=X¯μσn{\displaystyle Z={\frac {{\overline {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}}とおくと、近似的にZN(0,1){\displaystyle Z\sim N(0,1)}である。

ここで正規分布表よりP(|Z|1.96)0.95{\displaystyle P(|Z|\leq 1.96)\fallingdotseq 0.95}なので、

P(μ1.96σnX¯μ+1.96σn)0.95{\displaystyle P(\mu -1.96\cdot {\frac {\sigma }{\sqrt {n}}}\leq {\overline {X}}\leq \mu +1.96\cdot {\frac {\sigma }{\sqrt {n}}})\fallingdotseq 0.95}

すなわちP(X¯1.96σnμX¯+1.96σn)0.95{\displaystyle P({\overline {X}}-1.96\cdot {\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\overline {X}}+1.96\cdot {\frac {\sigma }{\sqrt {n}}})\fallingdotseq 0.95}である。


この式は区間X¯1.96σnxX¯+1.96σn{\displaystyle {\overline {X}}-1.96\cdot {\frac {\sigma }{\sqrt {n}}}\leq x\leq {\overline {X}}+1.96\cdot {\frac {\sigma }{\sqrt {n}}}}が値μ{\displaystyle \mu }を含むことが約95%の確実さで期待できることを示している。


この区間を母平均μ{\displaystyle \mu }に対する信頼度95%の信頼区間と呼び、[X¯1.96σn,X¯+1.96σn]{\displaystyle [{\overline {X}}-1.96\cdot {\frac {\sigma }{\sqrt {n}}},{\overline {X}}+1.96\cdot {\frac {\sigma }{\sqrt {n}}}]}のように表す。


母平均μ{\displaystyle \mu }に対して信頼度95%の信頼区間を求めることを、「母平均μ{\displaystyle \mu }を信頼度95%で区間推定する」という。


信頼度95%とは、大きさn{\displaystyle n}の無作為抽出を繰り返し、得られたそれぞれの標本平均に対し区間推定をして信頼区間を多数作ると、母平均μ{\displaystyle \mu }の含まれる区間が95%の割合で現れることが期待できることを指している。


信頼度99%で推定する場合、正規分布表よりP(|Z|2.58)0.99{\displaystyle P(|Z|\leq 2.58)\fallingdotseq 0.99}なので、信頼区間は[X¯2.58σn,X¯+2.58σn]{\displaystyle [{\overline {X}}-2.58\cdot {\frac {\sigma }{\sqrt {n}}},{\overline {X}}+2.58\cdot {\frac {\sigma }{\sqrt {n}}}]}となる。

なお、実際の統計では母標準偏差σ{\displaystyle \sigma }がわからない場合が多いので、n{\displaystyle n}が大きいときは代わりに標本標準偏差S{\displaystyle S}を用いて良い。母比率の推定

母平均と同様、標本比率R{\displaystyle R}から母比率p{\displaystyle p}を区間推定することもできる。

標本の大きさn{\displaystyle n}が大きいとき、先ほど学んだようにRN(p,pqn){\displaystyle R\sim N(p,{\frac {pq}{n}})}である。したがって、母平均の推定の場合と同様に考えてP(R1.96pqnpR+1.96pqn)0.95{\displaystyle P(R-1.96{\sqrt {\frac {pq}{n}}}\leq p\leq R+1.96{\sqrt {\frac {pq}{n}}})\fallingdotseq 0.95}である。

q=1p{\displaystyle q=1-p}であり、大数の法則よりn{\displaystyle n}が大きいときp{\displaystyle p}R{\displaystyle R}と見做して良いから、Q=1R{\displaystyle Q=1-R}とおくと、母比率p{\displaystyle p}に対する信頼度95%の信頼区間は[R1.96RQn,R+1.96RQn]{\displaystyle [R-1.96{\sqrt {\frac {RQ}{n}}},R+1.96{\sqrt {\frac {RQ}{n}}}]}である。


信頼度99%で推定する場合、標本平均の場合と同様に考えて信頼区間は[R2.58RQn,R+2.58RQn]{\displaystyle [R-2.58{\sqrt {\frac {RQ}{n}}},R+2.58{\sqrt {\frac {RQ}{n}}}]}となる。


Xk{\displaystyle X_{k}}のとる値は1または0であるから、Xk2=Xk{\displaystyle X_{k}^{2}=X_{k}}である。ここでR=X¯{\displaystyle R={\overline {X}}}を用いると、標本分散S2{\displaystyle S^{2}}について以下のように変形できる。

S2=1nk=1n(XkX¯)2{\displaystyle S^{2}={\frac {1}{n}}\sum _{k=1}^{n}(X_{k}-{\overline {X}})^{2}}

=1nk=1n(Xk22XkX¯+X2¯){\displaystyle ={\frac {1}{n}}\sum _{k=1}^{n}(X_{k}^{2}-2X_{k}{\overline {X}}+{\overline {X^{2}}})}

=1nk=1nXk22nnX¯k=1nXk+X2¯{\displaystyle ={\frac {1}{n}}\sum _{k=1}^{n}X_{k}^{2}-{\frac {2}{n}}\cdot n{\overline {X}}\cdot \sum _{k=1}^{n}X_{k}+{\overline {X^{2}}}}

=1nk=1nXk2X2¯+X2¯{\displaystyle ={\frac {1}{n}}\sum _{k=1}^{n}X_{k}-2{\overline {X^{2}}}+{\overline {X^{2}}}}

=X¯X2¯{\displaystyle ={\overline {X}}-{\overline {X^{2}}}}

=RR2{\displaystyle =R-R^{2}}

=R(1R){\displaystyle =R(1-R)}

先ほど母標準偏差pq(q=1p){\displaystyle {\sqrt {pq}}(q=1-p)}を確率変数RQ(Q=1R){\displaystyle {\sqrt {RQ}}(Q=1-R)}で置き換えたが、上式よりRQ=S{\displaystyle {\sqrt {RQ}}=S}なので、この置き換えは母平均の推定で行なった「母標準偏差σ{\displaystyle \sigma }を標本標準偏差S{\displaystyle S}で置き換える」ことの特別な場合である。


ここでは信頼区間を大括弧[]で表したが、実は一般に区間axb{\displaystyle a\leq x\leq b}は「閉区間」と呼ばれ、[a,b]{\displaystyle [a,b]}で表される。詳しくは数学Ⅲの極限で扱う。


なお、ある区間でもって母集団の特性値を推定する区間推定に対し、一つの値から母集団の特性値を推定することを点推定と呼ぶ。例として、大数の法則を利用して標本平均から母平均を近似することが挙げられる。区間推定と点推定を併せて統計的推定と呼ぶ。

仮説検定

数学Iで扱ったように、仮説検定とは以下の手順で仮説が正しいか判断する手法である。

  1. 正しいかどうか判断したい仮説[1]に反する仮説[2]を立てる
  2. 仮説[2]のもとで事象が起こる確率を調べる。
  3. 確率が小さく、仮説[2]のもとで事象が起こりにくいと判断できるとき、仮説[2]は正しくないと判断できる。
  4. 仮説[2]が偽と判断されたため、それに反する仮説[1]が真であると判断される。

なお、仮説[2]が正しくないと判断できないとき、仮説[1]の真偽を判断することはできない


仮説[1]を対立仮説、仮説[2]を帰無仮説と呼び、仮説が正しくないと判断することを「仮説を棄却する」という。棄却の基準となる確率を有意水準あるいは危険率と呼び、α{\displaystyle \alpha }で表す。有意水準にはよく5%(α=0.05{\displaystyle \alpha =0.05})、1%(α=0.01{\displaystyle \alpha =0.01})が用いられる。有意水準に対して帰無仮説が棄却されるような確率変数の値の範囲を棄却域と呼ぶ。また、有意水準α{\displaystyle \alpha }を用いて仮説検定を行うことを「有意水準α{\displaystyle \alpha }検定する」という。なお、対立仮説、帰無仮説をそれぞれ「仮説H1{\displaystyle H_{1}}:〇〇」「仮説H0{\displaystyle H_{0}}:☆☆(〇〇でない)」のように表すこともある。また、仮説が棄却されないことを「仮説を採択する」という場合がある。


数学Iでは、公正なコインを投げて裏表の出る回数を調べる試行の相対度数から帰無仮説のもとで事象が起こる確率を求めたが、ここでは正規分布を利用することを考える。両側検定

母比率の検定において、帰無仮説のもとで二項分布に従う確率変数X{\displaystyle X}を設定すると、正規分布表を利用することができる。

例題
ある一枚の硬貨について、表が出る確率をp{\displaystyle p}とする。コインを100回投げて63回表が出たとき、「この硬貨は歪んでいる(p0.5{\displaystyle p\neq 0.5})」と判断してよいか、有意水準5%で検定することにした。帰無仮説として「この硬貨に歪みはなく、p=0.5{\displaystyle p=0.5}である」を立てると、100回コインを投げて表の出る回数X{\displaystyle X}について、XB(100,0.5){\displaystyle X\sim B(100,0.5)}である。ここで期待値m{\displaystyle m}と標準偏差σ{\displaystyle \sigma }を求めると、m=1000.5=50,σ=1000.5(10.5)=5{\displaystyle m=100\cdot 0.5=50,\sigma ={\sqrt {100\cdot 0.5\cdot (1-0.5)}}=5}なので、Z=X505{\displaystyle Z={\frac {X-50}{5}}}とおくと近似的にZN(0,1){\displaystyle Z\sim N(0,1)}である。正規分布表からP(|Z|1.96)0.95{\displaystyle P(|Z|\leq 1.96)\fallingdotseq 0.95}なので、有意水準5%における棄却域はZ1.96,1.96Z{\displaystyle Z\leq -1.96,1.96\leq Z}である。X=63{\displaystyle X=63}のとき、Z=63505=2.6{\displaystyle Z={\frac {63-50}{5}}=2.6}であり、この値は棄却域に入るので帰無仮説を棄却できる。よって、この硬貨は歪んでいると判断して良い。

上の例題において、正規近似と標準化を同時に行なっていることに注意。

母平均の検定も、同様に行うことができる。

例題
250g入りと表示された塩の袋の山から、無作為に100袋を抽出して重さを調べたところ、平均値が248.9gであった。標本標準偏差が4.5gであるとき、1袋あたりの重さが表示通りであると判断して良いか、有意水準1%で検定することにした。重さの標本平均をX¯{\displaystyle {\overline {X}}}とおき、帰無仮説「母平均μ{\displaystyle \mu }について、μ=250{\displaystyle \mu =250}である」を立てる。標本の大きさが十分大きいと考えると、母標準偏差の代わりに標本標準偏差を用いて良いので、帰無仮説が正しいとき、近似的にX¯N(250,4.52100){\displaystyle {\overline {X}}\sim N(250,{\frac {4.5^{2}}{100}})}である。4.52100=0.452{\displaystyle {\frac {4.5^{2}}{100}}=0.45^{2}}であるから、Z=X¯2500.45{\displaystyle Z={\frac {{\overline {X}}-250}{0.45}}}とすると近似的にZN(0,1){\displaystyle Z\sim N(0,1)}である。正規分布表からP(|Z|2.58)0.99{\displaystyle P(|Z|\leq 2.58)\fallingdotseq 0.99}なので、有意水準1%における棄却域はZ2.58,2.58Z{\displaystyle Z\leq -2.58,2.58\leq Z}である。X¯=248.9{\displaystyle {\overline {X}}=248.9}のとき、Z=248.92500.452.4{\displaystyle Z={\frac {248.9-250}{0.45}}\fallingdotseq -2.4}であり、これは棄却域に入らないので、帰無仮説を棄却できない。すなわち、1袋あたりの重さが表示通りでないとは判断できない。

なお、上の例題においてα=0.05{\displaystyle \alpha =0.05}ならば帰無仮説を棄却できる。このように、有意水準の値を変えると結論が変わる場合がある。

上の二つの例題では、棄却域を正規分布の両側にとっている。このような検定を両側検定と呼ぶ。片側検定

両側検定に対し、棄却域を正規分布の片側にとる検定を片側検定と呼ぶ。 両側検定との違いは、対立仮説が「確率(平均)値が示されている値通りである」でなく「確率(平均)値が上がった(下がった)」である点である。

例題
ある種子の発芽率は従来80%であったが、発芽しやすいように品種改良した。品種改良した種子から無作為に400個抽出して種を蒔いたところ、342個が発芽した。品種改良によって発芽率が上がったかどうか、有意水準1%で検定することにした。品種改良した種子の発芽率をp{\displaystyle p}とする。品種改良によって発芽率が下がったことは考慮しないので、前提としてp0.8{\displaystyle p\geq 0.8}である。この前提のもとで発芽率が上がったならばp>0.8{\displaystyle p>0.8}である。この前提のもとで帰無仮説「発芽率が上がらなかった(p=0.8{\displaystyle p=0.8})」を立てる。帰無仮説が正しいとすると、400個のうち発芽する種子の個数をX{\displaystyle X}としたときXB(400,0.8){\displaystyle X\sim B(400,0.8)}である。ここで期待値m{\displaystyle m}と標準偏差σ{\displaystyle \sigma }を求めると、m=4000.8=320,σ=4000.8(10.8)=8{\displaystyle m=400\cdot 0.8=320,\sigma ={\sqrt {400\cdot 0.8\cdot (1-0.8)}}=8}なので、Z=X3208{\displaystyle Z={\frac {X-320}{8}}}とおくと近似的にZN(0,1){\displaystyle Z\sim N(0,1)}である。正規分布表からP(0Z2.33)0.49{\displaystyle P(0\leq Z\leq 2.33)\fallingdotseq 0.49}なので、有意水準1%における棄却域は2.33Z{\displaystyle 2.33\leq Z}である。X=342{\displaystyle X=342}のとき、Z=3423208=2.75{\displaystyle Z={\frac {342-320}{8}}=2.75}であり、この値は棄却域に入るので帰無仮説を棄却できる。よって、品種改良により発芽率が上がったと判断して良い。

棄却域を片側にとっているため、正規分布で近似する値は1α{\displaystyle 1-\alpha }ではなく0.5α{\displaystyle 0.5-\alpha }であることに注意。


仮説検定の問題を解く際は、文脈から両側検定なのか片側検定なのか判断することになるので、文章読解力が必要になる。

なお、実際に検定を行うとき、「両側検定・片側検定の片方で帰無仮説が棄却されないからもう片方を試す」という操作は「検証が恣意的」と判断されてしまう可能性があるためしてはいけない。過誤(発展)

仮説検定を行うと、2種類の誤りが生じる可能性がある。 一つは、帰無仮説が本当は正しいのにも拘らず、得られたデータが棄却域に入ってしまったことにより帰無仮説が棄却されることである。これを第一種の過誤と呼ぶ。このとき有意水準α{\displaystyle \alpha }は第一種の過誤が起こる確率であり、有意水準のことを「危険率」とも呼ぶのはこれが理由である。

もう一つは、帰無仮説が本当は誤っているにも拘らず、得られたデータが棄却域に入らなかったために帰無仮説を採択してしまうことである。これを第二種の過誤と呼ぶ。

纏めると、以下の表のようになる。

帰無仮説を棄却帰無仮説を採択
帰無仮説が正しい第一種の過誤正しい判断
帰無仮説が誤り正しい判断第二種の過誤


この二つの過誤を品質管理に当てはめると、第一種の過誤は「本当は製品に問題がないにも拘らず、製品の検査段階で不良品と判断して出荷しないこと」に対応し、生産者リスクと呼ばれる。また、第二種の過誤は「本当は製品に問題があるにも拘らず、検査段階で問題なしと判断され出荷されてしまうこと」に対応し、消費者リスクと呼ばれる。

演習問題

付録

正規分布表

p(u)=p(u){\displaystyle p(-u)=p(u)}なので、u{\displaystyle u}が正の値のときみ記載する。

u{\displaystyle u}.00.01.02.03.04.05.06.07.08.09
0.00.000000.003990.007980.011970.015950.019940.023920.027900.031880.03586
0.10.039830.043800.047760.051720.055670.059620.063560.067500.071420.07535
0.20.079630.083170.087060.090950.094840.098700.102570.106420.110260.11409
0.30.117910.121720.125520.129300.133070.136830.140580.144310.148030.15173
0.40.155420.159100.162760.166400.170030.173650.177240.180820.184390.18793
0.50.191360.194970.198470.201940.205400.208840.212260.215660.219040.22241
0.60.225750.229470.232370.235650.238910.242150.245370.248570.251750.25490
0.70.258040.261150.264240.267310.270350.273370.276370.279350.282310.28524
0.80.288150.291030.293890.296730.299550.302340.305110.307850.310570.31327
0.90.315940.318590.321210.323810.326390.328940.334170.333980.336460.33891
1.00.341350.343760.346140.348500.350830.353140.355430.357690.359930.36214
1.10.364330.366500.368640.370760.372860.374930.376980.379000.381000.38298
1.20.384930.386860.388770.390650.392510.394350.396170.397960.399730.40148
1.30.403200.404900.456080.408240.409880.411490.413090.414660.416200.41774
1.40.419240.420730.422200.423640.425070.426470.427860.429220.430560.43189
1.50.433190.434480.435750.436990.438220.439430.440620.441790.442950.44408
1.60.445200.446300.447380.448450.449500.450530.451540.452540.453520.45449
1.70.455440.456370.457280.458190.459070.459940.460800.461640.462460.46327
1.80.464070.464850.465620.466380.467120.467840.468560.469260.469950.47062
1.90.471280.471930.472520.473200.473810.474410.475000.475580.476150.47670
2.00.477250.477780.478310.478820.479330.479720.480300.480770.481240.48169
2.10.482140.482570.483000.483410.483820.484220.484610.485000.485370.48574
2.20.486100.486450.486790.487130.487460.487780.488090.488400.488700.48899
2.30.489280.489560.489830.490100.490360.490610.490860.491110.491340.49158
2.40.491800.492020.492240.492450.492660.492860.493050.493240.493430.49361
2.50.493790.493960.494130.494300.494460.494610.494770.494920.495060.49520
2.60.495340.495470.495600.495730.495860.495980.496090.496210.496320.49643
2.70.456530.496640.496740.496830.496930.497020.497110.497200.497280.49737
2.80.497450.497520.497600.497670.497740.497810.497880.497950.498010.49807
2.90.498130.498190.498250.498300.498360.498410.498460.498510.498560.49860
3.00.498650.498690.498740.498780.498820.498860.498890.498930.498970.49900
3.10.499900.499070.499100.499130.499160.499180.499210.499240.499260.49929
3.20.499310.499340.499360.499380.499400.499420.499440.499460.499480.49950
3.30.499520.499530.499550.499570.499580.499600.499610.499620.499640.49965
3.40.499660.499680.499690.499700.499710.499720.499730.499740.499750.49976
3.50.499770.499780.499780.499790.499800.499810.499820.499820.499830.49984

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

CAPTCHA


目次