本記事では、測度論的な確率論の基礎を簡単に説明していきます。
数学を専門としない方でも理解できるようにできるだけ具体例や図を入れて解説していきます!
自分も勉強中のため必ずしも正しい情報が含まれているわけではないことを留意してください…
むしろ、間違えている部分がありましたら本記事のコメント欄にご指摘よろしくお願いします!
また、わかりやすさを求めるために本記事を更新していきます。
確率空間
多くの方に「確率とは何か?」と聞くと、「物事の起こりうる割合」など様々な返答をします。
どの返答も必ずしも間違いを含むわけではありませんが、どれも抽象的であり、数学的に議論することはやや難しいです。
そのため、最初に数学的に整備された確率論を語るための『フィールド』を考えるところから始めましょう。
目標は、人によって揺らがない数学的な『確率』を定義をすることです。
標本空間と可測空間
まず、今考えている問題で起こりうる一つの一つの現象に\(\omega_{1}, \omega_{2}, \ldots, \)とラベル付けを行います。
この現象全てを集めた集合\(\Omega\)を『標本空間』と呼び、この集合\(\Omega\)の各要素\(\omega\)を『根元事象』と呼びます。
また、標本集合の部分集合全てもなんらかの現象に対応するため、その部分集合の集合(部分集合族)に確率を定義するのが良さそうです。
しかし、確率を定義する際に、どんな部分集合族でも良いというわけではなく、最低限次のような性質を満たすことが重要です。この性質を満たすような部分集合族をシグマ加法族といい、\( ( \Omega, \mathcal{F} ) \)を可測空間と呼びます。
定義 : (シグマ加法族・可測空間)
ある集合\(\Omega\)の部分集合族\( \mathcal{F} \)が以下の条件を満たすとき、\(\mathcal{F}\)をシグマ加法族と呼び、\( ( \Omega, \mathcal{F} ) \)を可測空間と呼ぶ。
- \( \Omega \in \mathcal{F} \)
- \(\forall A \in \mathcal{F} \rightarrow A^{c} = \Omega \backslash A \in \mathcal{F} \)
- \(\forall A_{1}, A_{2}, \ldots \in \mathcal{F} \Rightarrow \bigcup_{n=1}^{\infty} A_{n} \in \mathcal{F} \)
また、シグマ加法族の元を事象(or 可測集合)と呼びます。
少し抽象的なのでサイコロを具体例に確認していきましょう!
サイコロの場合を具体的に考えてみます。
具体例1 : サイコロ
- 根元事象 : \( \Omega = \{ 1, 2, 3, 4, 5, 6 \} \)
- 偶数番目の事象に着目したシグマ加法族 :
\( \mathcal{F} = \{ \emptyset, \{2, 4, 6\}, \{1, 3, 5\}, \Omega \} \)
この具体例からわかるようにシグマ加法族は、確率を定義するのに都合の良い部分集合族であることがわかると思います。
また、以下の命題が成り立ちます(興味がある方は証明してみてください)
命題 :
\(\mathcal{F}\)が集合\(\Omega\)上の\(\sigma\)-加法族ならば以下が成り立つ。
- \(A, B \in \mathcal{F}\)ならば\(A\cup B, A\cap B, A \backslash B \in \mathcal{F}\)
- \(A_{1}, \ldots \in \mathcal{F}\)ならば、\(\bigcap_{n=1}^{\infty} A_{n} \in \mathcal{F}\)
つまり、シグマ加法族であるためには、要素の余事象・和事象・積事象は全てシグマ加法族に含まれる必要があるということです。
連続的な事象を扱いたい場合は、\(\Omega = \mathbb{R}^{d}\)のような標本空間をとるのが自然です(サイコロのような離散的な例も\(\mathbb{R}\)の区間に出る目を対応させることで、\(\mathbb{R}\)の標本空間を考えることもできます)
ここからは、そのような標本空間を作ったときに便利なシグマ加法族であるボレル集合族を紹介していきます。
生成されたシグマ加法族
この後の説明の都合からやや天下り的ですが、『生成されたシグマ加法族』というものを定義しておきます。
定義 : (生成されたシグマ加法族)
\(C\)を\(\Omega\)の部分集合族、\(\Omega\)上のシグマ加法族の中で\(C\)を含むものを\(\Sigma_{\mathcal{C}}\)とし、\(\sigma(\mathcal{C})\)を以下で定義する。
$$\sigma(\{\mathcal{C}\}) = \bigcap_{\mathcal{F} \in \Sigma_{\mathcal{C}}} \mathcal{F}$$
この\(\sigma\{\mathcal{C}\}\)を\(\mathcal{C}\)の生成する\(\Omega\)上の\(\sigma\)加法族という。
イメージ的には、数あるシグマ加法族の中で部分集合族\(\mathcal{C}\)を含むようなものだけを考えます。そして、その共通部分を取ったシグマ加法族を\(\mathcal{C}\)から生成されたシグマ加法族\(\sigma(\mathcal{C})\)といいます。
また、全ての部分集合を集めた集合族\(2^{\Omega}\)は必ず\(\mathcal{C}\)を含むため、\(\Sigma_{\mathcal{C}}\neq \emptyset\)です。また、シグマ加法族同士の積集合は、またシグマ加法族となります(形式的に示せます!)。そのため、任意の部分集合族\(\mathcal{C}\)に対して、\(\sigma(\{\mathcal{C}\})\)は存在し、一意となります。
ボレル集合族
それでは、ボレル集合族を説明していきます。
定義: (ボレル集合族)
\(\mathbb{R}\)上の区間集合を次のように定義する。
$$\mathcal{I} = \{ [a, b) \mid a, b \in \mathbb{R} \cup \{\pm \infty\}, a <b\}$$
その区間集合に対して、\(\mathcal{B}([-\infty, \infty]) = \sigma(\{\mathcal{I}\})\)を(一次元)ボレル集合族という。
ボレル集合族\(\mathcal{B}([-\infty, \infty])\)は定義から当然 \(\{[a, b) \mid a, b \in \mathbb{R} \cup \{\pm \infty\}, a <b\} \)を含みます。
つまり、ボレル集合族は少なくとも、めちゃめちゃたくさんの区間を含むような集合です!
ボレル集合族の要素を具体的に書き出してみると、\(\mathcal{B}(\mathbb{R}) = \{\emptyset, \{[0.0001, 0.0002], [0.0001, 0.0003], \ldots\}, \mathbb{R}\}\)のようにたくさんの区間が含まれている感じです(ミスリーディングだったらすみません…)
要するに、\(\mathbb{R}\)の部分集合をほとんど含むような集合族です(実は、\(\mathcal{B}\)に含まれない\(\mathbb{R}\)の部分集合も存在するため「ほとんど」と書いています)
また、\(d\)次元のときも一次元のときと同様にボレル集合族を次のように定義することができます。
定義: \(d\)次元ボレル集合族
\(d\)次元の区間集合を次のように定義する。
$$\mathcal{I}_{d} = \{[a_{1}, b_{1}) \times \cdots [a_{d}, b_{d}) \mid [a_{i}, b_{i}) \in \mathcal{I}, i=1,\ldots, d\}$$
に対して、\(\mathcal{B}([-\infty, \infty]^{d})=\sigma(\{\mathcal{I}_{d} \})\)を\(d\)次元ボレル集合族という。
そして、\((\mathbb{R}^{d}, \mathcal{B}([-\infty, \infty]^{d}))\)の組を\(d\)次元ボレル加法族といいます。
確率測度
最後に各事象の出現率を定義するために、なんらかの写像 \(f : \mathcal{F} \to [0, 1] \)を導入します。しかし、可測空間の定義と同様に任意の\(f\)を用いると確率が持つ自然な性質を損なってしまいます。
そのために、以下の性質を要請します。そして、この性質を満たすような\(\mathbb{P} : \mathcal{F} \to [0, 1] \)を確率測度と呼びます。
定義 (確率測度)
\(\mathcal{F} \)上の写像\(\mathbb{P} : \mathcal{F} \to [0, 1] \)が以下の条件を満たすとき\(\mathbb{P}\)を確率測度と呼ぶ。
- (全確率)\(\mathbb{P}(\Omega) = 1\)
- (完全加法性 or シグマ加法性):
\(\forall A_{1}, A_{2}, \ldots \in \mathcal{F}, ~~A_{1} \cap A_{2} \cap \cdots = 0 \Rightarrow \mathbb{P}\left(\bigcup_{i=1}^{\infty} A_{i} \right) = \sum_{i=1}^{\infty} \mathbb{P}(A_{i})\)
確率測度を定義することで、ある事象\( A \in \mathcal{F} \)を確率測度に入力して得られた実数値を『確率(重み)』と定義することできます!
また、\( (\Omega, \mathcal{F}, \mathbb{P}) \)をセットにしたものを『確率空間』と呼びます。
確率測度に対して以下の性質が成り立ちます(興味がある方は証明してみてください)
命題:
確率空間\(\Omega, \mathcal{F}, \mathbb{P}\)上の\(A, B, A_{1}, A_{2}, \ldots \in \mathcal{F}\)に対して以下が成り立つ。
- \(\mathbb{P}(\emptyset) = 0\)
- \(\mathbb{P}(A) + \mathbb{P}(A^{c}) = 1\)
- \(\mathbb{P}(A \cap A^{c}) = 0\)
- \(\mathbb{P}(A) = \mathbb{P}(A \cap B) + \mathbb{P}(A \cap B^{c})\)
- \(\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) ~- \mathbb{P}(A \cap B)\)
- (劣加法性): \(\mathbb{P}\left(\bigcup_{i=1}^{\infty} A_{i} \right) \le \sum_{i=1}^{\infty} \mathbb{P}(A_{i}) \)
事象の独立性
ある事象の独立性は次のように定義されます。
定義: 事象の独立性
ある事象\(A, B \in \mathcal{F}\)が次の条件を満たすとき、\(A\)と\(B\)は独立という。
$$\mathbb{P}(A \cap B) = \mathbb{P}(A)\mathbb{P}(B)$$
確率変数とは
確率空間\( (\Omega, \mathcal{F}, P) \)の根源事象\( \omega \in \Omega \)に対して実数値を与えるような写像を確率変数といいます。
形式的に定義すると以下のようになります。
定義: (確率変数)
確率空間\( (\Omega, \mathcal{F}, P) \)に対して、写像\( X : \Omega \to \mathbb{R}^{d} \)に対して、以下を満たす写像\(X: \Omega \to \mathbb{R}\)を\(d\)次元確率変数という。
$$\forall B \in \mathcal{B}([-\infty, \infty]^{d}), X^{-1}(B) \in \mathcal{F} $$
また、確率変数が満たすべき性質は、測度論の文脈では『\(\mathcal{F}\)-可測性』と呼ばれます。
定義: \(\mathcal{F}\)-可測
可測空間\((\mathcal{X}, \mathcal{F})\)から\((\mathcal{Y}, \mathcal{G})\)への写像\(f: \mathcal{X} \to \mathcal{Y}\)が次を満たすとき、\(f\)は\(\mathcal{X}\)上の\(\mathcal{F}\)-可測という。
$$\forall G \in \mathcal{G},~~f^{-1}(G) \in \mathcal{F}$$
つまり、確率変数は可測空間\(\Omega, \mathcal{F}\)をより扱いやすい実数世界の土台\((\mathbb{R}^{d}, \mathcal{B}([-\infty, \infty]^{d}))\)に変換する写像なのです。
このような変換を施した後は、確率測度への入力はある区間\((a, b]\)となり、扱いやすくなります(積分のテクニックを使用できる等のメリットがあります)
一つ一つの\(\omega \in \Omega\)に対して\(X(\omega)= x\)なる\(X\)の値が定まります。この\(x\)を『実現値』といい一般的に小文字で表されます。
また、実現値全体を\(\mathcal{X} = \{X(\omega) \mid \omega \in \Omega\}\)で表し、\(\mathcal{X}\)を\(X\)の標本空間といいます。
離散型確率変数と連続型確率変数
さらに確率変数は取り得る値によって離散型・連続型確率変数の二種類が定義されます。
定義: 離散型確率変数
加算集合\(\mathcal{X} \subset \mathbb{R}^{d}\)に対して、\(\mathbb{P}(X \in \mathcal{X})=1\)となるとき、\(X\)を離散型確率変数という。
次に連続型確率変数の定義を説明します。
定義: 連続型確率変数
実数区間内で連続的に変化する確率変数\(X\)を連続型確率変数という。
確率変数の具体例
数学的には、確率変数は根元事象\(\omega \in \Omega\)に対して実数値を対応させる関数\(X(\omega)\)であることがわかりました。
しかし、抽象的すぎてよくわからないですよね…
そのため、もう少し具体的な例を使ってイメージをつけていきましょう。
確率変数の具体例
サイコロを振ったときに偶数ならばケーキを食べることができ、奇数ならばケーキを食べることができないというゲームを行います。
まず、ケーキを食べるという事象に1を割り振り、ケーキを食べれないという事象に-1を割り振ることにします。
ここで、確率変数\(X\)を一回のゲームでケーキを食べれるか食べれないかを表す確率変数とします。
このとき、標本空間\(\{1, 2, 3, 4, 5, 6\}\)に対して確率変数の値は以下のようになります。
\begin{align}X(1) &= X(3) = X(5) = -1 \\ X(2) &= X(4) = X(6) = 1 \end{align}
逆写像を考えるとケーキを食べれるか食べれないかに対して以下の関係が成り立ちます
$$X^{-1}(1) = \{2, 4, 6\} \subset \Omega, ~~~X^{-1}(-1) = \{1, 3, 5\} \subset \Omega$$
確率変数の生成するシグマ加法族
確率変数に関しても生成するシグマ加法族が定義されます。
形式的には以下のように定義されます。
定義: \(X\)が生成するシグマ加法族
確率変数\(X\)が与えられたとき、\(X\)の生成するシグマ加法族\(\sigma(X)\)は以下で定義される。
$$\sigma(X) = \sigma(\{\{X^{-1}((- \infty, r])\} \mid r \in \mathbb{R}\} )$$
確率変数\(X\)と\(Y\)が独立が独立であるとは、それぞれの生成するシグマ加法族\(\sigma(X)\)と\(\sigma(Y)\)が独立であるときをいいます。
確率分布(累積分布関数・確率質量関数・確率密度関数)
\(X\)が確率変数の場合、\(B \in \mathcal{B}([-\infty, \infty]^{d})\)に対して、\(X^{-1}(B) \in \mathcal{F}\)であるため、\mathcal{F}上の確率測度を用いて次のような関数\(\mu: \mathcal{B}([-\infty, \infty]^{d}) \to [0, 1]\)を定義することができます。
$$\mu(B) \equiv \mathbb{P}(X \in B) \equiv \mathbb{P}(\{\omega \in \Omega \mid X(\omega) \in B\})$$
この関数\(\mu\)を\(X\)の確率分布と呼ばれます。そして、\(X\)の確率分布\(\mu\)は、\(\mathcal{B}([-\infty, \infty]^{d})\)の確率測度になることが示せます!(証明省略)
一応、以下に定義をまとめておきます。
定義 : \(X\)確率分布
確率空間\((\Omega, \mathcal{F}, \mathbb{P})\)に対する確率変数を\(X\)とする。可測空間\((\mathbb{R}^{d}, \mathcal{B}([-\infty, \infty]^{d}))\)上の確率測度\(\mu : \mathbb{R}^{d} \to [0, 1]\)が以下を満たすとき\(\mu\)を確率分布という。
$$\forall B \in \mathcal{B}([-\infty, \infty]^{d}),~~\mu(B) = P(X^{-1}(B))$$
具体的に\((1, 2] \in \mathcal{B}(\mathbb{R})\)のケースを考えると以下のようになります。
$$\mu((1, 2]) = \mathbb{P}(X^{-1}((1, 2])) = \mathbb{P}(\{\omega \in \Omega \mid X(\Omega) \in (1, 2]\})$$
さらに、ボレル集合族\(\mathcal{B}([-\infty, \infty]^{d})\)上の関数(ある区間の部分集合を引数とする関数)ではなく、\(\mathbb{R}^{d}\)上の関数として確率分布を考えたものが以下の(累積)分布関数です。
定義: 累積分布関数
\(d\)次元確率変数\(X=(X_{1}, \ldots, X_{d})\)が与えられたとき、以下で定義される関数\(F: \mathbb{R}^{d} \to [0, 1]\)を累積分布関数という。
$$\forall x=(x_{1}, \ldots, x_{d}) \in \mathbb{R}^{d},~~F(x) \equiv \mu((-\infty, x_{1}] \times \cdots \times (-\infty, x_{d}]))$$
また、累積分布関数は次の性質も満たします。
命題: 確率分布関数の性質
一次元確率変数\(X\)の分布\(\mu\)と分布関数\(F\)に対して次の性質が成り立つ。
- \(\forall x \le y,~~F(x) \le F(y)\)
- \(F(\infty)=1\), \(F(-\infty)=0\)
- \(\forall x \in \mathbb{R},~~\lim_{y \downarrow x} F(y)=F(x)\)
- \(\forall x \in \mathbb{R},~~\mu(\{x\})=F(x)-\lim_{y \uparrow x}F(y)\)
さらに、この条件を満たすような\(\mathbb{R}\)上の関数\(F\)が与えられたとき、\(F(x)=\mu((-\infty, x])\)となるボレル可測集合上の確率測度\(\mu\)が一意に定まります。
離散型確率変数の分布関数
具体的に離散型確率変数の場合は、\(\mathcal{A}=\{a_{i} \in \mathbb{R}^{d} \mid i=1, \ldots, \}\)に対して、分布関数は次のように定義されます。
$$F(x=(x_{1}, \ldots, ))= \sum_{i: a_{i} \le x} P(a_{i})$$
ここで、\(P(a_{i}) \equiv \mathbb{P}(X=a_{i})\)と定義しました。この関数\(p: \mathcal{A} \to [0,1]\)は確率質量関数と呼ばれます。
連続型確率変数の分布関数
実数区間内で連続的に変化するため、分布関数は連続となります。特にある\(\int f(x) dx=1\)となる非負関数\(f: \mathbb{R}^{d} \to \mathbb{R}\)を用いて
$$F(x) = \int_{(-\infty, x_{1}] \times \cdots \times (-\infty, x_{d}]}f(x^{\prime}) dx^{\prime}$$
と表せるとき、\(F\)は絶対連続型といいます。また、\(f\)を分布関数\(F\)に対する確率密度関数といいます。
参考資料
本記事を作成するために使用した参考資料を紹介します。
参考文献
参考文献を共有します。
統計学への確率論,その先へ: ゼロからの測度論的理解と漸近理論への架け橋
現代数理統計学の基礎 (共立講座 数学の魅力)
統計学の本で一番愛用している一冊です。
確率空間・確率変数の解説も冒頭で行っています。
まとめ
本記事では、確率空間と確率変数についてまとめました。
勉強中のため随時更新していきます。
間違いがありましたらコメントよろしくお願いします。
私がおすすめする統計学の参考書は下記にまとめました。
『Amazon Prime Student』は、大学生・大学院生限定のAmazon会員制度です。
Amazonを使用している方なら、必ず登録すべきサービスといっても過言ではありません…
主な理由は以下の通りです。
- 『Amazon Prime』のサービスを年会費半額で利用可能
- 本が最大10%割引
- 文房具が最大20%割引
- 日用品が最大15%割引
- お急ぎ便・お届け日時指定便が使い放題
- 6ヶ月間無料で使用可能
特に専門書や問題集をたくさん買う予定の方にとって、購入価格のポイント10%還元はめちゃめちゃでかいです!
少なくとも私は、Amazon Prime Studentを大学3年生のときに知って、めちゃめちゃ後悔しました。
専門書をすでに100冊以上買っていたので、その10%が還元できたことを考えると泣きそうでした…ww
より詳しい内容と登録方法については下記を参考にしてください。
登録も退会もめちゃめちゃ簡単なので、6ヶ月の無料体験期間だけは経験してみても損はないと思います。