Hypergeometric-distribution 超幾何分布(ちょうきかぶんぷ)とは?
Hypergeometric Distribution は Binomial Distribution と良く似ています。しかし以下の点が違います。
- Trial(試行)が独立していない。
- 確率が試行ごとに違う。
トランプカードの例
トランプカードの例を使って考えてみます。
試行が独立している場合
トランプのデッキから1枚カードを引いて絵札を引く確率は?
- トランプカードの総数:52 枚
- 含まれる絵札の総数:12 枚(Jack,Queen, King)
で確率は 12/51 で約 23%です。
次にその引いたカードをデッキに戻して、また絵札を引く確率は同じく 12/52 です。 なぜなら引いたカードをデッキに戻してリセットされた状態だからです。 試行が独立していて、確率が試行ごとに違うということはありません。
では、もし引いたカードをデッキに戻さずにもう一度引いた場合はどうなるでしょうか?
試行が独立せず、確率が変わる場合
トランプからカードを5枚引いて、2枚の絵札を引く確率は?(カードをデッキ戻すことなく)
この場合カードを引き戻さないのでカードの総数は二枚目か減ります。
さらに、もし絵札を引いたらデッキに含まれる絵札も 12 枚から 11 枚にかわります。カードを引くごとに確率はかわり、試行が独立していません。
EXCEL で HYPERGEOMETRIC DISTRIBUTION
上記のトランプの例のような確率計算は大変複雑です。けれど Excel を使えば簡単に答えを求められます。
Excel Function: Hypergeometric Distribution =HYPGEOM(x,n,population_s,number_pop,cumulative)
Excel の関数=HYPGEOM を使い下記の必要な情報を指定します。
- x: Sample の成功の数: Discrete Random Variable x
- n:Trials 試行の回数:Sample Size
- Population_s: Success 成功が Population にどれだけ含まれているか
- Number_pop: Population の数:総数
- Cumulative: 0=False :成功の数がちょうど x 個の時 : 1=True :成功の数が x 以下の時
=HYPGEOM.DIST を使ったトランプカード例
ではもう一度例題のトランプからカードを5枚引いて、2枚の絵札を引く確率は?(カードをデッキ戻すことなく)
- x: 2:2 枚の絵札を引く
- n: 5:全部で5枚のカードを引く
- Population_s: 12 絵札は全部で12枚ある
- Number_pop: 52
- Cumulative: 0: ちょうど2枚の絵札を引く確率
=HYPGEOM(2,5,12,52,0)=0.2509
となり答えは約 25.1%の確率ということがわかりました。
HYPERGEOMETRIC DISTRIBUTION 例2
トランプばかりの例でもおもしろくないので別の例を紹介します。
ドラマ『半沢直樹』の3話目でこんなシーンがありました。主人公「半沢直樹」の邪魔をするために、大阪西支店で仕組まれた裁量臨店が行われました。
裁量臨店とは、銀行本部から人を送り融資を行っている会社に業績不振などがないかをチェックし銀行支店が適切な融資を行っているかチェックを行う監査のようなものです。支店が融資している会社すべてをチェックすることは大変労力が必要です。通常はいくつかの会社を無作為に選んでチェックします。
もし、裁量臨店の結果が好ましくなければ半沢直樹は都合の悪い立場に追い込まれます。
しかし、ドラマの中での裁量臨店は悪意により仕組まれたものでした。
選ばれた会社はすべて業績不振で赤字の会社だったのです。
西大阪支店では融資先の7割が成績優良であるのに、選ばれた会社は残り3割の業績不振の会社ばかりでした。
この結果に半沢直樹は、本当に無作為に選ばれたものか?もしくは悪意があって故意に選ばれたものでないかと本部からの追求に疑問します。しかし、仕組んだ側の人間たちはこれは公平に選ばれたものだと主張します。
この場合、本当に無作為で選ばれた会社すべてが業績不振である確率とはいったいどれくらいだったのでしょうか?
Hypergeometric Distribution
Hy
pergeometric Distribution を使って見てみましょう。
例:融資している会社 10 0社のうち 3 0社が業績不振 (7割は成績優良)だとします。
裁量臨店ではそのうち10の会社を無作為に選びます。その10社すべてが業績不振である確率は?
- x=10: Success の回数 10 社が業績不振
- n=10: 10 社選ぶ
- Number_s:30 30 社が業績不振
- Population_s:100:融資している会社の総数
=HYPGEOM.DIST(10,10,30,100,0)=約 0.0001736%
答えは約 0.0001736%です。
文字通り万に一つもない奇跡のような確率ですね。無作為でなく悪意をもって故意に選ばれたのは確実でしょう。