検定

■仮説

コインを5回投げて5回連続表が出たときに、そのコインは本当に2分の1の

確率で表裏が決定するのか。

このときに、かたよっていないという仮説を立てて考える。

この場合かたよっていない確率は3%になります。

この確率をもっと少なくするため(仮説をより精度高く検証するため)には

試行回数を増やすと良い。

例えば6回続けて表が出るのは1.6%

7回続けて表が出るのは0.8%となり

7回までいくとこのコインは2分の1で裏表が決定されないと

直感的に予測できるようになってくる。

 

■危険率

5回投げたときにかたよっていない確率は3%になるが

この3%に実際に該当する場合がある。

この確率を危険率という。(または有意水準という)

検定というのは絶対に間違っているということは言えず

危険率3%でかたよりがあるという形になる。

 

■帰無仮説

検定は、主張したことと反対の仮説を立てる。

無に帰することを予定してという意味で

この仮説のことを帰無仮説という。

5回連続でコインが表が出る場合、一般的にこのコインは

偏りがあると思われるので、帰無仮説を立てる場合

このコインはかたよりがないと仮説を立てることになる。

仮説が正しいとして、実際に起こった事象の確率を計算する。

もしこの確率が非常に小さければ仮説からすれば

起こるはずのないことが起こったことになり、仮説は

間違っていると判断せざるをえない。

このとき、仮説は「棄却される」という。つまり無に帰した。

 

■危険率2

危険率はあらかじめ決めておく。

危険率の数値は検定する目的に応じて異なる。

ズバリこれだというものは決められないらしい。

一般には1%または5%を使うことが多い。

仮に危険率を5%と決めると、コイン5回連続表がでる

確率は3%であり、仮説は棄却されます。

1%にすると棄却されないことになる。

 

 

 

 

推定2

今までの投稿を見直すと何書いてあるかわからないところが

ちょくちょくあるので、まだ理解度は低いんだろうなぁという

印象。実際に手を動かしてやってみないと理解は低いかも。

目標は週一以上で投稿することだが、理解をすすめるという意味では

実際にやってみるみたいな目標がいいのかもしれない。。

 

■点推定

前回からの続きですが、視聴率を600台の標本中99台が見ていたという

データから推定し、視聴率p=99/600=0.165とする。

視聴率をズバリ1点標本の視聴率で推定するので点推定と呼ばれるらしい。

しかしこの推定は標本数の大小が考えられていない。

 

区間推定

幅をもたせた推定。

計算式を書くのが非常に面倒なので省略…

95%の確からしさ(分布の両端から2.5%ずつを取り除くこと)で

推定するとき、

X-1.96σ≦m≦X+1.96σと表せる。

1.96は分布の端から2.5%を除いたときの標準偏差分布の値。

Xは99台。mは600p、σは9.09なので、

0.135≦p≦0.195と推定できる。

このような推定を区間推定という

この不等式が成り立つ確率95%のことを区間推定の信頼度という。

また、0.135から0,195は信頼区間と言われます。

まとめると信頼度95%で視聴率は13.5%から19,5%の間にあることが推定されました。

 

文章は短いですが、裏でなんでだろうというので

色々振り返ってるので結構時間がかかりました。

次は検定の話です。最終章らしいので次の本見つけるか

違うアプローチをするか考えないと。

 

 

推定

一部分から全体を推定する話

 

■部分から全体を推測する方法

例えば、成人男性の平均身長を求めるときに

全員を調査するのは時間がかかる。

時間がかかると調査したデータの価値もどんどん

なくなっていく。

なので、一部の人を選び出し全体を推測することが

行われている。

 

■母集団

調査の対象となる者

 

■標本

母集団から取り出される一部のもの

 

・すべてを調査するのが難しい例

1 母集団の数が非常に多い場合

2 缶詰の品質調査のように、母集団はさほど多くないがすべて

調査することが不可能な場合

3 来年の完全失業率のように、未来に起こるため

現時点では調査が不可能な場合

 

■視聴率

テレビの視聴率。

視聴率は全体のテレビ台数のうち対象の番組を見ているテレビの割合。

しかし全てのテレビを調査することは

数が膨大で難しい。まぁ今ならできる気がしないでもない。

 

■標本調査

一部について抜き出して調査すること。

どのぐらい抜き出すかが問題になってくる。

少なすぎず、多すぎずな標本数を導き出す

論理的根拠を示してくれるのが推定です。

 

■標本の数は600

1997年の古いデータだが、

当時の関東の世帯数は1455万世帯となっており、

標本の数は600らしい。少ない。

 

■推定

1455万台のテレビの中から、標本を600台を選び

ある番組Mの視聴状態を調べたところ99台がこの番組を

見ていたとすると視聴率は何%と推定されるか。

1455万台のテレビの中からでたらめに1台を選んだとき

番組Mを見ている事象をAとすると、

この時Aが起きる確率は視聴率pに等しいと考えられる。

そして600台の標本をでたらめに選んだときに事象Aは

独立で確率はpであるとします。

なので600回の独立試行で、事象Aがr回起きる確率といえ、

以下のように表せる。

 

P=(X=r)=600Cr * p^r * (1-p)^(600-r)

 

これは以前学んだ二項分布です。

したがって平均mと標準偏差σは

平均m=600p、標準偏差σ=√600p(1-p) となる。

分布

そろそろ、数式とかグラフが重要になってきて

文字だけで書くのが辛くなってきた。

 

■場合の数

答えが〜通りになるやつ

5人の中から順序を考えないで、3人を選ぶときに何通りあるか

という問題。

順序を考える場合と、考えない場合の違いを理解することが重要

 

■順序を考える場合

5人から3人を選ぶ場合、

5人×4人×3人=60通り

 

■順列

異なるN個のものから、R個取って並べる方法は

N個からR個とる順列と呼ばれる

その総数はnPrと表す。

 

■順序を考えない場合

N個の中から、順序を問題にしないで、R個のものを

選ぶ組み合わせの総数のことを nCrと表す。

 

■二項分布

事象Aが起こる確率をp、起こらない確率をqとして

この試行をn回繰り返したときに事象Aが起こる回数を

表す確率変数をXとするとX=kとなる確率は

 

p(X=k) = nCk*p^k*q^n-k と表せる。

 

nを大きくしていくと山なりのグラフになる

nを非常に大きな数にすると正規分布に近づく

 

正規分布

数式が出てきたが、記載しにくいのであきらめる。

確率変数Xは平均m、標準偏差σの正規分布に従うみたいな感じで言える

N(m,σ)と表せる。

誤差分布とも呼ばれる。

 

正規分布は、平均と標準偏差が分かれば、値が決まる。

このような連続的な確率分布を表す関数を 確率密度関数という。

かんたんに、密度関数ということもある。

 

■変曲点

正規分布確率密度関数は平均mを中心に左右対称になっている

平均から右へσ、左へσいったところに変曲点がある。

これは曲線の凹凸の変わり目を示す点

 

■3シグマ範囲

正規分布のほとんどの事象は3シグマ範囲内に入る。

m±σの間の面積は68.26%

m±2σの間の面積は95.44%

m±3σの間の面積は99.73%になる。

 

■標準正規分布

これも、ややこしいのしょうりゃく。

これを用いての確率の求め方は簡単でやや感動した。

実際に使うとなると、正規分布していることが前提になっているので

実際はそういうの無いよねみたいなことになるのだろうか。

分布データをもとに正規分布と仮定して平均と標準偏差をそれっぽく

出してくれる方法もあったりするのだろうか。

 

きょうはここまでで、次は推定の章。面白そう。

 

確率の用語編

今日は確率の第三章 確率の基礎です。

 

■標本点

コインを投げたとき結果は表か裏かしかない。

このときの起こりうる個々の結果を標本点という。

 

■標本空間

標本点の全体の集合、標本空間はΩで表される。

今回の例だと Ω={表、裏}になる。

よくわからない。

 

■事象

標本空間に含まれる集合のこと。起こりうる事柄のこと。

コインの例だと、φ、{表}、{裏}、{表、裏}

になる。φは標本点を1つも含まず決して起こらない事象。

いや、起こりうる事柄のことじゃないんかい!

{表、裏}は標本空間に一致し、全事象とよばれるらしい。

全体的によくわからない。

 

■和事象

事象Aと事象Bのうち少なくとも1つがおこる事象は

事象Aと事象Bの和事象になる。

例えば、A={2、4、6}B={1,2} の場合

AとBの和事象であるA∪Bは {1,2,4,6}となる。

これは高校らへんでやったやつだ。

 

■積事象

同様に事象Aと事象Bの同時に起きる事象は

AとBの積事象といい、A∩Bで表し、{2}となる。

 

■余事象

事象Aが起こらないという事象をAの余事象といい、

サイコロで例えばA={2、4、6}の場合 A(Aの上に横線)={1、3、5}となる。

 

■確率

事象Aの起きる確率はP(A)と書かれる。

確率は英語でPROBABILITYなので、その頭文字らしい。

P(A)の取る値は0から1の間。

サイコロの場合を考えると、全事象Ωはあれです。

これの標本店の個数は6個。

事象Aを偶数の目が出るとすると、標本点の個数は3。

この時事象Aの起きる確率は

P(A)=偶数の目が出る確率=事象Aの標本点の個数/全事象の標本店の個数

= 3/6 = 1/2となる。

 

■平均から標準偏差の差

サイコロの場合、標準偏差は1.71になります。

これは平均3.5からのばらつきを表している。

出たの目の平均が3.5からプラスマイナス1.71以内に

なる確率が高いことがわかる。

 

 

統計学の用語

今週も先週と同様に用語を書いていきます。

最低週一でやっていますが、もっと頻度高めたいですね。。。

 

■レンジ

あるデータの最大値から最小値を引いた値。

データのばらつき具合を表すのに使える

ただ1つの異常な値のデータで大きく変わってしまうので

使われることはあまりないらしい。

まぁそりゃそうかという感じ

 

■偏差

データと平均の差。

それぞれのデータの偏差の和は0になる

つまり、偏差でもデータのばらつき具合はわからない。

 

■平均偏差

偏差の絶対値の平均。

絶対値でないと、和は0になるが絶対にすることでこれを無くしている。

しかし数学的に扱いづらいらしいので(微分がデキないなど)

実際に平均偏差が用いられることはほぼないらしい。

用いられないの多すぎ。

 

■分散

偏差の2乗の平均。

分散でも、分布のばらつきの程度を表す値として適当だが

実際には分散の平方根を取った値を用いることが多い。

 

標準偏差

分散の平方根を取った値。

 

ここで第2章は終わり。

次は確率の章ですが、あんまり使わなそう。

しかし一通りやってみたいと思います。

冒頭にも書きましたが、もうちょっと更新頻度を上げたい。

 

統計学の用語編

人のために書くというよりは、自分の理解のためなので

わかりにくいかもしれないけど、箇条書きとかメモっぽい書き方で

一度書いてみます。いろいろ試します。。

 

■階級

使ってはいるが、こういう言葉だったのかという感じ

ある数値ごとに区切るときの値。

例えば給与が10万、20万、20万、30万、35万の人がいるときに

10万ずつの階級に区切って考えましょうという話

 

■度数

階級に属するデータの数。

上記の話でいうと、10万が1、20万が2、30万が2ということ

 

■相対度数

それぞれの階級の度数を度数の合計で割った値。

パーセンテージということなんですかね

上記の話でいうと10万が0.2 20万が0.4 30万が0.4

 

■度数分布表

階級と度数を表にしたもの

 

■階級の幅

例えば5万以上15万未満のようなA以上B未満で区切った階級について、

AとBの差であるA-Bを階級の差という。

多分使わない。会話の中で「これの階級の幅って問題ないかな?」

というとデキる感じを出せるかもしれないぐらい。

5万以上15万未満の階級の幅は10万

今回だと10万ごとにデータを区切っているので

0-10万、10万-20万、20万-30万となり

階級の幅は10万です。

 

階級の幅はデータ似合わせて取るべき。

上記の例で階級の幅を100万にすると度数は0から100万の部分だけに

存在しよくわからないデータになる。

階級の幅を5万にすると度数が0な階級が増えて

ヒストグラムにすると見にくい。

 

■階級値

各階級の最大値と最小値の合計を2で割ったもの

5万以上15万未満の階級であれば15+5/2=10万

 

ヒストグラム

またの名を柱状グラフ

文章で表すのは難しいですが、

階級に対して度数を棒の長さで表すあれです。

 

■代表値

あるデータを代表する値、

平均値、中央値、最頻値など。

 

メジアン(中央値)

 

これは知ってた。データが奇数の場合は数値を順に並べたときの

真ん中の値、偶数の場合は真ん中の2つの値の平均値

この偶数と奇数の定義の違いはあまり重要ではない感じはしている

定義の問題。平均給与で飛びついて入社して中央値で絶望する

みたいなときに使えるワード

 

■モード(最頻値)

並み値ともいうらしい。

もっとも度数が多い階級値。

 

こういう書き方だと書きやすくていいですね。

今後もこの感じで進めていきたいと思います。