2017-09

目次

≪ 統計のお話1 ALL 統計のお話3 ≫

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計のお話2

データー解析で使う基礎的な統計学の知識をまとめておきたい思いこの記事を書き始めたわけですが、随分と昔に勉強したことだったので、なんだかいろんな事を忘れています。昔は中心極限定理とかを学んで、それから具体的な応用へ進んだような気がしますが殆ど忘れてしまいました。確か物理実験でデーター処理をする必要に迫られて、平均値の出し方や誤差の評価などを学び、深い理解もないまま応用していった記憶があります。そういった基礎的なことをなるべく分かりやすくまとめたいと思います。なので、基礎的な概念の簡単な説明をして、すぐに平均値の取り方、標準偏差の評価、重み付き平均などの説明をしたいと思います。実用的な事が知りたいだけの人には良い内容じゃないかと思いますが、数学的な厳密さが気になる人は統計学のテキストをまじめに勉強することをお勧めします。


さて、これからガウス分布に始まりガウス分布に終わるというくらい、ガウス分布についての、かなり限定された話をします。理由はいろんな場面でガウス分布が出てくるからです。その典型として、何かの値を測定してデーターから尤もらしい値を引き出すことを考えます。こういった場合、我々が測定しているものには、「真の値」が存在するものと予め仮定されます。そして、測定はその「真の値」を知るための実験だというわけです。「真の値」が存在するのなら何故すぐにその値が分からないのか、それに関しては様々な要因があるでしょうが、普通は測定のための誤差や我々の知識や情報が限られていることによっています。または真の値も何らかの要因で揺らいでいる場合もあり得るでしょう。



具体的な問題設定をしましょう。私たちはxという量を測定したいとします。例えば机の高さであったり、部屋の温度だったり、そういったものです。これらの量は我々の測定技術の未熟さからなかなか正確な値が分からないものです(またはxそのものが揺らいでいる場合もあります)。兎に角実際に長さや温度を測ってみると、測定のたびに値が多少変わりませんか? 普通変わりますよね。 ここでは測定値の違いは測定誤差であるとしましょう。測定誤差には様々な要因がありますが、ここではそのことについては深く考えません。これは大事な事ですが、一通り話が終わった後に再考するというのが説明の都合上良いのではないかと思います。


さて測定値ですが、多くの場合真の値のまわりにばらつくものです。そして、このばらつき具合が何らかの確率法則に従う事が多いです。その確率法則としてガウス分布を仮定しましょう。何故ガウス分布かという疑問はもっともですが、私も完璧な答えは知りません。これは誤差の原因とも関係した話ですが、このシリーズの最後の方で中心極限定理に絡めて多少調べてみたいと思います。さてガウス分布というは、正規分布とも呼ばれ次の関数で表されるものです。

P(x)= [1/√(2π)/σ] exp(-(x-a)2/(2σ))

ここでXやσは測定量xによっていますが、なんらかの定数です。下の図はX=0の場合のガウス分布でσの値を変えた場合にガウス分布がどう変わるかをしめしたものです。




ガウス分布は変数xに関する確率分布でxの値について(-∞,+∞)で積分したときに1になるように規格化されています。確率分布の意味はxに関する測定値が(a,b)の領域に入る確率を

(測定値が a≦x≦ b となる確率) = ∫(a,b)dx P(x)

という式で与えます。この積分は解析的に計算できないので数値的に評価されます。上の図を見比べてください。P(x)はx=0でピークを持っています。σ=0.1の場合はそのピークは非常にシャープで、σを0.2、0.4と大きくしてゆくと緩やかな山の形に変わってゆきます 。P(x)のピークがゼロにあることは測定値xの値が大体ゼロになる確率が高い事を意味しています。σを大きくするとピークが鈍ってきますが、これは測定値がx=0からずれた所に来る可能性が増えることを意味しています。これらの事は数式では


< x > = ∫(a,b)dx x*P(x) = X

< (x-X)2 > = ∫(a,b)dx (x-X)2 *P(x) = σ2

と表されます。最初の式< x > = ∫(a,b)dx x*P(x) は変数xに関する平均値の定義です。そして右辺の値Xが、xの平均値を与えています。上の図ではX=0でした。2番目の式では < (x-X)2 > = ∫(a,b)dx (x-X)2 *P(x) は(x-X)2に関する期待値で、それはxという変数がXの周りからどのくらいずれるかに関する目安を与える量です。ですから右辺のσ2がxの測定値がXの周りに広がる指標を与えます。


良く測定値の誤差や、データー解析の結果を A = 0.102±0.003のように書いてあったりしますが、これはAという量の測定平均値が0.102であって、その誤差±0.003はAの真の値が 0.102 - 0.003 < A < 0.102 + 0.003 くらいだろうという意味です。この場合0.003がσの値です。さて、この結果にどれくらいの信憑性があるでしょう。つまり、本当にAの真の値は 0.102 - 0.003 < A < 0.102 + 0.003 に収まっているのでしょうか。それを知るには、ガウス分布の確率関数から測定値が1σの範囲に入る確率は70%くらいであるという事を知っておくと大体の雰囲気はつかめるでしょう。単純には、結果を発表した人の自信度は70パーセントなのです。まだ30%も不安があるともいます。
もしくは、この実験方法(またはデーター解析)では100回測定のうち70回はこの範囲に収まるが、30回はこの範囲外のデーターもあったという事です。このように結果の数値0.102は絶対的に正しいというわけではありません。
下にそのことを説明した図があります。x=0の周りにガウス分布している場合の1σの領域が塗りつぶされています。図を見ても分かるようにこの領域に収まっていない面積も相当にあります。そういった場合σ=0.003を4倍して4σの領域をカバーすれば、もっと安心です。よって A=0.102±0.012 とすると(0.012は4σの誤差)かなりに信頼性が高いです。覚えておくと良いかもしれませんが、1σ, 2σ, 3σ, 4σ,5σ の領域は 68%, 95%, 99.73%, 99.99, 99.9999%の領域をカバーします。4σは99.99と、4っつ9が並びます、5σは99.9999と6つ9が並びます。なので、すごく精度が要求される値では1σ程度で誤差を考慮していると結構な確率で間違いを犯すことになります。

seikibunpu-2.png

コメント

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://letsphysics.blog17.fc2.com/tb.php/492-b01b9fde

«  | HOME |  »

CATEGORIES

RECENT ENTRIES

RECENT COMMENTS

RECENT TRACKBACKS

APPENDIX

アトム 

アトム 

趣味   近所散策と物理

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。