2017-09

目次

≪ 統計のお話3 ALL テイラー展開の世界⑤ ≫

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

統計のお話4

前回の話題は z = x+y という式で表されるzについて知りたいとき、xとyの値が何らかの実験で次のようにわかっています。zについての誤差はどうしますか?という事でした。

x = 1.20±0.031
y = 0.99±0.05

まず、この誤差がどんな誤差なのか分からないと本当は話にならない筈です。xの誤差±0.031というのはどういう誤差なのでしょうか。このことを明記してなかったので、これは問題不備でした。

誤差は大別すると偶然誤差(=統計誤差とも呼ぶ)と系統誤差があります。統計誤差の方が私的にはしっくりくるので、以後、偶然誤差は統計誤差と呼ぶことにします。偶然誤差は、偶然的に生じる誤差です。もっというと測定のたびにランダムに入ってくる誤差です。系統誤差は、測定量の真値から一定の傾向でずれる誤差です。系統誤差は通常誤差の原因が良く分からないもの、または原因は特定できてもそれを取り除くことが出来ない場合が殆どです。実際には系統誤差と統計誤差の区別さえも微妙かもしれません。

例えば、長さの測定において1mmまでのメモリがある物差しを使い、測定者がメモリを読みあげるような測定を考えます。測定対象に物差しを当てるときに、メモリのゼロの位置がずれるかもしれません。このような誤差でAさんは実際の長さよりも測定値が+0.5mm程度ずれる傾向にあったとしましょう。これはAさんに測定をお願いする限り常に付きまとう誤差で、系統誤差です。しかし、測定者を100人集め、同じ測定をしたらどうでしょうか。人は様々です。ある人はメモリのゼロの位置のずれによって常に-0.5mmの誤差をだす傾向にあるかもしれません、または-0.2mmとか。しかし多くの人を集め同じ測定を繰り返すことによって、この誤差はランダムな誤差として取り扱えるかもしれません。
こうなるとこれは統計誤差です。

統計誤差は測定の繰り返しによって、その影響を取り除く事が可能なものです。系統誤差は常に同じ傾向で値がずれるために、測定を繰り返してもそのずれはを補正することができません。まあ大体こんな理解で良いと思います。 さて本題に戻って

x = 1.20±0.031
y = 0.99±0.05

の誤差は統計誤差でしょうか、系統誤差でしょうか。これが系統誤差の場合どうやって和の誤差を評価するのか、私は知りません。一般論はないような気がします。そのような場合は、

(1.20+0.99) -0.031 -0.05 < x + y < (1.20+0.99) +0.031 +0.05

と取っておけば一先ず安心でしょう。つまり x + y = 2.19 ± 0.081 でしょうか。誤差の最後の桁にはあまり意味がないと思われるので ±0.081でも良いと思います。(もっと良い方法あるんでしょうか?)


さて、誤差が統計誤差である場合はその取り扱いは統計学に基づいて処理されるべきです。その場合には誤差は2乗平均するのが正しい操作です。

x + y = 2.19 ±√(0.0312+0.052) = 2.19± 0.059

そもそも統計誤差には数学的な定義が存在します。しかし、系統誤差にはそのようなものはないので、和の誤差がどうなるかという問題に数学的な答えはないといえるでしょう。詳しくは次回以降ゆっくりとみてゆきますが、ここでは何故2乗平均をとったか軽く説明しておきます。

先ずx、y統計的な誤差がつく量ですから、これらは確率変数であるとします。つまり∫dx f(x) = 1なる確率分布関数f(x)が存在して,xの取りうる値はこの分布関数に従うとします。xの測定を行うと,その平均値は

μx ≡ < x > = ∫ xf(x) dx

となります。このμがxという真の値でしょう(補足)。しかし、この平均値という量は無限回の測定に対する予言です。実際の値はこの平均値のまわりに揺らいでいます。どのくらい揺らいでいるかという指標は分散σxで与えられ、

σx2 ≡ < (x-μ)2 > = ∫(x-μ)2 f(x) dx

そして、統計誤差として示されている数値は、このσです(正確には少し違いますが詳細は次回以降)。さて、それでは z = x + y というのは二つの確率変数x, yを足した新たな確率変数です。このzの平均値は

μz = < z > = < x + y > = < x > + < y >

となって二つの平均値の和です。それではzに対する分散はどうでしょうか。それは

σz2≡< (z - μz)2 >
= < ( x + y - μz )2 >
=< ( x + y )2 > - 2 < x + y >μz + μz2
=< x 2 > + < y 2 > + 2< x y > - 2 μz2 + μz2
=< x 2 > + < y 2 > + 2< x >< y > - μz2
=< x 2 > + < y 2 > + 2< x >< y > - μz2
= ( < x 2 > - < x >2 ) + (< y 2 > + < y >2)
= σx2 + σy2

となり、分散は二乗和されることが分かります。


まあ、こんなものでは納得できないでしょう。もっと直観に訴える説明が欲しいと一週間程考えましたが、結局はこの式にもどってしまいました。それでももう少しましな説明が出来そうなきがするので、それを次回からゆっくりとやっていきたいと思います。

しかし、それまで待てないという人もいるでしょうから、ガウス分布を仮定した場合に少しだけ説明すると、

x = 1.20±0.031
y = 0.99±0.05

の意味は、確率変数xとyは大体1.20と0.99に中心があり、その周りにガウス分布の裾が0.031、0.05だけ広がったような分布だということです。その場合にxの値を測定すると大体1.20になるが、ごく稀に 1.20+0.31 とか 1.20-0.31とか少し中心値から外れた値もでるでしょう。しかしそれは稀です。yに関しても同様です。そして z = x + y という和を考えると z = 1.20 +0.99 となる場合が殆どですが、z = (1.20 + 0.031) + 0.99とか, z = 1.20 + (0.99+0.05)とか一つの変数だけ値が中心からずれる場合が少しあります。 しかしz = (1.20 +0.031) + (0.99 +0.05) という二つの変数とも中心値より大きく値がでることは稀の稀となるでしょう。 そんなわけで z という変数の広がりは実は x と yの広がりを単純にたすよりは小さいという事が直観的に分かります。 多分。 
これで納得出来てしまった人は殆どいないと思いますので、次回にもう少ししっかりした説明をします。

コメント

返事

はい、俄僅さんの言うとおり統計誤差というのは、通常x=μ ±σという形にかきますから。

「真の値xが μ-σ < x < μ+σ の間にはいっている確率が約70%の確率(ガウス分布から推定)である」

という意味だと思います。 系統誤差はそういった何パーセントがないので、値を出した人の感覚を信頼するしかないのだと思います。良識的には系統誤差は「これ以上の系統誤差は絶対ない」という範囲に取るのが良いと思います。つまり統計誤差は実は70%の確率ですから、30%くらいで値が実は違っていたということもあり得るわけです。

しかし統計誤差には数学的な定義がありますから、だれが計算しても同じような値がでてきますし、統計誤差を見て、その誤差を3~5倍して、これなら絶対安心だろうという範囲を推定することも可能なわけです。だからまあ、絶対という意味で誤差をつけるんなら統計誤差をいつも3倍くらいして計算に使うとかするんでしょうね。

ありがとうございます。

私は先に
>2.19+○○ と 2.19-○○ の間に真の値が入ってるんじゃないの?という理由です。
と書きましたが……
「2.19+○○ と 2.19-○○ の間に、真の値が△△%の確率で入っている。
 △△はx,yにも共通する定数だが、値は不明である。○○はいくらか?」
という観点で考えるということでしょうか。

ゆっくり読み直したいと思います。

コメントの投稿

管理者にだけ表示を許可する

トラックバック

http://letsphysics.blog17.fc2.com/tb.php/495-fc6b5c33

«  | HOME |  »

CATEGORIES

RECENT ENTRIES

RECENT COMMENTS

RECENT TRACKBACKS

APPENDIX

アトム 

アトム 

趣味   近所散策と物理

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。