STDEVP? STDEV?

確率や統計にかかわる者が一度は悩む…否、一生悩む問題が 「標準偏差を求めるときって、STDEV を使うのか STDEVP を使うのか?」でしょう(STDEV や STDEVP は Excel の関数です。念のため)。 この2つの関数の違いは、
  • STDEVP:((データを2乗したものの平均)-(データの平均の2乗))/ データ数
  • STDEV:((データを2乗したものの平均)-(データの平均の2乗))/ (データ数 – 1)
となっていて、教科書には「データ数から1を引くのは、自由度が1つ減ってどうのこうの…」という説明があり、分かったような分からないような…みなさんはこの2つの標準偏差の違いをしっかり理解していますか?

データの分布:STDEVP

こちらがいわゆる普通の標準偏差です。高校まではこちらの標準偏差しか学ばないでしょう。

あるデータが与えられました。データの羅列だけでは特徴はつかめません。そこでデータを集約して特徴をとらえようと考えます。代表的な特徴値としては、
  • データの典型的な値は?
  • データはどれくらいばらついている?
といったところではないでしょうか。データの典型的な値としては平均や中央値、そしてバラツキ度合いが STDEVP で求められる標準偏差です(定義から明らか)。
このように単に与えられたデータの特徴の1つとしての標準偏差が STDEVP です。

データの背後の真の分布:STDEV

1年後の株価を知りたい!これは人間誰しも持つ欲望でしょう。しかし、残念ながら株価は確率的に変動していて正確に知る方法はなさそうです。
株価は確率的に変動する、そして株価の変動(対数収益率)は正規分布に従うというのが一般的な知見です(最近はいろいろと異論があるようですが)。
時々刻々と記録されていく株価の変動は1つの正規分布、つまりある平均 m とある標準偏差 \sigma をもつ正規分布(この2つで正規分布は決定できるというのは常識です)に従っていて、きっと分布の平均 m と標準偏差 \sigma は神様が決めているんでしょう。 われわれにはその平均 m と標準偏差 \sigma を正確に知る術はありませんから、なんとかして推定したいと考えます。

例えば株価の変動を毎日毎日記録していきます。1年ごとにデータをまとめて、それぞれのデータセットの平均 \mu_{i} と “標準偏差” \bar{\sigma}_{i} を求めます。 ここで “標準偏差” \bar{\sigma}_{i}何らかの方法 (具体的には STDEV で求めた標準偏差か STDEVP で求めた標準偏差)に従ったデータのバラツキ具合を表す値です。

結論から言うと、このときの標準偏差は STDEV で求ます。それの根拠は、、、

過去のある1年のデータから”標準偏差” を求めたとします。これは神様が決めた本当の正規分布(無限の過去から無限の未来まですべての株価のデータの分布)からたまたま選んだ300個ほどのデータから求めた”標準偏差” です。これを \bar{\sigma}_1としましょう。 他の1年のデータから求めた”標準偏差” もたまたま選んだ300個ほどデータから求めたもので、これを\bar{\sigma}_2 とします。 当然 \bar{\sigma}_{1}\neq \bar{\sigma}_{2} となっていることでしょう。どの1年のデータを持ってきても、そこから求められる “標準偏差” はデータセット毎に異なる値になります。
こうして幾つかのバラバラの値の”標準偏差” \bar{\sigma}_{i} が得られました。

まとめると
  • 本当の標準偏差 \sigma は絶対に知りえない
  • 観測から得られた \bar{\sigma}_{i} はばらついている
です。そこで

ばらついている \bar{\sigma}_{i} の平均が本当の標準偏差 \sigma になるようにしよう

という指針を採用します。
すると、STDEVP で求めた標準偏差はこの指針に従わないことが示され、STDEV の定義式で求められる標準偏差こそが新の標準偏差の推定値としてふさわしい(この指針を満たしている)ことが分かります!(細かい計算は適当な教科書を見てください)

結論:
  • データそのもののバラツキ具合:STDEVP
  • データの抽出元の真の標準偏差の推定値:STDEV
ということです。

サンプルエクセルシート

Stdevp_Stdev.xls
ダウンロード

真の分布は 平均 3(セル B1)、標準偏差 2(セル B2) の正規分布です。
そして、この分布からたまたま選んだ10個(C列からK列)のデータセットが全部で10,000セット(5行目から10004行目)あります。 そして各データセットの STDEVP(L列) と STDEV(M列) が計算されています。
STDEVP の平均(セル C2)と STDEV の平均(セル D2)を比較してみてください。STDEV の方が真の分布の推定値にふさわしいことが分かります(もっともっとデータセットを用意すれば STDEV の平均は真の標準偏差に近づいていきます)。
 

他のNewsも見てみる

Comments are closed.