目次 |
次元とは
:1次元データ
:2次元データ
要するに考えているデータの組
統計の二つの方法
詳細はプリント
ポイント:
単峰か? No→複数の現象が影響しているので、適当に標本を限定して単純化する。(例、寿命と年齢の関係における男女)
↓Yes
中心(モード)
↓
歪み:右に歪んでいる(右に裾野が広がる)
↓
はずれ値の有無
すなわち、メディアンの値を境にヒストグラムの左右の面積(標本の数)は等しくなる。
全てのデータを数直線上に置き、すべての点からの距離の和が最少となる値。
定理
与えられたデータに対して、関数を次の様に定義すれば、 これはにおいて最小となる。
証明
とおく。であることに留意する。 が得られ、で最小となることがわかる。
右に歪んだ分布では
左右対称の分布では
この値は数値解析には大きすぎるためデータ解析には用いられないが、数学的な考察をする際は頻繁に用いられる。 この式の意味は、平均からの各標本の距離の平均値である。 また、最小2乗値により、平均からの距離を取ることには妥当性がある。
この値は主に、データ解析に用いる。特に後に述べる標準化という操作と組み合わせて用いる。 さらに重要な性質
の範囲に95%のデータが入っている。
また、で表わされる区間のことをkシグマ区間という。
参考に最下部の添付ファイル 1.pngを参照せよ。
標準化とは、各データを適当に一次変換をほどこすことで、平均を0、標準偏差を1にし、異なるデータ群でも、容易に比較ができるようにすることである。すなわち、例えば、ヒトの身長のデータは平均はせいぜい170程度、標準偏差も2桁以下となるが、日本人の平均預金のデータではそれよりはるかに大きな平均、標準偏差になる。ところが、このままでは標準偏差を見てもいったいどれほどデータがばらついているのかわからない。そこで標準化を施す。数学的な記述は
あるいは
このことは、 定理
において 1. 2.
によって確かめられる。
さらに、それぞれの証明は、
証明
1. 2.
ある2次元データについて、たとえば、横にx軸、縦にy軸を取って、各データをプロットしたものを散布図という。
散布図を見れば、xとyの相関は主観的には容易に想像が着く。しかし、実際どれほどの相関があるのかを客観的に調べるために次のような指標を用いる。
この式の意味は、x、yの平均からの偏差積の平均値である。読み方としては、
のとき正の相関 のとき負の相関
となる。ただし、単位が元のデータにそろっていないし、xとyの因果関係までは説明していないことに注意。
この式の意味は、xの標準化とyの標準化の積の平均値である。読み方としては、
のとき正の相関 のとき無相関 のとき負の相関
となる。これは無次元量で、値が常にの間にあるため、異なるデータ間での比較も可能である。 また、となるとき、すべてのデータが同一直線状にある。これはコーシー・シュワルツの不等式で導ける。
これは、2次元データが実際に、どういう相関関係にあるのかを調べるためのものである。簡単にいえば、すなわち、すべてのデータから近いような直線(回帰直線)を探すのである。 すべてのデータyは、
によって表せる。このときdを誤差項という。また、a,bは回帰係数と言う。
すなわち、が最小となればよい。
上の式を変形して、
なので、
が最小となればよい。
これを展開すると、
なので、
これが最小となるのは、
のときで、つまり、
となる。
定義などの基礎的なことはめんどくさいので割愛する。事象Aが起こる確率をなどと表すこととする。全事象をと表すこととする。
事象Bが起きたうえでの事象Aが起きる確率をと表す。
を互いに排反とする。また、とする。
確率変数そのものの説明はめんどいのでしない。たぶんみんなわかるでしょ?ただし、確率変数の定義には、離散型と連続型があることに注意。
定義:確率変数Xの重み付き平均、つまり重心
はで最小となる。
証明
となり、で最小値
定義:各Xからの距離の和=偏差和が最も小さくなる点