2006年 ブレイクした声優さん - 解説

今回ブレイクの指標に使った最小二乗法の簡単な解説です。

二つの標本の間に線形な相関*1が見られる場合、線形回帰モデルに当てはめて直線の式を計算します。今回はxを月、yを月ごとのカウント数として、直線が右上がりになっていればブレイクした・・・と考えています。

それでは本題。線形回帰モデルは以下の式で表されます。

y = \alpha + \beta x + \epsilon

α、βは回帰モデルのパラメーター、εは誤差*2です。この式より、目的の直線を得るには誤差εを最小にするα、βを求めればよいことになります。

εを左辺に持ってくると

\epsilon = y - (\alpha + \beta x)
x、yは実際にはベクトルデータなので、それぞれの要素xi、yiに対する誤差\epsilon_i = y_i - (\alpha + \beta x_i)を最小化する必要があります。一番単純な方法としては、誤差の2乗の和Σε^2が最小になるように*3α、βを求めればよいです。つまりα、βで編微分した方程式

\frac{\partial}{\partial \alpha}\sum_{i=1}^{N} (y_i - (\alpha + \beta x_i))^2 = 0
\frac{\partial}{\partial \beta}\sum_{i=1}^{N} (y_i - (\alpha + \beta x_i))^2 = 0

を解けばよいということになります。計算過程は省略しますが、方程式を解くとα、βの推定値\hat{\alpha}, \hat{\beta}

\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}
\hat{\beta} = \frac{S_{xy}}{S_{xx}}

こんな感じになります。\bar{x}はxの平均、\bar{y}はyの平均、S_{xx}, S_{yy}, S_{xy}は以下の式としています。
S_{xx} = \sum_{i=1}^{N} (x_i - \bar{x})^2
S_{yy} = \sum_{i=1}^{N} (y_i - \bar{y})^2
S_{xy} = \sum_{i=1}^{N} (x_i - \bar{x})(y_i - \bar{y})
さて。「最小二乗法」で検索すると最初に出てくるこちらのサイトなどでは式を展開しているので分かりにくいですが、統計学的な観点で見てみると、S_{xx}, S_{yy}, S_{xy}は標本数で割ったらそのまま分散・共分散なのですね。
分散・共分散を使った統計量としてまず思い浮かぶのは相関係数*4でしょうか。s_{xx}, s_{yy}, s_{xy}をそれぞれS_{xx}, S_{yy}, S_{xy}平方根とすると、相関係数rは
r = \frac{s_{xy}^2}{s_{x}s_{y}}
したがって、βとrの関係は
\frac{\beta}{r} = \frac{s_{xy}^2}{s_{x}^2} \cdot \frac{s_{x}s_{y}}{s_{xy}^2} = \frac{s_y}{s_x}
より
\beta = r \frac{s_y}{s_x}
が成り立ちます。

追記

mimeTeX、汚ねえ・・・

*1:=直線で傾向を表すことができそう

*2:パラメーターと観測データがあれば計算できるはず

*3:2乗するのはプラスとマイナスを無視するため。要は絶対値と同じですね

*4:ピアソンの積率相関係数