「4-6月期終了アニメ調査」の結果を再計算してみました☆考察

補正値に関する考察です。結局のところ「フィーリング」ということになるのですが、統計に興味のある方はどうぞ。

そもそも、補正していいの？

まず、「補正していいのか？」という根本的な問題について。これは要するに「今までの調査に比べて平均値が高すぎる」ということについて、統計学的に根拠を示す必要があるということです。
平均値の差の検定として最もポピュラーなのはt検定。t検定とは簡単に言うと「平均が同じ母集団からサンプリングされたと仮定した場合、観測データが得られる確率は？」という検定です。今回の場合で言えば「旧調査と新調査が同じ平均だった*1と改定した場合、今回のデータが得られる確率は？」ということになります。この確率がt分布という分布を使って計算できるので、t検定と呼ばれています。

下の表は今までの調査ごとの平均です。大体2.5〜2.7くらいの数値を推移している感じですね。正確な平均値は2.62。それに対して今回の調査の平均は3.35と、直感的に考えてもかなりずれてそうです。

時期	平均
第3回	2.65
第4回	2.61
第4.5回	2.66
第5回	2.57
第5.5回	2.74
第6回	2.70
第6.5回	2.25
第7回	2.78
第7.5回	2.68
第8回	2.53
旧平均	2.62
新1回	3.35

続いて、各調査ごとにt検定を行った結果です。数字は上で説明した通り、「旧調査と新調査が同じ平均だったと仮定した場合、観測データが得られる確率」となります。赤くなっているのは確率が0.05以下の結果です*2。

	第3回	第4回	第4.5回	第5回	第5.5回	第6回	第6.5回	第7回	第7.5回	第8回
第4回	0.72
第4.5回	0.96	0.68
第5回	0.55	0.75	0.52
第5.5回	0.28	0.13	0.31	0.10
第6回	0.75	0.48	0.79	0.36	0.45
第6.5回	0.18	0.24	0.17	0.35	0.04	0.12
第7回	0.44	0.23	0.47	0.18	0.79	0.64	0.06
第7.5回	0.88	0.67	0.91	0.53	0.47	0.91	0.19	0.62
第8回	0.49	0.70	0.46	1.00	0.06	0.30	0.32	0.13	0.50
新1回	0.0001	0.0001	0.0004	0.0001	0.0057	0.0009	0.0001	0.0033	0.0028	0.0000

これはまたすごい。本当は多重検定の問題とか色々あるのですが*3、考えるまでもなく全ての場合について有意な結果になってしまいました。とりあえず統計学的には「今までの調査に対して評価が高すぎる」と言えそうです。

で、どれくらい補正すれば？

「今までの調査に対して評価が高すぎる」ということが分かったので、今までの結果と比較するためには補正が必要みたいです。どれくらい補正すればいいのか・・・というのがまた難しい問題ですが、大ざっぱに「今までの結果と同じくらいの平均になればいい」ということにしましょう。

具体的には、今までの調査ごとの平均値を元に、95%信頼区間を求めて、大体その範囲に収まるように今回の結果に補正を加えることにします。

中心極限定理によると平均値の分布は正規分布になるらしいので、正規分布の場合の95%信頼区間は

平均値 ± 標準誤差 * 1.96

という式で求められます。

> old=c(2.65,2.61,2.66,2.57,2.74,2.7,2.25,2.78,2.68,2.53)
> mean(old)
[1] 2.617
> sqrt(var(old)/length(old)) * 1.96
[1] 0.0923976

ざっくりと 2.62±0.09 くらいということが分かりました。

サンプル数が少ない場合は、1.96の部分をt分布表を使って求める必要があるらしいです。
http://kogolab.jp/elearn/hamburger/chap2/sec3.html
この辺を参考にすると、今回の場合は自由度9なので、t=2.262。また、Rで計算すると次のようになります*4。

> qt(0.05/2, df=length(old)-1)
[1] -2.262157
> sqrt(var(old)/length(old)) * qt(0.05/2, df=length(old)-1)
[1] -0.1066418

約0.107なので、0.092と比べるとそれほど差はない気も。
最終的に、補正値の範囲としては次のようになります。

> 3.35-2.68+c(-0.092, 0.092)
[1] 0.578 0.762
> 3.35-2.68+c(-0.107, 0.107)
[1] 0.563 0.777

というわけで、大体 0.56〜0.77 くらいの間で補正をかければよさそう。単純に差をとると 3.35-2.68=0.67 なんだけど、それだとちょっと引き過ぎかなあ・・・という気もするので、0.6くらいにしてみました。
個人的にはハルヒはもっと高い点でもいい気はするけど、そうすると今度はSoul Linkが高くなりすぎるんだよね。難しいところです。

*1:≒評価基準が同じ、ということになるかな？

*2:一般的に0.05以下の確率だった場合、「平均値に差がある」とみなされます

*3:詳しい方、ぜひ突っ込みを・・・

*4:両側検定なので、上側0.025+下側0.025=0.05となります