2007年6月〜8月、キーワード言及数がおかしくなってる件について

まずはこのグラフを見てください。

7月ごろに大きな山があることが分かります。では、7月近辺にズームアップして「統計グラフ」と「キーワードを含む日記」を見てみます。

上のグラフを見ると、明らかに7月2週目に言及数30くらいの大きな山が来てますよね。でも、キーワードを含む日記を見ると全く出てこない。一体何が起こっているのでしょう・・・。
少し調べてみると、はてなの見解としてこんな意見がありました。

(言及数はプライベート日記も含むため、含むページの一覧合計と一致しない場合があります)

はてなツールバーのバージョンアップについて - はてなダイアリー日記

もう少し調べてみると、やはり6〜8月はスパムダイアリーが急増しており、スパムダイアリーを強制的に非公開としていたためこのようなずれが出ていたようです。

はてなの皆様、お疲れ様でした。

それだけではなんなので

もう少し統計学的なアプローチを。まず、今回集計した月ごとのキーワードについて、全キーワードの月ごとの平均を取ってみます。偶然(?)2005年と2006年のデータが手元にあったので比較してみましょう。

5月もやや多いのですが、6〜8月が群を抜いて多いですね。通常40前後の言及数が、200以上になっているのは明らかにおかしい。では、その「明らかにおかしい」ことを、もうすこし統計学的に説明できないでしょうか。
最も簡単なのがt検定。t検定とは一言で言うと「2つの平均が同じ母集団からサンプリングされたものなのか?」を判断するための検定。つまり、2007年の平均言及数と他の年の平均言及数が、同じ母集団から取られているのか*1を検定してみます。

2006年の言及数平均に対して、2005年と2007年の言及数平均をt検定しています。
グラフの縦軸はp値、つまり「同じ母集団から取られている」確率と思ってください。一般的に、0.05以下の場合は帰無仮説が棄却され「同じ母集団ではない」ということになります。ただ今回の場合はサンプル数が多いこともあってp値が低く出てしまうため、独断で10^-10程度を閾値としています。
やはり6〜8月が異常な値を見せています。これらの月を考慮すると期待した集計ができないので、除いた方がよいでしょうね。

*1:要はスパムとかの影響が入っているのかどうか