好評層と不評層 続き

なんでロールケーキはサンデーでサンドイッチはマンデーなんだろう。最近ずっとぱにぽにのOPをリピート再生してるから脳みそとけそう。あいあいあー。

それはそうと。上の好評層と不評層の続き。人の仕事を取っちゃうみたいで気が引けるんだけど、気になったので計算しました。こうしてみると、やっぱりこいこい7フタコイなのか・・・。

タイトル好評層平均不評層平均
こいこい73.7161.4412.275
フタコイ オルタナティブ3.8292.0471.782
勇者王ガオガイガー -FINAL -GGG-3.7902.0431.747
ふたつのスピカ(再)3.8932.1781.715
これが私の御主人様3.6742.0801.594
エルフェンリート(地上波)3.7522.1741.578
おジャ魔女どれみ ナ・イ・ショ4.0002.5001.500
英國戀物語エマ3.8372.3541.483
魔法先生ネギま!2.9251.4491.476
まほらば〜Heatful days〜4.3022.8671.435
LOVELESS3.7982.3671.431
いちご100%2.6701.2521.418
ぷちぷり*ユーシィ(再)4.6673.3331.334
ああっ女神さまっ3.3872.0931.294
こみっくパーティーRevolution3.1941.9681.226
IZUMO〜猛き剣の閃記〜2.4741.2571.217
ピーチガール2.9541.8231.131
JINKI:EXTEND2.1421.0951.047
眞田十勇士2.0001.0001.000
宇宙交響詩メーテル2.0001.0001.000
モンキー・パンチ 漫画活動大写真1.0001.0000.000

アルゴリズムは上で書いたとおり、確率的k-means(というアルゴリズムがあるのかは知らないけど)。例えば、k-meansのループの中で好評層の平均=3.5、不評層の平均=2.5となったとき、

  • 3.5以上の評価はすべて好評層
  • 2.5以下の評価はすべて不評層
  • 2.5〜3.5の間の評価は確率的に決まる。具体的には各平均からの距離に反比例した確率で決まる。

評価値が5個しかないから、その中でクラスタリングというのは厳しそうなので確率変数にしてみた。そうすると今度は平均からの距離に反比例した確率で決まるので、評価5の人より評価4の人のほうが好評層に近いということになってしまう。それもおかしいなーというかんじで、意外と試行錯誤してしまいました。

この後、尤度比検定してp値出せばおっけーかな。眠いのでまた後でやろう。統計に詳しい方のツッコミお待ちしています(笑)

参考までに、プログラムのソース+windows用バイナリ。
http://kobayashi01234.hp.infoseek.co.jp/file/cluster.zip