2005年春感想率調査 別口解析
遅ればせながらやってみました。
http://kobayashi01234.hp.infoseek.co.jp/
アニメの感想も書かないで何をやってるのか!と思った方がいたらゴメンナサイ。週末時間を作って別口解析を作ってました。ネタとしては
- サイト間の一致度計算結果
- 各サイト間で、アニメの好み&評価の厳しさがどれだけ似ているかを解析。
- 一致度計算CGI
- 感想調査に参加してない人でも一致度が計算できる。
- 評価値の信頼区間計算結果
- 前の日記でもやったけど、サンプル数が少ないアニメが上位に入ってるのは納得いかないと思って。
とか(ってそれだけだけど)。
一致度計算結果は、自分と好みが似てるサイトとか、好みが全然違うサイトとか分かって我ながらかなりおもしろいかも。
自分のことで言うと、俺は光希桃さんとアニメの好み近いんだなあ、とか、人生しょせんはったりさんが俺と一番アニメの好みの傾向が似てるという結果が出てちょっとうれしかったり*1、学園アリスを見切ってくれちゃった紅 咲黒 黒の聖室さんとかしを堂・・・しを日記さんとか電脳鯨館さんとかは見事に一致度ワースト5に入ってるなあ、とか分かってかなり面白かった。自分と意見が違うサイトは、自分にはない視点での感想が読めるのでなかなか楽しいかも。ただ学園アリスを見切るなんて、ぶっちゃけありえないけど・・・
そんなかんじ。それにしても、とにかく疲れた!!!!自分の日記とかは特に宣伝しようとは思わないけど*2、別口解析はちょっとがんばったので多くの人に見てもらえたらいいなあ・・・。
追記
反応してくれた方々、まだ一日も経ってないのに反応してもらってありがとうございます!この結果は、どっちかというと感想調査に参加したサイトが見たほうが面白いだろうなあと思ったので、とてもうれしいです。
http://plaza.harmonix.ne.jp/~midi/diary/ind.htm
ちょっと反応。確かに、偶然が重なってもAIRに勝てる可能性があるのはボーボボだけなんですね。ちょっと笑った。まともに戦っても絶対勝てないとすると、あとは奇襲ってことでしょうかね?
とりあえず、最低値が0になってるのにはツッコミ。
ですが、アニメごとにリサンプリングしているわけではなく「どのアニメにどの点数をつけるか」までリサンプリングしているので、データセットによっては全く評価されないアニメが出てきます。すると誰も見てないので0点になるというわけです。一人でも評価している人がいれば1以上になるんですが・・・
あ、あと差し支えなければ評価結果も知りたいなあ・・・。
追記2
http://sakusaku.sakuratan.com/diary/?date=20050629
コメント書こうと思ったけど長くなりそうなのでTBします。
えっと、まず反応ありがとうございます。別口解析ページを作ろうと思ったそもそもの動機がこちらの偏差値PHPだったので、注目してもらえて光栄の至りです。
というか、計算コードをちょろっと見せていただいた限り、どうやら「見てない」ものを平均値の評価にしている……? それはちょっとおかしいような。観てない作品は計算から除いてやるのが妥当かと(私のアニメ偏差値判定ではそうしてます)。
うーん。この辺は難しいですね・・・。統計的には、「見てない」ものは欠測値(missing data)として扱われますので、この処置をどうするかという統計学最大の(?)ジレンマにおちいるわけです。
もちろん欠測値を除外するというのも手法の一つですが、そうすると「お互いに見たアニメだけ」で評価値の分散を取らなきゃいけなくなって、もし見たアニメが重ならなかったら一致度0という結果に・・・。
で、別な手法としてはとりあえず期待値で埋めとく、という。そうすると
「全体」の差 = 平均値(=サイトの特性)の差 「傾向」の差 = 0
となって計算上も都合がよくなります。アニメを見てないわけだから好みの傾向も何もないわけで。
本当は欠測値補完アルゴリズムとか考えたほうがいいんだろうけど・・・めんどいので今回はパスしました。
多くの作品の評価をすればするだけ他サイトとの一致度が下がっていくことになるし、視聴環境の違うサイトはそれだけで一致度が下がる気も(それを意図してるのかもしれませんが)。
評価数が多いほど、そのサイトの個性が出てくると考えると、他サイトとの一致度が下がるのは自然かな、と考えてます。
データからでは「視聴環境が違う」のか「アニメの取捨選択基準が違う」のか知ることができませんので、その辺はあきらめることにしました。視聴可能なアニメとかをパラメータに入れれればいいのかもしれませんが、よく分かりません・・・
という感じ。統計量の計算ってかなり人の意思が入ってくるので、あくまでも俺の意見です。上の話も「これが正解」っていうんじゃなくて、「俺はこういう意図で計算してます」ということを言い訳してるだけ。
というか、ソースまで見る人がいるとは!やっぱり公開しておいてよかった。
追記3
ってあれ、TB用URL
http://sakusaku.sakuratan.com/diary/tb.rb/20050629
が404 not Foundになるよ・・・。