ランキングソートに主成分分析を使う検討
しかしながら、PageRankだけなく閲覧数でもランキングを作るという選択肢もある。
ただ、閲覧数で作ればそれで良いかというと、また別の問題も生じるかもしれない。
PageRankは工作が可能。それはある種メリットでもあるが、閲覧数でランキングを作るとそのメリットが失われるかも。
ということで、「PageRankも閲覧数も使用して、いいとこ取りしようぜ」ということを考えた。
順に見ていこう。
ここ3日間のページの散布図
まず、ここ3日間でアープラノートで新規作成されたページの散布図を見てほしい。
https://gyazo.com/aafe544af6559455b3f853e7b78263a0
横軸が「閲覧数」、縦軸が「PageRank」である。
Page Rank順にみると
縦軸「PageRank」を見てみよう。
https://gyazo.com/cf2c1f9890125e2bc9eaae1578261532
PageRank順でランキングを作るということはこんなカンジだ。
1位「今週のあーぷら」、2位「読書会の影響」、3位「カーリーブラケット」、「自分の理想とする読書会」
閲覧数順にみると
一方、横軸「閲覧数」はというと
https://gyazo.com/e15d8130dbda9a30ab3935ef9f019f57
こんなカンジのランキングになる
1位「第二回AN座談会会場」、2位「読書会VC議事録20220924」、3位「自分の理想とする読書会」「研究会の難しさ」
さきほどのPageRank順のランキング結果とは趣が異なるのが分かるだろう。
座談会や、VC議事録など、なかなか良さげなページがランクインしている。
しかし、「今週のあーぷら」みたいな良いページがランキングが外れるということもある。
ナナメに見れないか?
というカンジで、「PageRank」も「閲覧数」もどっちも良さげな指標なので、いいとこ取りができないだろうか?と考える。
以下のように、ナナメからランキングを作るというイメージだ。
https://gyazo.com/72db384b29acffbc17453a14aadc8f29
主成分分析
ざっくり理論的な詳細は省くが、主成分分析によってこれを実現することができた。
「閲覧数」と「PageRank」を標準化して、主成分分析をかけた。
第1主成分を横軸、第2主成分を縦軸にした散布図が以下である。(寄与率は[0.52924374, 0.47075626]。)
https://gyazo.com/6a4b4bb0ae4fbef0cdaff35c1af2fd06
あとは第1主成分でランキングを作れば良い
https://gyazo.com/40d731dba50643dd75999f81dfaf1223
結果は、1位「今週のあーぷら」、2位「第二回AN座談会会場」、3位「自分の理想とする読書会」である。
うまい感じに、「閲覧数」と「PageRank」のいいとこ取りができているような気がする。
最後に、各ランキングのTOP10を並べておく
https://gyazo.com/5763e16d7509e87877488215610eba95
左から、PageRank、閲覧数、主成分分析のランキング。
終