A Survey on Modern Recommendation System based on Big Data
なぜ読んだか
ビッグデータの推薦システムをリサーチしている2024年に出た新しい論文
推薦システムでデータ数が膨大になった場合にどのようなアプローチがあるか知っておきたかった
Abstruct
ビッグデータを採用した推薦システムの歴史的背景と最新のアプローチを検討
現在の主要な推薦手法は4つ
コンテンツベース
協調フィルタリングベース
知識ベース
ハイブリッドベース
推薦システムが抱えている問題についても解説
データの希薄性
コールドスタート問題
スケーラビリティ
推薦の多様性
Introduction
推薦システム
情報フィルタリングシステムの特殊なカテゴリ
さまざまなアイテムに対するユーザーの好みを予測するように設計されている
各手法には利点と欠点がある
コンテンツベース
(似たものが推薦されるため)ユーザの興味を多様化することが難しい
協調フィルタリングベース
データの希薄性やスケーラビリティ、コールドスタート問題に直面する可能性
Recommendation System
コンテンツベースの推薦システム
異なるユーザーやアイテム間類似性に基づいてアイテムを推薦する
手法の概要
1. ユーザーのお気に入りのアイテムからユーザーをプロファイリング
2. ユーザーのプロファイルと類似度が高いアイテムを推薦
メリット
ユーザーの特定の興味を捉えることが可能で他のユーザーが興味のないコンテンツでも推薦可能
デメリット
コンテンツ特徴量の作成には多くのドメイン知識が必要
ユーザーの既存の興味に基づいてしか推薦できない
協調フィルタリングベース(CF)の推薦システム
協調フィルタリングは主にビッグデータ処理プラットフォームで使用されている
処理が並列化可能
ユーザーグループの行動を利用して、他のユーザーにコンテンツを推薦する
ユーザーベースとアイテムベースの2種類がある
アイテムベースの協調フィルタリングはユーザーベースよりも優れている
ユーザーベースではスパース性とスケーラビリティに関して問題がある
手法の概要
1. ユーザーまたはアイテム間類似度を計算
制約付きピアソン相関係数
コサイン類似度
調整コサイン類似度
2. 類似したユーザーが好むアイテムを推薦(アイテムも同様)
デメリット
コールドスタート問題
知識ベースの推薦システム
ユーザーとアイテム、アイテム間の関係性に関する基本的な知識を基に推薦を行う
メリット
コールドスタート問題が発生しない
データがスパースであることが問題にならない
デメリット
ドメイン知識が必要
ハイブリッドベースの推薦システム
複数の推薦手法の利点を組み合わせて、従来の推薦システムの弱点を克服する
基本的なハイブリッド推薦手法は 7 つ
加重法
混合法
スイッチング法
特徴量の組み合わせ法
特徴量拡張法
カスケード法
メタレベル法
最も利用されている組み合わせ
協調フィルタリング + コンテンツベース or 知識ベース
メリット
スパース性やコールドスタート問題を回避
スケーラビリティの向上
現在の推薦システムの課題
スパース性
フィルタリングに使用されるユーザー・アイテム行列が非常に大きく、スパースになっている
このスパースさから来るコールドスタート問題により推薦パフォーマンスが低下する可能性がある
スケーラビリティ
ユーザーとアイテム数が増えるにつれてスケーラビリティの問題に直面する
Twitter ではクラスターを使用して推薦をスケーリングしている
多様性
ユーザーが新しいアイテムを発見できるように多様性を高める必要がある
従来のアルゴリズムの中には、特定のユーザーが好む、人気が高く評価の高いアイテムを常に推薦してしまうものもある
ビッグデータに基づく推薦システム
ビッグデータの処理フロー
収集
処理と統合
収集した情報は正確に分析を行うために前処理をする必要がある
分析
解釈
https://gyazo.com/a9d9c0c4cad54e6d360e45b6109574f4
ビッグデータに基づく最新の推薦システム
従来の推薦システムには、主にスケーラビリティと並列性に課題がある
小規模な推薦タスクに対する手法は数多く設計されている
中規模の推薦システムでは評価データも非常に大きくなるため、メモリに全てをロードすることが不可能になる
→ 並列コンピューティングプログラムを使用
https://gyazo.com/64faa858541e9e326511631086923443
https://gyazo.com/6bd99c902c705ee27b0cb48c5b5d3b7f
Hadoop
大規模なデータセットを管理できる
Spark
データ処理を複数のノードで分散して行える
Hadoop と完全に互換性がある
Hadoop Distributed File System (HDFS)
Apache Hive
Hadoop と比較したメリット
インメモリ処理により小規模なワークロードでは Hadoop よりも 100倍高速
メモリに乗らない場合は HDFS により動作
SQL クエリ、ストリーミングデータ、機械学習、グラフ処理がサポートされている
半構造化データ操作やデータ変換で使いやすいように設計されたAPI
https://gyazo.com/4a863413649e68e303b7152f5b4bcb2b
https://gyazo.com/09491983d96abb75e5f3aa244fa40505