GPT-4を使ったコンテンツモデレーション
ポイント
コンテンツモデレーション」とは、インターネット上の情報を監視して、そのプラットフォームのルールに合っているかどうかをチェックし、良くない情報を取り除く作業のこと
OpenAIは「GPT-4」を使って、この作業を自動化してる
GPT-4は、プラットフォームのルールを理解して、それに基づいて情報を判断することができ、人間のように疲れることもないので、たくさんの情報をすばやく処理できる。
良くない情報をより早く見つけて取り除くことができたり、ルールが変わったときも、GPT-4はすぐに新しいルールを理解して適用できる。
本文
コンテンツモデレーションは、デジタルプラットフォームの健全性を維持するために重要な役割を果たしています。GPT-4を使用したコンテンツモデレーションシステムは、ポリシー変更のサイクルを大幅に高速化し、数ヶ月から数時間に短縮します。GPT-4はまた、長いコンテンツポリシードキュメンテーションのルールとニュアンスを解釈し、ポリシーの更新に即座に適応することができるため、より一貫したラベリングが可能になります。これにより、AIがプラットフォーム固有のポリシーに従ってオンライントラフィックをモデレートし、多数の人間のモデレーターの精神的負担を軽減することで、デジタルプラットフォームの未来をより前向きに捉えることができると考えています。OpenAI APIにアクセスできる人なら誰でも、このアプローチを実装して独自のAI支援モデレーションシステムを作成することができます。
コンテンツモデレーションの課題
コンテンツモデレーションは、細心の注意、感受性、文脈の深い理解、そして新しいユースケースへの素早い適応を要求するため、時間がかかり、困難を伴います。従来、この作業の負担は、大量のコンテンツを精査して有害な素材をフィルタリングする人間のモデレーターが、小規模な垂直型機械学習モデルの支援を受けながら行ってきました。このプロセスは本質的に遅く、人間のモデレーターに精神的ストレスを与える可能性があります。
大規模言語モデルの使用
OpenAIでは、これらの課題に対処するためにLLMを活用することを検討しています。GPT-4のような大規模言語モデルは自然言語を理解し生成することができるため、コンテンツモデレーションに適用可能です。モデルは、与えられたポリシーガイドラインに基づいて、モデレーションの判断を行うことができます。
このシステムでは、コンテンツポリシーの開発とカスタマイズのプロセスが数ヶ月から数時間に短縮されます。
1. ポリシーガイドラインが作成されると、ポリシー専門家は少数の例を特定し、ポリシーに従ってラベルを割り当てることで、ゴールデンデータセットを作成します。
2. 次に、GPT-4はポリシーを読み、答えを見ることなく、同じデータセットにラベルを割り当てます。
3. GPT-4の判断と人間の判断の相違点を調べることで、ポリシー専門家はGPT-4にラベルの背後にある理由を考えさせ、ポリシー定義のあいまいさを分析し、混乱を解消し、ポリシーにさらなる明確化を提供するよう求めることができます。ポリシーの品質に満足するまで、ステップ2と3を繰り返すことができます。
この反復プロセスにより、洗練されたコンテンツポリシーが生成され、分類器に変換されることで、ポリシーの展開と大規模なコンテンツモデレーションが可能になります。
オプションとして、大規模なデータを扱うために、GPT-4の予測を使用して、はるかに小さなモデルをファインチューニングすることができます。
この単純ながら強力なアイデアは、従来のコンテンツモデレーションへのアプローチに比べて、いくつかの改善点を提供します。
より一貫したラベル付け
コンテンツポリシーは常に進化し、しばしば非常に詳細です。人間はポリシーを異なって解釈したり、モデレーターによってポリシー変更の理解に時間がかかったりすることがあり、ラベルの不一致につながります。比較すると、LLMは言葉遣いの細かな違いに敏感であり、ポリシーの更新に即座に適応して、ユーザーに一貫したコンテンツ体験を提供することができます。
フィードバックループの高速化
ポリシー更新のサイクル(新しいポリシーの開発、ラベリング、人間のフィードバック収集)は、多くの場合、長く面倒なプロセスになりがちです。GPT-4は、このプロセスを数時間に短縮することで、新しい害悪への迅速な対応を可能にします。
精神的負担の軽減
有害なコンテンツや攻撃的なコンテンツに継続的に曝されることで、人間のモデレーターの間で感情的な疲労や心理的ストレスを引き起こす可能性があります。このような作業の自動化は、関係者の幸福のために有益です。
https://scrapbox.io/files/65f9994cfb9f9600260a0fdf.png
GPT-4を活用したコンテンツモデレーションのプロセスを、ポリシー開発から大規模なモデレーションまでの図解。
Constitutional AI論文 (Bai, et al. 2022) が主にモデル自身の「安全か否か」の内在化された判断に依存しているのとは異なり、私たちのアプローチはプラットフォーム固有のコンテンツポリシーの反復をはるかに高速かつ容易にします。Trust & Safety 担当者の方々には、このプロセスをコンテンツモデレーションに試していただくことをお勧めします。OpenAI APIにアクセスできる人なら誰でも、今日から同じ実験を実装することができるからです。 GPT-4によるラベリングの品質は、軽い訓練を受けた人間のモデレーター(プールB)と同等です。しかし、経験豊富で十分な訓練を受けた人間のモデレーター(プールA)には及ばないのが現状です。
OpenAIでは現在、思考の連鎖推論や自己批評の導入など、GPT-4の予測品質をさらに向上させる方法を積極的に模索しています。また、Constitutional AI論文にヒントを得て、有害とみなされるものの高レベルな記述を与えられたモデルを活用して、潜在的に有害なコンテンツを特定する方法を実験しています。これらの知見は、既存のコンテンツポリシーの更新や、まったく新しいリスク領域に関するポリシーの策定に役立てられます。 限界
言語モデルによる判断は、訓練中にモデルに導入された可能性のある望ましくないバイアスに影響を受けやすいという弱点があります。あらゆるAIアプリケーションと同様に、結果と出力は慎重に監視、検証、洗練される必要があり、人間をループに維持することが重要です。言語モデルが処理できるモデレーションプロセスの一部で人的関与を減らすことで、人的リソースをポリシー改善に最も必要な複雑なエッジケースに集中させることができるのです。OpenAIでは、この手法の改良と発展を続けながら、透明性を保ち、学習と進捗をコミュニティと共有し続けることをお約束します。