Wildchat
https://scrapbox.io/files/668f411592a7c2001ca06275.png
WildChatは、実際のユーザーとChatGPTとの間で行われた約100万件の会話記録を集めたデータセット。
https://scrapbox.io/files/668f42ad5b4abb001ce9f6ef.png
このデータセットは、ユーザーがChatGPTやGPT-4に無料でアクセスできる代わりに、チャット履歴の収集に同意することで作成された。
これにより、多様な言語やユーザープロンプト、さらには潜在的に有害なケースを含む豊富なデータが収集された。
https://scrapbox.io/files/668f42e28007a7001decdf08.png
10%以上の会話にトキシックなコンテンツが含まれていた。
会話AIのセーフティやバイアスの問題の深刻さが浮き彫りに
https://scrapbox.io/files/668f432d7b7286001d84146a.png
公式
論文
ChatGPTを実際にどのようにユーザーが使っているかは不明。
そこで、100万人のユーザーから250万以上の対話を収集し、データセット化した。
その結果、多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有害なユースケースを最も豊富に提示することがわかった。
参考資料