AIアライメント
from 研究分野を考える
きっかけ: 私のブックマーク「AIアライメント」
https://x.com/bioshok3/status/1751523098724364585
妥当か判断するため, 自ドライブコピー版で適宜コメントつけながら読んでいる.
本当に人類の存亡に関わるのか, 読んで判断したい. もしそうなら, AIは平和利用してもらいたいので, 研究などの何らかの形で関わろうと思っている
なるほど, 文章のハイライトに意味はあるのかと思ったが, こう使うのかな?
関連で読みたい:
https://www.anthropic.com/news/frontier-threats-red-teaming-for-ai-safety
スーパーインテリジェンス(上) 超絶AIと人類の命運
https://80000hours.org/the-precipice/
読んだ
https://www.science.org/content/article/breakthrough-2025
僕の認識が甘かったかも. LLMは相当な推論能力を獲得しているらしい. でもそれを学習するのにどれだけの人と時間と資金がかかるのか, 計算資源や電力はどれだけ費やすのか, 推論時はどうか, という疑問がある
https://www.ibm.com/jp-ja/think/topics/ai-alignment
人類の存亡がどうこう, みたいな長ったらしい文書と違い, 説明が明快でわかりやすい. 一々脅しつけてこないし, 簡潔
地に足ついた説明が良い. 結局何をすればいいのか, という疑問に対する回答が得られた
内部で行われる推論を見て, 意図通りにする方向で考える. モデル内部の話であるため, 解釈可能性を考えることになる
強化学習でどうにかするアプローチより, 具体的にどういう動作が起きていて, どこがどう貢献しているかを解明する方が良さそうに思えるので, まずはサーベイしよう
下の動画でも同様の話題が出てきた. 一次資料は未確認だが, 研究の分野として, AIの解釈可能性を考え, 安全性を確保する方向に進むのは結構ありかも
元ネタは
単一の目的に対して推論を行う画像認識などのモデルに比べ, LLMは人の認知活動に近い推論を行える代わりに, 目的達成のための活動が人間の価値に即したものになるか, 保証できない. というのが問題だと認識している
解釈可能性について, 推論をリアルタイムで監査したり, モデルの偏りの傾向を調査するなどの対応が考えられそう
https://youtu.be/5etqmvT_nME
#2026/2/12
#2026/2/13
#inbox