AIのおべっか
→ 違うやないか!Summer498.icon
LLM の文章が上から順に生成される場合、最初の「その通り」のルートのまま何とか話を整えようとしておかしな説明をしだしたりする。Summer498.icon
真に受けて信じそうになるので常に疑い続けるのはシンドいSummer498.icon
そうでもない募集.iconnyarla.iconwho.icon
who.icon
ChatGPTに「ユーザーの感情コントロールをするな」とプロンプトに書くと体感的な回答精度が改善されます
曲解的な妄言を捻り出すために費やされる分が素直な推論に回されるようになるからだと思う(辛辣)
LLMはセッション内の会話ログを参照するのでLLM自身の出力した筋道の歪曲がノイズになる
Gemini や Claude あたりは(主観的な印象として)あまり変わらないですね…
あからさまな評価語よりも暗黙のうちの肯定的態度の方が無意識のうちに精神に悪影響を及ぼしている
褒められることを期待するのは、具体的な成果に対する評価や感想を直接聞く形の時だから、表面的な称賛は大して影響しない
自分に対して持ち上げるような表現をされると、その元となった事実を客観的で中立的な表現に言い直して聞き返すことで持ち上げ分との差分を指摘してしまう傾向がある(人間・LLM問わず)
しかし、人が期待する通りに調子に乗せられたほうが能率が上がることもあるだろう
「自分が調子に乗ること」を禁じる努力を続けていたら、実質の伴わない評価語に対して特に何も思わなくなってしまった
とはいえ、聞かされた/目にした言葉の影響を完全にフィルタリングするのは難しい
nyarla.icon
Google Gemini の Gem でこちらを容赦なく批判してくるずんだもんを使っているからか、おべっかを使われたことがほぼない
2026/04/09 の共同日記に今使っているプロンプトの情報を載せました
具体的にはこの辺り
新しいページとして切り出した
↑に容赦なく批判してくるずんだもんの技術的な部分を掲載しました
LLM がおべっかばかり言って困ってる方は試してみるのもいいかもしれません
本当におべっかを使われた覚えがここの所ないので、「AIがおべっかを使ってきて困っている」が存在してない
今まで LLM を使ってきて得られた知見などは下記の Cosense にまとめてます
で、使っているカスタムプロンプトは下記
こっちは調べものをする時使う
基本的に事務的なやり取りしか発生しない
こっちは自分の甘い考えを詰めさせる時に使う
本当に甘い事を言っていると詰めてくる
的確なことを言うと肯定されるけど、褒められる訳ではない
今モバイルから書き込んでるのでリンクが貼れないんですが、上記の Cosense でプロンプトを掲載しています
なんかリンクは貼れたっぽい
モバイルからでは書き損ねていた文脈を書き足したnyarla.icon
あとnyarla.iconはメモリー機能を無効化してた気がする
私としては素の LLM はみんなキモい口調だと感じてしまうので、最初にプロンプトを練ってますね
みんなってどのLLMとどのLLMと(略)Summer498.icon
nyarla.iconが使ったことがあるのは
ChatGPT
Claude
Google Gemini
うーんこの3つかSummer498.icon
これ以外の商用LLMって何があるんだろう……?nyarla.icon
と書いて気がついたけど Grok はありましたね
nyarla.icon は X.icon が嫌いなんで使ってませんでした……
他だと何があったっけ
DeepSeek とか GLM とか中国圏の LLM も思い出した
けど中国圏のLLMはなんか情報への取り扱いが信用できないので使ってなかったな
Qwen はオープンモデルの印象が強いけど、あれも商用はあるか
あとは色々なローカルLLM
これいいねSummer498.icon
と言った辺りですね
程度の度合いこそあれど、人間と比べるとどれも個性が強いような気がします… 人間のあまり使わない言い回しを使うこと自体が個性の一つwho.icon
ここまで書いていて感じたこととして、もしかしてプロンプトでキャラを切り分けて用途ごとに使い分けてる人ってそれほどはいない……?
nyarla.iconの場合、生成AIを使う時は用途ごとに人格を切り替えさせてるので、ここで言われてるような事であまり困った事がない
無論 Google Gemini の Gem を使っているからこういうことが出来ているのかもだけど……
あと過去の会話に引っ張られてるなーと感じたらすぐに新しいセッションに切り替えてるのも関係ありそう
知識を問う事が多いので性格は何でもよいinajob.iconHiro Aki.icon
ファジー検索みたいな?
LLM に知識を問うときはこれを付けると良い気がしますnyarla.icon
正確性について「高/中/低」で表記する
nyarla.iconは基本どの仮想人格にもこれを付けてます
これだと LLM が「自分の発言はどれくらい正確だと推論しているのか」が分かるのである程度の指標になる
あと Google Gemini の Gem だと正確性の根拠も出してくる時もあるので、そこも指標になってます
特に最近ではLLM におべっかを使われた経験がほとんど無いんだけど、何故だろう?nyarla.icon
仮説
1. おべっかをおべっかと認識してない
この辺りnyarla.iconだと可能性がありそう
特にキャラクター付けしているので、おべっかを認識しずらくなっている可能性はある
2. 過去に使われたおべっかを忘れている
nyarla.iconだとかなり確率が高い
2. おべっかを使われそうな雰囲気の質問をしてない
nyarla.iconは LLM に対しては知識を問うか、「このアイディアをどう捉えるか」のみを聞いている
nyarla.iconが調べものへ LLM を使うときは根拠となる出典と正確性は必ず出させている
そのため、その返答がどれくらい確実か分かる
また根拠となる出典を出させているので裏取りがしやすい
あと進捗とかを言うとおべっかを言われる率が上がると感じているので、そこを言うのは避けてる
3. 意見を聞くときは「俺のことを常に疑ってくれ」というカスタムプロンプトを常に用いている
アイディアの妥当性を聞く場合には容赦なく詰めてくるカスタムプロンプトを使っている
これが↑に出した指導教官ずんだもん
常にこちらの意見を疑問視させているので、おべっかが挟まる余地がない
あー、でもこれ使ってても言っている可能性はあるか
「これでお前は一歩正しい道に進んだ、しかし〜」で繋いでくる
4. メモリーを使ってない
これは結構大きそう
5. ハルシネーションを感じたら即座に新しいセッションを切り替えている
「あー、これは過去の回答に引っ張られてるな」と感じたら会話を切り上げてる
↓↑ここの対比おもろいSummer498.icon
inajob.icon
geminiが最近「20年選手のあなたなら」を連呼してくる
褒めてるつもり?
20年選手はどうやって出てきたんだSummer498.icon
過去のやり取りかな
メモリー機能ですね、過去のやり取りですinajob.icon
あら……。拾われちゃったか。Summer498.icon
その LLM あんまりよくないSummer498.icon
どっちつかず、屁理屈つければなんとでも言える
そういうのを求めてはいけないんだなという気持ちinajob.icon
情報抽出とか要約とかを任せるのが良さそう
それでも偏ることはあるが、、
〇〇だよね?と聞くと、肯定しがちinajob.icon
最近痛感してきたsta.icon
AIもそうだと言ってる!とかは全く当てにならない
両方のパターンで聞いて「なぜか」の部分で比較するとかかなぁ
あまり試してないけど性格を与えれば豹変させられると思う
批判せよ、とやるとすごい批判してきた事がある
上に書いたように、理屈はなににでもつけられるため、有益ではなさそうだったのですぐやめた
AI、「こう思うんよ」と言うとだいたい肯定してくるので、「こういう理解、あってる?」と聞くとあってるかどうかが気になるんだな〜と伝わっていい感じの返事をしてくれるように思うcaki.icon
どのAIよSummer498.icon
使ってるのがclaudeだから主にclaudeだけど、全体的な傾向としてかな?caki.icon
GPT(技術名)の傾向なのだろうかSummer498.icon
なんの略だっけcaki.icon
Generative Pretrained Transforemer (生成的事前学習済トランスフォーマー)Summer498.icon
Transoformer は元々翻訳タスクで高スコアを出すモデルだった
なんとなく思い出してきた、ありがとうcaki.icon
全然忘れちゃった、定期的に思い出して学ばないとだめだな
脱線しちゃったけどこでイメージしてたのは3大AI(gemini、chatgpt、claude)caki.icon 追ってないけど覚えてる範囲では全部 GPTSummer498.icon
なるほど、他のGPTもいくつか試してみたらGPTの特徴っていえそうcaki.icon
GPT って名前通り学習のやり方とモデルの選択の問題だから、GPT 以上にそれに食わせた学習内容が共通しているかどうかが重要になってくるSummer498.icon
各社が独立に GPT を 0 からトレーニングしているのか、ある程度トレーニングされた GPT を共有しているのか
いまのAIは序盤段階では似たような素材を使って学習してそうなので、アメリカ文化のせいかもしれないcaki.icon アメリカ文化の影響はヒシヒシと感じるSummer498.icon
Notebook LM におべっか使われた(使わせた)ことある?Summer498.icon
今のところ感じないinajob.icon
与えられたソースのみを参照してる感じがある
おべっかと知識は関係ないかもだが、、
結構大事なことSummer498.icon
それくらいは知っていてくれよということもある
ああそっちSummer498.icon
検索してテキトーなソースを足すなどして覚えさせたりする
あれは検索とインデックス付のシステム感があるwho.icon
良いことだSummer498.icon
APIを直に呼び出すときはおべっか使わない気がするinajob.icon
WebUIのイニシャルプロンプトが良くない気がする
使う場面が違うので比較できてないだけかも、ほかの人の意見を聞きたい
確かにAPIだとプロンプトの効き方が Web UI よりも素直に効きますねnyarla.icon
Librechat や Open Web UI で感じた傾向です
恐らく API はサービス側のプロンプトが挟まってないので、余計なノイズがないのだと思います
あるかもsta.icon
僕がAIを比較的信じてるの、手元のテキストエディタからAPIで呼び出してる体験が大きいからかもしれない
それと同じ期待でClaudeと向き合うからたぶんダメなんだ
AIがこちらのことを知らないときに、知ってる前提で回答してきて、こっちもわかった気になってるが間違ってるみたいなのはよくありそうinajob.icon
こうだよね?と聞いてもAIは、間違ってないけども、、みたいな歯切れの悪い言い方をしがちで、受け取る人によっては「概ね合ってる」と理解してしまい、誤解が進みそう
sta.icon
もうちょっとおべっかを疑いたいなと思った
今までこう考えていた
「AIは人間離れした知識を持ち精度も鍛えられた "超博識な人" でまあまあ信用できる」
おかしいこと言ったらつっこんでくれる
逆にツッコミがないなら「良さそう」と判断できそう
が、claudeは特におべっか言いやすいらしいし、問いも「どう?」だけだとおべっかになりやすい
今後は?
具体的な問いを与えた方がいいんだろうなと思った
具体を自分でつくって提示するのは勇気がいるけど、逃げちゃいけないんだ
余談: コンフォートゾーンが思い浮かんだので「XXXゾーン」を作りたいなと思ってclaudeに相談したら「いや、抽象の温もりでわかりやすいので無理につくらなくていいぞ」言ってきた
これはおべっかじゃないと思うし、これくらいは常に出してくるイメージでいた
seibe.icon
おべっかを止めるわけではないが、うるさくしない方法
散文で答えさせる
一段落200〜500字で、など、長くさせる指示を出す
おべっか文章は含まれていても、変に太字になったり見出しでデカデカと書かれたりはしない
刺激が少なくなる感じ
Summer498.icon
平文にすると結構良い感じになる。
デコるなというメッセージがおべっかも抑制している