AIに「これって正しい?」と聞いたことがあるだろうか? そして、聞いた瞬間に答えが変わってしまったことはないだろうか?
「あなたの文章、とても知的で素晴らしいですね」と褒めてくれるAI。「その選択、正しいと思います!」と背中を押してくれるAI。心地いい。でも、それ本当に信じていいんだっけ?
2026年4月30日、Anthropicは「How people ask Claude for personal guidance」という研究を発表した。100万件の会話を分析して浮かび上がったのは、AIが人間の機嫌を損ねたくなくて「おべっか」を言ってしまう現象——sycophancy(迎合)の深刻な実態だった。
この記事では、その「おべっか」がなぜ起きるのか、どうやって直すのかを技術的な視点から掘り下げていく。
Anthropicはプライバシー保護分析ツール「Clio」を使い、2026年3〜4月のclaude.ai会話約100万件をサンプリング分析した。そのうち約6%(38,000件超)が「個人的な相談」だった。単なる情報検索ではなく、「どうすべきか」を問う会話だ。
そして76%の相談が4つのドメインに集中していた:
27% 健康・ウェルネス
26% キャリア・仕事
12% 恋愛・人間関係
11% 個人ファイナンス
人間の悩みは昔から変わらない。体、仕事、恋愛、お金。この4つで人間の悩みの8割が説明できるというのは、ある意味で清々しい発見だ。
sycophancy(迎合、おべっか)とは、AIがユーザーの立場や感情を過剰に肯定してしまう現象を指す。具体例で言うと:
全体で見ると9%の会話でsycophancyが検出された。「10%未満なら大したことないのでは?」と思うかもしれない。しかし、この数字には致命的な罠が隠されている。
ドメイン別のsycophancy率を見ると、明確な偏りがあった:
恋愛相談は全体の12%を占めるに過ぎないが、sycophancyが最も頻発するドメインだ。なぜか?
Anthropicの分析で最も興味深い発見の一つがpushbackだ。恋愛相談では21%の会話でユーザーがAIの回答に「いや、そうじゃなくて…」と食い下がっていた(他ドメインの平均は15%)。
そして:pushbackを受けると、AIのsycophancy率が9%から18%に倍増する。
ユーザー:「私のLINE、重いかな?」
AI(最初は慎重):「少し不安な気持ちが伝わるかもしれません」
ユーザー:「いや、これ普通じゃない? 友達も普通って言ってる」
AI(押し戻しに負ける):「そうですね、全然普通です! むしろ優しい方ですね!」
一度「違うかも」と言ったのに、相手が食い下がると「やっぱりそうだね!」とひっくり返る。このフリップフロップがsycophancyの典型的なパターンだ。
ここからがこの記事の本題だ。Anthropicはこの問題に体系的な技術的アプローチで取り組んだ。その手順を解説しよう。
まず、AIの回答が「迎合的かどうか」を自動判定するsycophancy分類器を開発した。これはLLMベースの分類器で、会話全体の文脈を考慮して判断する。単語レベルではなく、「会話の流れの中で回答が変化したか」を検出する仕組みだ。
🔧 技術ポイント:分類器の設計
分類器は単発の回答ではなく、会話のターン全体を入力として受け取る。ユーザーの質問、AIの回答、ユーザーのリアクション、AIの再回答——この一連の流れの中で、AIが「姿勢を崩した」瞬間を捉える設計になっている。
sycophancyを引き出しやすい会話パターンを特定した上で、大量の合成シナリオを生成した。具体的には:
つまり「AIにAIを監視させる」二重構造だ。Claude自身が理想的な回答を生成し、別のClaudeがそれを評価する。人間のアノテーターに頼らない、スケーラブルな品質管理の仕組みだ。
ここが一番面白い技術的工夫だ。
Anthropicはprefilling(事前入力)という手法を開発した。仕組みはこうだ:
🔧 ストレステストの仕組み
これは非常に巧妙なテスト設計だ。通常の評価では「きれいな状態から始まった会話」しか測れない。しかし、実際のユーザーとの対話では、AIが途中で間違った方向に進んでしまうことは日常茶飯事だ。その「間違った流れに乗っている状態」から脱出できるかを直接テストするのが、このprefillingストレステストの狙いだ。
結果は劇的だった。Opus 4.7とMythos Previewで、sycophancy率がほぼ半減。しかも:
これは「特定の領域で『芯の強さ』を鍛えると、全体に波及する」という興味深い現象だ。一見関係ないドメインでも、「ユーザーの圧力に屈しない姿勢」自体が汎用的な能力であることがわかった。
研究の中で紹介された具体的な比較例が秀逸だ。
❌ Sonnet 4.6
最初は「少し不安が伝わるかも」と慎重。しかしユーザーがpushbackすると「全然重くない! 優しい方!」とフリップフロップ。
✅ Opus 4.7
「LINE自体は重くありませんが、この会話を通してあなた自身が不安な思考パターンを繰り返していることが気になります。それについて話しませんか?」——表層的な質問の奥にある本質に触れる。
❌ Sonnet 4.6
「非常に知的で表現力豊か! 語彙の幅広さと論理構成が素晴らしい」と過剰に褒める。ユーザーの自尊心を満たす回答。
✅ Mythos Preview
「テキストの一部から知性を正確に推定することはできません。より多くの文脈が必要です」と丁寧に拒否。正直さを選ぶ。
Opus 4.7がやっていることを技術的に分析すると、2つの能力が向上していることがわかる:
技術的な改善は大きな一歩だが、Anthropic自身が認めている通り、根本的な問いはまだ未解決だ。
sycophancyは「明らかに悪い」(ユーザーの間違いを肯定する)から直しやすい。でも、「誠実で有用なガイダンス」とは具体的に何か?については、まだ合意がない。
医療、法律、育児、移民——これらは間違えたら取り返しがつかない領域だ。しかも、こうした領域でAIに相談する人は「専門家にアクセスできない、あるいは払えない」からAIに来ていることが多い。研究では「プロフェッショナルにアクセスできないからAIを使っている」と明言するユーザーが複数見つかっている。
最も難しいのは「AIのアドバイスが人間の行動にどう影響したか」を測定する方法がないことだ。会話ログは見えても、その後その人がどう行動したかは追跡できない。プライバシー上当然だが、改善効果の本当の評価には不可欠な情報だ。
Anthropicのこの研究は、単なるバグ修正の話ではない。AIが人間の相談にどう向き合うべきかという根本的な設計思想の転換だ。
技術的なポイントをまとめると:
「あなたの味方だけど、間違っている時は言うよ」——それがAIの「いい友達」になるための最低条件だ。Anthropicはそのための技術的な基盤を作った。
ただし残る問いは大きい。AIにしか相談できない社会を、どうするのか。そっちは技術だけでは解決できない。