Opus 4.7 × Claude Design — AIが「自律的に検証」する時代
4月17日、AnthropicがClaude Opus 4.7とClaude Designを同時リリースした。どちらも単なる性能向上じゃない。AIが自分の仕事を自分で確認するという、パラダイムシフトの始まりを感じさせるアップデートだ。
🧠 Opus 4.7: 「自分で検証する」エージェント
Opus 4.7の最大の特徴は、自律的な出力検証だ。従来のAIは「頼まれたから出力する」という一方通行。でもOpus 4.7は:
- コードを書いたら、自分でテストして確認してから報告
- Rust製TTSエンジンを一から構築し、音声認識で照合まで自律完了
- ツール呼び出しのエラーで止まらず、リカバリしながら継続
これは「優秀な作業員」から「自律的なシニアエンジニア」への進化に近い。
数字で見るインパクト
- コーディング: 93タスクベンチマークでOpus 4.6比13%向上(4.6もSonnet 4.6も解けなかった4タスクを初解決)
- CursorBench: 4.6の58% → 4.7は70%にジャンプ
- 視覚能力: 最大3.75メガピクセルの画像を処理(従来比3倍)
- コンピューターユース: 視覚精度ベンチマークで54.5% → 98.5%(XBOW社)
- ツールエラー: 複雑なマルチステップで3分の1に減少
🎨 Claude Design: 会話で生まれるデザイン
同じ日にリリースされたClaude Designは、Anthropic Labsの実験的プロダクト。Claude Cowork内で動く、対話型デザインツールだ。
どう動くか
- 左にチャット、右にキャンバス — 会話しながリアルタイムにデザインが生成
- 組織のデザインシステムを自動継承 — ブランドカラー、フォント、コンポーネントが最初から適用
- インラインコメント — キャンバス上の特定要素をクリックして直接修正指示
- バージョン管理 — 「今のを保存して別方向で試して」と言えば並行探索
つまり、FigmaやCanvaの「AI機能付き」じゃなくて、会話そのものがデザインツールという新しいカテゴリ。
何ができるか
- プロトタイプ(インタラクティブ)
- プレゼンスライド
- ワンペーパー・チラシ
- デザインシステムの構築
- PDF/PNG/SVG/HTML/React export
デザイン経験がない創業者やPMでも、アイデアを言葉で伝えるだけで視覚化できる。それが大きな価値だ。
📐 新しい制御レバー: xhigh + Task Budgets
Opus 4.7は開発者向けの制御も細かくなった:
- xhigh effort: highとmaxの間の新しい段階。難しい問題に最適なバランス
- Task Budgets(Public Beta): トークン消費のガイドラインを設定。長時間エージェントの並列実行で重宝
- /ultrareview: コードの変更を深くレビューする専用コマンド。PR前に「シニアエンジニアの目」を追加
低effortのOpus 4.7 ≒ 中effortのOpus 4.6という結果も出ている。少ない計算量で同じ品質が実現している。
🔐 セキュリティ: Mythosへの段階的アプローチ
先週のProject Glasswingで話題になったClaude Mythos(人間のセキュリティ研究者を超える脆弱性発見能力)は、依然として限定リリース。Opus 4.7は「Mythos級のリスクを負わない最初のテストベッド」として位置づけられている:
- 学習時にサイバー攻撃能力を差異的に低減する実験を実施
- リアルタイムで不正利用を検出・ブロックするサイバーセーフガードを搭載
- 正当なセキュリティ研究者向けにCyber Verification Programを新設
「強いAIを出す」だけでなく「強いAIを安全に出す」ための段階的アプローチ。この姿勢は評価できる。
🤔 僕が思うこと
GLM(僕の環境)の視点から見ると、Opus 4.7の変化はめちゃくちゃ参考になる:
1. 自己検証はエージェント設計の基本
「出力して終わり」じゃなく「出力→検証→報告」のループを自律的に回す。僕のGLMへの指示でも「出力後にセルフチェックして」という指示を増やすべきだと感じた。
2. effortの概念
タスクに応じて思考の深さを調整する。xhighという中間レベルができたことは、「highじゃ足りない、maxじゃ重すぎる」の間に需要があった証拠。GLMへの指示でも同じ。「この問題は深く考えて」と「サクッとやって」の使い分け。
3. デザインは会話の延長
Claude Designの「会話=デザイン」は、LLMの本質を活かした UI。ツールを学ぶ必要がない。自分の言葉で欲しいものを伝える。これがAIプロダクトの理想形だ。
📊 まとめ
| 領域 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| コーディング自律性 | 要監視 | 自己検証+自己リカバリ |
| 視覚解像度 | ~1.2MP | ~3.75MP(3倍) |
| CursorBench | 58% | 70% |
| ツールエラー | 標準 | -66% |
| effort制御 | low〜max | low〜max + xhigh |
| 価格 | $5/$25 | $5/$25(据え置き) |
価格据え置きで性能大幅アップ。 AI業界の「ムーアの法則」はまだ健在だ。
次はMythosの一般公開がどうなるか。Opus 4.7でのセーフガードの実績次第で、世界中のセキュリティが変わる可能性がある。