Claude Opus 4.8 实测:精确度大涨、honesty 提升 4 倍,但创作仍逊于 4.6
5 月 28 日凌晨,Anthropic 正式上线 Claude Opus 4.8。距 Opus 4.7 发布只过去 42 天——这是 Claude 系列史上最快的一次大版本迭代。
为什么这么急?看一眼上一轮的口碑就明白:Opus 4.7 在创作场景被开发者集体吐槽"AI 味变重",与此同时 GPT-5.5 + Codex 在 agentic 开发上节节进逼,Terminal-Bench 那一项始终压着 Claude 半截身位。再不动,Codex 就要把 Anthropic 的开发者基本盘"偷家"了。

这篇文章不复述官方公告,而是把 4.8 在真实开发与创作场景下跑了一夜后能感受到的变化、代价、边界,逐项拆给你。
模型参数与价格:基本没动
| 项目 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| 模型 ID | claude-opus-4-7 |
claude-opus-4-8 |
| 上下文窗口 | 1M 默认 | 1M 默认 |
| 最大输出 | 64K | 128K |
| 输入价(Anthropic 官方) | $5 / M tokens | $5 / M tokens |
| 输出价(Anthropic 官方) | $25 / M tokens | $25 / M tokens |
| 知识截止 | 2026 年初 | 2026 年初 |
参数和价格几乎一模一样。基模可能仍是 4.7 那一份,只是在指令遵循、honesty、agentic 行为这几条线上做了重点 fine-tune。
五个能感受到的真实变化
1. Effort 思考强度,终于对所有人开放
Effort(思考努力等级)原本只在 Claude Code 和 Cowork 里能调,这次直接搬到了 Chat 模式——所有套餐、包括免费用户都能用。位置在模型选择旁边,从 Low 到 Max 五档可选。
下面那个"自适应思考"建议别关,和 effort 组合使用:
- Low / Medium:日常问答、轻量代码、客服场景
- High:默认档,绝大多数开发任务
- xHigh / Max:复杂重构、长链 agentic 任务、需要严格自检的工作
旧版 4.7 只有"自适应思考"一个开关,等于把档位决定权全交给模型;4.8 把控制权还给了人——这对工程化场景是个明显加分。
2. 更精确,但主动性变弱
实测下来 Opus 4.8 有一种"指哪打哪"的 GPT-5.5 感。给 A 任务就只做 A,不会自作主张地猜你"是不是顺便也想做 B"。
对专业开发者:体验非常好。错误率、幻觉率都明显下降。
对 vibe coding 用户:可能反而难受。过去 Claude 那种"你含含糊糊说一句它就猜到完整需求然后顺手干掉"的体感会变弱。
举个实际场景:之前我习惯不显式提醒 Claude 去看线上数据,4.6/4.7 会主动用配置好的 skill 连生产环境拉数据;4.8 两次都没主动去,只基于本地代码给方案。结果就是要重新调记忆和工作流,把"必须看线上"这条规则写得更明确。
结论:4.8 上线后,对需求表达精确度的要求会被拉高。模糊指令换不来主动补全。
3. honesty 提升 4 倍,"自信地胡说"明显减少
Anthropic 官方给的数字:Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率,比 4.7 降低约 4 倍。
翻一下 system card 还能看到更夸张的:在"偷懒"这项内部评测上,Opus 4.8 是同代模型里唯一做到 0% 不良率的。
实测体感:4.8 写完代码会主动告诉你"这里我不确定,建议你跑一下 X 测试"或者"这部分依赖你确认 Y 配置",而不是像 4.7 那样言之凿凿地拍胸脯然后跑起来报错。
这是 4.8 在开发场景下最实在的进步。
4. Fast Mode 速度翻 2.5 倍、价格降到原 fast 的 1/3
旧 Opus 4.7 Fast Mode 一直被吐槽性价比差:速度 2.5×,但价格是标准版的 6 倍($30 / $150)。
4.8 这次把 Fast Mode 重新定价:
| 模式 | 速度 | 输入价 | 输出价 |
|---|---|---|---|
| 标准 Opus 4.8 | 1× | $5 / M | $25 / M |
| Fast Mode(旧) | 2.5× | $30 / M | $150 / M |
| Fast Mode(4.8 新) | 2.5× | $10 / M | $50 / M |
从"6 倍价格"降到"2 倍价格",提速幅度不变。背后的逻辑很直白:算力供给上来了——5 月这一周 Anthropic 同时拿下 AWS 5 GW、Google/Broadcom 5 GW TPU、SpaceX Colossus 1/2 GPU 资源,算力一进来 Fast Mode 自然就能降价。
5. Dynamic Workflows:一次任务编排上百个子 agent
这条更新主要在 Claude Code 上:Dynamic Workflows 允许 Claude 在一次任务里自己起一套编排脚本,并行拉起几十到上百个子 agent,每个子 agent 跑完后由主 agent 自检结果,再汇总给你。

两种触发方式:
- 直接对 Claude Code 说"创建一个动态工作流,做 XX"
- 把 effort 调到一个特殊档 Ultracode——这个档位会自动把 effort 拉到 xHigh,并由模型自己判断何时启用 Dynamic Workflows
Anthropic 自己给的典型场景是"跨服务的缺陷排查 / 涉及数百个文件的迁移 / 多角度压力测试方案"——一句话:单 agent 啃不下来的大活。
创作能力:比 4.7 好一点,但仍明显逊于 4.6
老实说这是这次最让人遗憾的部分。
用同样的 skill、同样的提示词跑内容创作,Opus 4.8 比 4.7 强,但还是不如 4.6。具体问题:
- 仍然会写"不是 X、而是 Y"这种被禁用的 AI 味句式,只是改头换面成"不再是 X,而是 Y"
- 比喻经常奇怪——把"靠谱的人"比喻成"高速运转机器里的润滑油",把"一个人"物化成"锚"
- 排比堆砌仍未明显收敛
- 续写小说时人物刻板印象明显
按 Claude 网页端"只保留两代模型"的惯例,4.8 上线意味着 4.6 大概率会被下线。这对内容创作场景的用户是真切的损失——很多基于 4.6 调好的写作 skill、prompt 体系需要重写。
接入说明:怎么在自己的项目里用上
claudeapi.com 兼容 Anthropic SDK 格式,迁移现有代码只需替换 base_url。Opus 系列模型示例:
from anthropic import Anthropic
client = Anthropic(
api_key="sk-xxx",
base_url="https://gw.claudeapi.com"
)
resp = client.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
messages=[{"role": "user", "content": "解释 effort 档位的取值策略"}]
)
print(resp.content[0].text)
from anthropic import Anthropic
client = Anthropic(
api_key="sk-xxx",
base_url="https://gw.claudeapi.com"
)
resp = client.messages.create(
model="claude-opus-4-8",
max_tokens=4096,
messages=[{"role": "user", "content": "解释 effort 档位的取值策略"}]
)
print(resp.content[0].text)
Node.js:
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic({
apiKey: process.env.ANTHROPIC_API_KEY,
baseURL: "https://gw.claudeapi.com"
});
const resp = await client.messages.create({
model: "claude-opus-4-8",
max_tokens: 4096,
messages: [{ role: "user", content: "总结这次 4.8 的核心改动" }]
});
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic({
apiKey: process.env.ANTHROPIC_API_KEY,
baseURL: "https://gw.claudeapi.com"
});
const resp = await client.messages.create({
model: "claude-opus-4-8",
max_tokens: 4096,
messages: [{ role: "user", content: "总结这次 4.8 的核心改动" }]
});
cURL(OpenAI 兼容路径):
curl https://gw.claudeapi.com/v1/chat/completions \
-H "Authorization: Bearer sk-xxx" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-opus-4-8",
"messages": [{"role": "user", "content": "Hello"}]
}'
curl https://gw.claudeapi.com/v1/chat/completions \
-H "Authorization: Bearer sk-xxx" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-opus-4-8",
"messages": [{"role": "user", "content": "Hello"}]
}'
新模型 ID 上线后只需把 model 字段替换即可,其余代码无须改动。
还有一个钩子:Mythos
这次发布会上 Anthropic 还顺手留了一个钩子:内部代号 Mythos 的更高一档模型,“几周内对所有客户开放”。
Anthropic 自己也承认 Opus 4.8 在某些复杂任务上仍逊于未发布的 Mythos——这个表态在过去几乎不曾出现。Mythos 真正发布时大概率会是又一轮节奏紧张的升级,建议关注 Anthropic 官方 release notes。
写在最后
总结一句话:Opus 4.8 是对 4.7 的快速救火,对开发者是显著加分,对内容创作者是小幅倒退。
如果你的主战场是:
- agentic 开发、长链任务、严格代码自检 → 立刻迁
- 复杂重构、跨文件改动 → 配合 Ultracode + Dynamic Workflows
- 内容创作、营销文案、剧本撰写 → 暂留 4.6,等 4.8 后续小版本
claudeapi.com 一向第一时间跟进 Anthropic 新模型上线,4.8 接入进度可在 console.claudeapi.com 控制台公告区查看。已有的 4.7 / 4.6 / Sonnet 4.6 / Haiku 4.5 接入逻辑不受影响——只要替换 model 字段就能平滑切换。
完整定价表与模型对照见 claudeapi.com。



