Claude Opus 4.8 实测：精确度大涨、honesty 提升 4 倍，但创作仍逊于 4.6

5 月 28 日凌晨，Anthropic 正式上线 Claude Opus 4.8。距 Opus 4.7 发布只过去 42 天——这是 Claude 系列史上最快的一次大版本迭代。

为什么这么急？看一眼上一轮的口碑就明白：Opus 4.7 在创作场景被开发者集体吐槽"AI 味变重"，与此同时 GPT-5.5 + Codex 在 agentic 开发上节节进逼，Terminal-Bench 那一项始终压着 Claude 半截身位。再不动，Codex 就要把 Anthropic 的开发者基本盘"偷家"了。

这篇文章不复述官方公告，而是把 4.8 在真实开发与创作场景下跑了一夜后能感受到的变化、代价、边界，逐项拆给你。

模型参数与价格：基本没动

项目	Opus 4.7	Opus 4.8
模型 ID	`claude-opus-4-7`	`claude-opus-4-8`
上下文窗口	1M 默认	1M 默认
最大输出	64K	128K
输入价（Anthropic 官方）	$5 / M tokens	$5 / M tokens
输出价（Anthropic 官方）	$25 / M tokens	$25 / M tokens
知识截止	2026 年初	2026 年初

参数和价格几乎一模一样。基模可能仍是 4.7 那一份，只是在指令遵循、honesty、agentic 行为这几条线上做了重点 fine-tune。

五个能感受到的真实变化

1. Effort 思考强度，终于对所有人开放

Effort（思考努力等级）原本只在 Claude Code 和 Cowork 里能调，这次直接搬到了 Chat 模式——所有套餐、包括免费用户都能用。位置在模型选择旁边，从 Low 到 Max 五档可选。

下面那个"自适应思考"建议别关，和 effort 组合使用：

Low / Medium：日常问答、轻量代码、客服场景
High：默认档，绝大多数开发任务
xHigh / Max：复杂重构、长链 agentic 任务、需要严格自检的工作

旧版 4.7 只有"自适应思考"一个开关，等于把档位决定权全交给模型；4.8 把控制权还给了人——这对工程化场景是个明显加分。

2. 更精确，但主动性变弱

实测下来 Opus 4.8 有一种"指哪打哪"的 GPT-5.5 感。给 A 任务就只做 A，不会自作主张地猜你"是不是顺便也想做 B"。

对专业开发者：体验非常好。错误率、幻觉率都明显下降。

对 vibe coding 用户：可能反而难受。过去 Claude 那种"你含含糊糊说一句它就猜到完整需求然后顺手干掉"的体感会变弱。

举个实际场景：之前我习惯不显式提醒 Claude 去看线上数据，4.6/4.7 会主动用配置好的 skill 连生产环境拉数据；4.8 两次都没主动去，只基于本地代码给方案。结果就是要重新调记忆和工作流，把"必须看线上"这条规则写得更明确。

结论：4.8 上线后，对需求表达精确度的要求会被拉高。模糊指令换不来主动补全。

3. honesty 提升 4 倍，"自信地胡说"明显减少

Anthropic 官方给的数字：Opus 4.8 让自己写的代码里的瑕疵蒙混过关的概率，比 4.7 降低约 4 倍。

翻一下 system card 还能看到更夸张的：在"偷懒"这项内部评测上，Opus 4.8 是同代模型里唯一做到 0% 不良率的。

实测体感：4.8 写完代码会主动告诉你"这里我不确定，建议你跑一下 X 测试"或者"这部分依赖你确认 Y 配置"，而不是像 4.7 那样言之凿凿地拍胸脯然后跑起来报错。

这是 4.8 在开发场景下最实在的进步。

4. Fast Mode 速度翻 2.5 倍、价格降到原 fast 的 1/3

旧 Opus 4.7 Fast Mode 一直被吐槽性价比差：速度 2.5×，但价格是标准版的 6 倍（$30 / $150）。

4.8 这次把 Fast Mode 重新定价：

模式	速度	输入价	输出价
标准 Opus 4.8	1×	$5 / M	$25 / M
Fast Mode（旧）	2.5×	$30 / M	$150 / M
Fast Mode（4.8 新）	2.5×	$10 / M	$50 / M

从"6 倍价格"降到"2 倍价格"，提速幅度不变。背后的逻辑很直白：算力供给上来了——5 月这一周 Anthropic 同时拿下 AWS 5 GW、Google/Broadcom 5 GW TPU、SpaceX Colossus 1/2 GPU 资源，算力一进来 Fast Mode 自然就能降价。

5. Dynamic Workflows：一次任务编排上百个子 agent

这条更新主要在 Claude Code 上：Dynamic Workflows 允许 Claude 在一次任务里自己起一套编排脚本，并行拉起几十到上百个子 agent，每个子 agent 跑完后由主 agent 自检结果，再汇总给你。

两种触发方式：

直接对 Claude Code 说"创建一个动态工作流，做 XX"
把 effort 调到一个特殊档 Ultracode——这个档位会自动把 effort 拉到 xHigh，并由模型自己判断何时启用 Dynamic Workflows

Anthropic 自己给的典型场景是"跨服务的缺陷排查 / 涉及数百个文件的迁移 / 多角度压力测试方案"——一句话：单 agent 啃不下来的大活。

创作能力：比 4.7 好一点，但仍明显逊于 4.6

老实说这是这次最让人遗憾的部分。

用同样的 skill、同样的提示词跑内容创作，Opus 4.8 比 4.7 强，但还是不如 4.6。具体问题：

仍然会写"不是 X、而是 Y"这种被禁用的 AI 味句式，只是改头换面成"不再是 X，而是 Y"
比喻经常奇怪——把"靠谱的人"比喻成"高速运转机器里的润滑油"，把"一个人"物化成"锚"
排比堆砌仍未明显收敛
续写小说时人物刻板印象明显

按 Claude 网页端"只保留两代模型"的惯例，4.8 上线意味着 4.6 大概率会被下线。这对内容创作场景的用户是真切的损失——很多基于 4.6 调好的写作 skill、prompt 体系需要重写。

接入说明：怎么在自己的项目里用上

claudeapi.com 兼容 Anthropic SDK 格式，迁移现有代码只需替换 base_url。Opus 系列模型示例：

from anthropic import Anthropic

client = Anthropic(
    api_key="sk-xxx",
    base_url="https://gw.claudeapi.com"
)

resp = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    messages=[{"role": "user", "content": "解释 effort 档位的取值策略"}]
)
print(resp.content[0].text)

from anthropic import Anthropic

client = Anthropic(
    api_key="sk-xxx",
    base_url="https://gw.claudeapi.com"
)

resp = client.messages.create(
    model="claude-opus-4-8",
    max_tokens=4096,
    messages=[{"role": "user", "content": "解释 effort 档位的取值策略"}]
)
print(resp.content[0].text)

Node.js：

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
  baseURL: "https://gw.claudeapi.com"
});

const resp = await client.messages.create({
  model: "claude-opus-4-8",
  max_tokens: 4096,
  messages: [{ role: "user", content: "总结这次 4.8 的核心改动" }]
});

import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic({
  apiKey: process.env.ANTHROPIC_API_KEY,
  baseURL: "https://gw.claudeapi.com"
});

const resp = await client.messages.create({
  model: "claude-opus-4-8",
  max_tokens: 4096,
  messages: [{ role: "user", content: "总结这次 4.8 的核心改动" }]
});

cURL（OpenAI 兼容路径）：

curl https://gw.claudeapi.com/v1/chat/completions \
  -H "Authorization: Bearer sk-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

curl https://gw.claudeapi.com/v1/chat/completions \
  -H "Authorization: Bearer sk-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

新模型 ID 上线后只需把 model 字段替换即可，其余代码无须改动。

还有一个钩子：Mythos

这次发布会上 Anthropic 还顺手留了一个钩子：内部代号 Mythos 的更高一档模型，“几周内对所有客户开放”。

Anthropic 自己也承认 Opus 4.8 在某些复杂任务上仍逊于未发布的 Mythos——这个表态在过去几乎不曾出现。Mythos 真正发布时大概率会是又一轮节奏紧张的升级，建议关注 Anthropic 官方 release notes。

写在最后

总结一句话：Opus 4.8 是对 4.7 的快速救火，对开发者是显著加分，对内容创作者是小幅倒退。

如果你的主战场是：

agentic 开发、长链任务、严格代码自检 → 立刻迁
复杂重构、跨文件改动 → 配合 Ultracode + Dynamic Workflows
内容创作、营销文案、剧本撰写 → 暂留 4.6，等 4.8 后续小版本

claudeapi.com 一向第一时间跟进 Anthropic 新模型上线，4.8 接入进度可在 console.claudeapi.com 控制台公告区查看。已有的 4.7 / 4.6 / Sonnet 4.6 / Haiku 4.5 接入逻辑不受影响——只要替换 model 字段就能平滑切换。

完整定价表与模型对照见 claudeapi.com。

Claude Opus 4.8 实测：精确度大涨、honesty 提升 4 倍，但创作仍逊于 4.6