Claude Opus 4.6 把长任务往前推了一截

摘要生成中

AI生成，仅供参考

每次看到新模型更新，大家都爱先问一句：更强了多少。

我现在反而越来越少先问这个。我更在意的是，它能不能把长任务撑住。因为真到工作里，很多价值根本不在单轮回答，而在一件事拖长了以后，它还稳不稳。

它往前推的，是长任务的耐力

Anthropic 这次让我有感觉的，不是某个漂亮分数，而是它继续把模型往长任务、复杂上下文、多轮连续工作那边推。这个方向是对的。

因为模型真要接近生产力，迟早都要碰到耐力问题。前十分钟像天才，后四十分钟开始飘，这种工具再聪明也难进重任务。

Claude Opus 4.6 的意义，就在它继续往“能不能撑住一件长活”上加码。对普通聊天用户来说，这可能没什么戏剧性；对真拿它干活的人来说，这反而更关键。

但能处理长任务，不代表你就能把任务扔出去不管。长任务恰恰更需要边界、复核和接管。

因为任务一长，错误积累得也更长。前面一步偏了，后面几十步都可能跟着歪。很多人一看到“更适合长任务”，脑子里马上就变成“那我可以彻底省心了”。这个想法很危险。

长任务值钱的地方，不是彻底无人管，而是你终于有机会把人从每一步的微操里解出来，只在关键节点出手。

如果是我来用，我会把这类模型放在那种一口气做不完、但又需要连续推进的任务上。比如长文档整理、跨文件改动、复杂研究、要反复迭代的结构化输出。

这些任务最怕中途断气。模型要是能把连续性维持住，价值会比单次回答强很多。

所以我看 Claude Opus 4.6，不是把它当一次普通升级，而是把它当成一个信号：模型竞争已经越来越往“谁更能撑住长活”这边走了。

我看的原文
Anthropic: Claude Opus 4.6