摘要生成中
AI生成,仅供参考
每次看到新模型更新,大家都爱先问一句:更强了多少。
我现在反而越来越少先问这个。我更在意的是,它能不能把长任务撑住。因为真到工作里,很多价值根本不在单轮回答,而在一件事拖长了以后,它还稳不稳。

它往前推的,是长任务的耐力
Anthropic 这次让我有感觉的,不是某个漂亮分数,而是它继续把模型往长任务、复杂上下文、多轮连续工作那边推。这个方向是对的。
因为模型真要接近生产力,迟早都要碰到耐力问题。前十分钟像天才,后四十分钟开始飘,这种工具再聪明也难进重任务。
Claude Opus 4.6 的意义,就在它继续往“能不能撑住一件长活”上加码。对普通聊天用户来说,这可能没什么戏剧性;对真拿它干活的人来说,这反而更关键。
最容易高估的,是以为长任务等于放着不管
但能处理长任务,不代表你就能把任务扔出去不管。长任务恰恰更需要边界、复核和接管。
因为任务一长,错误积累得也更长。前面一步偏了,后面几十步都可能跟着歪。很多人一看到“更适合长任务”,脑子里马上就变成“那我可以彻底省心了”。这个想法很危险。
长任务值钱的地方,不是彻底无人管,而是你终于有机会把人从每一步的微操里解出来,只在关键节点出手。
如果是我,我会把它放在需要连续推进的工作上
如果是我来用,我会把这类模型放在那种一口气做不完、但又需要连续推进的任务上。比如长文档整理、跨文件改动、复杂研究、要反复迭代的结构化输出。
这些任务最怕中途断气。模型要是能把连续性维持住,价值会比单次回答强很多。

所以我看 Claude Opus 4.6,不是把它当一次普通升级,而是把它当成一个信号:模型竞争已经越来越往“谁更能撑住长活”这边走了。

评论功能已关闭。