什么是Thinking Model?一文读懂

13 人参与

去年冬天,我在一个技术沙龙上听到两位工程师争论到凌晨两点。话题很具体:某家大厂的模型明明 benchmark 分数更高,为什么实际用起来反而不如另一家"笨一点"的模型顺手?争论到最后,他们发现问题出在"思考方式"上——分数高的那个模型,其实是个"直觉型选手",遇到复杂任务容易翻车。

这种"会思考"的模型,行业里现在叫 Thinking Model。

它到底在"想"什么

传统大语言模型的运作方式,有点像考试时的"第一直觉"——看到问题,立刻生成答案。速度快,但遇到需要多步推理的题目,比如"如果 A 比 B 高,B 比 C 高,C 是不是比 A 矮",它可能直接给出一个错的结论,因为中间缺少验证环节。

Thinking Model 的核心差异,在于引入了显式的推理过程。OpenAI 的 o1、o3 系列,Google 最新发布的 Gemini 2.5 Pro,都属于这个路线。它们不会立即输出答案,而是先在内部生成一系列思考步骤——你可以理解为模型在"打草稿"——检查假设、分解问题、验证中间结论,最后才给出回应。

Google DeepMind 在 2025 年 3 月的技术文档里提到,Gemini 2.5 Pro 的"thinking budget"(思考预算)是可调节的。简单说,用户能控制模型"想多久":简单问题快速过,复杂任务允许它多绕几个弯。这种设计把推理过程从黑箱变成了可调参数。

为什么现在才火

技术概念从来不是突然冒出来的。2022 年就有研究者在探索"chain-of-thought prompting"(思维链提示),让模型把推理步骤显式写出来。但真正让这条路线产品化的,是 OpenAI 在 2024 年推出的 o1 系列——它证明了一件事:在数学、编程、科学推理这类硬任务上,让模型"多想一会儿"的收益,远大于单纯堆参数

数据很直观。o1 在 AIME 数学竞赛上的准确率,比前代 GPT-4o 高出近 40 个百分点。不是模型变"大"了,是它变"慢"了——更准确地说是变"深"了。

Google 的跟进策略很有意思。Gemini 2.5 Pro 没有单纯复刻 o1 的路径,而是把 thinking capability 和自己原有的工具链(Google AI Studio、Vertex AI、Workspace)做了深度接合。这意味着开发者拿到的不是孤立的"聪明模型",而是一套能嵌入现有工作流的推理基础设施。

实际用起来什么样

我上个月试用了某款 thinking model 处理一个真实需求:把一份 30 页的法律合同转成结构化的风险清单。传统模型的做法是一口气读完,然后列个表——结果漏掉了三处关键的时间条款。

Thinking model 的处理方式完全不同。它先花几秒钟"理解"合同结构,把文档拆成义务条款、违约条款、终止条款几个模块,再逐个检查风险点。整个过程在后台可见(部分产品提供了 thinking trace),我能看到它在哪里犹豫、为什么修正了最初的判断。最终输出比前者完整得多,耗时却只多了不到一倍。

当然,这种能力有代价。Thinking model 的 token 消耗通常更高,响应延迟也更明显。不是所有场景都值得——如果你只是让它写封邮件,"深度思考"纯属浪费算力。

怎么判断自己需不需要它

一个粗糙但实用的标准:问题的答案是否依赖于多个中间结论的串联

  • 写文案、翻译、简单问答 → 传统模型足够快且省
  • 代码调试、数学证明、复杂数据分析、多条件决策 → thinking model 的容错率明显更高

Google 这次的产品设计也体现了这种区分。Gemini 2.5 Pro 的 API 允许开发者根据任务类型动态切换模式,而不是一刀切地"全用贵的"。

说到底,Thinking Model 不是让 AI 变得更像人,而是承认了一个被长期忽略的事实:有些问题的正确答案,本来就需要时间才能抵达

参与讨论

13 条评论
  • 琵琶弦上

    这玩意儿真能自己想问题?有点玄乎🤔

  • Stormbinder

    o1那个模型我用过,写代码确实稳多了

  • 暗夜织梦

    Gemini还能调思考时间?那简单问题岂不是更快

  • 青竹听风

    之前搞过推理任务,传统模型老是跳步,气死

  • 鹿角

    这个“打草稿”设计挺灵性,像人做题会验算

  • 鄯善葡萄

    法律合同都能拆解?我试过类似需求,翻车了三次

  • 晶格窥探者

    token烧得太狠了吧,日常用根本扛不住

  • 话痨终结者

    M1芯片跑得动这种模型吗?求个配置参考

  • 蝶舞清风

    感觉现在好多AI都是装思考,其实还是套路输出

  • 合成意志

    要是能看见它每步咋想的,调试起来就方便了

  • 时光档案

    那个啥,数学竞赛提分40%?数据是不是夸张了

  • 冰魄心

    容错率高是好,但响应慢半拍在实际场景很致命

  • Voidcaller

    催更下篇!想看具体怎么接入Gemini工作流