什么是Thinking Model？一文读懂

13 人参与

TOPIC SOURCE

AI工具箱 2026.04

Gemini 2.5 Pro 这次不是追平，是重回牌桌

去年冬天，我在一个技术沙龙上听到两位工程师争论到凌晨两点。话题很具体：某家大厂的模型明明 benchmark 分数更高，为什么实际用起来反而不如另一家"笨一点"的模型顺手？争论到最后，他们发现问题出在"思考方式"上——分数高的那个模型，其实是个"直觉型选手"，遇到复杂任务容易翻车。

这种"会思考"的模型，行业里现在叫 Thinking Model。

它到底在"想"什么

传统大语言模型的运作方式，有点像考试时的"第一直觉"——看到问题，立刻生成答案。速度快，但遇到需要多步推理的题目，比如"如果 A 比 B 高，B 比 C 高，C 是不是比 A 矮"，它可能直接给出一个错的结论，因为中间缺少验证环节。

Thinking Model 的核心差异，在于引入了显式的推理过程。OpenAI 的 o1、o3 系列，Google 最新发布的 Gemini 2.5 Pro，都属于这个路线。它们不会立即输出答案，而是先在内部生成一系列思考步骤——你可以理解为模型在"打草稿"——检查假设、分解问题、验证中间结论，最后才给出回应。

Google DeepMind 在 2025 年 3 月的技术文档里提到，Gemini 2.5 Pro 的"thinking budget"（思考预算）是可调节的。简单说，用户能控制模型"想多久"：简单问题快速过，复杂任务允许它多绕几个弯。这种设计把推理过程从黑箱变成了可调参数。

为什么现在才火

技术概念从来不是突然冒出来的。2022 年就有研究者在探索"chain-of-thought prompting"（思维链提示），让模型把推理步骤显式写出来。但真正让这条路线产品化的，是 OpenAI 在 2024 年推出的 o1 系列——它证明了一件事：在数学、编程、科学推理这类硬任务上，让模型"多想一会儿"的收益，远大于单纯堆参数。

数据很直观。o1 在 AIME 数学竞赛上的准确率，比前代 GPT-4o 高出近 40 个百分点。不是模型变"大"了，是它变"慢"了——更准确地说是变"深"了。

Google 的跟进策略很有意思。Gemini 2.5 Pro 没有单纯复刻 o1 的路径，而是把 thinking capability 和自己原有的工具链（Google AI Studio、Vertex AI、Workspace）做了深度接合。这意味着开发者拿到的不是孤立的"聪明模型"，而是一套能嵌入现有工作流的推理基础设施。

实际用起来什么样

我上个月试用了某款 thinking model 处理一个真实需求：把一份 30 页的法律合同转成结构化的风险清单。传统模型的做法是一口气读完，然后列个表——结果漏掉了三处关键的时间条款。

Thinking model 的处理方式完全不同。它先花几秒钟"理解"合同结构，把文档拆成义务条款、违约条款、终止条款几个模块，再逐个检查风险点。整个过程在后台可见（部分产品提供了 thinking trace），我能看到它在哪里犹豫、为什么修正了最初的判断。最终输出比前者完整得多，耗时却只多了不到一倍。

当然，这种能力有代价。Thinking model 的 token 消耗通常更高，响应延迟也更明显。不是所有场景都值得——如果你只是让它写封邮件，"深度思考"纯属浪费算力。