2. 推理模型


推理模型指的是 DeepSeek-R1,对应 DeepSeek 网页端的「深度思考」模式与 V4 系列的「思考模式」(Thinking Mode)。R1 在生成最终答案之前,会先输出一段思维链(Chain-of-Thought),完成问题拆解、假设推演、自我检验之后再给出结论。这一机制让它在数学、逻辑、复杂代码、多步规划、严谨论证等任务上表现远超非推理模型,但同时也意味着——R1 的提示词写法,与 V4 非推理模型截然不同

很多用户把 V4 的提示词直接套用到 R1 上,结果反而拿不到好答案。原因在于:非推理模型需要提示词替它"想清楚",而 R1 会自己想清楚,过度结构化的提示词反而会束缚它的推理路径。理解这一点,是写好 R1 提示词的前提。

下面分别介绍 R1 提示词的核心原则、典型写法、常见陷阱,以及不同任务场景下的实战模板。

推理与非推理模型的提示词差异

在动手写提示词之前,需要先理解两类模型的本质差异。这一差异直接决定了提示词写作策略的不同。

对比维度V4 非推理模型R1 推理模型
推理方式直接生成答案先输出思维链,再给答案
提示词侧重结构化、约束化、流程化简洁化、目标化、留白化
任务拆解责任由提示词承担由模型自行承担
角色设定强烈推荐,可激活专业语境可有可无,过度设定反而干扰
思维引导需要 CoT 提示("一步步想")不需要,模型自带 CoT
示例(few-shot)推荐使用不推荐,可能限制推理路径
输出格式约束越详细越好关键格式提一下即可

简单概括:对 V4 要"喂得细",对 R1 要"问得准"

提示:这一节的所有建议,主要面向"问问题"和"做任务"的常规使用场景。如果你在做复杂的 Agent 工作流编排(例如让 R1 在多步工具调用中担任决策节点),仍然需要相对详细的指令——这不属于本节讨论范围。

R1 提示词的核心原则

原则一:聚焦"问什么",不要纠缠"怎么想"

R1 的强项在于自主推理。提示词的任务是把问题说清楚,而不是替它规划推理步骤。下面是一组对比:

不推荐写法(过度引导推理过程):

请帮我分析这道题。
第一步,先理解题目;
第二步,列出已知条件;
第三步,推导关键变量;
第四步,进行计算;
第五步,验证答案。
题目:……

推荐写法(直接陈述问题):

题目:……

请给出完整的解题过程与最终答案。

R1 在思维链中会自动完成"理解—列条件—推导—计算—验证"的全过程,提示词里再写一遍反而会让模型机械地填表,损失推理灵活性。

原则二:避免冗余的"思维链触发语"

诸如「让我们一步一步思考」(Let's think step by step)、「请仔细推理」「请深度思考」这类在 GPT-4 时代非常有效的 CoT 触发语,对 R1 几乎没有正向作用,有时反而会让模型重复表达"思考"这件事本身,浪费 token 预算。

R1 默认就会进行链式推理,不需要人为唤醒

原则三:示例(few-shot)通常不必要

对于非推理模型,给出 1 至 3 个输入输出示例(few-shot prompting)是提升输出质量的常用技巧。但对 R1 而言,已有研究与社区实践都表明:zero-shot 通常优于 few-shot

原因在于,R1 会基于示例反向推断"任务隐含的解题模板",而这个模板未必是最优的。直接陈述问题,让 R1 自己设计解题路径,效果往往更好。仅在以下两种情况下建议给示例:

  • 输出格式高度特殊,必须严格匹配某个模板(如生成符合特定 Schema 的 JSON)
  • 任务本身有约定俗成但模型未必知晓的领域规范(如某个行业的特殊表格写法)

原则四:角色设定要克制

V4 时代盛行的"你是一位拥有十年经验的资深 XX 专家"开场白,对 R1 的增益有限。R1 已经具备很强的领域知识,强行加角色容易让它的语气偏向角色扮演而非分析。

如果确实需要某种专业视角,建议在任务描述中带出来,而不是单独立一段角色设定。例如:

不推荐:

你是一位资深劳动法律师,请回答以下问题:……

推荐:

请从中国劳动法实务的角度,分析以下情形中员工的维权空间:……

原则五:约束在结尾,目标在开头

R1 的提示词建议遵循"开头点明任务,结尾交代约束"的结构。开头让模型立刻锁定问题本质,结尾的格式与字数要求则不会干扰其推理过程。

中间不要塞入与推理无关的修饰语,例如"这个问题对我很重要""请认真对待"等,这类话术对 R1 几乎无效。


R1 提示词的基础结构

综合上述原则,R1 提示词的推荐结构非常简洁:

【问题/任务】
直接、完整地陈述问题,包含所有必要的事实与约束。

【背景信息】(可选)
如果有领域背景、特殊设定、相关数据,附在这里。

【输出要求】(可选)
对最终答案的格式、长度、必备要素提出要求。

注意三个部分都不需要硬性的标签,自然语言陈述即可。R1 不依赖结构化标记来理解任务。

一个最小化的示例

某公司有 A、B、C 三条生产线,月产能分别为 1000、1500、2000 件。
三条生产线的单件成本分别为 12 元、10 元、9 元。
本月需交付订单 4000 件,客户要求每件成本不超过 10 元。

请问应如何分配三条生产线的产量?给出最优方案与计算过程,
最终答案用一个表格汇总各生产线的产量与总成本。

这条提示词没有角色设定、没有思维链触发、没有示例,但 R1 会自动完成约束建模、求解、验证、汇总的全流程。


不同任务场景提示词写法

场景一:数学与逻辑推理

这类任务是 R1 的主场。提示词的关键是把题目说完整、说精确,避免歧义。

写作要点:

  • 数值、单位、约束条件全部写清楚,不要让模型猜
  • 如果有多种合理解读,提前指定一种
  • 复杂题目可以要求"分别给出每一步的依据"

示例:

五个工人在 6 天内完成一项工程的 60%。如果再增加两名同等效率的工人,
且工作时间延长至每天 10 小时(原本每天 8 小时),剩余 40% 的工程
还需要多少天完成?

请给出完整的推导过程,每一步标注所使用的关系式。
最终答案保留两位小数。

场景二:复杂代码分析与调试

R1 在代码任务上的优势在于能够"读懂"代码意图、识别隐藏 bug、推断异常根因。提示词需要做的是提供完整上下文,包括代码、报错信息、运行环境与预期行为。

写作要点:

  • 粘贴完整代码,不要只给片段(除非问题明确局限于片段)
  • 报错信息要原样粘贴,包括 traceback 全文
  • 明确说明"代码做了什么"与"期望做什么"两者的差距
  • 指明运行环境(Python 版本、关键库版本、操作系统)

示例:

以下是一段使用 Python 3.11 + asyncio + aiohttp 实现的并发请求代码,
预期是对 1000 个 URL 发起并发请求并收集结果,但实际运行中前
50 个请求正常返回,之后开始大量出现 ClientConnectorError。

代码:
[粘贴完整代码]

报错信息:
[粘贴完整 traceback]

运行环境:
- Python 3.11.5
- aiohttp 3.9.1
- macOS 14.2

请分析根因,并给出修复方案。如果修复涉及架构调整,请说明取舍。

场景三:多步骤决策与方案分析

涉及商业决策、产品规划、战略选择的任务,R1 的优势在于能够同时考虑多重约束并给出权衡分析。提示词的关键是把所有约束与偏好交代清楚

写作要点:

  • 列出所有已知条件:预算、时间、资源、市场环境等
  • 说明决策者的核心偏好(更看重速度还是稳健、更看重规模还是利润)
  • 明确希望得到"单一推荐"还是"多方案对比"
  • 如果有禁选项(已经排除的方案),也要说明

示例:

我计划在二线城市开一家社区咖啡店,已有以下条件:

- 启动资金 80 万元,可承担前 6 个月运营亏损
- 目标在 12 个月内实现盈亏平衡
- 我有 3 年餐饮品牌运营经验,但没有咖啡专业背景
- 选址倾向于成熟住宅区,避开商圈
- 不考虑加盟连锁品牌,希望做独立品牌

请分析这个计划的可行性,重点回答以下三个问题:
1. 12 个月内实现盈亏平衡的关键变量是什么?
2. 在我的资源约束下,独立品牌相比加盟模式的主要风险是什么?
3. 如果只能优先解决一个问题,应该是什么?

最终请给出"建议推进 / 建议调整 / 建议放弃"三选一的明确判断,
并说明判断依据。

场景四:学术分析与论证写作

R1 在论证类任务上能够生成结构严谨、引证清晰的内容。提示词需要交代论题、立场、读者、深度这四个要素。

写作要点:

  • 论题尽量收窄,不要写"分析人工智能的影响"这种过宽的题目
  • 如果对立场有要求(支持、反对、中立),明确指出
  • 说明目标读者的专业背景,决定术语深度
  • 指定大致字数与结构,避免输出失控

示例:

请就以下论题撰写一篇分析文章:

论题:在中国一线城市,"四天工作制"在 2030 年前大规模落地的可能性。

要求:
- 立场:批判性中立,既不预设支持也不预设反对
- 读者:商业媒体的财经版块读者,具备基本经济学常识
- 篇幅:1500 字左右
- 结构:现状—影响因素—可能路径—结论
- 论证中至少涉及劳动力市场、产业结构、政策环境三个维度
- 结论部分给出明确的概率判断(高、中、低)并说明依据

场景五:信息抽取与归纳

虽然 R1 比较"重",但对于复杂的信息抽取任务(涉及推断、消歧、跨段落关联),R1 的输出准确率往往明显高于 V4。

写作要点:

  • 明确说明要抽取哪些字段
  • 对模糊字段给出判断规则(例如"金额"是否包含税费)
  • 指定输出格式,最好直接给出空白模板
  • 对"找不到"的情况说明如何处理(留空、写"未提及"、还是给出推断)

示例:

请从以下并购协议文本中抽取关键条款,输出为如下 JSON 结构:

{
  "交易双方": {"收购方": "", "被收购方": ""},
  "交易对价": {"金额": "", "币种": "", "支付方式": ""},
  "交割条件": [],
  "竞业限制": {"是否存在": "", "期限": "", "范围": ""},
  "违约责任": [],
  "争议解决": {"管辖地": "", "方式": ""}
}

抽取规则:
- 文中明确写明的内容,原文照填
- 文中未提及的字段,填写 "未提及"
- 涉及金额的字段,统一保留到万元单位
- 列表类字段(如交割条件)每条不超过 30 字

协议文本:
[粘贴文本]

R1 提示词的常见陷阱

以下几种写法在 R1 上效果不佳,建议避免:

陷阱一:堆砌"思考触发词"

请深度思考,仔细分析,多角度推理,全面考虑,从专业角度……

这类词对 R1 没有增益,且会占用 token。R1 默认就在深度思考。

陷阱二:要求模型"先列大纲再写正文"

对非推理模型这是好习惯,对 R1 则没有必要。R1 在思维链中已经完成了大纲规划,再要求一次会让最终答案与思维链高度重复。

陷阱三:把推理过程写进输出格式要求

要求输出包含:思考过程、推理依据、自我反思、最终答案……

R1 的思维链已经在灰色推理区域单独展示,再要求把它复制到答案里既冗余又会让正式答案变得啰嗦。思维链的归思维链,正式答案的归正式答案

陷阱四:用大量"激励性话术"

这个问题对我非常重要,请你务必认真对待,我会给你小费……

R1 对这类话术不敏感,写了也是无效输入。问题本身的清晰度才是决定输出质量的关键。

陷阱五:在简单问题上启用 R1

R1 单次响应通常需要 30 秒至数分钟,且消耗资源更多。问"今天星期几""帮我把这段话改通顺"这类任务,用 V4 快速模式即可,启用深度思考反而是对资源的浪费。

提示: 一个简单的判断标准是——如果你能在 10 秒内口头说出答案大致方向,那这个问题不需要 R1;如果你需要在纸上画一画、算一算才能回答,R1 就有用武之地。


进阶技巧:延长思考时间

在 DeepSeek 网页端,R1 偶尔会因为服务器负载等原因主动缩短思考时间,导致输出深度不够。如果遇到这种情况,可以在提示词末尾追加以下任意一句来引导更充分的推理:

1. 请批判性思考至少 10 轮,务必详尽。
2. 请从反面角度审视你的回答至少 10 轮。
3. 请对你的回答进行复盘至少 10 轮。

这类提示能将思考时间从默认的几秒延长至一分钟以上,特别适合用于:

  • 复杂的商业决策分析
  • 需要识别多重风险的方案评估
  • 容易陷入定式思维的创意类任务
  • 高风险论断(医疗、法律、财务)的反向验证

注意: 这类技巧不应作为常规写法滥用。对于本身简单的问题强行延长思考,反而会让 R1 在冗长的自我对话中偏离主题。建议仅在你认为标准 R1 输出不够深入时再启用。

进阶示例:商业决策的反向审视

我计划将公司的核心业务从 B2B 软件销售转向 SaaS 订阅模式,
预计在 18 个月内完成转型。背景信息如下:

- 目前 B2B 销售年收入 1.2 亿元,毛利率 65%
- 老客户续约率 78%,但获客成本逐年上升 15%
- 公司账上现金可支撑 24 个月零收入运营
- 核心团队 60 人,其中销售团队 25 人

请分析这个转型计划。要求:
1. 给出完整的可行性分析
2. 重点识别我可能忽视的风险

请从反面角度审视你的回答至少 10 轮,特别要警惕"路径依赖"
与"幸存者偏差"两类思维误区。

评论

0
还没有评论,来写第一条吧