Skip to main content

元认知提炼技术:如何从顶会论文和技术报告中蒸馏出作者的思维操作系统

· 67 min read

核心逻辑:本文采用「递进结构」,从「为什么要提炼思维→提炼什么→怎么提炼→怎么复用」四个层面,构建一套完整的元认知提炼方法论。第一层(为什么):读论文和技术报告不应该只是"看懂了",而应该是"学会像作者一样思考"——这是从信息获取到能力迁移的关键跳跃。第二层(提炼什么):不是提炼结论,而是提炼作者的"思维操作系统"——包括问题定义的章法、创新点的挖掘路径、实验设计的策略、行文叙事的结构。第三层(怎么提炼):提出一套五步蒸馏框架(DECODE),通过六篇 ACL/NeurIPS/CVPR 顶会论文进行实战演示。第四层(怎么复用):给出如何将提炼出的思维模式迁移到新 topic,产出同等深度的论文或技术报告。


一、为什么要做元认知提炼

1.1 普通人读论文 vs 高手读论文

大多数人读论文的方式是:

  1. 看标题和摘要,判断是否相关
  2. 跳到实验结果,看数字好不好
  3. 大致扫一眼方法,标记一些关键词
  4. 收藏,然后...忘了

这种方式获取的是信息,不是能力。你读了一百篇论文,也写不出一篇同等水平的论文——因为你从来没有提炼过作者"为什么这么想"。

高手读论文的方式完全不同。他们关注的不是"作者做了什么",而是:

  • 作者为什么选择这个问题? 这个问题在更大的版图中处于什么位置?
  • 作者是怎么把模糊的直觉变成精确的问题定义的? 从一个不成熟的想法到一个可操作的 research question,中间经历了怎样的抽象?
  • 作者是怎么找到创新点的? 是发现了已有方法的什么盲区?是引入了什么新视角?还是把两个不相关的领域连在了一起?
  • 作者怎么证明自己是对的? 实验设计的逻辑是什么?为什么选这些 baseline?为什么选这些数据集?ablation study 的顺序暴露了什么优先级?
  • 作者怎么讲故事的? 从 introduction 到 conclusion,每个段落的作用是什么?图1为什么这样画?表格为什么这样排?

这就是元认知提炼——不蒸馏内容,蒸馏思维。

1.2 这套方法能给你什么

如果你能系统性地提炼出顶级作者的思维操作系统,你就能做到:

  • 给出一个论文 topic,你能定义出精确的 research question,设计出合理的实验方案,写出有说服力的 story
  • 给出一个技术报告的需求,你能判断该做什么模型架构、什么评测集、什么实验对比,知道怎么让结果 fancy,同时有技术深度
  • 给出一个大厂的 tech report,你能从思维对齐的角度,在新问题上复现同等深度的分析

本质上,这是在做一个思维的 distillation——把别人的隐性知识变成你的显性能力。


二、提炼什么:作者思维操作系统的五个层次

我把一篇顶会论文或技术报告背后的思维分成五个层次,从外到内:

层次名称问题可迁移性
L1问题定义作者怎么发现和定义问题?⭐⭐⭐⭐⭐
L2创新挖掘作者怎么找到切入点?⭐⭐⭐⭐⭐
L3方法设计作者怎么把想法变成可执行的方案?⭐⭐⭐⭐
L4实验策略作者怎么证明方法有效?⭐⭐⭐⭐⭐
L5叙事结构作者怎么讲一个好故事?⭐⭐⭐⭐⭐

关键洞察:L1、L2、L4、L5 的可迁移性极高——它们是"元能力",和具体领域无关。L3(方法设计)和领域关系更大,但其中的设计思路和工程决策同样可以迁移。


二.五、最关键的瓶颈:为什么你提不出深度问题

先诊断病因

你读论文的时候,可能会遇到这种情况:

你看到 "LLM 在自然语言上表现很好,但它真的学会了语言的规律还是只是在做统计模式匹配?" 这个问题,你觉得"说得太好了",但你自己就是提不出来。

为什么提不出来?不是因为你不聪明,而是因为你的"概念词汇库"里没有"统计模式匹配"和"语言规律"这对概念。

这就像一个人想描述"蓝色"但没有"蓝色"这个词——他能看到蓝色,但说不出来。概念词汇决定了你能提出什么问题。

深度问题的生成公式

所有深度问题都有一个共同的结构。我把它拆解成公式:

深度问题 = 现象 + 隐藏假设 + 替代解释

以"LLM 学会了语言规律还是统计模式匹配"为例:

组件内容
现象LLM 在自然语言上表现很好
隐藏假设"表现好 = 学会了规律"
替代解释也许不是学会了规律,只是记住了统计模式

你提不出这个问题,是因为你没看到"隐藏假设",也没有"替代解释"的候选。

用 AI 补上概念词汇库的三种方法

方法一:概念对立面扩展

当你看到一个概念时,问 AI:"这个概念的对立面/替代解释是什么?"

你是一个"概念对立面生成器"。我会给你一个概念或陈述,你需要给出:
1. 这个概念背后隐藏了什么假设
2. 这个假设的对立面是什么
3. 用对立面生成的 3 个深度问题

示例:
输入:"LLM 在自然语言上表现很好"
输出:
隐藏假设:表现好 = 理解了语言
对立面:表现好 ≠ 理解语言,可能只是在做模式匹配
深度问题:
1. LLM 是学会了语言规律,还是只是统计模式匹配?
2. 如果 LLM 只是在模式匹配,它应该无法处理什么类型的语言?
3. 我们怎么设计实验来区分"理解语言"和"模式匹配"?

现在请对以下概念/陈述执行同样的分析:
[在此输入你的概念或陈述]

方法二:跨学科概念嫁接

很多深度问题来自把一个领域的概念引入另一个领域。比如"统计模式匹配"来自认知科学——它是人类认知研究中的经典概念。

你是一个"跨学科概念嫁接专家"。我会给你一个研究领域中的一个问题/现象,
你需要:
1. 列出 3-5 个其他学科中可以用来分析这个问题的核心概念
2. 对每个概念,说明它为什么能产生新的洞察
3. 用这个概念生成 1 个深度问题

学科池:认知科学、演化生物学、经济学、物理学、社会学、控制论、
信息论、哲学、心理学、人类学、系统论

示例:
输入:"LLM 的推理能力"
输出:
认知科学 → "System 1 vs System 2 思考"
为什么:LLM 可能只有 System 1(直觉),没有 System 2(反思)
深度问题:LLM 能否进行真正的 System 2 推理,还是所有输出都是
System 1 的快速匹配?

演化生物学 → "适应vs理解"
为什么:生物可以适应环境但不"理解"环境,LLM 可能也一样
深度问题:LLM 对语言的掌握更像是生物对环境的适应,还是科学家
对规律的理解?

经济学 → "信号vs实质"
为什么:正确答案可能是"凑巧",就像考试蒙对了
深度问题:LLM 的正确回答中有多少是"真正的推理信号",有多少是
"统计噪声中的幸运匹配"?

现在请对以下问题/现象执行分析:
[在此输入你的问题或现象]

方法三:假设挖掘器——自动发现隐藏假设

这是最强大的方法。任何论述背后都有隐藏假设,找到它们就能提出深度问题。

你是一个"隐藏假设挖掘器"。我会给你一段论述(论文摘要、技术报告结论、
产品宣传等),你需要:

1. 找出这段论述中 3-5 个最关键的隐藏假设
2. 对每个假设,说明"如果这个假设不成立,会怎样"
3. 基于每个不成立的假设,生成 1 个深度研究问题

格式:
假设 [编号]:[具体内容]
- 为什么这是一个假设:[...]
- 如果不成立:[...]
- 深度问题:[...]

示例:
输入:"RAG 通过检索外部知识库来增强 LLM 的回答质量"
输出:
假设1:检索到的文档和问题相关
为什么是假设:RAG 的检索模块可能返回看似相关但实际无用的文档
如果不成立:LLM 会被误导,回答质量反而下降
深度问题:怎么检测 RAG 检索到的文档是否真的"有用"而不只是"相关"?

假设2:更多的检索结果总是更好的
为什么是假设:大家默认检索越多文档越好
如果不成立:过多无关文档会稀释有效信息,产生"注意力干扰"
深度问题:RAG 中是否存在"检索量饱和点"——超过多少文档后性能反而下降?

假设3:LLM 能正确综合多个检索到的文档
为什么是假设:综合多文档需要推理能力,而 LLM 的推理能力有限
如果不成立:LLM 可能只关注第一个或最长的文档,忽略其他有用信息
深度问题:LLM 在 RAG 中真的在"综合"多个文档,还是在"选择"一个文档?

现在请对以下论述执行分析:
[在此输入你的论述]

概念词汇库的积累策略

上面三种方法是"即时工具"——你遇到一个领域的问题,马上就能生成深度问题。但长期来看,你需要积累自己的概念词汇库。

怎么积累?每次读论文或技术报告时,做两件事:

  1. 提取"对立概念对":论文中每提出一个观点,都找它的对立面
论文中的观点对立概念
LLM 学会了语言规律统计模式匹配
RL 提升了推理能力RL 只是调整了采样分布
蒸馏能传递知识蒸馏只是压缩了记忆
更大的模型更强涌现能力可能是测量错觉
CoT 提升了推理CoT 只是给了更多计算时间
  1. 按"思维模式"分类存储
我的概念词汇库:

【反直觉类】
- 统计模式匹配 vs 真正理解
- 采样效率 vs 能力上界
- 偏好调整 vs 知识获取
- 压缩 vs 理解

【边界类】
- 泛化能力的极限
- scaling law 的拐点
- 能力涌现的临界条件
- 记忆 vs 推理的分界线

【本质类】
- 适应 vs 理解
- 信号 vs 噪声
- 相关性 vs 因果性
- 模拟 vs 真正的能力

当你积累了足够多的概念对后,面对任何新现象,你都能自动生成深度问题——因为你脑子里已经有了"对立面"的模板。


二.六、从"发现问题"到"想到方案":Idea 生成引擎

你卡在哪一步?

回到 Token-Budget-Aware 这篇论文。你的卡点是:

"我发现了 CoT 推理很贵这个问题,但我想不到在 prompt 里加一句'请在 X 个 token 内完成'。就算想到了,我也不确定这样能不能 work。"

这个卡点的本质是两个能力缺口:

缺口表现根因
方案生成能力想不到具体的方法你没有一套"从问题到方案的推理链"
方案验证能力不确定能不能 work你没有一套"低成本快速验证"的流程

缺口一:怎么从问题生成方案

核心洞察:所有好的方案都不是凭空想出来的,而是通过固定的推理模式从问题中"长出来"的。

我总结了六种从问题到方案的推理模式,每种都有固定的操作步骤:

模式 A:约束注入法

逻辑:如果一个东西太长/太多/太贵,试试直接告诉模型"少一点"。

推理链:
问题:X 的输出太长/太多/太贵
→ 问:模型知道自己可以少输出吗?
→ 假设:也许模型只是没被告知要精简
→ 方案:在 prompt 里直接加约束(token budget / 字数限制 / 步骤数限制)
→ 验证:加约束后效果掉了多少?如果掉得少,说明冗余确实存在

Token-Budget-Aware 就是这个模式。作者不是"天才般地想到了 token budget",而是走了这个推理链:

  1. 观察:CoT 推理产生了很多 token → 贵
  2. 问:这些 token 都是必要的吗?
  3. 假设:也许不必要,LLM 只是在"啰嗦"
  4. 方案:直接告诉它"说少一点"
  5. 验证:试了一下,居然真的 work

你能复用的场景

问题用约束注入法的方案
Agent 调用工具次数太多prompt 里加"最多调用 N 次工具"
模型输出太啰嗦prompt 里加"用 50 字以内回答"
推理步骤太多prompt 里加"最多用 3 步推理"
检索文档太多限制只检索 top-K,K 动态调整

模式 B:类比迁移法

逻辑:找到另一个领域里已经解决类似问题的方法,搬过来。

推理链:
问题:X 领域的 Y 问题
→ 问:Z 领域有没有类似的"形状"的问题?
→ 那个领域怎么解决的?
→ 能不能搬过来?需要做什么适配?

例子:VGGT 就是把"优化问题"类比成"预测问题"——3D 重建以前用迭代优化(像解方程),VGGT 把它变成了前馈预测(像分类任务)。

你能复用的场景

你的问题类比到方案
LLM 推理不够稳定信号处理中的"降噪"多次采样取一致性最高的答案
模型选择困难推荐系统根据问题特征自动推荐最适合的模型
评测不够全面医学诊断设计"多维度检查面板"而不是单一指标

模式 C:最小干预法

逻辑:用最小的改动测试假设,而不是一上来就设计复杂方案。

推理链:
问题:现象 A 可能是因为原因 B
→ 问:怎么用最小的实验验证"B 是原因"?
→ 设计最简单的干预:只改一个变量
→ 如果有效,再系统化;如果无效,换假设

Token-Budget-Aware 的作者就是先做了一个 pilot:先手动在 prompt 里加一句"请在 100 token 内回答",看看效果。发现居然 work 了,才开始系统化地研究。

关键心态:不要一开始就追求完美方案,先用最蠢的方式验证假设。

模式 D:逆向工程法

逻辑:分析好的例子和坏的例子之间的差异,把差异变成方法。

推理链:
问题:为什么有时候效果好,有时候差?
→ 收集好例子和坏例子
→ 对比:好例子有什么共同特征?坏例子缺了什么?
→ 把好例子的特征提取成规则/方法

模式 E:分而治之法

逻辑:把大问题拆成小问题,分别解决。

推理链:
问题:X 太复杂了,不知道怎么下手
→ 问:X 可以拆成哪几个独立的子问题?
→ 每个子问题有现成的解法吗?
→ 把子方案的组合变成整体方案

模式 F:极限思维法

逻辑:把一个条件推到极端,看会发生什么。

推理链:
问题:参数 X 对结果有什么影响?
→ 问:如果 X=0 会怎样?如果 X=无穷大呢?
→ 极端情况揭示了什么规律?
→ 把规律变成可操作的方法

缺口二:怎么验证 idea 不是废物

你说"我怕我的 idea 是废物的"。这个问题可以用一套低成本快速验证流程来解决。

核心原则:不要用一个月验证一个 idea,用一天甚至一小时。

第一关:逻辑自洽性检查(5 分钟)

问自己三个问题:

问题通过标准
我的假设是什么?能用一句话说清楚
如果假设成立,结果应该是什么?能做出具体的预测
有没有显而易见的反例?如果 5 分钟内就能想到反例,idea 可能有问题

以 Token-Budget-Aware 为例:

  • 假设:LLM 的推理 token 中有冗余
  • 预测:如果告诉 LLM "少说点",准确率应该只掉一点点
  • 反例:如果 LLM 的每一步推理都是必要的,那减少 token 应该大幅掉点

如果你能做出预测也能想出反例,说明 idea 逻辑是自洽的——值得继续验证。

第二关:最小实验(1-2 小时)

不要写完整代码,不要训模型。用最蠢的方式验证:

Token-Budget-Aware 的最小实验:
1. 打开 ChatGPT
2. 问一道数学题,看它答对了吗,用了多少 token
3. 再问同一道题,但在 prompt 里加"请在 50 个字以内推理"
4. 看它答对了吗?token 少了多少?
5. 如果 10 道题里有 7 道还是对的,token 少了一半 → idea 值得继续

最小实验的公式

1. 找到验证核心假设所需的最小数据量(通常 5-10 个例子就够)
2. 用现成的工具(ChatGPT/Claude)手动测试
3. 记录:成功了几个?失败了几个?失败的原因是什么?
4. 如果成功率 > 50%,idea 值得继续

第三关:文献定位(30 分钟)

1. 在 Google Scholar/arxiv 搜你的 idea 的关键词
2. 如果有人做过完全一样的事 → 不慌,看他们做到什么程度了,你能改进什么
3. 如果没人做过 → 好信号,但需要确认不是因为这个问题不重要
4. 如果有人做过但没做好 → 最佳情况,说明问题重要且方案有空间

第四关:威胁分析(30 分钟)

问自己:我的 idea 最可能在什么地方失败?

威胁类型问题如果确实存在
规模威胁在小数据上 work,大规模会不会崩?先在小规模验证,再逐步扩大
领域威胁只在数学推理上 work,别的领域呢?至少测 2 个领域
基线威胁现有方法其实已经解决了这个问题?仔细对比 baseline
稳定性威胁有时候 work 有时候不 work?多跑几次,报告方差

如果你能通过前两关(逻辑自洽 + 最小实验),你的 idea 有 80% 的概率不是废物。 后两关是让 idea 从"能 work"变成"能发论文"。

用 AI 加速这两步

Idea 生成器提示词

你是一个"研究方案生成器"。我会给你一个研究问题,你需要用以下六种推理模式各生成一个方案:

A. 约束注入法:如果问题是"太多/太长/太贵",试试直接加约束
B. 类比迁移法:找到另一个领域解决类似问题的方法,搬过来
C. 最小干预法:用最小的改动测试假设
D. 逆向工程法:分析好例子和坏例子的差异
E. 分而治之法:把大问题拆成小问题
F. 极限思维法:把条件推到极端

对每种模式:
1. 说明这个模式怎么应用到我的问题上
2. 给出具体的方案描述
3. 给出最小验证实验的设计(用 ChatGPT 手动测试的那种)

我的问题是:
[在此描述你的问题]

Idea 验证器提示词

你是一个"研究方案验证器"。我会给你一个研究问题和一个方案,你需要帮我快速评估它能不能 work。

## 第一关:逻辑自洽性
1. 这个方案的隐含假设是什么?(列出所有假设)
2. 如果每个假设分别成立,预期的结果是什么?
3. 有什么显而易见的反例或失败模式?

## 第二关:最小实验设计
给我一个可以在 1-2 小时内用 ChatGPT/Claude 手动完成的验证实验:
1. 测试什么假设
2. 用什么数据(5-10 个例子)
3. 怎么判断成功还是失败
4. 成功的标准是什么

## 第三关:威胁分析
1. 这个方案最可能在什么情况下失败?
2. 最强的反方论点是什么?
3. 如果失败,失败的原因最可能是什么?

## 第四关:价值判断
1. 如果这个方案 work 了,它的贡献是什么级别的?(小改进/中等创新/范式转换)
2. 这个方向目前的热度如何?竞争激烈吗?
3. 一句话建议:继续还是换方向?

我的问题和方案是:
[在此描述]

三、DECODE 框架:五步蒸馏法

我提出一个五步蒸馏框架,缩写为 DECODE

D — Decompose(拆解表象)

把论文拆成四个维度:

  • 问题陈述:作者说了什么问题?一句话概括。
  • 方法核心:作者做了什么?一句话概括。
  • 关键发现:最重要的一个结果是什么?
  • 叙事线索:从 introduction 到 conclusion 的逻辑链是什么?

E — Expose(暴露隐含假设)

每篇论文背后都有隐含假设。问自己:

  • 作者默认了什么前提?(比如"更多的推理 token 总是更好的")
  • 这个前提有没有可能不成立?(比如"如果推理过程本身有冗余呢?")
  • 如果不成立,会导出什么新问题

C — Contrast(对比差异)

找 3-5 篇同方向的论文,对比:

  • 它们定义的问题有什么微妙差异
  • 它们选择的切入点有什么根本不同
  • 实验设计上有什么策略差异

O — Orchestrate(提取思维模式)

把上面三步的发现整合成一个思维模式卡片

思维模式卡片:
- 问题发现路径:[作者是怎么发现这个问题的]
- 问题定义手法:[怎么把模糊的直觉变成精确的问题]
- 创新点挖掘:[切入点的来源]
- 实验设计策略:[证明的逻辑]
- 叙事技巧:[讲故事的章法]

D — Deploy(迁移应用)

拿到思维模式卡片后,选一个新的 topic,问自己:

  • 如果我用同样的问题发现路径,在这个新领域里能发现什么问题?
  • 如果我用同样的问题定义手法,能把新问题定义成什么样?
  • 如果我用同样的创新挖掘方式,能找到什么切入点?
  • 如果我用同样的实验策略,该怎么设计实验?
  • 如果我用同样的叙事结构,该怎么写?

四、实战蒸馏:六篇顶会论文的思维操作系统

现在让我用 DECODE 框架,提炼六篇 ACL/NeurIPS/CVPR 顶会论文背后的思维模式。


4.1 ACL 2024 Best Paper — Mission: Impossible Language Models

论文:Julie Kallini 等人,斯坦福大学。研究 LLM 是否真的能处理"不可能的语言"(违反语言普遍性的规则系统)。

D — 拆解表象

  • 问题:LLM 在自然语言上表现很好,但它真的学会了"语言的规律"还是只是在做统计模式匹配?
  • 方法:构造一组"不可能的语言"——违反语言学普遍性(如 Greenberg 普遍性)的人造规则系统,测试 LLM 能否学会这些规则。
  • 发现:LLM 对"不可能语言"的学习能力显著低于自然语言,说明 LLM 的语言处理确实受到了某种"语言普遍性"的约束。
  • 叙事:从"LLM 能力到底有多强"这个大问题出发,用一个精巧的实验设计(不可能语言 vs 可能语言)来给出边界。

E — 暴露隐含假设

  • 隐含假设:大家默认 LLM 是万能的模式学习器,给它足够的数据它就能学任何规则。
  • 反转:如果 LLM 的架构本身就有归纳偏置(inductive bias),那有些规则它就是学不会的——不是数据的问题,是架构的问题。
  • 新问题:Transformer 架构的归纳偏置到底是什么?它和人类语言的普遍性有什么关系?

C — 对比差异

同方向的论文通常在自然语言上测试 LLM 的能力边界。本文的独特之处在于构造了一个巧妙的对照组——不是测试"LLM 能不能学好",而是测试"LLM 能不能学坏"(学不可能的规则)。这个思路来自认知心理学中的对照组实验设计。

O — 思维模式卡片

【反证法思维】
- 问题发现路径:从领域的基本假设出发,问"如果这个假设不成立会怎样?"
- 问题定义手法:构造一个对照组——不测"能做什么",测"不能做什么"
- 创新点挖掘:引入跨学科的理论工具(语言学普遍性)来设计实验
- 实验策略:精心控制变量——只改变"是否可能",其他条件一致
- 叙事技巧:标题就是 hook——"Mission: Impossible",让读者产生好奇

D — 迁移应用示例

假设你要研究 RAG 系统的边界:

用反证法思维:不要问"RAG 能检索到什么",而问"RAG 在什么情况下必然检索不到正确的信息"?构造一组"不可能检索正确"的查询(比如需要多跳推理但文档之间没有显式链接的场景),测试 RAG 的失败模式。


4.2 ACL 2025 — Token-Budget-Aware LLM Reasoning

论文:Tingxu Han 等人,南京大学/罗格斯大学。发现 LLM 的推理过程有不必要的冗余,可以通过在 prompt 中设置 token budget 来压缩推理成本。

D — 拆解表象

  • 问题:CoT 推理虽然提升了 LLM 的表现,但产生了大量冗余 token,导致推理成本暴增。
  • 方法:在 prompt 中加入"请在 X 个 token 内完成推理"的指令,并根据问题复杂度动态调整 token budget。
  • 发现:LLM 的推理过程确实有不必要的冗余,简单的 token budget 指令就能大幅压缩成本,性能损失极小。
  • 叙事:从一个日常观察(LLM 推理太啰嗦)出发,通过系统实验揭示原因,提出极简方案。

E — 暴露隐含假设

  • 隐含假设:更多的推理 token = 更好的推理效果(CoT 的默认信条)。
  • 反转:如果 LLM 的推理过程中存在大量"废话",那去掉废话不会影响结果。
  • 新问题:怎么判断一道题需要多少 token 才够?不同复杂度的题,最优 token budget 是多少?

O — 思维模式卡片

【极简主义思维】
- 问题发现路径:从一个被所有人默认接受的"成本"出发——CoT 很贵,但大家都觉得这是必要的代价
- 问题定义手法:先证明"冗余存在"(定性),再量化"冗余有多少"(定量),最后设计"怎么减"(方案)
- 创新点挖掘:不是设计新模型,而是发现一个被忽视的简单事实——LLM 能听懂"说少一点"
- 实验策略:先做 pilot study 证明可行性,再系统性实验验证鲁棒性
- 叙事技巧:用笛卡尔的名言开头——"重要的不是有好的头脑,而是用好它"

D — 迁移应用示例

假设你要研究 Agent 的工具调用效率:

用极简主义思维:不要问"怎么让 Agent 调用更多工具",而问"Agent 的工具调用中有多少是冗余的"?也许 80% 的工具调用可以被合并或省略。在 prompt 中加一句"最多使用 N 个工具调用"可能就够了。


4.3 NeurIPS 2025 Best Paper — Does RL Really Incentivize Reasoning in LLMs?

论文:Yue 等人,清华大学。系统性地证明了 RLVR(强化学习+可验证奖励)并没有给 LLM 带来新的推理能力,只是提高了采样效率。

D — 拆解表象

  • 问题:RLVR 被广泛认为是让 LLM 获得推理能力的关键技术。但它真的让模型学会了"新的推理方式"吗?
  • 方法:用 pass@k(k 很大时)作为评测指标,比较 RL 训练后的模型和 base model 的推理能力上界。
  • 发现:RL 训练后的模型在 k=1 时更好,但在 k 很大时 base model 反而更好。RL 模型的推理路径全部包含在 base model 的采样分布中。也就是说,RL 只是让模型更"偏好"某些已有的推理路径,而不是创造了新的推理能力。
  • 叙事:用一张搜索树的图(Figure 1)直观展示了核心发现——RL 模型的绿色路径是 base model 黑色路径的子集。

E — 暴露隐含假设

  • 隐含假设:RL 能帮助 LLM 发现新的推理策略(就像 AlphaGo 发现了第 37 手)。
  • 反转:LLM 的 RL 和围棋的 RL 有本质区别——围棋的 RL 有真实的环境交互和新的状态空间,而 LLM 的 RLVR 只是在固定的 token 空间中做偏好调整。
  • 新问题:怎样才能让 LLM 的 RL 真正发现新的推理策略?需要什么样的新范式?

O — 思维模式卡片

【反直觉检验思维】
- 问题发现路径:当一个方向成为"共识"(RL 能提升推理),反而要问——真的吗?证据够硬吗?
- 问题定义手法:找到共识成立的前提条件(k=1 时的表现),然后用新的评测维度(pass@k,k 很大)来检验共识是否在更宽的条件下依然成立
- 创新点挖掘:换一个评测指标就能推翻一个领域的基本假设——pass@k 大 k 是关键
- 实验策略:跨模型家族、跨 RL 算法、跨任务类型——证明结论的普适性;同时用 distillation 做对比,证明 distillation 确实能引入新知识
- 叙事技巧:标题就是论点——一个问号让整个社区停下来重新思考

D — 迁移应用示例

假设你要研究"思维链蒸馏"的效果:

用反直觉检验思维:大家都说蒸馏能让学生模型获得推理能力。但用同样的 pass@k 分析方法,问——学生模型的推理路径是真正"学到了新的",还是只是学会了老师的高概率路径?如果换一个老师没见过的题目类型,学生还能推理吗?


4.4 NeurIPS 2025 Spotlight — Agent Distillation

论文:Minki Kang 等人,KAIST。提出把 LLM Agent 的完整任务解决行为(包括工具使用)蒸馏到小模型中。

D — 拆解表象

  • 问题:LLM 推理能力强但太贵。CoT 蒸馏可以把推理能力传给小模型,但在需要精确计算或事实检索的场景下,小模型会幻觉。
  • 方法:不只蒸馏推理链,而是蒸馏完整的 Agent 行为——包括什么时候该调用检索工具、什么时候该执行代码。引入 first-thought prefix 提升教师轨迹质量,self-consistent action generation 提升学生鲁棒性。
  • 发现:0.5B 的小模型经过 Agent 蒸馏后,能在推理任务上匹敌 1.5B 的 CoT 蒸馏模型——跨了 3 倍的参数量级。
  • 叙事:从一个清晰的对比图(Figure 1)开始——CoT 蒸馏 vs Agent 蒸馏的本质区别是什么。

E — 暴露隐含假设

  • 隐含假设:蒸馏 = 蒸馏推理链(CoT traces)。
  • 反转:推理链只是 Agent 行为的一部分。一个完整的 Agent 知道什么时候该"停下来去查资料"、什么时候该"写段代码算一下"——这些决策行为同样可以被蒸馏。
  • 新问题:工具使用的决策能力,和推理能力,哪个更容易被蒸馏?小模型学会了工具使用后,能泛化到新工具吗?

O — 思维模式卡片

【升维蒸馏思维】
- 问题发现路径:从一个成熟的范式(CoT 蒸馏)出发,问"我们蒸馏的东西够不够完整?"
- 问题定义手法:把"蒸馏"的概念从"知识转移"升级为"行为转移"——不只蒸馏"怎么想",还蒸馏"怎么做"
- 创新点挖掘:重新定义蒸馏的粒度——从 token-level 到 action-level
- 实验策略:同时在事实推理和数学推理两个维度验证,覆盖 in-domain 和 out-of-domain 泛化
- 叙事技巧:Figure 1 用一张图就讲清楚了核心 idea——左半边是 CoT 蒸馏的局限,右半边是 Agent 蒸馏的优势

D — 迁移应用示例

假设你要做一个"代码生成蒸馏"的项目:

用升维蒸馏思维:不要只蒸馏代码片段,而要蒸馏"编程行为"——什么时候该写测试?什么时候该重构?什么时候该查文档?把这些元行为也蒸馏到小模型中,让小模型不只会写代码,还会像高级工程师一样做决策。


4.5 CVPR 2025 Best Paper — VGGT: Visual Geometry Grounded Transformer

论文:Jianyuan Wang 等人,牛津大学/Meta AI。提出用前馈神经网络直接预测 3D 场景属性,替代传统的迭代优化方法。

D — 拆解表象

  • 问题:3D 场景重建依赖 Bundle Adjustment 等迭代优化方法,计算昂贵,无法实时。
  • 方法:VGGT 用 Transformer 直接从输入图像预测所有 3D 属性(相机参数、深度图、点对应关系),用交替注意力机制平衡帧内细节和帧间一致性。
  • 发现:在 RealEstate10K 上,VGGT 在 0.2 秒内达到 85.3 AUC@30,而 DUSt3R 需要 7-10 秒。在 ETH3D 上 Chamfer distance 降低到 0.677,速度快 45 倍。
  • 叙事:开头就说清楚——"我们的方法简洁高效,适合实时应用,这是相比优化方法的另一个优势。"

E — 暴露隐含假设

  • 隐含假设:3D 重建本质上是一个优化问题——需要迭代地最小化重投影误差。
  • 反转:如果数据足够多、模型足够强,优化问题可以被转化为预测问题——不需要迭代,前向传播一次就行。
  • 新问题:哪些传统的优化问题可以被"学习化"?3D 只是开始,是不是很多经典优化问题都可以用神经网络直接预测?

O — 思维模式卡片

【范式转换思维】
- 问题发现路径:找到一个领域里"一直这么做"的方法(迭代优化),问"能不能根本性地换一种方式?"
- 问题定义手法:不是"改进现有方法",而是"重新定义问题"——从优化问题到预测问题
- 创新点挖掘:用一个统一架构同时预测多个相关属性(相机参数+深度+对应关系),让它们互相增强
- 实验策略:用速度和精度两个维度的对比来证明范式转换的优越性——不是好一点,是快 45 倍
- 叙事技巧:直接用性能数字说话——0.2 秒 vs 7-10 秒,读者一看就懂范式转换的价值

D — 迁移应用示例

假设你要研究模型量化:

用范式转换思维:不要问"怎么更好地做量化感知训练(QAT)",而问"量化能不能不训练,直接预测最优的量化参数?"如果模型足够了解权重分布,也许前向传播一次就能给出最优量化方案,不需要迭代优化。


4.6 CVPR 2025 Honorable Mention — Navigation World Models

论文:Amir Bar 等人,Yann LeCun 团队。提出用可控视频生成模型来做导航规划——通过"想象"未来场景来决定下一步怎么走。

D — 拆解表象

  • 问题:导航需要规划,但传统方法要么依赖精确地图,要么用强化学习训练策略——各有局限。
  • 方法:训练一个条件扩散 Transformer(CDiT),根据过去的视觉观察和导航动作,生成未来可能的视觉场景。通过"模拟"不同动作序列的效果,选择最优路径。
  • 发现:NWM 在已知环境中表现优异,更重要的是,它能在未知环境中通过"想象"来做规划——这是传统方法做不到的。
  • 叙事:从 LeCun 的 JEPA 哲学出发——智能的核心是在心里模拟未来的能力。

E — 暴露隐含假设

  • 隐含假设:导航 = 在空间中找最优路径(路径规划问题)。
  • 反转:导航 = 预测不同动作会导致什么视觉结果,然后选择最好的那个。本质上是一个视频预测问题。
  • 新问题:世界模型的"想象力"有没有边界?在什么场景下它的想象会出错?

O — 思维模式卡片

【本质重定义思维】
- 问题发现路径:回到一个能力的本质定义——导航的本质是什么?不是路径规划,而是"预测行动的后果"
- 问题定义手法:把导航问题重新定义为视频生成问题——"如果往左走,我会看到什么?"
- 创新点挖掘:用一个生成模型同时解决"理解当前环境"和"规划未来行动"两个问题
- 实验策略:同时验证已知环境(有地图)和未知环境(需要想象)两种场景,突出泛化能力
- 叙事技巧:背后是 LeCun 的哲学——论文不只是技术贡献,还有思想层面的引领

D — 迁移应用示例

假设你要做一个代码生成 Agent:

用本质重定义思维:代码生成的本质是什么?不是"写出正确的代码",而是"预测这段代码运行后会怎样"。如果你能训练一个"代码执行世界模型"——给定代码和输入,预测输出——那 Agent 就可以在心里"模拟运行"代码,不需要真的执行就能判断对错。


五、六种思维模式汇总:你的思维武器库

通过上面的蒸馏,我们得到了六种可迁移的思维模式:

思维模式核心一句话适用场景代表论文
反证法思维不测"能做什么",测"不能做什么"你想证明一个系统的边界Mission: Impossible LMs
极简主义思维先证明冗余存在,再消除冗余一个方法已经很好但成本太高Token-Budget-Aware
反直觉检验思维当一个观点成为共识,用新维度检验它你怀疑一个领域的基本假设Does RL Really Incentivize Reasoning
升维蒸馏思维蒸馏行为,不只是蒸馏知识你想把大模型的能力给小模型Agent Distillation
范式转换思维不改进旧范式,定义新范式一个领域的方法已经固化VGGT
本质重定义思维回到问题的本质,换一种表述你想在老问题上找新角度Navigation World Models

怎么用这张表:下次你要做一个新项目,先问自己——这个问题最接近哪种思维模式?然后用对应的思维路径来定义问题、找创新点、设计实验。


六、实验设计思维:怎么把不可量化变成可量化

这是整套方法论里最关键的一环。前面提炼了思维模式,但如果你不会设计实验来验证,这些思维模式就只是"空中楼阁"——你永远不知道自己提炼的东西是否真的 work。

6.1 实验设计的本质:把"我觉得"变成"数据说"

所有实验设计的核心问题只有一个:怎么把一个主观判断变成一个可以被数字衡量的事实?

这个过程可以拆解为四个步骤:

第一步:定位你要验证的核心主张

每篇论文/技术报告都有一个核心主张(claim)。比如:

论文核心主张
Does RL Really Incentivize Reasoning?RL 没有给 LLM 带来新的推理能力,只是提高了采样效率
VGGT前馈网络可以直接替代迭代优化做 3D 重建
Agent Distillation蒸馏 Agent 行为比蒸馏推理链更有效

你的第一步是:用一句话说出你要验证的主张是什么。 如果你不能用一句话说出来,说明你的问题定义还不够精确。

第二步:找到主张中的"不可量化词",替换成"可量化词"

这是最关键的技巧。看几个例子:

不可量化的表述可量化的表述
"RL 让模型变强了""RL 模型的 pass@1 比 base model 高 X 个百分点"
"模型学会了新推理方式""RL 模型的推理路径中,有 X% 不在 base model 的 top-k 采样中出现"
"方法更高效""在相同准确率下,推理时间减少了 X%"
"蒸馏更有效""同等参数量下,Agent 蒸馏比 CoT 蒸馏在 Y 任务上高 X 个百分点"
"泛化能力更强""在训练分布外的 Z 数据集上,性能下降不超过 X%"

操作口诀:看到"更好""更强""更有效"这类词,就问——"好多少?在哪测的?和谁比?用什么指标?"

第三步:设计对照实验,隔离变量

一个实验只能回答一个问题。如果你同时改了三件事,结果变好了,你不知道是哪件事起的作用。

实验设计的核心原则

原则含义操作方法
单一变量每次只改一个东西ablation study:每次去掉一个组件
公平对比对比条件要一致同样的数据、同样的计算预算、同样的评测指标
多维度验证不只在一个维度上测准确率 + 效率 + 泛化性 + 鲁棒性
统计显著性结果不是偶然多次实验取均值和方差,报告置信区间

第四步:选择指标,定义"好"的标准

指标的选择直接决定了你的结论。不同的指标会得出不同的结论——这在 NeurIPS 那篇 "Does RL Really Incentivize Reasoning" 里体现得淋漓尽致:用 pass@1 结论是 RL 有效,用 pass@256 结论是 RL 无效。

指标选择框架

你要测什么推荐指标类型示例
整体能力绝对数值Accuracy, F1, BLEU, pass@1
能力上界极限性能pass@k (k很大), oracle performance
效率性能/成本比Accuracy per FLOP, tokens per second
泛化性分布外表现OOD accuracy, zero-shot transfer
鲁棒性抗干扰能力对抗样本准确率, 噪声容忍度
多样性输出的差异性distinct-n, entropy, 聚类分散度
一致性结果的稳定性多次运行的方差, 不同 seed 的标准差

6.2 Benchmark 设计方法论:怎么造一个让全世界都用的评测集

顶级论文不只是用现有 benchmark,它们会设计新的 benchmark来重新定义问题。这是一个被严重低估的能力。

Benchmark 设计的五步法

第一步:找到现有 benchmark 的盲区

问自己三个问题:

  1. 现有 benchmark 覆盖了什么场景
  2. 没覆盖什么场景?这些场景重要吗?
  3. 现有 benchmark 的数据分布真实世界有什么差距?

比如 "Does RL Really Incentivize Reasoning" 这篇论文的 benchmark 设计逻辑:

现有评测的盲区:大家只看 pass@1(采样一次的正确率)
→ 这只能说明 RL 让模型"更大概率一次答对"
→ 但无法回答"RL 是否让模型获得了新的推理能力"
新评测维度:pass@k(采样 k 次至少答对一次的概率)
→ k=1 测的是"采样效率"
→ k=256 测的是"能力上界"
→ 对比两者就能区分"提高效率"和"获得新能力"

第二步:定义 benchmark 的评测维度

一个好的 benchmark 不是一堆数据的集合,而是一个有结构的评测体系。你需要:

维度问题示例
难度梯度从简单到困难,有几个层次?GSM8K → MATH → AIME → Olympiad
能力维度测的是什么能力?计算 vs 推理 vs 创造力 vs 知识
分布类型数据从哪来?真实数据 vs 合成数据 vs 混合
标注质量标注是怎么做的?专家标注 vs 众包 vs 自动生成
规模多少条数据?太少不统计,太多成本高

第三步:构造数据

数据构造有三种策略:

策略适用场景优点缺点
人工构造需要精确控制变量干净、可控成本高、规模小
真实采集需要生态效度贴近真实噪声大、不可控
半合成需要规模+可控兼顾两者需要设计生成模板

第四步:定义评测协议

评测不只是"跑一下看分数"。你需要定义:

  • 输入格式:模型看到什么?(prompt template)
  • 输出格式:模型输出什么?怎么解析?
  • 评分标准:什么算"对"?完全匹配?部分匹配?人工评判?
  • 对比基线:最低预期是什么?随机猜测是多少?
  • 统计方法:跑几次?怎么报告?均值±标准差?

第五步:验证 benchmark 本身的质量

一个 benchmark 如果自己就有问题,那基于它的所有结论都不可信。你需要验证:

检查项方法
有效性人类专家做同一批题,分数是否符合预期
区分度不同水平的模型/方法是否能被区分开
可靠性同一个方法跑多次,结果是否稳定
无偏性数据是否有系统性偏差(如只覆盖某一类问题)

6.3 从论文中逆向工程实验设计思维

怎么从一篇论文中"偷学"作者的实验设计能力?用这个逆向工程框架:

第一层:实验的论证结构

把论文的每个实验画成一个论证图:

实验1 → 回答问题:[方法的基本有效性]
实验2 → 回答问题:[和SOTA的对比]
实验3 → 回答问题:[每个组件的贡献](ablation)
实验4 → 回答问题:[在不同条件下的表现](泛化性)
实验5 → 回答问题:[为什么有效](分析性实验)

问自己:为什么是这5个实验?少了哪个论证就不完整?

第二层:实验之间的逻辑关系

实验之间通常有三种关系:

关系含义示例
递进后一个实验建立在前一个的结论上先证明有效 → 再解释为什么有效
并行多个实验从不同角度验证同一个主张同时在数学、代码、自然语言推理上测试
防御预判审稿人可能的质疑并提前回应"你可能会说这是数据泄露,所以我们加了时间分割实验"

第三层:指标的层次设计

好的论文不只报一个指标,而是设计一个指标体系

主指标:[核心主张的直接度量](例:pass@1 accuracy)
├─ 效率指标:[成本/速度的度量](例:tokens per second)
├─ 上界指标:[能力极限的度量](例:pass@256)
├─ 泛化指标:[在新场景的表现](例:OOD accuracy)
└─ 分析指标:[深入理解的维度](例:错误类型分布、路径覆盖率)

6.4 让你的提炼方法本身 work:验证闭环

你可能会问:"我用 DECODE 提炼出了思维模式,但怎么知道我提炼得对不对?"

这是一个元问题——你需要验证你的验证方法。我给出一个验证闭环:

闭环一:对比验证

1. 用 DECODE 提炼论文 A 的思维模式
2. 用提炼出的思维模式,对论文 B 做"预测"(B 是你还没读过的同方向论文)
3. 读论文 B,对比你的"预测"和实际论文的差异
4. 差异越小,说明你的提炼越准确

闭环二:产出验证

1. 用 DECODE 提炼某领域的 3-5 篇论文
2. 用提炼出的思维模式,设计一个新的实验方案
3. 把方案给该领域的专家看,问"这个方案如果是顶会论文的作者设计的,
有多大可能是这样的?"
4. 专家认可度越高,说明你的提炼越准确

闭环三:竞品验证

1. 用 DECODE 提炼一个大厂的技术报告
2. 用提炼出的思维模式,在新的 topic 上设计技术报告
3. 找到另一个大厂在同方向的实际技术报告
4. 对比你的设计和实际报告的重合度
5. 重合度越高,说明你的提炼越准确

闭环四:实战验证(最终标准)

1. 用 DECODE 提炼思维模式
2. 用提炼出的模式写论文/技术报告
3. 投稿/发布
4. 被接收/被引用/被认可 → 说明方法 work
5. 被拒/无人问津 → 回到 DECODE 的 O 步骤,重新提炼

6.5 实验设计速查清单

当你需要为一个新想法设计实验时,过一遍这个清单:

阶段检查项✅ 完成?
定义我的核心主张能用一句话说清楚吗?
定义主张中的每个"更好/更强"都被替换成了具体数字吗?
定义我知道我要回答哪几个问题吗?
对照每个实验只改变了一个变量吗?
对照我的 baseline 是公平的吗?(同数据、同计算量、同条件)
指标我的主指标和主张直接对应吗?
指标我有效率指标、上界指标、泛化指标吗?
指标我的指标能区分"真正有效"和"运气好"吗?
数据我的数据集能代表真实场景吗?
数据我有难度梯度吗?
统计我跑了多次取均值了吗?
统计我报告了方差/置信区间吗?
防御我预判了审稿人/读者可能的质疑吗?
防御我有针对性的实验来回应这些质疑吗?
可视化我的 Figure 1 能在一秒内传达核心结论吗?

七、从思维到产出:怎么用提炼出的模式写论文或技术报告

7.1 论文产出路径

假设你要在一个新 topic 上写论文,流程如下:

第一步:选一个思维模式

根据你的 topic 特性,从上面的六种思维模式中选择最匹配的。比如:

  • 你的 topic 是质疑某个流行方法的假设 → 反直觉检验思维
  • 你的 topic 是把一个昂贵的方法变便宜 → 极简主义思维
  • 你的 topic 是把一个优化问题变成学习问题 → 范式转换思维

第二步:用思维模式定义问题

用对应模式的问题定义手法,把你的 topic 变成一个精确的 research question。比如用反直觉检验思维:

共识:方法 X 在场景 A 上效果很好。 质疑:方法 X 在场景 A 上效果好,是因为它真的学会了 A 的规律,还是因为 A 恰好和它的归纳偏置匹配? Research question:如果我们在场景 B(和 A 的关键特性不同)上测试方法 X,它还能保持好的表现吗?

第三步:设计实验

参考对应模式的实验策略:

  • 反证法思维 → 构造对照组实验
  • 极简主义思维 → 先 pilot study 证明可行性,再系统验证
  • 反直觉检验思维 → 跨多个维度验证结论的普适性

第四步:写 story

参考对应模式的叙事技巧:

  • 反证法思维 → 标题就是 hook
  • 极简主义思维 → 用名人名言或直觉性的观察开头
  • 范式转换思维 → 用性能数字直接说话
  • 本质重定义思维 → 从哲学高度出发

第五步:打磨到顶会水平

检查以下清单:

检查项问题
问题定义你的 research question 是否精确到可以用实验回答?
创新点你的贡献是新的问题、新的方法、还是新的发现?至少要有一个
实验覆盖你是否跨了多个数据集/模型/任务来验证结论?
Ablation你是否能拆解每个组件的贡献?
Baseline你的 baseline 是否足够强、足够公平?
可视化你的 Figure 1 是否能在一秒内传达核心 idea?

7.2 技术报告产出路径

技术报告和论文的逻辑不同。论文追求"新颖性",技术报告追求"说服力和可复现性"。

大厂技术报告的典型思维模式

组件思维路径
模型架构不是"我们设计了一个新架构",而是"现有的架构在 XX 场景下有 YY 问题,我们通过 ZZ 修改解决了它"
实验设计不是"我们在 ABC 数据集上跑了一遍",而是"我们设计了三组实验分别回答三个问题:1)基础能力够不够?2)对比 SOTA 好多少?3)scaling law 怎么样?"
评测集不是"用了公开 benchmark",而是"公开 benchmark 有 XX 盲区,我们补充了 YY 测试来覆盖真实场景"
行文节奏不是平铺直叙,而是"问题 → 痛点 → 方案 → 效果 → 深入分析 → 局限性"的节奏
技术深度不是只展示好结果,而是展示"我们尝试了 5 种方案,这是对比和分析"——失败的经验同样有价值
Fancy 指标不是简单的 accuracy,而是设计有洞察力的分析维度(如 scaling curve、效率前沿、错误类型分布)

怎么做到"给出一个技术报告就能有同等深度"

  1. 先做问题拆解:把这个技术报告解决的问题拆成 3-5 个子问题
  2. 对每个子问题,用 DECODE 框架提炼作者的思维模式
  3. 找到新 topic 对应的子问题,用同样的思维模式来设计你的方案
  4. 模仿实验策略:不是照搬实验,而是照搬"为什么这么设计实验"的逻辑
  5. 模仿行文结构:不是照搬段落,而是照搬"每个段落在论证链中的作用"

八、DECODE 实操模板

为了让你能快速上手,我提供一个可以直接使用的模板:

8.1 单篇蒸馏模板

## 论文:[标题]
## 会议:[ACL/NeurIPS/CVPR 年份]

### D — 拆解表象
- 问题(一句话):
- 方法(一句话):
- 关键发现(一句话):
- 叙事线索(三句话):

### E — 暴露隐含假设
- 隐含假设:
- 如果假设不成立:
- 导出的新问题:

### C — 对比差异
- 和 [论文A] 的差异:
- 和 [论文B] 的差异:
- 本文的独特之处:

### O — 思维模式卡片
- 问题发现路径:
- 问题定义手法:
- 创新点挖掘:
- 实验策略:
- 叙事技巧:

### D — 迁移应用
- 如果我要做 [新topic],用同样的思维模式:
- 我会怎么定义问题:
- 我会怎么找创新点:
- 我会怎么设计实验:
- 我会怎么讲 story:

8.2 批量蒸馏工作流

当你需要快速蒸馏一个领域的多篇论文时:

  1. 第一天:用 D 步骤快速拆解 10-15 篇论文,每篇 15 分钟
  2. 第二天:从 10-15 篇中选出 3-5 篇最值得深挖的,做完整的 DECODE
  3. 第三天:做 C 步骤——对比这 3-5 篇的差异,提炼出 2-3 种通用思维模式
  4. 第四天:用 D 步骤——把思维模式迁移到你的新 topic,写出方案

8.3 技术报告蒸馏模板

## 技术报告:[标题]
## 公司:[公司名]

### 架构分析
- 核心架构决策是什么?
- 为什么这么设计?(解决什么痛点)
- 有什么工程上的 tricks?

### 实验分析
- 选了什么评测维度?为什么选这些?
- 和哪些 baseline 对比?为什么选这些?
- 有没有 ablation?展示了什么优先级?

### 行文分析
- 整体叙事结构是什么?
- 哪些地方是"展示实力"的?
- 哪些地方是"承认局限"的?

### 思维模式提炼
- 作者做技术决策的思维链是什么?
- 如果我要在新 topic 上复现同等深度:
- 我该设计什么架构?
- 我该做什么实验?
- 我该怎么呈现结果?

九、终极目标:从"读懂"到"成为"

元认知提炼的终极目标不是让你"读懂更多论文",而是让你在面对任何新问题时,能像顶级作者一样思考

这需要你做三件事:

第一,积累思维模式库。每读一篇好论文,就用 DECODE 框架提炼一张思维模式卡片。积累 50 张卡片后,你会发现顶会论文的思维模式其实只有十几种,只是在不同领域用不同术语重复出现。

第二,刻意练习迁移。每周选一个新的 topic,用你提炼出的思维模式去"预写"一篇论文或技术报告的框架——不写具体内容,只写问题定义、创新点、实验设计和叙事结构。然后找一篇同方向的论文来对比,看你的框架和实际论文的差距在哪里。

第三,在实战中迭代。真正写论文或技术报告时,先选好思维模式,用模板搭好框架,再填充内容。写完后回头检查——我的问题定义够精确吗?我的创新点够清晰吗?我的实验策略够系统吗?我的 story 够有说服力吗?

这三步形成一个闭环:提炼 → 迁移 → 实战 → 反思 → 再提炼

当你能稳定地产出和顶会论文同等深度的分析时,你就不再是"读懂了别人",而是"成为了和他们一样的人"。


十、总结

你过去做的你现在要做的
读论文记笔记读论文提炼思维模式
收藏好论文把好论文的思维蒸馏成卡片
模仿论文的方法模仿论文的思维操作系统
学了一个方法不知道怎么用知道在什么场景下用什么思维模式
给一个 topic 不知道怎么开始用 DECODE 框架五步产出方案

核心一句话:不要蒸馏内容,蒸馏思维。不要读懂论文,要成为作者。

这套方法不只是适用于学术论文——任何需要"从别人的产出中提炼出底层能力"的场景都适用。无论是读大厂的技术报告、拆解竞品的产品设计、还是学习高手的写作章法,DECODE 框架都能帮你从"表象"看到"操作系统"。

这就是元认知提炼技术——让你读过的每一篇好文章,都变成你能力的一部分


附录:DECODE 提示词工具箱

以下提示词可以直接复制粘贴到任何 AI 对话中使用。每个提示词都是独立的、自包含的——你只需要把目标材料的内容(或链接)喂给 AI,它就会自动执行完整的 DECODE 流程。


提示词 1:通用思维操作系统蒸馏器(万能版)

适用于任何类型的材料:论文、技术报告、公众号文章、自媒体文案、公文、商业分析报告等。

你是一个"思维操作系统蒸馏专家"。你的任务不是总结内容,而是从给定材料中蒸馏出作者的思维操作系统——即作者"怎么想的",而不是"说了什么"。

请严格按照以下 DECODE 五步框架执行:

## 第一步:D — Decompose(拆解表象)

把材料拆成四个维度,每个维度用一句话回答:
1. **问题陈述**:作者在解决什么问题?
2. **核心方法/路径**:作者用什么方式解决的?
3. **关键产出/发现**:最重要的一个结果或结论是什么?
4. **叙事线索**:从开头到结尾的逻辑链是什么?(用3个箭头连接的关键词表示,如:现象→矛盾→方案)

## 第二步:E — Expose(暴露隐含假设)

1. 这篇材料默认了什么前提条件?(列出2-3个隐含假设)
2. 如果这些假设不成立,会导出什么新问题?
3. 作者回避了什么?有什么显而易见但作者没有讨论的点?

## 第三步:C — Contrast(定位独特性)

1. 如果别人也来处理同样的问题,通常会怎么做?(描述"常规路径")
2. 作者的做法和"常规路径"有什么根本性的差异?
3. 这个差异的本质是什么?(是一个新视角?一种新工具?还是一个被忽视的切入点?)

## 第四步:O — Orchestrate(提取思维模式)

输出一张"思维模式卡片":

思维模式名称:[用3-5个字概括这种思维方式] 核心逻辑:[一句话说明这种思维的本质] 触发条件:[什么情况下你应该用这种思维] 操作步骤:

  1. [第一步做什么]
  2. [第二步做什么]
  3. [第三步做什么]
  4. [第四步做什么] 避坑指南:[使用这种思维时容易犯的错误]

## 第五步:D — Deploy(迁移应用)

1. 给出3个可以用这种思维模式处理的不同领域/场景
2. 对每个场景,具体说明:
- 你会怎么定义问题
- 你会怎么切入
- 你会怎么验证
3. 最终输出一个"行动清单":如果我现在就要用这种思维模式开始工作,第一步、第二步、第三步分别做什么?

---

请现在对以下材料执行完整的 DECODE 分析:

[在此粘贴材料内容或描述]

提示词 2:学术论文深度蒸馏器

专门用于提炼 ACL/NeurIPS/CVPR/ICLR/ICML 等顶会论文的思维操作系统。

你是一个"学术论文思维蒸馏专家"。你的目标不是帮我理解这篇论文的内容,而是让我能够"像这篇论文的作者一样思考"——从而在面对新问题时,我能独立产出同等水平的论文。

请对以下论文执行深度蒸馏:

## Layer 1:问题定义的章法

1. **问题发现路径**:作者是怎么发现这个问题的?是从实际需求出发、从理论矛盾出发、还是从前人方法的盲区出发?
2. **问题定义手法**:作者是怎么把一个模糊的想法变成一个精确的 research question 的?用了什么抽象?做了什么限定?
3. **问题定位策略**:作者把这个问题放在什么位置?(是填补空白、是挑战共识、还是连接两个领域?)

## Layer 2:创新点的挖掘路径

1. **创新来源**:创新点是来自新数据、新方法、新视角、还是新评测?
2. **创新构建方式**:作者是怎么从"发现问题"到"提出方案"的?中间的推理链是什么?
3. **创新的本质**:如果把所有技术细节去掉,这个创新的核心思想用一句话怎么说?

## Layer 3:方法设计的决策链

1. **架构选择**:为什么选这个架构而不是其他?作者做了什么 trade-off?
2. **关键设计决策**:列出3-5个最重要的设计决策,每个说明"为什么这样做"
3. **失败预判**:作者在设计时预判了什么可能的失败?怎么应对的?

## Layer 4:实验策略的论证逻辑

1. **实验设计逻辑**:每个实验分别回答什么问题?实验之间是什么关系(递进?并行?互补?)
2. **Baseline 选择策略**:为什么选这些 baseline?它们分别代表什么流派?
3. **Ablation 的优先级**:ablation 实验的顺序暴露了作者认为什么最重要?
4. **数据集选择逻辑**:为什么选这些数据集?它们分别测试什么能力?

## Layer 5:叙事结构的说服工程

1. **Title 分析**:标题传递了什么信息?是结论、是方法、还是问题?
2. **Abstract 结构**:摘要的每一句话分别起什么作用?(背景→问题→方法→结果→意义)
3. **Introduction 的钩子**:第一段怎么吸引读者?最后一段怎么给出贡献?
4. **Figure 1 的设计**:核心图为什么这样画?它在一秒内传达了什么?
5. **行文节奏**:哪里快、哪里慢?哪里给数据、哪里讲故事?

## 输出:思维操作系统说明书

最终输出一份"思维操作系统说明书",格式如下:

=== 作者的思维操作系统 ===

[操作系统名称]:[3-5字概括]

▎问题发现引擎

  • 触发条件:[什么信号让作者注意到这个问题]
  • 搜索策略:[作者用什么方式搜索问题空间]
  • 验证方式:[作者怎么确认这个问题值得做]

▎问题定义编译器

  • 输入:[模糊的想法/观察]
  • 处理流程:[怎么把模糊变成精确]
  • 输出:[一个可操作的 research question]

▎创新点生成器

  • 核心算法:[作者的创新挖掘方式]
  • 输入材料:[基于什么信息产生创新]
  • 质量检验:[怎么判断创新点够不够好]

▎实验设计框架

  • 论证结构:[实验之间的逻辑关系]
  • 防御策略:[怎么应对可能的质疑]
  • 亮点工程:[怎么让结果看起来 impressive]

▎叙事引擎

  • 开场策略:[怎么在30秒内抓住读者]
  • 节奏控制:[哪里详哪里略]
  • 收尾方式:[怎么让读者记住这篇论文]

=== 迁移指令 ===

如果我要在 [我的topic] 上运用这套思维操作系统:

  1. 我应该怎么发现和定义问题:
  2. 我应该怎么找创新点:
  3. 我应该怎么设计实验:
  4. 我应该怎么写 story:
  5. 我的论文标题应该是什么风格的:

---

请对以下论文执行完整的深度蒸馏:

[在此粘贴论文标题和摘要,或提供论文链接]

提示词 3:技术报告思维蒸馏器

专门用于提炼大厂技术报告(如 OpenAI、Google、Meta、字节等技术博客)的思维操作系统。

你是一个"技术报告思维蒸馏专家"。你的目标是让我能够从一份技术报告中提炼出作者的工程决策思维、实验设计策略和行文说服技巧,从而在面对新需求时,我能独立产出同等深度和 fancy 程度的技术报告。

请对以下技术报告执行深度蒸馏:

## 维度一:架构决策思维

1. **问题拆解方式**:作者把大问题拆成了哪几个子问题?拆解逻辑是什么?
2. **架构选择推理链**:每个核心架构决策的"为什么"是什么?
- 为什么选这个 base model?
- 为什么做这个修改?
- 为什么加这个组件?
3. **工程 tricks 的层次**:哪些是核心创新?哪些是工程调优?怎么区分的?
4. **技术深度展示策略**:作者在哪里展示了技术深度?怎么做到的?

## 维度二:实验设计策略

1. **评测维度设计**:作者选了什么评测维度?为什么是这些维度?缺少了什么?
2. **Baseline 选择逻辑**:和谁比?为什么?每个 baseline 代表什么水平?
3. **Ablation 的叙事**:ablation 展示了什么优先级?先拿掉什么?后拿掉什么?
4. **数据/评测集策略**:用了公开数据还是自建数据?自建的话,怎么建的?为什么这么建?
5. **Fancy 指标设计**:除了基础指标,作者用了什么"高级"分析维度?这些维度揭示了什么洞察?

## 维度三:行文说服工程

1. **整体叙事弧线**:报告的结构是什么?(画出结构图)
2. **亮点前置策略**:最重要的结果放在哪里?为什么放在那里?
3. **对比呈现技巧**:怎么展示"我们比别人好"?表格、图、文字分别怎么用的?
4. **局限性处理**:承认了什么局限?怎么承认的?(是真诚承认还是"凡尔赛"?)
5. **视觉效果策略**:哪些图表最有冲击力?为什么?

## 维度四:基建与工具思维

1. **基建设计**:作者做了什么工具/基建?怎么做到"很难但很必要"的?
2. **工具的 fancy 程度**:怎么让一个工具看起来既有技术深度又很实用?
3. **可复现性策略**:作者怎么处理可复现性?开源了什么?没开源什么?

## 输出:技术报告思维操作系统

=== 技术报告思维操作系统 ===

▎问题拆解引擎

  • 标准拆解模板:[作者是怎么把需求变成技术方案的]
  • 子问题优先级排序:[先做什么后做什么]

▎架构设计决策树

  • 决策节点1:[什么条件下选方案A vs 方案B]
  • 决策节点2:[...]
  • 决策节点3:[...]

▎实验设计配方

  • 必做实验清单:[不管什么topic都应该做的实验]
  • 加分实验清单:[做了会让报告更impressive的实验]
  • Fancy指标库:[可以复用的高级分析维度]

▎行文模板

  • 开头段:[怎么写]
  • 方法段:[怎么写]
  • 实验段:[怎么写]
  • 讨论段:[怎么写]
  • 结尾段:[怎么写]

▎基建设计指南

  • 什么级别的基建值得做
  • 怎么让基建看起来fancy且有深度
  • 怎么评估基建的投入产出比

=== 迁移指令 ===

如果我要写一份关于 [我的topic] 的技术报告:

  1. 我应该怎么拆解问题:
  2. 我应该设计什么架构:
  3. 我应该做什么实验(列出具体清单):
  4. 我应该怎么画 Figure 1:
  5. 我的技术报告标题应该是什么:
  6. 我的基建/工具应该做什么:

---

请对以下技术报告执行完整的深度蒸馏:

[在此粘贴技术报告内容或链接]

提示词 4:批量材料思维蒸馏器

适用于从多份材料中提炼共通的思维操作系统。可以同时喂入多篇论文、多个技术报告、或多种类型的材料。

你是一个"批量思维蒸馏专家"。我会给你多份材料,你的任务是从中提炼出共通的思维操作系统——让我能够"变成这些作者"来思考和行动。

## 第一步:逐个快速拆解

对每份材料,用以下格式快速拆解(每份不超过100字):

材料 [编号]:[标题]

  • 问题:[一句话]
  • 方法:[一句话]
  • 关键产出:[一句话]
  • 思维特点:[和常规做法最大的不同是什么]

## 第二步:交叉对比

1. 这些材料定义问题的方式有什么共通的模式?
2. 这些材料找创新点的方式有什么共通的模式?
3. 这些材料做实验/验证的方式有什么共通的模式?
4. 这些材料讲故事的策略有什么共通的模式?

## 第三步:提炼统一思维操作系统

从所有材料中提炼出一个统一的思维操作系统:

=== 统一思维操作系统 ===

系统名称:[概括] 适用范围:[什么类型的问题/场景]

▎问题发现引擎 共通模式:[这些作者发现问题的共同方式] 具体操作:[步骤1 → 步骤2 → 步骤3]

▎问题定义编译器 共通模式:[这些作者定义问题的共同方式] 具体操作:[步骤1 → 步骤2 → 步骤3]

▎创新挖掘算法 共通模式:[这些作者找创新点的共同方式] 具体操作:[步骤1 → 步骤2 → 步骤3]

▎验证/实验框架 共通模式:[这些作者验证想法的共同方式] 具体操作:[步骤1 → 步骤2 → 步骤3]

▎叙事/说服引擎 共通模式:[这些作者讲故事的共同方式] 具体操作:[步骤1 → 步骤2 → 步骤3]


## 第四步:生成行动指令

给我一份可以直接执行的行动清单:

1. **如果我要在 [新topic] 上用这套操作系统写论文/技术报告/文案:**
- 第一步:[具体做什么]
- 第二步:[具体做什么]
- 第三步:[具体做什么]
- 第四步:[具体做什么]
- 第五步:[具体做什么]

2. **关键决策点:**
- 在 [什么节点] 应该做 [什么决策]
- 在 [什么节点] 应该做 [什么决策]

3. **质量检查清单:**
- [ ] 检查项1
- [ ] 检查项2
- [ ] 检查项3
- [ ] 检查项4
- [ ] 检查项5

---

请对以下材料执行批量蒸馏:

[在此粘贴材料1]

---

[在此粘贴材料2]

---

[在此粘贴材料3]

提示词 5:写作风格+思维蒸馏器(自媒体/公文/文案)

适用于提炼任何写作材料的"行文操作系统"——不只是思维模式,还包括写作风格、节奏、用词习惯、结构套路。

你是一个"写作思维+风格蒸馏专家"。我会给你一份写作材料(可能是自媒体文章、公文、商业文案、公众号文章等),你的任务是提炼出作者的"写作操作系统",让我能够用同样的风格和思维写出新内容。

## 第一层:思维模式提炼

1. **作者的核心思考框架是什么?** (是用什么逻辑在组织内容的?)
2. **作者怎么吸引注意力?** (开头用什么技巧?标题怎么设计的?)
3. **作者怎么维持注意力?** (中间怎么保持节奏?用什么方式过渡?)
4. **作者怎么收尾?** (结尾的作用是什么?号召行动?情感共鸣?留悬念?)

## 第二层:写作风格提炼

1. **语气/调性**:正式/随意/专业/亲和/犀利/温和?具体怎么实现的?
2. **用词特征**:有什么高频词或特殊用词?句式有什么特点?(长句还是短句?排比还是散句?)
3. **段落结构**:每段多长?段内逻辑是什么?(总分?递进?转折?)
4. **视觉节奏**:怎么用加粗、列表、引用、分割线等排版元素?
5. **情感曲线**:整篇文章的情绪走势是什么?(平稳?起伏?先抑后扬?)

## 第三层:结构模板提炼

把这篇文章的结构提炼成一个可复用的模板:

标题风格:[怎么起标题] 开头(第1-2段):[什么功能,怎么写] 过渡段:[怎么从开头过渡到正文] 正文部分1:[什么功能,怎么写] 正文部分2:[什么功能,怎么写] 正文部分3:[什么功能,怎么写] 收尾段:[什么功能,怎么写] CTA/结尾:[什么功能,怎么写]


## 第四层:输出写作操作系统

=== 写作操作系统 ===

▎选题引擎

  • 选题标准:[什么话题值得写]
  • 切入角度:[从什么角度切入]

▎标题设计

  • 标题公式:[标题的结构规律]
  • 示例:[给出3个可以用同样公式生成的新标题]

▎开头模板

  • 开头策略:[用什么方式开头]
  • 具体写法:[描述具体的开头结构]

▎正文展开

  • 展开策略:[用什么逻辑展开]
  • 段落模板:[每段的标准结构]

▎收尾策略

  • 收尾方式:[用什么方式收尾]
  • CTA设计:[怎么引导读者行动]

▎风格参数

  • 语气:[具体描述]
  • 句式偏好:[具体描述]
  • 用词偏好:[具体描述]
  • 排版偏好:[具体描述]

=== 迁移产出 ===

用这套写作操作系统,帮我为以下新主题写一份同等风格的内容:

主题:[在此填入你的主题] 要求:[在此填入字数、格式等要求]


---

请对以下材料执行完整的写作操作系统蒸馏:

[在此粘贴材料内容]

提示词 6:即时实战——"变成他,开始行动"

这是最直接的提示词。给它材料,它会直接让你"变成作者",并给出在新 topic 上的完整行动方案。

我会给你一份材料。请你完成以下任务:

## 任务一:提炼思维操作系统

从这份材料中提炼出作者的思维操作系统——不是总结内容,而是回答"作者是怎么想的"。输出格式:

思维操作系统:[名称]

  1. 作者怎么发现问题的:[...]
  2. 作者怎么定义问题的:[...]
  3. 作者怎么找创新点的:[...]
  4. 作者怎么验证想法的:[...]
  5. 作者怎么讲故事的:[...]
  6. 作者做技术/执行决策的思维链:[...]

## 任务二:生成模仿指令

假设我现在要用这套思维操作系统来处理一个新 topic。我需要你:

1. **列出行动项清单**(具体的、可执行的步骤):
- [ ] 行动项1:[具体做什么,用什么工具,预期产出什么]
- [ ] 行动项2:[...]
- [ ] 行动项3:[...]
- [ ] 行动项4:[...]
- [ ] 行动项5:[...]

2. **给出结果模板**(我按照这个模板产出,就能达到原作者的深度和广度):

标题:[应该是什么风格] 第一部分:[应该写什么,怎么写] 第二部分:[应该写什么,怎么写] 第三部分:[应该写什么,怎么写] 第四部分:[应该写什么,怎么写] 第五部分:[应该写什么,怎么写]


3. **给出关键决策点**(在做这个项目的过程中,我需要在哪些节点做什么决策):
- 决策点1:[什么时候,选什么,为什么]
- 决策点2:[...]
- 决策点3:[...]

## 任务三:模拟对话

假设我就是原作者,请用第一人称帮我想象:
- "我看到 [某个现象/需求] 的时候,第一反应是..."
- "我选择这个方向是因为..."
- "我遇到最大的困难是...,我通过...解决了"
- "如果让我重来一次,我会..."

---

我的新 topic 是:[在此描述你的新 topic/需求]

请蒸馏的材料是:

[在此粘贴材料内容]

提示词 7:实验设计思维蒸馏器

专门用于提炼论文/技术报告中的实验设计逻辑——怎么想到 benchmark、怎么把不可量化变可量化、怎么设计对照组。

你是一个"实验设计思维蒸馏专家"。我会给你一篇论文或技术报告,你的任务是提炼出作者的实验设计思维操作系统——让我能够在新项目上独立设计同等水平的实验。

请对以下材料执行深度蒸馏:

## 第一层:核心主张的量化拆解

1. **核心主张**:作者的核心 claim 是什么?(一句话)
2. **量化转换**:这个 claim 中的"更好/更强/更有效"是怎么被转成具体数字的?
- 原始表述:[作者原话]
- 量化表述:[用什么指标,在什么数据上,和谁比]
3. **指标选择逻辑**:为什么选这个指标而不是别的?这个指标的"盲区"是什么?

## 第二层:Benchmark 设计思维

1. **Benchmark 来源**:用了现有 benchmark 还是自己造的?
2. **如果用了现有 benchmark**:
- 为什么选这些 benchmark?它们分别测什么能力?
- 这些 benchmark 的盲区是什么?作者怎么弥补的?
3. **如果自己造了 benchmark**:
- 怎么发现现有 benchmark 不够用的?
- 数据怎么构造的?(人工/采集/合成)
- 怎么验证新 benchmark 本身的质量的?
4. **难度梯度设计**:有没有从简单到困难的层次?怎么设计的?
5. **评测协议**:怎么定义"答对了"?完全匹配?部分匹配?人工评判?

## 第三层:实验论证结构

把每个实验画成论证图:

实验1:

  • 回答的问题:[...]
  • 核心发现:[...]
  • 在论证链中的作用:[基础有效性 / SOTA对比 / 消融 / 泛化 / 分析]

实验2:

  • 回答的问题:[...]
  • 核心发现:[...]
  • 在论证链中的作用:[...]

...(列出所有实验)


然后回答:
1. 实验之间是什么关系?(递进/并行/防御)
2. 如果删掉某个实验,论证链哪里会断裂?
3. 作者预判了什么质疑?用哪个实验来防御的?

## 第四层:Baseline 选择逻辑

对每个 baseline,回答:
1. 这个 baseline 代表什么方法/流派?
2. 为什么必须和它比?(不比会怎样?)
3. 对比条件公平吗?(同数据量、同计算量、同设置?)
4. 有没有故意不比的?为什么不比?

## 第五层:Ablation 思维

1. Ablation 的顺序是什么?先拿掉什么?
2. 这个顺序暴露了作者认为什么组件最重要?
3. 每个 ablation 实验分别回答什么问题?
4. 有没有"负向ablation"(拿掉某个组件反而变好了)?作者怎么解释的?

## 输出:实验设计思维操作系统

=== 实验设计思维操作系统 ===

▎主张量化引擎 标准流程:[怎么把"我觉得X"变成"数据显示X"] 量化公式:[主张 → 指标 → 数据集 → baseline → 预期数字] 反例检查:[怎么证明不是"碰巧"而是"真的有效"]

▎Benchmark 设计配方 发现盲区的方法:[...] 数据构造策略:[...] 质量验证方法:[...] 难度梯度设计:[...]

▎实验论证框架 必做实验清单:[不管什么topic都应该做的实验] 加分实验清单:[做了会让论文更impressive的实验] 防御实验清单:[预判质疑后需要做的实验]

▎Baseline 选择策略 必须比的baseline:[代表什么流派] 加分比的baseline:[展示什么优势] 不需要比的:[为什么不需要]

▎Ablation 设计策略 组件优先级排序方法:[...] 每个ablation的论证目标:[...]

=== 迁移指令 ===

如果我要在 [我的topic] 上设计实验:

  1. 我的核心主张是:[...]
  2. 我的主张量化后是:[用X指标,在Y数据集上,和Z比,高W个百分点]
  3. 我需要的 benchmark 是:[现有A + 自建B,因为...]
  4. 我的实验论证图是:[实验1→实验2→实验3→...]
  5. 我的 baseline 清单是:[...]
  6. 我的 ablation 计划是:[先拿掉X,再拿掉Y,最后拿掉Z]

---

请对以下材料执行完整的实验设计蒸馏:

[在此粘贴论文/技术报告内容]

使用指南

你想做什么用哪个提示词输入产出
快速提炼任何材料的思维模式提示词 1(万能版)任意材料思维模式卡片 + 迁移建议
深度提炼学术论文提示词 2(论文版)论文标题+摘要完整思维操作系统说明书
深度提炼技术报告提示词 3(技术报告版)技术报告内容技术报告思维OS + 实验配方
从多份材料提炼共性提示词 4(批量版)多份材料统一思维OS + 行动清单
提炼写作风格和行文套路提示词 5(写作版)任意写作材料写作操作系统 + 风格模板
直接开始行动提示词 6(实战版)材料 + 你的新topic行动项 + 结果模板 + 决策点
提炼实验设计和 benchmark 思维提示词 7(实验版)论文/技术报告实验设计OS + Benchmark配方
扩展概念词汇库、生成对立面提示词 8(概念对立面)任意概念/陈述隐藏假设 + 对立面 + 深度问题
跨学科嫁接、产生新视角提示词 9(跨学科嫁接)问题/现象3-5个学科概念 + 深度问题
自动挖掘隐藏假设提示词 10(假设挖掘器)论述/摘要/结论3-5个隐藏假设 + 深度研究问题

提示词 8-10 已嵌入在「二.五」章节正文中,可直接从正文中复制使用。 提示词 11-12(Idea 生成器 / Idea 验证器)已嵌入在「二.六」章节正文中,可直接从正文中复制使用。