提示工程已经从"把句子写清楚"进化成了一门有可测量技术和真实基准的学科。2026 年,Claude 4、GPT-5 和 Gemini 2 Ultra 已经大规模部署,知道用哪种提示策略——以及为什么——是把精度从 60% 提升到 90% 的关键差距。
这篇文章覆盖在生产环境中持续有效的技术。
为什么 2026 年提示工程依然重要
"直接微调模型"听起来合理,直到你算清楚成本:
- 微调每次运行费用:$500–$5,000+
- 提示工程迭代:几分钟 + 少量 API 调用
- 大多数用例不需要模型级别的知识——需要的是更好的推理
即使确实要微调,基础提示词依然重要。以下技术同样适用于基础模型和微调变体。
技术 1:思维链(CoT)——基准线,ROI 最高
思维链让模型在回答前一步步推理。自 2022 年发表以来一直是单个 ROI 最高的技术。
基础 CoT 对比
❌ 没有 CoT:
问:一辆火车 8 点从 A 出发,速度 60 公里/小时。
另一辆 9 点从 B 出发,速度 80 公里/小时。
A 到 B 相距 300 公里,几点相遇?
答:10:30 ← 经常算错
✅ 有 CoT:
问:[同题]
让我们一步步思考。
答:
- 火车 1:8 点出发,速度 60 公里/小时
- 火车 2:9 点出发,速度 80 公里/小时,剩余间距 300 公里
- 9 点时,火车 1 已走 60 公里 → 剩余间距 = 240 公里
- 合速 = 60 + 80 = 140 公里/小时
- 关闭 240 公里需要 240/140 ≈ 1.71 小时 ≈ 1 小时 43 分
- 约 10:43 相遇 ✓
零样本 CoT
不一定需要示例,只要在推理任务末尾加上 "让我们一步步思考。" 即可:
python
def add_cot(prompt: str) -> str:
return prompt + "\n\n让我们一步步思考。"GSM8K 基准上,零样本 CoT 把 GPT-3.5 类模型的精度从约 40% 提升到约 70%。
适用场景:数学计算、逻辑推理、多步骤规划。 不适用:简单事实查找、创意写作。
技术 2:自一致性(Self-Consistency)——多数投票
自一致性对同一问题采样多条推理路径,取多数答案。本质是多次运行 CoT 然后投票:
python
import asyncio
from collections import Counter
async def self_consistent_answer(
question: str,
n_samples: int = 5,
temperature: float = 0.7
) -> str:
cot_prompt = f"{question}\n\n让我们一步步思考。"
# 并行采样 n 条独立推理路径
tasks = [
llm.invoke(cot_prompt, temperature=temperature)
for _ in range(n_samples)
]
responses = await asyncio.gather(*tasks)
# 提取最终答案
answers = [extract_final_answer(r) for r in responses]
# 多数投票
return Counter(answers).most_common(1)[0][0]成本权衡:5× API 调用换来约 10-15% 精度提升。 适用场景:复杂数学、多步逻辑推理、模型不确定的问题。 不适用:事实查找、创意任务。
技术 3:思维树(Tree of Thought)——有意识地探索
思维树通过显式探索多条推理分支并评估来扩展 CoT:
问题
├── 方案 A
│ ├── 步骤 A1 → 评估:有希望 ✓
│ └── 步骤 A2 → 评估:死路 ✗
├── 方案 B
│ └── 步骤 B1 → 评估:有希望 ✓ → 找到解答
└── 方案 C
└── 评估:不可行 ✗
python
async def tree_of_thought(problem: str, breadth: int = 3):
# 生成初始方案
approaches_prompt = f