OpenAI o3-pro发布，也许当前的RAG过时了... - AI资源导航站-AI资源导航站

你好，小钗在医疗AI、教育AI、管理AI有丰富的经验

关注公众号，回复1，与我交个朋友吧

前两天，OpenAI 发布 o3-pro，号称最强推理 AI 模型上线，推理能力再创新高。对于推理最强这个信息，很多人都是无所谓的状态，但随后的信息就很嗨了：

伴随o3-pro的推出，OpenAI还做出了一个令人意外的决定，o3的价格下调80%，降至与GPT-4o相当的水平。具体来说：

调整前：输入token每百万10美元，输出token每百万40美元；
调整后：输入token每百万约2美元，输出token每百万约8美元；

虽然对比DeepSeek的费用来说还是偏贵，但已经是很有诚意的降价了，一些同学对此可能没什么概念：

10000字的提示词之前要花0.72元，现在只需要0.144元了。

除此之外，o3-pro上下文窗口大小为 200k，最大输出 token 数为 100k，这意味着至少可以输入约15万字的提示词！

大家知道15万字是什么概念吗，一篇短篇小说，各位得看一晚上了！

而无论是更便宜的资费还是更强的上下文，他都利好于Agent架构的记忆问题，大白话来说就是RAG由于更长的提示词上下文，可以玩得更花了！

作为AI应用80%会涉及的技术，今天我们就来简单介绍下RAG的几种玩法。

AI应用很简单，简单到一周就可以出demo；AI应用也很复杂，复杂到一年后效果依旧跟demo差不多，下图就是AI产品调用流程的具象化：

他是一段提示词输入 + LLM处理后的一段输出，但就是这里的输入和输出就学问大了。

unsetunset一、基础RAGunsetunset

最简单的检索增强模式，通过简单的文档检索提升模型的应答质量。

最初使用这个模式的时候，多半是为了加入特殊数据（知识），比如大模型关于糖尿病的治疗输出是基于临床指南的，而我们实现了一个医生的数字分身后，就要用该医生的回答，这里的流程是：

基础RAG优势在于快、易落地；短板则是检索策略死板、推理链条单薄。

RAG在工程层面只包含三个关键步骤：向量检索 → 上下文拼接 → 一次性生成。

这套流程足以在短时间内构建可用 Demo，但当场景复杂度提升，缺陷也会迅速暴露。下面按“现象—成因—应对”顺序展开：

问题	典型表现	主要成因
检索覆盖不足	用户同义改写或长句提问时，未命中关键文档	检索策略固定，Top-k 与阈值写死，不做 Query Rewriting
回答缺少链路	需要跨段、跨文件推理时，答案片段不完整	上下文仅拼接局部最近邻，缺知识关联
可观测性差	输出跑偏后，难以定位是检索错还是 Prompt 问题	缺少“检索→拼接→生成”三段日志

就是因为基础RAG这样那样的技术，所以很快就衍生出了高级RAG框架：

unsetunset二、高级RAGunsetunset

所谓高级RAG其实也没那么高级，其实就是基于RAG增加了很多工程控制策略。

他就是把“只会在一个抽屉翻文件”的基础 RAG，升级成“先问清需求、跑遍图书馆、再把最有价值的段落按优先级贴到桌面”的智能助手，显著提升召回率 + 精准度 + 可观测性。

这里举个例子：

场景	痛点（基础 RAG）	高级 RAG 怎么破	效果对比
三甲医院内部指南问答（跨科室 18 万条 SOP + 1.2 万页指南）	医生问“糖尿病患者术前能否继续二甲双胍？” 向量检索只把药品说明书拉进来，漏掉《围术期管理要点》	– 子查询加上“围手术期”“停药时机” – BM25 召回抓住专业术语 – 交叉编码器把 SOP 段落排在首位	召回率 62%→93% 回答引用 2 段→6 段，高可信引用一次成文
券商研究部多维数据分析（非结构化研报 + 时间序列 CSV）	“请给出 2024Q1 新能源车销量滑坡背后三大因素” 文本检索没法把销量曲线、月度库存一起召回	– 分路召回：文本向量 + 数值区间筛选 – Query 拆成“销量”“库存”“补贴”三路 – 重排序让含图表的段落优先	报告生成时间 80 s→18 s 含结构化洞察率 0→100%

场景

痛点（基础 RAG）

高级 RAG 怎么破

效果对比

三甲医院内部指南问答

（跨科室 18 万条 SOP + 1.2 万页指南）

医生问“糖尿病患者术前能否继续二甲双胍？”
向量检索只把药品说明书拉进来，漏掉《围术期管理要点》

– 子查询加上“围手术期”“停药时机”
– BM25 召回抓住专业术语
– 交叉编码器把 SOP 段落排在首位

召回率 62%→93%
回答引用 2 段→6 段，高可信引用一次成文

券商研究部多维数据分析

（非结构化研报 + 时间序列 CSV）

“请给出 2024Q1 新能源车销量滑坡背后三大因素”
文本检索没法把销量曲线、月度库存一起召回

– 分路召回：文本向量 + 数值区间筛选
– Query 拆成“销量”“库存”“补贴”三路
– 重排序让含图表的段落优先

报告生成时间 80 s→18 s
含结构化洞察率 0→100%

所以，高级 RAG = 多通道找资料 + 智能排序 + 过程可追踪的检索增强方案，让 AI 回答既更全又更准，还能快速定位哪里出错。

传统 RAG 只用向量 Top-k 检索，常漏掉专业术语或编号；高级 RAG 同时跑向量、关键词、结构化数据等多路召回，再用轻量模型二次排序，把真正相关的段落放到最前。

系统自动记录召回率、覆盖率等指标，如果出问题也可以很快查到是检索缺料还是 Prompt 失误。

总而言之，就是策略层面多了一些，调试方面更友好了。

unsetunset三、GraphRAGunsetunset

GraphRAG我们前面已经介绍过了。

如果说基础 RAG 像“在抽屉里翻资料”、高级 RAG 像“跑遍图书馆并打上标签”，那 GraphRAG 就是把所有书的知识点串成一张关系网，查询时直接沿着网状路径跳跃推理。

它把“检索增强”升级到了“关系增强”，让模型真正理解“谁跟谁有关系、为什么”：

维度	高级 RAG	GraphRAG
检索颗粒度	文本块（段/页）	实体 + 关系 + 路径
上下文拼接逻辑	Top-k + 重排序	多跳路径 + 语义子图
典型能力提升	召回率↑、日志↑	多跳推理↑、事实连贯性↑、幻觉↓
代表实现	分路召回 + 交叉编码	KG 构建 & GNN + 三段式推理引擎
适用场景	大文档 QA、报告生成	跨文件因果推理、异构数据综合分析

对比之前的RAG技术，GraphRAG的门槛会高一些，其构建过程就很复杂，比如之前的真实案例，他会有个知识预处理阶段：

# 知识图谱构建示意
kg = {
    "nodes": [
        {"id": "案例-XX医疗项目", "type": "case"},
        {"id": "部门墙", "type": "problem"},
        {"id": "Figma-Axure冲突", "type": "root_cause"},
        {"id": "埋雷预警", "type": "solution", "proprietary": True}
    ],
    "edges": [
        {"source": "案例-XX医疗项目", "target": "部门墙", "rel": "典型案例"},
        {"source": "部门墙", "target": "Figma-Axure冲突", "rel": "深层原因"},
        {"source": "埋雷预警", "target": "案例-XX医疗项目", "rel": "验证方案"}
    ]
}

输入：

根据以下知识图谱路径回答问题：
用户问题 -> 部门墙 -> 典型案例 -> XX医疗项目
        ↓
根本原因 -> Figma-Axure冲突
        ↓
解决方案 -> 埋雷预警（专有方案）

输出：

这个问题在《XX医疗项目》中有典型体现：  
1️⃣ **冲突起源**：设计组使用Figma交付原型，开发组坚持Axure格式（识别到工具冲突实体）  
2️⃣ **恶性循环**：沟通不畅导致开发擅自删除「消息已读」功能（关联到结果实体）  
3️⃣ **破局关键**：  
   - 立即实施「需求对齐看板」（关联解决方案）  
   - 启用课程独创的「埋雷预警」机制（优先调用私有方案）  
4️⃣ **效果验证**：二期项目交付周期缩短37%（绑定结果数据）

unsetunset四、推理型RAGunsetunset

如果说 GraphRAG 把资料“织成网”，那推理型 RAG 就是在网里塞进一位能「拆题-找料-论证-拍板」的小型决策官。它将思维链推理与检索动态调度融合，直接面向“复杂思考 + 自主决策”场景。

事实上，我并不认为推理型RAG比知识图谱的策略更高明，但如果基于知识图谱做推理，效果显然会更好，只不过不通过图谱也能CoT

以下是一些对比：

能力维度	具体描述	业务价值
思维链增强	内置 CoT 和分层推理，可在回答中展开 Step-by-Step 逻辑	复杂问答更可解释，方便审核与质控
自反思机制	自动评估中间结论并回溯优化	输出一致性↑，减少“一次性偏题”
多步骤分解推理	将一个复杂任务拆成子步骤、递进求解	支持诊疗、投研等多环节流程
动态检索能力	推理过程中按中间结果实时调整检索策略	降低“查早、查少、查错”三大风险