


OpenAI 官方宣称,新的 GPT-4.1 系列“几乎在各个方面”都优于备受好评的 GPT-4o。此次发布的核心提升聚焦于以下几个关键领域:
-
更强的智能与更低的延迟:整体性能得到提升,同时优化了响应速度。
-
卓越的编码能力:在软件工程基准测试(如 SWE-bench Verified)上表现突出,代码编辑能力(Aider’s Polyglot benchmark)和前端开发任务上均有大幅改进。
-
精准的指令遵循:在理解复杂指令、多轮对话跟踪(MultiChallenge)和格式依从性(IFEval)方面比 GPT-4o 有显著提升。
-
突破性的长上下文处理:支持高达 100 万个 token 的上下文窗口,远超 GPT-4o 的 128k,并在“大海捞针”(Needle in a Haystack)等测试中展现了全范围的精确信息检索能力。

1. GPT-4.1 (旗舰版):
-
定位:高性能旗舰模型,专为复杂任务和跨领域问题解决设计,被官方称为比 GPT-4o “更聪明”。
-
特性:拥有 1,047,576 tokens 的上下文窗口,最大输出 token 数达 32,768,知识截止日期更新至 2024 年 6 月 1 日。
-
性价比:性价比相较于 GPT-4o 提升了 26%。
2. GPT-4.1 mini (高效版):
-
定位:中型高性价比模型。
-
特性:性能接近 GPT-4o,但成本显著降低了 83%,延迟也减少了一半。多模态能力在某些任务上甚至超过了 GPT-4o。
3. GPT-4.1 nano (高速版):
-
定位:极致轻量、超高速模型。
-
特性:是目前 最快且最便宜 的模型,特别适用于分类、补全等对延迟和成本极其敏感的简单任务。
注意:混合均价是考虑了典型输入/输出比例和缓存命中率后的估算参考值。
此外,Prompt 缓存机制的折扣提升至 75%,使用 Batch API 还可再享 50% 折扣,进一步降低了大规模应用成本。
OpenAI 这次 GPT-4.1 系列发布,无疑是大型语言模型发展史上的又一重要里程碑。它不仅带来了性能上的飞跃,更在上下文长度、推理效率和成本效益上实现了结构性优化。
这预示着 AI 将能更稳定、更可控地应用于更复杂的现实世界任务。