万字综述，讲一讲这两年大模型这整个领域到底发展了哪些方面

阿里妹导读

本文深入探讨了自2023年GPT-4发布以来，大型语言模型（LLM）领域的发展趋势及其技术演进路径。

一、2023年的GPT-4开始

唯参数规模论时代的终结

1.1 2023年基线：GPT-4范式

在2023年初，LLM领域的发展遵循着一条清晰而有力的轨迹，规模决定能力，所以当年的爆火词就是Scaling Laws，更大的参数，更大的计算量，更大的数据规模。

这一理念的顶峰体现便是OpenAI的GPT-4，作为2023年当时最先进的AI，GPT-4被呈现为一个大规模的典范，基础架构依然是Transformer，但是拉长参数量，看上去就可以很好的work。尤其它在多种专业和学术基准测试中展现出与人类相当的水平，例如在模拟律师资格考试中取得了排名前10%的成绩，而前身GPT-3.5的得分则位于后10%。

相较于GPT-3.5，GPT-4的关键进步体现在几个方面。首先是上下文窗口长度的极大扩展，提供了8K和32K两种规格的上下文长度，远超前代的4K和2K，有点像当年软盘时代，内存从1K到1M的变化。这使得模型能够处理更长、更复杂的任务，OpenAI也宣称GPT-4在可靠性、创造力，甚至处理细微指令的能力上均优于GPT-3.5。

不过GPT-4的发布也让OpenAI有了个别名，CloseAI，就是因为架构保密。在技术报告中，OpenAI明确表示，出于竞争格局和大规模模型的安全影响的考量，将不提供关于架构（包括模型参数大小）、硬件、训练计算量、数据集构建或训练方法的任何细节。这个决定引发了社区关于透明度的广泛讨论，也使得外界对内部工作原理的理解主要依赖于间接推测和性能分析。当时一直有说法GPT-4拥有高达1760B的巨大参数量，但这从未得到官方证实，可它进一步强化了当时业界普遍持有的 Scaling-is-all-you-need 的信念，当时很多说法都是 GPU集群/数据量/更大的参数量 is all you need。

GPT-4的成功，给整个领域指明了一条通过不断扩大模型规模和数据量来提升智能水平的路径。

1.2 Scaling范式中浮现的裂痕

随后到2024年，直到年底，一年多的时间该挖的数据、该买的算力、该请的人才都到位了，但还没出现GPT5，唯规模论的范式，迎来了深刻反思和系统性挑战。这一时期的模型演进并非由单一技术突破驱动，而是源于对现有范式局限性的多方面冲击。

1. 对效率的迫切需求：传统Transformer架构的注意力机制具有与序列长度成二次方关系的计算复杂度（O(L^2)复杂度），加之密集型（Dense）模型高昂的推理成本，共同构成了一个严重的性能瓶颈。这极大地限制了上下文长度的扩展和模型的实际部署，从而催生了对稀疏架构和新型注意力机制的迫切需求。

2. 对推理的迫切需求：业界逐渐认识到，单纯的规模扩张并不能赋予模型强大的、多步骤的逻辑推理能力。模型在面对需要复杂规划和逻辑演绎的任务时，依然表现不佳。这一瓶颈促使研究方向发生根本性转变，从完全依赖预训练阶段的计算投入，转向在推理阶段分配额外计算资源，即思考（thinking）模型的诞生。

3. 智能体的迫切需求：随着模型推理能力的增强，下一个重点目标是让模型能够根据推理结果采取行动。这要求模型不仅能思考，还能与外部工具和环境进行交互，从而执行复杂任务，这标志着智能体AI（Agentic AI）时代的产生。

这三者有相互关联的驱动力，并非孤立存在，而是构成了一条紧密相连的因果链，清晰地勾勒出2023至2025年间前沿模型架构的演进脉络。效率的提升是实现经济可行的推理模型的前提，而强大的推理能力则是构建有效智能体的基石。

这条演进路径的逻辑为：

1. 需要对架构进行改进：密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题，模型需要更大的上下文窗口来容纳所有相关信息，并需要更复杂的内部处理流程。然而，O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济上和技术上都难以为继。因此，架构上的效率创新成为第一要务。混合专家（MoE）架构通过稀疏激活来降低计算量，而线性注意力等机制则直接攻击了二次方复杂度的瓶颈。这些在第二部分将详细分析的创新，为后续发展铺平了道路。

2. 需要提升可解释性，找到新的增长范式：一旦模型的基础架构在效率上得到优化，实验室便有了资本去探索计算成本更高的推理过程。在推理时进行thinking，也就是让模型在给出最终答案前进行一系列内部的、复杂的思考步骤，只有在底层架构已经足够高效的前提下才具有经济可行性，不然thinking一次巨长时间又巨贵，没什么可用性。没有MoE或线性注意力等技术降低基础成本，为每一次查询增加数倍乃至数十倍的thinking计算量是无法想象的。

3. 需要有商业价值，有用：一个能够进行多步推理并形成复杂计划的模型固然强大，但一个能够利用工具去影响其他系统，做出实践的模型，才具有真正的变革性。因此，Agent能力的开发，成为应用推理能力的自然延伸。它是这条因果链的第三个环节，也是最高阶的体现。一个模型只有在能够高效地进行深度思考之后，才能可靠地决定何时、如何以及使用何种工具来完成任务。

二、2024年至今对效率的迫切需求

2.1 稀疏化的兴起：混合专家（MoE）架构

混合专家（Mixture-of-Experts, MoE）架构是这一时期应对效率挑战最核心的策略之一，基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络（FFN）层。

这样对于输入序列中的每一个token，一个门控网络（gating network）或称为路由器（router）的机制会动态地选择一小部分专家来处理它。按这个模式，模型的总参数量可以急剧增加（比如R1直接到671B的总参数量），但每次前向传播（即推理）时实际激活的参数量和计算量（FLOPs）却只占一小部分（比如R1实际上只激活37B），从而实现了经济的训练和高效的推理。

2.1.1 DeepSeek的开创性MoE推进

DeepSeek是推广和开源MoE架构的重要部分，从V2开始，到R1等系列模型清晰地展示了MoE架构的演进和威力，到现在基本全是MoE的模型。

DeepSeek-V2：该模型引入了名为DeepSeekMoE的稀疏MoE架构。在236B（2360亿）参数的版本中，每个token仅激活21B（210亿）参数。这展示了超过10:1的总参数与激活参数之比，是MoE理念的经典体现，这种设计使得模型能够在保持巨大知识容量的同时，显著降低推理成本。
DeepSeek-V2-Lite：为了便于学术研究和更广泛的部署，DeepSeek推出了16B参数的轻量版MoE模型，每个token仅激活2.4B参数。其技术报告详细说明了其实现方式：除了第一层外，所有FFN层都被MoE层取代。每个MoE层包含2个所有token共享的专家（shared experts）和64个路由选择的专家（routed experts），每次会为每个token激活6个路由专家。这种细粒度的设计（共享专家处理通用模式，路由专家处理特定子问题）展示了MoE架构的灵活性和复杂性。
DeepSeek R1：作为一款专为推理设计的模型，R1同样基于MoE架构。它有惊人的671B总参数，而每个token的激活参数量为37B，这其实进一步证明了MoE架构是实现数千亿级别参数模型的可行路径，尤其是在HPC（高性能计算）协同设计的加持下。

2.1.2 Qwen的混合产品组合策略

阿里的Qwen团队采取了独特的市场策略，Qwen3系列同时提供了密集模型（最高32B）和MoE模型（如30B-A3B，235B-A22B）。这个策略是对不同市场需求的应对性玩法，密集模型通常具有更可预测的性能和更简单的微调流程，适合寻求稳定性的企业用户。MoE模型则代表了技术前沿，以极致的规模和性能吸引高端用户和研究者，这种双轨并行的产品线，让Qwen能够在不同的细分市场中都保持竞争力，尤其是二次开发的衍生模型，Qwen一直在HF都是排名第一的衍生模型，大量的科研和二次开发都是基于Qwen2.5，用LLaMA的越来越少。

2.1.3 Minimax-m1的混合MoE

最近6月刚发且开源的Minimax的m1模型也采用了混合MoE架构，拥有32个专家。模型总参数量为456B，每个token激活45.9B参数。这再次印证了约10:1的总参数与激活参数之比，已成为大型MoE模型的一个行业基准，主要也带来了超长上下文方面的提升，整体的性能可以看表，还是表现的很不错的。

万字综述，讲一讲这两年大模型这整个领域到底发展了哪些方面

2.2 注意力机制革命，超越二次方缩放

如果说MoE解决了FFN层的计算开销，那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈，自注意力机制（self-attention）与序列长度L的二次方计算复杂度O(L^2)，这一瓶颈是限制模型处理超长上下文（如百万级token）的主要障碍。

2.2.1 DeepSeek的多头潜在注意力（MLA）

机制：DeepSeek的Multi-Head Latent Attention (MLA) 是一种创新的注意力机制，它通过将长序列的Key和Value向量（即KV缓存）压缩成一个单一的、低秩的潜在向量（latent vector）来解决KV缓存瓶颈。这极大地减少了存储历史信息所需的内存，使它在支持128K上下文长度的同时，KV缓存相较于前代模型减少了93.3%。
在V3中的演进：在DeepSeek-V3中，MLA得到了进一步的优化，引入了更复杂的动态管理策略。例如，动态低秩投影（Dynamic Low-Rank Projection）可以根据序列长度自适应地调整压缩强度，短序列少压缩以保留保真度，超长序列（如32K-128K）则深度压缩以控制内存增长。分层自适应缓存（Layer-Wise Adaptive Cache）会在模型的更深层修剪掉较早的KV条目，进一步优化了在极端长上下文场景下的内存使用，这些演进表明，对注意力机制的优化已进入精细化、动态化的阶段。

2.2.2 Minimax-m1的闪电注意力（Lightning Attention）

机制：Minimax-m1采用了更为激进的混合注意力方案。大部分Transformer层使用的是一种名为闪电注意力（Lightning Attention）的线性复杂度（O(L)）机制。然而，为了防止模型表达能力和性能的过度损失，架构中每隔七个使用线性注意力的Transformer块，就会插入一个使用标准softmax注意力的完整Transformer块。
影响：这种设计在处理长序列时极大地降低了计算负荷。在生成长度为100K个token时，m1消耗的FLOPs仅为DeepSeek R1的25%，这直接能够支持高达100万token的超长上下文长度，这是一种在效率和性能之间进行权衡的设计。

2.2.3 Qwen2.5分组查询注意力（GQA）

Qwen2.5在技术报告中，明确提到了架构中集成了分组查询注意力（Grouped Query Attention, GQA），以实现更高效的KV缓存利用。虽然GQA不像MLA或闪电注意力那样具有革命性，但它已成为现代LLM中一项标准的、必不可少的优化技术，用于在性能和效率之间取得平衡。

2.2.4 效率作为战略护城河

对效率架构的选择，已不仅仅是技术层面的决策，更是一种核心的商业战略，深刻地定义了各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。

一方面，以DeepSeek和Qwen为代表的开源力量，选择将架构创新公之于众。他们详细地公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。核心价值主张是：以远低于专有模型的成本，提供接近业界SOTA的性能，并附加了架构透明度，方便开发者进行定制和研究。这一战略直接冲击了AI技术的高成本壁垒，通过开源和性价比来占领市场。

另一方面，以OpenAI和Anthropic为代表的闭源领导者，同样在效率上投入巨资（例如，GPT-4o的API价格比GPT-4 Turbo便宜50% ），但他们选择将具体的实现细节作为商业机密。他们将效率提升所节省下来的计算资源，再投资到计算成本更高昂的专有功能上，例如扩展思考（extended thinking）或智能体工具使用（agentic tool use）。对他们而言，护城河并非效率本身，而是由效率所解锁的、难以复制的独特能力。

这种战略分化创造了一个动态的竞争格局，开源模型不断拉低标准推理服务的价格，迫使闭源领导者必须持续创新，推出新的、能证明高昂定价和专有性质的尖端功能。因此，对效率的追求成为了整个领域发展的引擎，它既驱动了基础能力的“商品化”，也催生了新功能前沿的不断开拓。

三、2025年来推理Thinking走向台前

3.1 CoT的逐渐拉长

这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。核心理念是，模型在生成最终答案之前，花费额外的计算资源来生成一段内部的思考链（CoT，chain of thought），从而在需要逻辑、数学和规划的复杂任务上实现性能的巨大飞跃。这标志着模型从静态的知识检索向动态的问题解决能力的演进。

3.1.1 OpenAI的o系列（o1, o3, o4-mini）

机制：o系列模型是这一范式的开创者，它们在回答问题前会明确地花费时间进行Thinking。这个过程会生成一个长的、对用户隐藏的思考链，这段内部独白对于模型推导出正确答案至关重要。OpenAI以安全和竞争优势为由，禁止用户探查这个思考链。
影响：这种方法在重推理的基准测试上带来了惊人的性能提升。例如，o1解决了83%的AIME（美国数学邀请赛）问题，而GPT-4o仅为13%。这有力地证明了，对于特定类型的问题，推理时计算（test-time compute）比预训练计算能带来更大的价值。o系列还包括o1-mini、o4-mini这些变体，它们更快、更便宜，专为编码和STEM等不太需要广泛世界知识的任务进行了优化，很适合对话用。

3.1.2 Anthropic的Claude系列的混合推理

机制：Claude 3.7是首个以“混合推理模型”（hybrid reasoning model）为卖点的模型，它允许用户在快速响应和更深度的“扩展思考”（extended thinking）之间进行选择。随后的Claude 4（Opus和Sonnet版本）进一步将此功能完善为两种明确的模式，允许开发者根据具体应用场景，在延迟和准确性之间做出权衡。

3.1.3 Google的Gemini 2.5，屠榜的存在

Gemini 2.5 pro preview 0605最近屠榜了，样样都是第一，直接看下图。

万字综述，讲一讲这两年大模型这整个领域到底发展了哪些方面

另外还短时期流传出了Kingfall这个模型，也支持推理模式，据说性能极其的牛，但我还没试过，可以参考这篇文章：如何评价Google泄露AI模型KingFall，其性能和现有顶尖模型相比有提升么？

https://www.zhihu.com/question/1917689645715677739/answer/1918068480168691553

3.1.4 Qwen的方法

Qwen3：同样引入了“思考”和“非思考”模式，并在API中直接提供了一个名为思考预算（thinking budget）的参数，表明这一范式已成为行业共识。思考模式专用于处理复杂的逻辑、数学和编码任务，而非思考模式则用于高效的通用聊天。

3.2 为推理而训练，强化学习的演进角色

强化学习（RL）的角色在这一时期发生了根本性的转变。它不再仅仅是用于对话对齐（如RLHF）的工具，而是成为了教授模型如何进行推理的核心方法，推理时间也成为了新的Scaling Laws。

万字综述，讲一讲这两年大模型这整个领域到底发展了哪些方面

Thinking范式的出现，为扩展AI性能引入了一个全新的、正交的轴线：推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前，AI的进步主要沿着训练时计算和参数数量这两个轴线来衡量。主流的假设是，用更多数据训练一个更大的模型，它就会变得更聪明。这是2024年之前的旧轴线。

然而，o系列及同类模型证明，对于一组固定的模型权重，通过增加推理期间使用的计算量，可以极大地提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示，在AIME基准上的准确率随着测试时计算量的增加而提升，这便是新轴线的直接证据。

这一转变带来了深远的、高阶的影响。首先，它预示着对推理硬件的需求将大规模增长，而不仅仅是训练硬件。运行一次查询的成本不再是固定的，而是根据问题的难度动态变化，这为硬件市场带来了新的增长点。其次，它将研究重点从单纯地扩大预训练规模，转向开发更高效的推理算法（如在思考链中进行更优的搜索或规划）和更有效的RL技术来引导推理过程。另外它也催生了新的产品设计和商业模式，Model is the product的商业模式正在演变，以适应这个新维度，催生了如Gemini Flash与Pro、o4-mini与o3这样的分层产品，其中Thinking成为一个关键特性和差异化卖点，允许客户根据任务需求购买相应水平的智能。

3.2.1 DeepSeek-R1的RL优先流水线

机制：DeepSeek-R1的训练过程是一个以RL为中心的多阶段流程。在通过SFT（监督微调）进行Cold Start后，模型会进入一个大规模的RL阶段，该阶段专注于基于规则的评估任务，以激励模型生成准确且结构清晰的推理过程。此后，再进行更多的SFT和一个最终用于通用对齐的RL阶段。
目标：这种RL优先的方法促进模型自发地涌现出自我验证和错误修正等高级行为，产生了Aha moment，从而减少对大规模人工标注推理数据集的依赖，所以GRPO基本是目前广泛使用的模式，很多变体都是基于这个进行改进。

3.2.2 Minimax-m1的CISPO算法

机制：Minimax为训练大型模型开发了一种新颖的RL算法CISPO（Clipping Importance Sampling Policy Optimization），这个也是GRPO的变体，算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。
影响：这一算法创新对于成功训练庞大的456B混合专家模型至关重要。它在处理需要长远规划的复杂任务时，相比之前的方法实现了2倍的训练速度提升，仅用三周时间就完成了整个RL训练周期，花了五百多万美元的GPU hours，很具有性价比。

3.3 从理想到行动：智能体工具使用的黎明

一旦模型具备了推理和规划的能力，合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。

3.3.1 OpenAI的o3和o4-mini

这些模型是首批被描述为具备“智能体工具使用”（agentic tool use）能力的模型。它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL-E图像生成等工具来解决一个复杂的用户请求。例如，模型可以多次搜索网页，分析返回结果，并根据分析动态调整后续策略。

3.3.2 Anthropic的Claude 4

Claude 4的发布伴随着一套专为构建智能体而设计的新API功能：一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。这些功能，再结合独特的“计算机使用”（computer use）能力（即生成鼠标和键盘操作），使Claude成为构建能够与数字信息和图形用户界面（UI）进行交互的强大智能体的理想平台，目前Claude Code也给Cursor这些带来很大的危机感。

四、当前综合与竞争格局

4.1 各大模型的架构哲学比较

OpenAI：专注于开创“推理计算”范式，以o系列模型引领潮流，并利用先发优势打造新一类智能体模型。其战略是能力优先，架构细节作为核心竞争优势保持专有。
DeepSeek：奉行清晰的开源共享战略。他们在MoE、MLA等公开透明的架构上积极创新，并采用GRPO这些强化学习的方法，以更低成本提供与SOTA相媲美的模型，直接挑战专有生态系统，在国际上都有很高的评价。
Anthropic：采取“安全优先，能力驱动”的路线。他们紧随OpenAI进入推理（“混合推理”）和智能体（“计算机使用”、智能体API）领域，但通常更强调可控、可理解的过程和企业级的可靠性，并且目前更加强调代码能力。
Google：实施“平台与产品组合”战略。通过Gemini 2.5家族（Pro, Flash, Lite），他们提供了一套基于统一“思考模型”架构的分层模型，并深度集成到Google Cloud生态系统（Vertex AI）中，为企业提供具有明确性能权衡控制的解决方案。
Qwen：采用“灵活产品组合”战略。通过同时提供密集和MoE模型（Qwen3），并开创超长上下文（Qwen2.5-1M），他们满足了广泛的用例需求，并在多个战线（尤其是在多语言和开源领域）展开竞争。
Minimax：展现了新颖混合的探索精神。其m1模型将多种前沿但不同的思想（MoE、线性/softmax混合注意力、新颖RL算法）融合到一个强大的开源权重模型中，显示出他们探索独特架构组合的意愿。

4.2 这两年主要LLM架构列表对比

4.3 推理与Coding的Benchmark表现

截止到今年6月的表现如下：

模型架构的演进直接导致了Benchmark评估的分化。传统的NLP基准测试，如MMLU（大规模多任务语言理解），正迅速变得饱和，对于区分前沿模型的能力越来越有限。与此同时，一类专注于复杂推理（如GPQA, AIME）和智能体执行（如SWE-bench, Terminal-bench）的新基准，已成为衡量SOTA的真正标准。

这一转变的背后逻辑是：随着模型普遍能力的提升，它们在MMLU等知识密集型、选择题式的基准上的得分开始聚集在高端区间，难以拉开差距。2025年AI指数报告明确指出了MMLU、GSM8K和HumanEval等传统AI基准的饱和。作为回应，学术界和工业界将注意力转向了能够有效测试新一代推理能力的基准。AIME（高难度数学竞赛）、GPQA（需要研究生水平知识的问答）以及特别是SWE-bench（要求模型像软件工程师一样修复真实的GitHub问题），现在已成为Claude 4、o3和DeepSeek-R1等模型发布公告中反复引用的事实标准。

这一转变的更高阶影响是，SOTA的定义本身发生了变化。它不再是一个单一的、普适的头衔。一个模型可能在一个维度上是SOTA，但在另一个维度上则不是。例如，根据SWE-bench的领先表现，Anthropic的Claude 4被定位为SOTA的编码智能体。而OpenAI的o3/o4-mini则凭借在AIME上的卓越成绩，成为数学和推理领域的SOTA。Google的Gemini 2.5 Pro则在上下文处理和多模态能力上独占鳌头。这种由架构选择驱动的专业化，意味着选择最佳模型已成为一个依赖于具体用例的决策过程，反映出一个日益成熟和多样化的市场。

五、未来轨迹与结论

5.1 也许是具身智能与世界模型

当前在推理和智能体方面的趋势，是通向具身智能（Embodied AI）的直接前导。感知、推理、规划和行动的闭环，正是具身智能体的核心工作流程。像Claude 4这样直接就是Product应用能力的模型，以及OpenAI的智能体框架，是模型从控制软件工具迈向控制机器人执行器的第一步。

核心挑战在于将模型从数字世界迁移到物理世界。物理世界施加了严格的实时约束，而当前LLM的顺序执行、逐帧处理的架构并非为此设计。未来的研究，如`Corki`框架所提出的，将致力于算法与硬件的协同设计，通过让LLM预测未来的运动轨迹而非单一的、离散的动作，来解耦高延迟的LLM推理与低延迟的机器人控制。这预示着“世界模型”（World Models）——即能够理解和预测物理世界动态的AI系统将成为下一个研究热点。

5.2 对后Transformer架构的探索

尽管Transformer架构在过去几年取得了辉煌的成功，但固有的局限性也日益凸显，例如在处理某些组合性推理任务时的困难以及二次方复杂度问题。因此，学术界和工业界正在积极探索替代方案，尽管目前还没有任何架构能够完全取代它。这些探索包括状态空间模型（State Space Models, SSMs），但研究表明，与Transformer相比，SSMs在需要从上下文中复制信息等任务上存在不足。目前，大多数所谓的“后Transformer”研究，实际上更侧重于改进而非取代Transformer。例如，通过提出新的层归一化方案（如`ResiDual`）来稳定深度Transformer的训练，或者开发更高效的长上下文处理方法，这些都是在现有范式内的增量创新。

5.3 整体结论，现代AI架构的三大支柱

回顾2023年至2025年6月的这段关键时期，可以清晰地看到，大型语言模型领域完成了一次深刻的战略转向。它不再是单一地追求规模（Scale），而是转向了一个由三大新支柱构成的、更加复杂和强大的多维发展策略：

1.效率（Efficiency）：通过稀疏化（MoE）和先进的注意力机制（MLA、混合注意力）实现。效率创新使得巨大的模型规模和超长的上下文处理在经济上变得可行，为后续发展奠定了基础。

2.推理（Reasoning）：通过将计算资源重新分配到推理阶段（“思考预算”）以及利用先进的强化学习技术训练模型涌现出解决问题的能力来实现。这使得模型从知识的存储器转变为问题的解决者。

3.智能体（Agency）：作为推理能力的应用，它使模型能够自主地使用工具与数字乃至物理世界进行交互。这是将模型智能转化为实际行动的关键一步。

这一演进将大型语言模型从复杂的文本预测器，转变为初具形态的通用问题解决系统，为未来十年的人工智能发展奠定了坚实的架构基础。在这场新的竞赛中，胜利不再仅仅属于规模最大的模型，而是属于那些最有效率、思考最深刻、行动最强大的系统。

ps：本文协作者，Gemini 2.5 Pro 0605

与 AI 智能体进行实时音视频通话

AI 实时音视频互动是一种旨在帮助企业快速构建 AI 与用户之间的视频或语音通话应用的解决方案。用户只需通过白屏化的界面操作，即可快速构建一个专属的AI智能体，并通过视频云 ARTC 网络与终端用户进行实时交互。

点击阅读原文查看详情。

文章版权归作者所有，未经允许请勿转载。

THE END

AI资讯前沿科技

万字综述，讲一讲这两年大模型这整个领域到底发展了哪些方面

在2023年初，LLM领域的发展遵循着一条清晰而有力的轨迹，规模决定能力，所以当年的爆火词就是Scaling Laws，更大的参数，更大的计算量，更大的数据规模。

混合专家（Mixture-of-Experts, MoE）架构是这一时期应对效率挑战最核心的策略之一，基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络（FFN）层。

2.1.1 DeepSeek的开创性MoE推进

2.2.2 Minimax-m1的闪电注意力（Lightning Attention）

影响：这种设计在处理长序列时极大地降低了计算负荷。在生成长度为100K个token时，m1消耗的FLOPs仅为DeepSeek R1的25%，这直接能够支持高达100万token的超长上下文长度，这是一种在效率和性能之间进行权衡的设计。

2.2.3 Qwen2.5分组查询注意力（GQA）

2.2.4 效率作为战略护城河

对效率架构的选择，已不仅仅是技术层面的决策，更是一种核心的商业战略，深刻地定义了各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。

3.1.1 OpenAI的o系列（o1, o3, o4-mini）

3.1.2 Anthropic的Claude系列的混合推理

3.1.3 Google的Gemini 2.5，屠榜的存在

Gemini 2.5 pro preview 0605最近屠榜了，样样都是第一，直接看下图。

3.2.2 Minimax-m1的CISPO算法

机制：Minimax为训练大型模型开发了一种新颖的RL算法CISPO（Clipping Importance Sampling Policy Optimization），这个也是GRPO的变体，算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。

一旦模型具备了推理和规划的能力，合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。

3.3.1 OpenAI的o3和o4-mini

回顾2023年至2025年6月的这段关键时期，可以清晰地看到，大型语言模型领域完成了一次深刻的战略转向。它不再是单一地追求规模（Scale），而是转向了一个由三大新支柱构成的、更加复杂和强大的多维发展策略：

GPT 账号服务

联系我们

YouTube