在本月25日的Meta Connect开发者大会上,Meta发布了其最新Llama 3.2模型家族。同时,Llama Stack也作为一个重磅成果被推到前台。在Meta的官方陈述中,Llama Stack是一套全面的工具,目的在于简化在各种企业计算环境中部署 AI的复杂度,可以帮助开发者更简便、更快速地为不同规模的企业开发大模型应用。
1、为什么要提出这样的架构?
2、Llama Stack是什么样的?
Llama Stack的架构层次
-
Agentic Apps(智能体应用层)
-
端应用程序:这是整个架构的最顶层,代表基于大模型构建的最终用户应用程序。这些应用包括各种AI驱动的工具和服务。
-
Agentic System API(智能体API层) 智能体服务协调层,包含以下组件:
-
PromptStore(提示词库):用于管理和存储用于与AI模型交互的各种提示词。
-
Assistant(助手):通用的AI助手接口或服务。
-
Shields(防护盾):用于实现安全措施和保护机制。
-
Memory(记忆):用于管理AI系统的上下文和长期记忆。
-
Orchestrator(协调器):负责协调各个组件的工作,确保系统平稳运行。
-
Model Toolchain API(模型工具链API层) 模型开发和生产工具,包括:
-
Batch Inference(批量推理):用于大规模数据的模型推理。
-
Realtime Inference(实时推理):用于需要即时响应的场景。
-
Quantized Inference(量化推理):通过模型量化提高推理效率。
-
Continual Pretraining(持续预训练):允许模型在新数据上不断学习和更新。
-
Evals(评估):包括Harness(测试框架)、EvalData(评估数据)和Safety(安全性评估)。
-
Finetuning(微调):用于在特定任务上优化模型。
-
Pretraining(预训练):用于从头开始训练大模型。
-
Reward Scoring(奖励评分):用于强化学习或对模型输出进行评分。
-
Synthetic Data Generation(合成数据生成):创建合成数据集以增强训练。
-
Data(数据层)
-
Pretraining(预训练数据):用于初始模型训练的大规模数据集。
-
Preference(偏好数据):用于个性化或调整模型行为的数据。
-
Post training(后训练数据):用于模型训练后的优化或评估。
-
Models(模型层)
-
Core(核心模型):基座AI模型。
-
Safety(安保模型):专门用于确保AI输出的安保模型。
-
Customized(定制模型):针对特定任务或领域优化的模型。
-
Hardware(硬件层)
-
GPUs(图形处理器):用于加速AI计算。
-
Accelerators(加速器):其他类型的AI专用硬件加速器。
-
Storage(存储):用于存储大规模数据集和模型。
-
开发者能以最小的学习曲线入门,通过底层API获取基础的ML工具支持,再通过高层API实现业务需求; -
企业能根据具体业务需求定制化扩展,无论是增强数据安全性,还是提高模型的推理速度,架构都能灵活适应; -
维护更简便,开发者只需在不同层次进行局部优化或调整,而无需修改整个系统架构。
-
输入安全防护模型:这一模型确保用户输入在进入基座模型之前已经过过滤,防止恶意输入导致不合适的生成结果。这可以包括检测提示词注入(Prompt Injection)攻击或识别不合法的输入请求。 -
输出安全防护模型:这个模型将对基座模型的输出内容进行安全检查,避免生成潜在有害或不适合展示的内容。例如,如果模型生成的内容与系统安全标准不符,输出层将过滤或修改该内容,以确保产品输出符合相关法律要求、企业管理规定和社会道德规范。
-
Llama Guard 3 (8B) 输入/输出审核模型,支持8种语言,并针对特定的工具调用(例如搜索和代码解释器)进行了优化。它的主要功能是对输入和输出进行审查和过滤,确保生成的内容符合安全标准。 -
Llama Guard 3 (11B Vision) 支持图像推理安全,属于视觉安全模型,专用于检测和过滤多模态提示和响应中的有害内容。 -
Llama Guard 3 (1B) 这是一个轻量级的输入/输出文本审核模型,适合在边缘设备上部署,同时也有移动端优化的版本。可用于实时检测和过滤不合适的文本内容,适合需要快速审核的场景。 -
Prompt Guard 专为保护基于LLM(大语言模型)的应用程序免受恶意提示词攻击。 -
Code Shield:代码安全防护模型,对生成的有害或不安全代码进行过滤。 -
CyberSec Eval 2:用于量化LLM安全风险和能力的基准测试套件。