Llama 4模型:Meta AI开源的最佳模型

如今,即使是人工智能公司最微小的更新,也会被当作重大突破来宣传。Meta 是否也是如此?我可不这么认为。他们跳过了戏剧化的过程,一口气推出了不是一个,而是三个新模型的 “Llama 4 集群”。Llama 4 模型-Scout、Maverick 和 Behemoth -从轻量级部署到企业级推理,每个模型版本都有明确的用途。最棒的是什么?其中两个模型现在已经向公众开放!在本文中,我们将了解如何访问 Meta 的 Llama 4 模型,并探索它们的功能、特性、基准测试结果以及与其他顶级模型相比的实际性能。

Llama 4模型三剑客:Scout, Maverick和Behemoth

Meta 的 Llama 4 模型群:Scout、Maverick 和 Behemoth 是一组高效的开源多模式模型。当 OpenAI、谷歌和 X.com 等公司正在建立越来越庞大但封闭的模型时,Meta 选择了一条不同的道路:让强大的人工智能变得开放、易用。事实上,Llama 4 Maverick 已经突破了 LMarena 1400 基准,击败了 GPT 4o、DeepSeek V3、Gemini 2.0 Flash 等模型!同样值得注意的是,这些模型支持 1000 万个令牌上下文长度,这是迄今为止所有开放式重量级 LLM 中最长的。让我们来详细了解一下这些模型。

Llama 4 Scout:小巧、快速、智能

Scout 是 Llama 4 系列中最高效的模型。它速度快、重量轻,是无法使用大型 GPU 集群的开发人员和研究人员的理想选择。

Llama 4 Scout的主要特点:

  • 架构:Scout 采用专家混合(MoE)架构,有 16 个专家,每次只激活 2 个,因此总共有 109B 的活动参数,其中 17B 为活动参数。它支持 1 千万个令牌上下文窗口。
  • 效率:该模型采用 Int4 量化技术,可在单个 H100 GPU 上高效运行,是一种经济实惠的高性能选择。
  • 性能:Scout 在基准测试中的表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 等同类模型。
  • 训练:它已在 200 种语言中进行了预训练,其中 100 种语言每种语言都包含超过 10 亿个词库,并在各种图像和视频数据上进行了训练,在单个提示中支持多达 8 幅图像。
  • 应用:得益于先进的图像区域基础,它可以提供精确的视觉推理。这使它成为长语境记忆聊天机器人、代码总结工具、教育问答机器人以及针对移动或嵌入式系统优化的助手等应用的理想选择。

Llama 4 Maverick:强大而可靠

Maverick 是开放式重量模型的旗舰产品。它专为高级推理、编码和多模态应用而设计。它比 Scout 更强大,但采用相同的 MoE 策略,保持了高效性。

Llama 4 Maverick的主要特点:

  • 架构:Maverick 采用混合专家架构,拥有 128 个路由专家和一个共享专家,在推理过程中只激活 400B 总参数中的 17B 参数。它使用文本和图像输入的早期融合进行训练,最多可支持 8 个图像输入。
  • 效率:该模型可在单个 H100 DGX 主机上高效运行,也可跨 GPU 扩展。
  • 性能:它在 LMSYS Chatbot Arena 上的 ELO 得分为 1417 分,超过了 GPT-4o 和 Gemini 2.0 Flash,同时在推理、编码和多语言能力方面与 DeepSeek v3.1 不相上下。
  • 训练:Maverick 采用了 MetaP 超参数缩放、FP8 精度训练和 30 万亿个令牌数据集等尖端技术。它具有强大的图像理解能力、多语种推理能力以及超越 Llama 3.3 70B 模型的经济高效性能。
  • 应用:它的优势使其成为人工智能配对编程、企业级文档理解和教育辅导系统的理想选择。

Llama 4 Behemoth:教师模型

Behemoth 是 Meta 迄今为止最大的模型。它不对外开放,但在帮助 Scout 和 Maverick 成为今天的样子的过程中发挥了至关重要的作用。

Llama 4 Behemoth的主要特点:

  • 架构:Behemoth 是 Meta 最大、最强大的模型,采用专家混合架构(Mixture of Experts),拥有 16 位专家,在推理过程中可激活近 2 万亿个参数中的 288B 个参数。它具有原生多模态功能,在推理、数学和视觉语言任务中表现出色。
  • 性能:在 MATH-500、GPQA Diamond 和 BIG-bench 等 STEM 基准测试中,Behemoth 的表现始终优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
  • 作用:作为教师模型,它发挥着关键作用,指导 Scout 和 Maverick 利用兼顾软监督和硬监督的新型损失函数进行协同蒸馏。
  • 训练:该模型采用 FP8 精度进行训练,优化了 MoE 并行性,速度比 Llama 3 提高了 10 倍,并采用了新的强化学习策略。这包括硬提示采样、多能力批量构建以及从各种系统指令中采样。

尽管 Behemoth 尚未公开,但它已成为 Meta 评估和内部提炼的黄金标准。

如何访问Llama 4模型?

您现在就可以根据自己的目标,通过多个易于使用的平台开始使用 Llama 4,无论是研究、应用开发还是功能测试。

  • llama.meta.com:这是 Meta 官方的 Llama 模型中心。它包括模型卡片、论文、技术文档以及 Scout 和 Maverick 的开放权重。开发人员可以下载模型,并在本地或云端运行。
  • Hugging Face:Hugging Face 承载着可立即使用的 Llama 4 版本。你可以直接在浏览器中使用推理端点测试模型,也可以通过 Transformers 库部署模型。此外,还支持与 Gradio 和 Streamlit 等常用工具的集成。
  • Meta应用程序:Llama 4 模型还支持 WhatsApp、Instagram、Messenger 和 Facebook 中的 Meta 人工智能助手。这样,用户就可以直接在日常应用程序中体验模型在真实世界中的对话。
  • 网页:您可以使用网页界面直接访问最新的 Llama 4 模型。

Llama 4模型试用体验

在 Meta 的任何应用程序或网页界面上试用最新的 Llama 4 模型都非常简单。虽然在这些应用程序中都没有明确提及后台使用的是 Scout、Maverick 和 Behemoth 中的哪种模型。到目前为止,Meta AI 还没有提供在其应用程序或界面上选择要使用的模型的选项。不过,我将测试 Llama 4 模型的三项任务: 创意规划、编码和图像生成。

任务 1:创意规划

提示词: Create a Social Media content strategy for a Shoe Brand – Soles to help them engage with the Gen z audience.

输出:

观察点评

  • Llama 4 模型非常快速!该模型能快速绘制出详细而简洁的社交媒体战略计划。
  • 在网页界面,目前还不能上传任何文件或图片。
  • 此外,它还不支持网络搜索或画布功能。

任务 2:编码

提示词:Write a python program that shows a ball bouncing inside a spinning pentagon, following the laws of Physics, increasing its speed every time it bounces off an edge.

输出:

观察点评

  • 它生成的代码有错误。
  • 该模型能快速处理需求,但准确性不高。

任务 3:图像生成

提示词:Create an image of a person working on a laptop with a document open in the laptop with the title “llama 4”, the image should be taken in a way the screen of the person is visible, the table on which the laptop is kept has a coffee mug and a plant.

输出:

观察点评

  • 它生成了 4 幅图像!其中,我觉得上面的图片最好。
  • 你还可以对生成的图片进行“Edit”和“Animate”。
  • 编辑允许你修改图片的某些部分,而动画允许你创建图片的 gif。

Llama 4模型的训练和后期训练

Meta 采用了结构化的两步流程:前期训练和后期训练,并融入了新技术,以提高性能、可扩展性和效率。让我们来分析一下整个过程:

前期培训阶段

预培训是模型知识和能力的基础。Meta 在这一阶段引入了多项创新:

  • 多模态数据:Llama 4 模型在超过 30 万亿个来自不同文本、图像和视频数据集的标记上进行了训练。它们是原生的多模态数据,这意味着它们从一开始就能同时处理语言和视觉数据。
  • 专家混合(MoE):每次推理时,只有模型总参数的一个子集处于活动状态。这种有选择性的路由选择可以让像 Maverick(总参数达 400B)和 Behemoth(约 2T)这样的大型模型更加高效。

Source: Meta

  • 早期融合架构:使用早期融合技术对文本和视觉输入进行联合训练,将两者整合到共享的模型骨干中。
  • MetaP 超参数调整:这项新技术可让 Meta 设定每层学习率和初始化规模,并在不同模型规模和训练配置之间进行良好转换。
  • FP8 精确度:所有模型都使用 FP8 进行训练,在不影响模型质量的前提下提高了计算效率。
  • iRoPE 架构:一种使用交错注意力层的新方法,无需位置嵌入和推理时间温度缩放,有助于 Scout 泛化到超长输入(多达 1,000 万个标记)。

后期训练阶段

训练完基础模型后,团队使用精心设计的序列对其进行微调:

  • 轻量级监督微调(SFT):Meta 使用 Llama 模型作为评委,过滤掉简单的提示,只使用较难的示例来微调复杂推理任务的性能。
  • 在线强化学习(RL):他们利用困难提示、自适应过滤和课程设计实施了持续的 RL 训练,以保持推理、编码和对话能力。
  • 直接偏好优化(DPO):在 RL 之后,他们应用轻量级 DPO 来微调特定的角情况和响应质量,在有用性和安全性之间取得平衡。
  • Behemoth Codistillation:Behemoth 充当了教师的角色,为训练 Scout 和 Maverick 生成输出。Meta 甚至引入了一个新颖的损失函数,以动态平衡软监督目标和硬监督目标。

这些步骤共同创建的模型不仅规模大,而且经过深度优化,更安全,更能胜任各种任务。

Meta Llama 4基准性能

Meta 分享了所有三个 Llama 4 模型的详细基准测试结果,反映了每个模型在设计目标和参数大小基础上的表现。它们还在几个新引入的具有特别挑战性和综合性的基准测试中表现优于领先模型。

Llama 4 Scout

尽管 Scout 是该系列中最小的模型,但在注重效率的评估中却表现出色:

  • ARC(AI2 推理挑战赛):在同级别的模型中,尤其是在常识推理方面,得分极具竞争力。
  • MMLU Lite:在历史、基础科学和逻辑推理等任务中表现可靠。
  • 推理速度:即使在单个 H100 GPU 上,速度也非常快,在质量保证和聊天机器人任务中的响应延迟很低。
  • 代码生成:在简单到中级的编程任务中表现出色,可用于教育编码助手。
  • 大海捞针 (NiH):在多达 1,000 万字节文本或 20 小时视频的长文本任务中实现了近乎完美的检索,展示了无与伦比的长期记忆能力。

Llama 4 Maverick

Maverick 为性能而生,而且性能全面:

  • MMLU(多任务语言理解):在知识密集型任务中的表现优于 GPT-4o、Gemini 1.5 Flash 和 Claude 3 Sonnet。
  • HumanEval(代码生成):在生成功能代码和解决算法问题方面,性能达到或超过 GPT-4。
  • DROP(段落离散推理):显示出很强的语境理解能力和数字推理能力。
  • VQAv2(可视化问题解答):擅长准确回答基于图像的查询,展示了 Maverick 强大的视觉语言能力。
  • NiH(大海捞针):在多达 100 万个标记的长文档中成功检索出隐藏信息,准确率接近满分,在上下文深度极深的情况下仅有少量遗漏。

Llama 4 Behemoth

Behemoth 不对外开放,但却是 Meta 最强大的评估基准。它用于提炼和指导其他模型:

  • 内部 STEM 基准:在科学、数学和推理的内部 Meta 测试中名列前茅。
  • SuperGLUE 和 BIG-bench:获得内部最高分,反映了最先进的语言建模能力。
  • 视觉语言整合:在需要综合理解文本和图像的任务中表现出卓越的性能,往往超过所有已知的公共模型。

这些基准测试凸显了每个模型在其角色中的卓越表现: Scout 可提供速度和效率,Maverick 可处理功率和通用任务,而 Behemoth 则是用于提炼和评估的研究级教师模型。

比较Llama 4模型

虽然这三种模型都有各自的特点,但下面的简要总结可以帮助您找到适合自己任务的 Llama 4 模型:

模型 参数 活动参数 专家 上下文长度 运行于 公开访问 适用于
Scout 109B 17B 16 10M tokens 单个 H100 轻量人工智能任务,长内存应用程序
Maverick 400B 17B 128 不明 单 GPU 或多 GPU 研究、编码、企业使用
Behemoth ~2T 288B 16 不明 内部资料 内部提炼 + 基准

小结

随着 Llama 4 的发布,Meta 所做的不仅仅是与时俱进,而是树立了一个新的标准。这些模型强大、高效、开放。开发人员不再需要巨额预算就能使用顶级人工智能。从小型企业到大型企业,从教室到研究实验室,Llama 4 让每个人都能掌握最先进的人工智能。在不断发展的人工智能世界中,开放性不再是题外话,而是未来的趋势。而 Meta 刚刚为它发出了强有力的声音。

© 版权声明
THE END
喜欢就支持一下吧
点赞20 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容