如何通过API接口使用Meta的Llama 4模型-极客小站

Meta 的 Llama 4 是开源人工智能领域的一次重大飞跃，它提供了多模态支持、专家混合架构和海量上下文窗口。但真正让它与众不同的是它的可访问性。无论您是在构建应用程序、运行实验还是扩展人工智能系统，都有多种方法可以通过 API 访问 Llama 4。在本教程中，我将向您展示如何在一些最好的 API 平台（如 OpenRouter、Hugging Face、GroqCloud 等）上访问和使用 Llama 4 Scout 和 Maverick 模型。

Llama 4的主要特点和功能

原生多模态与早期融合：从一开始就使用早期融合技术处理文本和图像。每个提示最多支持 5 张图片–非常适合图片说明、视觉问答等。
专家混合（MoE）架构：将每项输入路由到一小部分专家网络，从而提高效率。
- Scout：17B 活动/总计 109B，16 位专家
- Maverick：17B 激活/总计 400B，128 位专家
- Behemoth：288B 活动/ ~2T 总计（训练中）
扩展上下文窗口：轻松处理长输入。
- Scout：最多 1 千万代币
- Maverick：多达 100 万个词库
多语言支持：本机支持 12 种语言，并在 200 多种语言的数据基础上进行了训练。在图像-文本任务中，英语性能最佳。
专家图像基础：将文本链接到特定图像区域，实现精确的视觉推理和基于图像的高质量答案。

Llama 4在LMSYS Chatbot Arena中排名第二

在图像推理（MMMU：73.4%）、代码生成（LiveCodeBench：43.4%）和多语言理解（多语言 MMLU：84.6%）等关键任务中，Meta 的 Llama 4 Maverick 均优于GPT-4o 和 Gemini 2.0 Flash。

它还能在单个 H100 上高效运行，成本更低，部署更快。这些结果凸显了 Llama 4 在强大功能、多功能性和经济性之间的平衡，使其成为生产型人工智能工作负载的有力选择。

Source: Llmarena

如何使用Meta的Llama 4模型？

Meta 针对不同用户的需求和技术专长，通过各种平台和方法提供了访问 Llama 4 的途径。

通过Meta人工智能平台访问Llama 4模型

试用 Llama 4 的最简单方法是通过 Meta 的人工智能平台 meta.ai。您可以立即开始与助手聊天，无需注册。它在 Llama 4 上运行，你可以通过询问“你是哪个模型？Llama 3 还是 Llama 4？”助手会回答：“我是在 Llama 4 上构建的”。不过，这个平台也有其局限性：没有 API 访问权限，自定义选项也很少。

从Llama.com下载模型权重

您可以从 llama.com 下载模型权重。您需要先填写一份申请表。获得批准后，您就可以获得 Llama 4 Scout 和 Maverick。Llama 4 Behemoth 可能会稍后推出。这种方法可以完全控制。你可以在本地运行，也可以在云端运行。但它最适合开发人员。没有聊天界面。

通过API提供商访问Llama 4模型

有几个平台提供了访问 Llama 4 的 API，为开发人员提供了将模型集成到自己的应用程序中的工具。

OpenRouter

OpenRouter.ai 提供对 Llama 4 模型 Maverick 和 Scout 的免费 API 访问。注册后，您可以探索可用的模型、生成 API 密钥并开始请求。OpenRouter 还包含一个内置聊天界面，可让您在将响应集成到应用程序之前轻松进行测试。

Hugging Face

要通过“Hugging Face”访问“Llama 4”，请按照以下步骤操作：

1. 创建一个Hugging Face账号

如果还没有注册，请访问 https://huggingface.co 并注册一个免费帐户。

2. 找到 Llama 4 模型库

登录后，搜索官方 Meta Llama 组织或特定的 Llama 4 模型，如 meta-llama/Llama-4-Scout-17B-16E-Instruct。你也可以在 Llama 网站或 Hugging Face 的博客上找到官方资源库的链接。

3. 请求访问模型

浏览模型页面，点击“请求访问”按钮。您需要在表格中填写以下详细信息，如法定全名、出生日期、组织全名（无缩写或特殊字符）、国家、所属单位（如学生、研究员、公司）和职务。

您还需要仔细阅读并接受《Llama 4 Community License Agreement》。填写完所有字段后，点击“Submit”请求访问。请确保信息准确无误，因为提交后可能无法编辑。

4. 等待批准

提交申请后，Meta 将对您的申请进行审核。如果自动批准访问，您将立即获得访问权。否则，审核过程可能需要几小时到几天。访问批准后，您将收到电子邮件通知。

5. 以编程方式访问模型

要在代码中使用模型，首先要安装所需的库：

pip install transformers
Then, authenticate using your Hugging Face token:
from huggingface_hub import login
login(token="YOUR_HUGGING_FACE_ACCESS_TOKEN")
(You can generate a "read" token from your Hugging Face account settings under Access Tokens.)

现在，加载并使用下图所示的模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meta-llama/Llama-4-Scout-17B-16E-Instruct"  # Replace with your chosen model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# Inference
input_text = "What is the capital of India?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids, max_length=50, num_return_sequences=1)
print(tokenizer.decode(output[0], skip_special_tokens=True))

替代访问选项：

Hugging Face 推理 API：某些 Llama 4 模型可能提供 API 访问，但可用性和成本取决于 Meta 的政策。
下载模型权重：一旦访问权限获得批准，您就可以从模型库下载权重供本地使用。

完成这些步骤并满足批准标准后，您就可以在 Hugging Face 平台上成功访问和使用 Llama 4 模型。

Cloudflare Workers AI

Cloudflare 通过其 Workers AI 平台将 Llama 4 Scout 作为无服务器 API 提供。您只需进行最少的设置，就能通过 API 调用调用模型。内置的 AI 游戏场地可用于测试，无需账户即可开始基本访问，非常适合轻量级或实验性使用。

Snowflake Cortex AI

对于 Snowflake 用户，可以在 Cortex AI 环境中访问 Scout 和 Maverick。这些模型可通过 SQL 或 REST API 使用，实现与现有数据管道和分析工作流的无缝集成。这对已经利用 Snowflake 平台的团队尤其有用。

Amazon SageMaker JumpStart 和 Bedrock

Llama 4 已集成到亚马逊 SageMaker JumpStart 中，并计划在 Bedrock 中提供。通过 SageMaker 控制台，您可以轻松部署和管理模型。如果您已经在 AWS 上进行构建，并希望将 LLM 嵌入到云原生解决方案中，这种方法尤其有用。

GroqCloud

GroqCloud 提供 Scout 和 Maverick 的早期访问权限。您可以通过 GroqChat 或 API 调用使用它们。注册后可免费使用，付费层级可提供更高的限制，因此既适合探索，也适合扩展到生产中。

经过简单的注册程序后，Together AI 即可提供 Scout 和 Maverick 的 API 访问权限。开发人员在注册后可获得免费点数，并可立即开始使用已发放密钥的 API。它对开发人员友好，并提供高性能推理。

Replicate

Replicate 承载着 Llama 4 Maverick Instruct，可使用其 API 运行。定价基于令牌使用量，因此你只需为你所使用的令牌付费。对于希望进行实验或构建轻量级应用的开发人员来说，这是一个不错的选择，而且无需前期基础设施成本。

Fireworks AI

Fireworks AI 还通过无服务器 API 提供 Llama 4 Maverick Instruct。开发人员可以根据 Fireworks 的文档进行设置，并迅速开始生成响应。对于那些希望在不管理服务器的情况下大规模运行 LLM 的人来说，这是一个简洁的解决方案。

访问Llama 4模型的平台和方法

PlatformModels AvailableAccess MethodKey Features/NotesMeta AIScout, MaverickWeb Interface即时访问，无需注册，有限的自定义，无API访问。Llama.comScout, MaverickDownload需要批准，全模型权重访问，适用于本地/云部署。 OpenRouterScout，MaverickAPI，Web 界面免费 API 访问，无等待名单，可能适用费率限制。Hugging FaceScout，MaverickAPI，DownloadGated access form，Inference API，下载权重，适用于开发人员。Cloudflare Workers AIScoutAPI，Web 界面（Playground）无服务器，处理基础设施、API 请求。 Amazon SageMaker JumpStartScout, MaverickConsoleAvailable now.Amazon BedrockScout, MaverickComing SoonFully managed, serverless option.GroqCloudScout, MaverickAPI, Web Interface (GroqChat, Console)注册后免费访问，付费层级用于扩展。 Together AIScout、MaverickAPIR需要账户和API密钥，新用户可免费使用。ReplicateMaverick InstructAPIP按令牌收费。Fireworks AIMaverick Instruct (Basic)API, On-demand Deployment详细访问说明请参考官方文档。

平台	支持模型	访问方式	关键特征/备注
Meta AI	Scout, Maverick	网页	即时访问、无需注册、有限定制、无 API 访问权限。
Llama.com	Scout, Maverick	下载	需要批准，完全模式权重访问，适合本地/云部署。
OpenRouter	Scout, Maverick	API，网页	免费 API 访问，无等待名单，可能有费率限制。
Hugging Face	Scout, Maverick	API，下载	有限制的访问形式，推理 API，下载权重，适用于开发人员。
Cloudflare Workers AI	Scout	API，网页 (Playground)	无服务器，处理基础设施、API 请求。
Snowflake Cortex AI	Scout, Maverick	SQL Functions，REST API	Snowflake 内的集成访问，适用于企业应用。
Amazon SageMaker JumpStart	Scout, Maverick	控制台	现已推出。
Amazon Bedrock	Scout, Maverick	即将提供	完全托管、无服务器选项。
GroqCloud	Scout, Maverick	API，网页 (GroqChat, Console)	注册后可免费访问，付费层级用于扩展。
Together AI	Scout, Maverick	API	需要账户和 API 密钥，新用户可免费使用。
Replicate	Maverick Instruct	API	按令牌计价。
Fireworks AI	Maverick Instruct (Basic)	API，On-demand Deployment	详细访问说明请查阅官方文档。

各种平台和访问方法突出表明了 Llama 4 对不同受众的可访问性，既包括希望探索其功能的个人，也包括希望将其集成到自己的应用程序中的开发人员。

通过API接口试用Llama 4 Scout和Maverick

在本比较中，我们将评估 Meta 的 Llama 4 Scout 和 Maverick 模型在各种任务类别（如摘要、代码生成和多模态图像理解）中的表现。所有实验均在 Google Colab 上进行。为简单起见，我们使用 userdata 访问我们的 API 密钥，其中包含对密钥的简短引用。

下面是我们如何使用 Groq 通过 Python 对每个模型进行测试的快速一瞥：

前提条件

在深入学习代码之前，请确保您已设置好以下内容：

GroqCloud 账户
将您的 Groq API 密钥设置为环境变量 (GROQ_API_KEY)
已安装 Groq Python SDK：

pip install groq

设置：初始化Groq客户端

现在，在笔记本中初始化 Groq 客户端：

import os
from groq import Groq
# Set your API key
os.environ["GROQ_API_KEY"] = userdata.get('Groq_Api')
# Initialize the client
client = Groq(api_key=os.environ.get("GROQ_API_KEY"))

任务 1：总结长篇文档

我们向两个模型提供了一段关于人工智能进化的长文，并要求它们做出简明扼要的总结。

Llama 4 Scout

long_document_text = """"""
prompt_summary = f"Please provide a concise summary of the following document:\n\n{long_document_text}"
# Scout
summary_scout = client.chat.completions.create(
    model="meta-llama/llama-4-scout-17b-16e-instruct",
    messages=[{"role": "user", "content": prompt_summary}],
    max_tokens=500
).choices[0].message.content
print("Summary (Scout):\n", summary_scout)

输出：

Llama 4 Maverick

# Maverick
summary_maverick = client.chat.completions.create(
    model="meta-llama/llama-4-maverick-17b-128e-instruct",
    messages=[{"role": "user", "content": prompt_summary}],
    max_tokens=500
).choices[0].message.content
print("\nSummary (Maverick):\n", summary_maverick)

输出：

任务 2：根据描述生成代码

我们要求两个模型根据简单的功能提示编写一个 Python 函数。

Llama 4 Scout

code_description = "Write a Python function that takes a list of numbers as input and returns the average of those numbers."
prompt_code = f"Please write the Python code for the following description:\n\n{code_description}"
# Scout
code_scout = client.chat.completions.create(
    model="meta-llama/llama-4-scout-17b-16e-instruct",
    messages=[{"role": "user", "content": prompt_code}],
    max_tokens=200
).choices[0].message.content
print("Generated Code (Scout):\n", code_scout)

输出：

Llama 4 Maverick

# Maverick
code_maverick = client.chat.completions.create(
    model="meta-llama/llama-4-maverick-17b-128e-instruct",
    messages=[{"role": "user", "content": prompt_code}],
    max_tokens=200
).choices[0].message.content
print("\nGenerated Code (Maverick):\n", code_maverick)

输出：

任务 3：图像理解（多模态）

我们向两个模型提供了相同的图片 URL，并要求其详细描述图片内容。

Llama 4 Scout

image_url = "https://cdn.analyticsvidhya.com/wp-content/uploads/2025/04/Screenshot-2025-04-06-at-3.09.43%E2%80%AFAM.webp"
prompt_image = "Describe the contents of this image in detail. Make sure it’s not incomplete."
# Scout
description_scout = client.chat.completions.create(
    model="meta-llama/llama-4-scout-17b-16e-instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt_image},
                {"type": "image_url", "image_url": {"url": image_url}}
            ]
        }
    ],
    max_tokens=150
).choices[0].message.content
print("Image Description (Scout):\n", description_scout)

输出：

Llama 4 Maverick

# Maverick
description_maverick = client.chat.completions.create(
    model="meta-llama/llama-4-maverick-17b-128e-instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": prompt_image},
                {"type": "image_url", "image_url": {"url": image_url}}
            ]
        }
    ],
    max_tokens=150
).choices[0].message.content
print("\nImage Description (Maverick):\n", description_maverick)

输出：

任务分析

任务	Llama 4 Scout	Llama 4 Maverick
1. 长文档摘要	优胜者：Scout 凭借其出色的 10M 标记上下文窗口，Scout 可轻松处理大文本，确保长摘要的上下文完整性。	亚军尽管语言能力很强，但 Maverick 的 1M 标记上下文窗口限制了其保留长距离依赖关系的能力。
2. 代码生成	亚军 Scout 能生成功能性代码，但其输出偶尔会遗漏细微的逻辑或技术工作流程中的最佳实践。	优胜者：Maverick Maverick专门从事开发任务，始终按照用户意图提供精确、高效的代码。
3. 图像描述（多模态）	功能强大虽然 Scout 可以处理图像输入并做出正确响应，但在需要精细的视觉和文本连接的场景中，其输出可能会让人感觉很一般。	优胜者：Maverick 作为一个原生的多模态模型，Maverick 在图像理解方面表现出色，能够生成生动、详细和上下文丰富的描述。

Llama 4 Scout 和 Llama 4 Maverick 都具有令人印象深刻的功能，但它们在不同的领域大放异彩。Scout 擅长处理长篇内容，这得益于其扩展的上下文窗口，使其成为总结和快速互动的理想选择。

另一方面，Maverick 在技术任务和多模态推理方面表现突出，在代码生成和图像解读方面精度更高。在两者之间做出选择，最终取决于您的具体使用情况–使用 Scout，您可以获得广度和速度；而使用 Maverick，您可以获得深度和精度。

小结

Llama 4 是人工智能进步的重要一步。它是一个具有强大功能的顶级多模态模型。它能原生处理文本和图像。它的专家混合设置非常高效。它还支持长上下文窗口。这使其功能强大而灵活。Llama 4 是开源的，可广泛访问。这有助于创新和广泛采用。Behemoth 等更大的版本正在开发中。这表明 Llama 生态系统在不断发展壮大。

常见问题

Q1. 什么是 Llama 4？

A. Llama 4 是 Meta 最新一代的大型语言模型 (LLM)，代表了多模态人工智能领域的重大进步，具有原生文本和图像理解能力，采用专家混合架构以提高效率，并扩展了上下文窗口功能。

Q2. Llama 4 的主要特点是什么？

A. 主要特点包括：原生多模态与文本和图像处理的早期融合、可实现高效性能的专家混合（MoE）架构、扩展的上下文窗口（Llama 4 Scout 可提供多达 1,000 万个词库）、强大的多语言支持以及专家图像基础。

Q3. Llama 4 系列有哪些不同型号？

A. 主要模型有 Llama 4 Scout（170 亿个活动参数，总计 1,090 亿个）、Llama 4 Maverick（170 亿个活动参数，总计 4000 亿个）和较大的教师模型 Llama 4 Behemoth（2880 亿个活动参数，总计约 2 万亿个，目前正在训练中）。

Q4. 如何访问 Llama 4？

A. 您可以通过 Meta AI 平台（meta.ai）访问 Llama 4，也可以从 llama.com（经批准后）下载模型权重，还可以通过 OpenRouter、Hugging Face、Cloudflare Workers AI、Snowflake Cortex AI、Amazon SageMaker JumpStart（即将推出 Bedrock）、GroqCloud、Together AI、Replicate 和 Fireworks AI 等 API 提供商访问。

Q5. Llama 4 是如何训练的？

A. Llama 4 是在海量、多样化的数据集（多达 40 万亿个代币）上进行训练的，训练中使用了超参数优化 MetaP、多模态早期融合等先进技术，以及包括 SFT、RL 和 DPO 在内的复杂的后训练管道。

文章版权归作者所有，未经允许请勿转载。

THE END