如何使用AI视频生成模型Google Veo 2（3种方法）-极客小站

谷歌推出了迄今为止最先进的生成视频模型 Google Veo 2。谷歌Veo 2旨在将详细的文字提示转化为电影品质的视频，它能创建逼真的动作、自然的物理效果和视觉丰富的场景，风格多样。目前，Google Veo 2 仅面向美国 18 岁及以上的用户，通过 Gemini、Whisk Animate 和 VideoFX 等平台的等待名单提供。预计 2025 年晚些时候将在 YouTube Shorts 和 Vertex AI 上推出更广泛的使用。在本教学指南中，我们将向您展示如何使用 Google AI Studio 访问 Google Veo 2，这是一个基于提示的动手工具，用于探索其视频生成功能。

什么是Google Veo 2？

Google Veo 2 是 Google DeepMind 的最新视频生成模型。它可以创建长达 8 秒的高质量视频，具有清晰的动作、电影般的灯光和令人印象深刻的场景细节。该系统旨在解读详细的文字提示，并将其转化为具有逼真元素和强烈视觉叙事的完整动画短片。

该工具可通过 Gemini、Whisk Animate 和 VideoFX 等多个谷歌平台使用，并有望在不久的将来与 YouTube Shorts 和 Vertex AI 集成。

Source: Veo 2

Google Veo 2有何过人之处？

以下是 Google Veo 2 的几个突出特点：

动作流畅逼真：人物、动物和物体动作流畅，逼真模拟自然行为。
提示准确性高：它能根据您的描述处理场景构图、照明和摄像机角度。
电影感：无论是戏剧性的日落还是充满悬念的实验室实验，Veo 都能准确把握视觉基调。
为 4K 做好准备：虽然目前的访问支持 720p，但系统设计可扩展至 4K 分辨率。
多个接入点：用户可以通过文本提示、图像动画工具或实验视频生成器访问 Google Veo 2。

怎样才能用上Google Veo 2？

以下是使用体验 Google Veo 2 的 3 种方法：

1. Google Studio

在 Google Studio 上，您只需使用文本提示即可创建视频短片。

如何使用：

访问 aistudio 网站。
选择 Google Veo 2 模型（如果您所在地区有售）

输入提示，例如：“A panoramic shot of a misty mountain valley at sunrise with birds flying overhead.”

系统将返回与描述相符的视频短片。

2. Whisk Animate (图片转视频）

Whisk Animate 可让你使用 Google Veo 2 引擎将静态图片转化为动画短片。该工具仅在美国正式提供，但你可以使用 VPN 从其他地区访问它。

非常适合

希望将作品制作成动画的插图画家
将视觉效果转化为宣传片的营销团队
让内容更吸引人的教育工作者

试用网址：Whisk Animation

3. VideoFX（基于提示的视频生成）

VideoFX 可以让你详细描述一个场景，并通过 Google Veo 2 生成电影品质的短片。它非常适合讲故事、原型设计或创意实验：

Close-up of a scientist adjusting a microscope under fluorescent lights.
A robot dancing in a cyberpunk alleyway during rainfall.

与 Whisk Animate 一样，VideoFX 目前也仅限于美国用户使用，但可以使用 VPN 访问。

试用网址：VideoFX

Google Veo 2视频示例

让我们来看看 Google Veo 2 可以根据详细提示生成的一些令人难以置信的视频示例。这些示例展示了精心制作的说明所带来的多功能性和创造性。以下是一些根据独特提示制作的视频：

1. 提示词：Turn the word “GEMINI” into bright blue jello 3D text jumping up and down in a kitchen on a circular jello dish.

2. 提示词： An old man sitting alone at a train station as seasons change around him, time-lapse style, melancholic tone.

3. 提示词： A giant koi fish flying in the sky above a quiet village, clouds parting as it swims through the air

4. 提示词： Form the word “NICOLE” using bright-colored animal pool floaties in a swimming pool, overhead shot.

实际操作：在Vertex AI上使用Google Veo 2生成电影视频

虽然 Google Veo 2 可通过 Gemini、Whisk Animate 和 VideoFX 等平台访问，但开发人员还可以更进一步，通过 Vertex AI 使用 Google GenAI SDK for Python 将 Google Veo 2 直接集成到自己的应用程序中。

本实践教学将指导您在 Google Colab 或 Jupyter Notebook 等 Python 环境中构建自己的提示视频生成器。

前提条件

开始之前，请确保

您的谷歌云项目已启用 Vertex AI API
已设置计费和云存储
您的环境已通过身份验证，可以访问 Google 云（例如，通过 Google Colab 或本地 gcloud auth）。

Step 1：安装所需的库

安装 GenAI SDK 和一些辅助库，如用于在 notebook 中显示视频的 mediapy。

%pip install --upgrade --quiet google-genai
%pip install -q mediapy

Step 2：验证（仅限Colab）

如果在 Google Colab 中运行此程序，请验证您的 Google 账户：

import sys
if "google.colab" in sys.modules:
    from google.colab import auth
    auth.authenticate_user()

Step 3：导入Python库

导入与 Google Veo 2 交互和可视化输出所需的一切。

import os
import time
import urllib
import matplotlib.pyplot as plt
import mediapy as media
from PIL import Image as PIL_Image
from google import genai

Step 4：设置项目和客户端

您需要连接到 Google Cloud 项目并指定区域。

PROJECT_ID = "[your-project-id]"  # Replace with your actual Project ID
if not PROJECT_ID or PROJECT_ID == "[your-project-id]":
    PROJECT_ID = str(os.environ.get("GOOGLE_CLOUD_PROJECT"))
LOCATION = os.environ.get("GOOGLE_CLOUD_REGION", "us-central1")
client = genai.Client(vertexai=True, project=PROJECT_ID, location=LOCATION)

Step 5：定义辅助函数

这些函数可帮助从云存储中下载生成的视频，并将其显示在 notebook 中。

def show_video(gcs_uri):
    file_name = gcs_uri.split("/")[-1]
    !gsutil cp {gcs_uri} {file_name}
    media.show_video(media.read_video(file_name), height=500)
def display_images(image):
    fig, axis = plt.subplots(1, 1, figsize=(12, 6))
    axis.imshow(image)
    axis.set_title("Starting Image")
    axis.axis("off")
    plt.show()

Step 6：加载Google Veo 2模型

使用生成视频所需的特定模型名称。

video_model = "veo-2.0-generate-001"

Step 7：根据文本提示生成视频

现在，让我们用自己的提示生成一段视频。方法如下

prompt = "A dreamy, slow-motion shot of a Bengal tiger walking through misty jungle under golden morning light, as leaves fall and birds fly away.
"  # Example prompt
aspect_ratio = "16:9"            # "16:9" or "9:16"
output_gcs = "gs://your-bucket-name/cat-reading.mp4"  # Replace with your GCS path
operation = client.models.generate_videos(
    model=video_model,
    prompt=prompt,
    config=types.GenerateVideosConfig(
        aspect_ratio=aspect_ratio,
        output_gcs_uri=output_gcs,
        number_of_videos=1,
        duration_seconds=5,             # 5 to 8 seconds
        person_generation="dont_allow", # For safe content generation
        enhance_prompt=True             # Improves prompt quality
    ),
)

监控操作直至完成：

while not operation.done:
    time.sleep(15)
    operation = client.operations.get(operation)
    print(operation)
Finally, display the generated video:
if operation.response:
    show_video(operation.result.generated_videos[0].video.uri)

输出

这种集成允许在自定义应用程序、创意工具或教育内容中生成可扩展的人工智能驱动视频。借助 Google 的 SynthID 水印和模型增强功能，您还可以获得符合道德规范、可随时制作的媒体输出。

Google Veo 2平替方案：探索其他人工智能视频生成工具

虽然谷歌的 Google Veo 2 提供了强大的视频生成功能，但其他几个平台也在以独特的方式推动人工智能视频生成的发展。以下是一些值得探索的顶级替代方案：

Sora

Sora 是 OpenAI 的旗舰文本视频模型，能以 1080p 分辨率创建长达 20 秒的高质量视频片段。它支持文本、图片和视频的多模态输入，并通过风格预设和混音功能提供强大的创意控制。它直接集成到 ChatGPT 中，Plus 和 Pro 用户均可使用，是追求高保真和易用性的创作者的强大选择。

Runway Gen-3 Alpha

Runway Gen-3 Alpha 专为电影和媒体专业人士打造。它具有先进的文本到视频和图像到视频生成功能，以及逼真的渲染和精确的关键帧工具。它能够捕捉细微的面部表情和动作，是讲故事、内容营销和电影实验的理想选择。

Dream Machine

Luma Labs 的 Dream Machine 以其电影级的质量和自然的动作生成而脱颖而出。它能将提示或静止图像转化为动态视频场景，并配以流畅的摄像和逼真的动画。它的界面非常友好，初学者和经验丰富的设计师都可以使用。

Kling AI

Kling AI 由快手开发，因其能够制作长达两分钟的高清视频而迅速闻名。它强调真实感和想象力，通过简单的测试版注册即可提供全球访问。它的视觉质量和长度支持使其成为讲故事或创意内容的理想选择。

Hailuo AI

Hailuo AI 是一款免费、轻量级的视频生成器，可根据文字提示制作富有想象力的短片。它在提示的遵从性和创造性方面表现尤为突出，是用户在无需成本或技术开销的情况下进行尝试的绝佳工具。

这些 Google Veo 2 替代品具有不同的优势，包括更长的持续时间、高分辨率、专业级工具和易用性。无论您是电影制片人、教育工作者、营销人员还是业余爱好者，探索这些平台都能为人工智能生成的视频故事带来令人兴奋的可能性。

谷歌Veo 2与OpenAI的Sora相比如何？

谷歌和 OpenAI 现在都进入了生成视频领域。

我们通过这个有趣的提示对它们进行了测试：

提示词：A tiny penguin barista serves frothy cappuccinos with latte art at an ice café, expertly balancing mugs on a tray as curious polar bears wait in line.

Google Veo 2 将这一氛围表现得淋漓尽致，以电影般的魅力和令人惊叹的细节将这一提示栩栩如生地呈现出来。企鹅自然地蹒跚着，蒸着卡布奇诺，北极熊的反应真实可信，所有这些都被柔和的雪景和动态灯光所衬托。然而，Sora 却差强人意。企鹅很僵硬，托盘很笨拙，卡布奇诺有蜡烛。与 Google Veo 2 相比，它的视觉效果平平，没有真正的故事性，简直就是失分。

以下是 Google Veo 2 与 OpenAI 的 Sora 的对比：

功能/特征	Google Veo 2	Sora
最大视频长度	8 秒	5 秒
分辨率	720p（支持 4K）	1080p
提示词解读	非常高	高
电影元素	是（摄像机角度、照明）	有限
可用性	Gemini, Labs, VideoFX	封闭式预览（仅限 Sora）
水印	内嵌 SynthID	不详

在超过 58% 的提示对齐和偏好比较中，Google Veo 2 的得分高于 Sora，尤其是在涉及物理现实、人体运动或讲故事的场景中。

制作更好提示的技巧

要充分利用 Google Veo 2，请在编写提示时牢记以下关键提示：

要有描述性：提及颜色、动作、时间、环境和其他感官细节，以创建生动的心理图像。
使用电影语言：包括拍摄角度、转场或照明方式（如“wide-angle shot”、“overhead drone view”、“sunset backlight”）。
设定情感基调：“tense”、“peaceful”或“thrilling”等词语有助于塑造视频的情绪和节奏。
添加具体行动：不要只描述场景，还应加入人物或物体正在做的事情，让场景栩栩如生。

举例说明：

效果较差的提示词：A tiger in the jungle.
效果更佳的提示词：A slow-motion tracking shot of a Bengal tiger prowling through dense, misty jungle foliage at dawn, sunlight filtering through the trees and glinting off its golden-orange fur as birds scatter in the background.

嵌入式水印以增加透明度：Google Veo 2中的SynthID

谷歌已将数字水印系统 SynthID 集成到谷歌 Veo 2 生成的所有视频中。这种隐形标记旨在识别人工智能生成的内容，即使在编辑之后也是如此。SynthID 的加入至关重要，因为它提高了透明度，使平台更容易识别和过滤被操纵的媒体。此外，它还能确保人工智能生成的内容可追溯，从而支持人工智能的道德使用。即使是常见的剪辑，如裁剪或应用滤镜，水印仍然可以被检测到，从而可以识别被重新利用的视频。

小结

谷歌的 Google Veo 2 是一款出色的生成式人工智能工具，它能根据详细的提示创建电影级质量的视频。它具有逼真的动作、电影般的灯光和高度的提示准确性等功能，必将改变视频制作。SynthID 的集成通过嵌入数字水印确保了人工智能的道德使用，使人工智能生成的内容易于识别和过滤。随着 Google Veo 2 在各个平台的推广，它有望重新定义我们创建和使用视频内容的方式。