谷歌推出了迄今为止最先进的生成视频模型 Google Veo 2。谷歌Veo 2旨在将详细的文字提示转化为电影品质的视频,它能创建逼真的动作、自然的物理效果和视觉丰富的场景,风格多样。目前,Google Veo 2 仅面向美国 18 岁及以上的用户,通过 Gemini、Whisk Animate 和 VideoFX 等平台的等待名单提供。预计 2025 年晚些时候将在 YouTube Shorts 和 Vertex AI 上推出更广泛的使用。在本教学指南中,我们将向您展示如何使用 Google AI Studio 访问 Google Veo 2,这是一个基于提示的动手工具,用于探索其视频生成功能。
什么是Google Veo 2?
Google Veo 2 是 Google DeepMind 的最新视频生成模型。它可以创建长达 8 秒的高质量视频,具有清晰的动作、电影般的灯光和令人印象深刻的场景细节。该系统旨在解读详细的文字提示,并将其转化为具有逼真元素和强烈视觉叙事的完整动画短片。
该工具可通过 Gemini、Whisk Animate 和 VideoFX 等多个谷歌平台使用,并有望在不久的将来与 YouTube Shorts 和 Vertex AI 集成。
Source: Veo 2
Google Veo 2有何过人之处?
以下是 Google Veo 2 的几个突出特点:
- 动作流畅逼真:人物、动物和物体动作流畅,逼真模拟自然行为。
- 提示准确性高:它能根据您的描述处理场景构图、照明和摄像机角度。
- 电影感:无论是戏剧性的日落还是充满悬念的实验室实验,Veo 都能准确把握视觉基调。
- 为 4K 做好准备:虽然目前的访问支持 720p,但系统设计可扩展至 4K 分辨率。
- 多个接入点:用户可以通过文本提示、图像动画工具或实验视频生成器访问 Google Veo 2。
怎样才能用上Google Veo 2?
以下是使用体验 Google Veo 2 的 3 种方法:
1. Google Studio
在 Google Studio 上,您只需使用文本提示即可创建视频短片。
如何使用:
- 访问 aistudio 网站。
- 选择 Google Veo 2 模型(如果您所在地区有售)
- 输入提示,例如:“A panoramic shot of a misty mountain valley at sunrise with birds flying overhead.”
系统将返回与描述相符的视频短片。
2. Whisk Animate (图片转视频)
Whisk Animate 可让你使用 Google Veo 2 引擎将静态图片转化为动画短片。该工具仅在美国正式提供,但你可以使用 VPN 从其他地区访问它。
非常适合
- 希望将作品制作成动画的插图画家
- 将视觉效果转化为宣传片的营销团队
- 让内容更吸引人的教育工作者
试用网址:Whisk Animation
3. VideoFX(基于提示的视频生成)
VideoFX 可以让你详细描述一个场景,并通过 Google Veo 2 生成电影品质的短片。它非常适合讲故事、原型设计或创意实验:
- Close-up of a scientist adjusting a microscope under fluorescent lights.
- A robot dancing in a cyberpunk alleyway during rainfall.
与 Whisk Animate 一样,VideoFX 目前也仅限于美国用户使用,但可以使用 VPN 访问。
试用网址:VideoFX
Google Veo 2视频示例
让我们来看看 Google Veo 2 可以根据详细提示生成的一些令人难以置信的视频示例。这些示例展示了精心制作的说明所带来的多功能性和创造性。以下是一些根据独特提示制作的视频:
1. 提示词:Turn the word “GEMINI” into bright blue jello 3D text jumping up and down in a kitchen on a circular jello dish.
2. 提示词: An old man sitting alone at a train station as seasons change around him, time-lapse style, melancholic tone.
3. 提示词: A giant koi fish flying in the sky above a quiet village, clouds parting as it swims through the air
4. 提示词: Form the word “NICOLE” using bright-colored animal pool floaties in a swimming pool, overhead shot.
实际操作:在Vertex AI上使用Google Veo 2生成电影视频
虽然 Google Veo 2 可通过 Gemini、Whisk Animate 和 VideoFX 等平台访问,但开发人员还可以更进一步,通过 Vertex AI 使用 Google GenAI SDK for Python 将 Google Veo 2 直接集成到自己的应用程序中。
本实践教学将指导您在 Google Colab 或 Jupyter Notebook 等 Python 环境中构建自己的提示视频生成器。
前提条件
开始之前,请确保
- 您的谷歌云项目已启用 Vertex AI API
- 已设置计费和云存储
- 您的环境已通过身份验证,可以访问 Google 云(例如,通过 Google Colab 或本地 gcloud auth)。
Step 1:安装所需的库
安装 GenAI SDK 和一些辅助库,如用于在 notebook 中显示视频的 mediapy。
%pip install --upgrade --quiet google-genai %pip install -q mediapy
Step 2:验证(仅限Colab)
如果在 Google Colab 中运行此程序,请验证您的 Google 账户:
import sys if "google.colab" in sys.modules: from google.colab import auth auth.authenticate_user()
Step 3:导入Python库
导入与 Google Veo 2 交互和可视化输出所需的一切。
import os import time import urllib import matplotlib.pyplot as plt import mediapy as media from PIL import Image as PIL_Image from google import genai
Step 4:设置项目和客户端
您需要连接到 Google Cloud 项目并指定区域。
PROJECT_ID = "[your-project-id]" # Replace with your actual Project ID if not PROJECT_ID or PROJECT_ID == "[your-project-id]": PROJECT_ID = str(os.environ.get("GOOGLE_CLOUD_PROJECT")) LOCATION = os.environ.get("GOOGLE_CLOUD_REGION", "us-central1") client = genai.Client(vertexai=True, project=PROJECT_ID, location=LOCATION)
Step 5:定义辅助函数
这些函数可帮助从云存储中下载生成的视频,并将其显示在 notebook 中。
def show_video(gcs_uri): file_name = gcs_uri.split("/")[-1] !gsutil cp {gcs_uri} {file_name} media.show_video(media.read_video(file_name), height=500) def display_images(image): fig, axis = plt.subplots(1, 1, figsize=(12, 6)) axis.imshow(image) axis.set_title("Starting Image") axis.axis("off") plt.show()
Step 6:加载Google Veo 2模型
使用生成视频所需的特定模型名称。
video_model = "veo-2.0-generate-001"
Step 7:根据文本提示生成视频
现在,让我们用自己的提示生成一段视频。方法如下
prompt = "A dreamy, slow-motion shot of a Bengal tiger walking through misty jungle under golden morning light, as leaves fall and birds fly away. " # Example prompt aspect_ratio = "16:9" # "16:9" or "9:16" output_gcs = "gs://your-bucket-name/cat-reading.mp4" # Replace with your GCS path operation = client.models.generate_videos( model=video_model, prompt=prompt, config=types.GenerateVideosConfig( aspect_ratio=aspect_ratio, output_gcs_uri=output_gcs, number_of_videos=1, duration_seconds=5, # 5 to 8 seconds person_generation="dont_allow", # For safe content generation enhance_prompt=True # Improves prompt quality ), )
监控操作直至完成:
while not operation.done: time.sleep(15) operation = client.operations.get(operation) print(operation) Finally, display the generated video: if operation.response: show_video(operation.result.generated_videos[0].video.uri)
输出
这种集成允许在自定义应用程序、创意工具或教育内容中生成可扩展的人工智能驱动视频。借助 Google 的 SynthID 水印和模型增强功能,您还可以获得符合道德规范、可随时制作的媒体输出。
Google Veo 2平替方案:探索其他人工智能视频生成工具
虽然谷歌的 Google Veo 2 提供了强大的视频生成功能,但其他几个平台也在以独特的方式推动人工智能视频生成的发展。以下是一些值得探索的顶级替代方案:
Sora
Sora 是 OpenAI 的旗舰文本视频模型,能以 1080p 分辨率创建长达 20 秒的高质量视频片段。它支持文本、图片和视频的多模态输入,并通过风格预设和混音功能提供强大的创意控制。它直接集成到 ChatGPT 中,Plus 和 Pro 用户均可使用,是追求高保真和易用性的创作者的强大选择。
Runway Gen-3 Alpha
Runway Gen-3 Alpha 专为电影和媒体专业人士打造。它具有先进的文本到视频和图像到视频生成功能,以及逼真的渲染和精确的关键帧工具。它能够捕捉细微的面部表情和动作,是讲故事、内容营销和电影实验的理想选择。
Dream Machine
Luma Labs 的 Dream Machine 以其电影级的质量和自然的动作生成而脱颖而出。它能将提示或静止图像转化为动态视频场景,并配以流畅的摄像和逼真的动画。它的界面非常友好,初学者和经验丰富的设计师都可以使用。
Kling AI
Kling AI 由快手开发,因其能够制作长达两分钟的高清视频而迅速闻名。它强调真实感和想象力,通过简单的测试版注册即可提供全球访问。它的视觉质量和长度支持使其成为讲故事或创意内容的理想选择。
Hailuo AI
Hailuo AI 是一款免费、轻量级的视频生成器,可根据文字提示制作富有想象力的短片。它在提示的遵从性和创造性方面表现尤为突出,是用户在无需成本或技术开销的情况下进行尝试的绝佳工具。
这些 Google Veo 2 替代品具有不同的优势,包括更长的持续时间、高分辨率、专业级工具和易用性。无论您是电影制片人、教育工作者、营销人员还是业余爱好者,探索这些平台都能为人工智能生成的视频故事带来令人兴奋的可能性。
谷歌Veo 2与OpenAI的Sora相比如何?
谷歌和 OpenAI 现在都进入了生成视频领域。
我们通过这个有趣的提示对它们进行了测试:
提示词:A tiny penguin barista serves frothy cappuccinos with latte art at an ice café, expertly balancing mugs on a tray as curious polar bears wait in line.
Google Veo 2 将这一氛围表现得淋漓尽致,以电影般的魅力和令人惊叹的细节将这一提示栩栩如生地呈现出来。企鹅自然地蹒跚着,蒸着卡布奇诺,北极熊的反应真实可信,所有这些都被柔和的雪景和动态灯光所衬托。然而,Sora 却差强人意。企鹅很僵硬,托盘很笨拙,卡布奇诺有蜡烛。与 Google Veo 2 相比,它的视觉效果平平,没有真正的故事性,简直就是失分。
以下是 Google Veo 2 与 OpenAI 的 Sora 的对比:
功能/特征 | Google Veo 2 | Sora |
最大视频长度 | 8 秒 | 5 秒 |
分辨率 | 720p(支持 4K) | 1080p |
提示词解读 | 非常高 | 高 |
电影元素 | 是(摄像机角度、照明) | 有限 |
可用性 | Gemini, Labs, VideoFX | 封闭式预览(仅限 Sora) |
水印 | 内嵌 SynthID | 不详 |
在超过 58% 的提示对齐和偏好比较中,Google Veo 2 的得分高于 Sora,尤其是在涉及物理现实、人体运动或讲故事的场景中。
制作更好提示的技巧
要充分利用 Google Veo 2,请在编写提示时牢记以下关键提示:
- 要有描述性:提及颜色、动作、时间、环境和其他感官细节,以创建生动的心理图像。
- 使用电影语言:包括拍摄角度、转场或照明方式(如“wide-angle shot”、“overhead drone view”、“sunset backlight”)。
- 设定情感基调:“tense”、“peaceful”或“thrilling”等词语有助于塑造视频的情绪和节奏。
- 添加具体行动:不要只描述场景,还应加入人物或物体正在做的事情,让场景栩栩如生。
举例说明:
- 效果较差的提示词:A tiger in the jungle.
- 效果更佳的提示词:A slow-motion tracking shot of a Bengal tiger prowling through dense, misty jungle foliage at dawn, sunlight filtering through the trees and glinting off its golden-orange fur as birds scatter in the background.
嵌入式水印以增加透明度:Google Veo 2中的SynthID
谷歌已将数字水印系统 SynthID 集成到谷歌 Veo 2 生成的所有视频中。这种隐形标记旨在识别人工智能生成的内容,即使在编辑之后也是如此。SynthID 的加入至关重要,因为它提高了透明度,使平台更容易识别和过滤被操纵的媒体。此外,它还能确保人工智能生成的内容可追溯,从而支持人工智能的道德使用。即使是常见的剪辑,如裁剪或应用滤镜,水印仍然可以被检测到,从而可以识别被重新利用的视频。
小结
谷歌的 Google Veo 2 是一款出色的生成式人工智能工具,它能根据详细的提示创建电影级质量的视频。它具有逼真的动作、电影般的灯光和高度的提示准确性等功能,必将改变视频制作。SynthID 的集成通过嵌入数字水印确保了人工智能的道德使用,使人工智能生成的内容易于识别和过滤。随着 Google Veo 2 在各个平台的推广,它有望重新定义我们创建和使用视频内容的方式。
常见问题
Q1. 什么是 Google Veo 2?
答案:Google Veo 2 是谷歌最新的人工智能视频生成模型,能够将详细的文字提示转化为电影级质量的视频。它动作流畅,视觉细节丰富,能以逼真的元素诠释复杂的场景。
Q2. 如何访问 Google Veo 2?
答:Google Veo 2 目前可通过 Gemini、Whisk Animate 和 VideoFX 等平台提供给美国用户。用户可通过 Google Labs 上的等待名单获得访问权,预计 2025 年将在更大范围内提供。
Q3. 我可以在哪些平台上使用 Google Veo 2?
答:您可以在 Gemini(用于文本到视频的生成)、Whisk Animate(用于图像到视频的转换)和 VideoFX(用于基于提示的视频生成)上使用 Google Veo 2。未来,它还将集成到 YouTube Shorts 和 Vertex AI 中。
Q4. Google Veo 2 可以生成的最大视频长度是多少?
答案:Google Veo 2 可以生成最长 8 秒的视频,视频细节丰富,包括逼真的动作和电影般的灯光。
Q5. 如何使用 Google Veo 2 创建视频?
要创建视频,您可以在 Gemini 或 Whisk Animate 等平台上提供详细的文本提示。例如,提示可以是 “日出时的山谷全景,鸟儿从头顶飞过”。
Q6. Google Veo 2 能否生成 4K 视频?
答案:Google Veo 2 目前支持 720p 分辨率,但将来可以扩展到 4K。
Q7. Google Veo 2 与 OpenAI 的 Sora 相比有何优势?
答:与 Sora 相比,Google Veo 2 提供了更好的提示解释和电影元素,如摄像机角度和照明。它还支持更长的视频(最长 8 秒),在物理逼真度和人体动作方面具有更高的细节水平。
Q8. 什么是 SynthID?
SynthID 是嵌入每个 Google Veo 2 视频的数字水印系统。它有助于识别人工智能生成的内容,确保人工智能使用的透明度和道德性。即使经过裁剪或过滤等常见编辑,水印仍可被检测到。
暂无评论内容