生成式人工智能(GenAI)已在创纪录的时间内从实验研究发展成为企业级应用。ChatGPT 等工具、人工智能驱动的协作机器人以及各行各业的定制人工智能代理的兴起,导致企业中出现了许多新的角色和团队。其中一个蓬勃发展的新职业道路就是生成式人工智能或 GenAI 数据科学家。该职位是数据科学、机器学习和生成式人工智能之间的桥梁,是目前科技领域最热门的职位之一。在本文中,我们将探讨 GenAI 数据科学家的工作内容、这一工作的薪资趋势、所需资格,以及有抱负的专业人士如何转入这一高成长性职业。
谁是GenAI数据科学家?
GenAI 数据科学家擅长设计、训练、微调和部署生成式人工智能模型,如大型语言模型 (LLM)、扩散模型和生成对抗网络(GAN)。他们在传统数据科学和深度学习的交叉领域开展工作,重点关注内容生成任务。这包括文本生成、代码生成、合成数据创建、图像/视频生成,甚至语音合成。
与主要关注预测性和规范性分析的传统数据科学家不同,GenAI 数据科学家强调创造性的人工智能产出。他们与人工智能研究人员、提示工程师、产品团队和 MLOps 工程师密切合作,开发生产级的生成式人工智能应用。
GenAI 数据科学家做什么?
GenAI 数据科学家是生成式人工智能系统的核心,经常与 ML 工程师、数据工程师和产品团队合作。虽然具体职责可能因公司而异,但以下是 GenAI 数据科学家的大致工作内容:
- 使用转换器、VAE、GAN 和扩散模型设计和实施生成模型。
- 设计 RAG(检索增强生成)和代理工作流。
- 在特定领域数据集上微调基础模型(如 GPT、LLaMA、Mistral、BERT)。
- 为数据收集、预处理和合成数据生成建立管道。
- 与跨职能团队合作开发人工智能产品(聊天机器人、协同机器人、内容生成器等)。
- 使用 GenAI 专用基准(如 MMLU、HellaSwag、BLEU/ROUGE、TruthfulQA 等)评估模型性能。
- 优化模型的效率、准确性和安全性(偏差、幻觉、毒性等)。
- 为培训/微调任务收集数据和提示。
- 参与或维护提示工程库和工具链。
- 开展新架构或模型应用的研发工作。
哪些公司正在招聘GenAI数据科学家?
科技巨头、人工智能先行企业和整合 GenAI 解决方案的企业级咨询公司对生成式人工智能数据科学家的需求都很旺盛。正在积极招聘这一职位的公司(截至 2025 年 4 月)包括:
科技巨头
- Google DeepMind 和 Google Cloud AI:用于 Gemini 和基础模型调整。
- Meta AI:用于 LLaMA 研究和商业 GenAI 应用。
- Microsoft Azure:用于在 Microsoft 365 生态系统中进行 Copilot 集成。
- 亚马逊 AWS 人工智能实验室:用于 AWS Bedrock 和 Titan AI 计划。
- 苹果公司:用于设备上的 GenAI 模型和注重隐私的 AI 功能。
企业与咨询
- 埃森哲(Accenture)、德勤(Deloitte)、高盛(Goldman Sachs)和安永(EY):为各行业客户构建 GenAI 解决方案。
- Salesforce:利用 Einstein GPT 扩展人工智能功能。
- SAP、Infosys、TCS 和Wipro:将 GenAI 模型集成到客户交付中。
人工智能先行企业
- Anthropic:用于模型开发和红队。
- OpenAI:用于其不断扩大的研究和部署团队。
- Cohere:用于微调 LLM、RAG 系统和企业 NLP 模型。
- Mistral AI:用于提高训练效率、架构创新和模型提炼。
- Adept AI:用于构建可执行现实世界工作流程的代理基础模型。
- Runway:用于建立基础视频生成模型。
- Hugging Face:用于改进开放权重 LLM、数据集策划和 GenAI 评估工具。
除科技公司外,医疗保健(如梅奥诊所)、金融(如摩根大通)、零售(如沃尔玛实验室)和媒体(如迪斯尼人工智能实验室)领域也出现了 GenAI 数据科学家的职位。
在中国,阿里巴巴、腾讯、百度、华为,以及字节跳动等科技巨头公司也在积极寻找 GenAI 数据科学家。中国在人工智能领域发展迅速,许多初创AI公司也在物色优秀的 GenAI 数据科学家!
GenAI数据科学家的薪资范围
由于 GenAI 数据科学家职位的高需求和所需的利基专业知识,该职位提供了科技行业最具竞争力的薪酬。根据公司、地点和专业水平的不同,印度的薪酬范围在 12 ₹ – 60 LPA+ 之间,美国的薪酬范围在 12 万美元 – 35 万美元+之间。
例如,中国的北京、上海、深圳和广州等一线城市以及人工智能先行公司的 GenAI 数据科学家薪酬较高。此外,中国的初创企业和国际公司可能会提供 ESOP,甚至提供超过 80 万的远程职位(一般为国际性的企业或中国的跨国公司,如 TikTok 国际业务、华为外派团队)。
与此同时,美国的 FAANG+ 公司和尖端初创公司可能会为顶级 GenAI 数据科学家提供超过 50 万美元的总薪酬。奖金、股票期权(尤其是在初创公司)和绩效奖励通常也是薪酬方案的一部分。
资料来源 X
* 薪酬标准来自 Indeed、Glassdoor 和 LinkedIn 上的各种招聘信息。
如何成为GenAI数据科学家
转变为 GenAI 数据科学家需要基础知识和特定领域的技能。以下是如何成为 Genative AI 数据科学家的分步指南:
1. 打下坚实的基础
首先,打下数据科学基础知识和相关主题的坚实基础。 – 提高 Python 的熟练程度,获得使用数据科学相关库的经验。
2. 学习生成式人工智能概念
了解生成式人工智能的基本概念对于本职位同样重要。- 了解 GenAI 架构,学习语言建模、标记化、自回归和掩码建模。- 学习提示工程、带人类反馈的强化学习 (RLHF) 和模型微调等概念。
3. 获得实践经验
在学习上述主题的同时,您还将获得在各种任务中使用这些主题的实践经验。为了进一步实践,您可以:
- – 使用 OpenAI API、LangChain 或 LlamaIndex 构建真实世界的应用程序。
- – 在特定领域的任务中训练/微调小型语言模型(如 FLAN-T5、DistilGPT2)。
4. 展示您的作品
在学习过程中,您会有许多不同的项目。记录这些项目并建立一个作品集非常重要,因为这将是你工作的见证,有助于你日后找工作。以下是一些关于如何做到这一点的提示:-维护一个包含笔记本、演示和模型评估的 GitHub 个人档案。-撰写博客,为开源 GenAI 项目做贡献,或发表研究论文。
- -使用 OpenAI、Hugging Face Transformers 或 LlamaIndex 创建项目。
- -建立一个包含聊天机器人、AI 协同机器人或生成艺术工具等不同项目的作品集。
- -参加 AI 黑客马拉松和竞赛(如 Kaggle、Hugging Face Challenges)。
5. 获得相关证书
学习一些相关课程并获得可靠的证书将进一步扩展您的知识面,并增加您获得 GenAI 数据科学家工作的机会。以下是一些可以考虑的课程:
- – DeepLearning.AI 的 Generative AI with LLMs 专业课程
- – Hugging Face 的 Transformers 和 Diffusion Models 课程
- – Google 的 GenAI 开发者认证
- – Fast.ai 的实用深度学习课程
所需资格和经验
以下是成为生成式人工智能数据科学家所需的资格和经验。
教育背景
- 计算机科学、数据科学、人工智能或相关专业的学士或硕士学位。
- 研究型职位优先考虑博士学位,但行业职位不强制要求博士学位。
技术技能
- 具有使用 Python、PyTorch、TensorFlow 的经验。
- 熟悉 LLM(GPT、BERT、LLaMA、Claude 等)和扩散模型(稳定扩散、DALL-E)。
- 基本了解 LSTM、VAE 和 GAN 等 GenAI 架构。
- 了解深度学习基础(CNN、RNN、Transformers)和模型评估指标(例如,perplexity、BLEU、ROUGE)。
- 了解向量数据库、RAG 管道和提示优化(提示工程和提示链)。
- 熟悉 MLOps 和部署框架(Docker、MLflow、Weights & Biases、KServe)。
- 了解人工智能伦理、公平性和模型可解释性。
软技能
- 解决问题能力强。
- 协作和沟通能力。
- 对快速发展的 GenAI 领域充满好奇,勇于尝试并保持更新。
谁应该考虑这个职位?
GenAI 数据科学家的理想人选是
- 希望转向 GenAI 的数据科学家或 ML 工程师。
- 寻求行业应用的人工智能研究人员或博士毕业生。
- 对创造性人工智能或代理感兴趣的开发人员/设计师。
- 人工智能趋势的早期采用者。
GenAI数据科学家的未来
从人工智能代码助手和内容生成器到药物发现和工业设计,GenAI 的应用正呈爆炸式增长,而 GenAI 数据科学家正处于这一转变的最前沿。他们不仅负责让机器“理解”数据,还负责生成类似人类的反应和新颖的内容。
这个角色令人兴奋,但也瞬息万变。几乎每周都有新的模型、基准和框架发布。因此,学习的速度和实验的需求都很高。展望未来,道德部署、数据隐私和人工智能的可解释性仍将是人们关注的核心问题,从而导致对 GenAI 劳动力的需求增加。
麦肯锡 2023 年的一项研究预测,GenAI 每年将为全球经济增加高达 4.4 万亿美元的收入。其他报告指出,到 2030 年,大多数人工智能驱动的应用将涉及某种形式的生成 – 无论是自动生成草稿、个性化辅导,还是通过代理实现机器人流程自动化。这意味着 GenAI 数据科学家的角色不仅仅是一种趋势,它还是下一代人工智能劳动力的基础。
小结
GenAI 数据科学家的角色不仅仅是一份工作,它还是智能、创造力和自动化未来的前排座椅。如果你对人工智能充满热情,并希望超越传统的分析方法,建立富有创造力的智能系统,那么现在就是你的机会。通过将深厚的技术知识与创新天赋相结合,你可以在本十年最有前途的职业之一中占据一席之地。无论您是学生、职业生涯中期的专业人士还是技术领导者,现在都是探索如何参与这场人工智能革命的时候了。
暂无评论内容