FengLika: 英伟达又有大动作，黄仁勋换上新的「数字替身」

2021年11月10日星期三

英伟达又有大动作，黄仁勋换上新的「数字替身」

实时会话式 AI 是一项复杂的任务，因为它需要理解语音、文本、语言并回复，这个过程还需在非常短的时间内精准完成。

11 月 9 日，英伟达宣布推出 NVIDIA Omniverse Avatar，这是一个用于生成交互式 AI 虚拟形象的技术平台。

在 NVIDIA GTC 的主题演讲中，英伟达创始人兼首席执行官黄仁勋分享了 Omniverse Avatar 的各种示例：用于客户支持的 Project Tokkio、用于在线车辆智能服务的 NVIDIA DRIVE Concierge 以及用于视频会议的 Project Maxine。

在第一次 Project Tokkio 演示中，黄仁勋展示了 AI 机器人版的自己——Toy Jensen Omniverse Avatar，它具有黄仁勋的声音、玩具的形象，和专家你来我往地讨论生物学和气候科学等深度话题。

在第二次 Project Tokkio 演示中，英伟达展示了餐厅售货亭中的客户服务虚拟形象，它能够看到两位顾客，和他们实时交谈，并理解他们需要订购素食汉堡、薯条和饮料。

而在车辆智能服务领域，和餐厅服务员外观相似的数字助理现身仪表板中央屏幕，它的职责是帮助驾驶员选择最佳驾驶模式以准时到达目的地，并按照驾驶员要求设置汽车行驶里程低于 100 英里时的提醒。

此外，英伟达展示了用于视频会议的 Project Maxine。在嘈杂的咖啡馆参加视频会议时，一位女士可以简单快速地去除背景噪音，而且她所说的话会被实时转录和翻译成多种语言，Omniverse Avatar 则负责生成口型及语调不变的虚拟形象。

按照英伟达的说法，「智能虚拟助手的曙光已经到来」，协作机器人和虚拟助手几乎可以为任何行业轻松定制，帮助处理数十亿的日常客户服务互动——餐厅订单、银行交易、个人约会等等，从而带来更多商机。

为了实现以上所有示例，Omniverse Avatar 使用了以下技术：

（1）语音识别基于 NVIDIA Riva，它可识别多种语言的语音，并通过「文本到语音」功能生成类似人类的语音响应；

（2）自然语言理解基于威震天 530B 大型语言模型，它能够回答大量领域的问题，总结长而复杂的故事；

（3）推荐引擎由 NVIDIA Merlin 提供，它允许企业构建处理大量数据的深度学习推荐系统；

（4）感知能力由 NVIDIA Metropolis 提供，这是一种用于视频分析的计算机视觉框架；

（5）形象动画则由 2D 和 3D 人工智能驱动的面部动画和渲染技术支持。

可以说，英伟达展现各行各业的 AI 角色，也是为了高调而不失优雅地「炫技」。

这些技术被组合成了一个应用程序，并使用 NVIDIA 统一计算框架进行实时处理；与此同时，它们被打包为可扩展、可定制的微服务，可以通过 NVIDIA Fleet Command 安全地部署、管理和编排。

Omniverse Avatar 是 NVIDIA Omniverse 的一部分。NVIDIA Omniverse 是一个用于 3D 工作流程的虚拟世界模拟和协作平台，它还包括 Omniverse Replicator——这是一种用于训练深度神经网络的合成数据生成引擎，帮助开发人员创建训练 AI 所需的大量数据。

NVIDIA Omniverse 目前处于公开测试阶段，拥有超过 70000 名用户。黄仁勋表示：