2025-08-26 30 来源:电子工程专辑
在数字技术飞速发展的今天,一场新的智能革命正悄然来临——物理AI将计算的力量从虚拟的信息空间带入真实的物理世界,而机器人则成为这场革命的关键桥梁。
“这意味着,计算的力量不再只局限于5万亿美元的信息市场,而是可以进入到100万亿美元的物理世界市场。”在日前与NVIDIA Omniverse和仿真技术副总裁Rev Lebaredian的一场对话中,他表示,“有了机器人,我们就可以把计算和人工智能带进真实世界,创造出能理解并改变物理环境的智能体。“
NVIDIA Omniverse和仿真技术副总裁Rev Lebaredian
来自Capgemini的数据表明,截至2028年,AI智能体将通过推动收入增长与节省成本创造高达4,500亿美元的价值。构建这些智能体的开发者正转向更高性能的推理模型,以改进AI智能体平台和物理AI系统。
作为当前最全面的机器人基础设施供应商,NVIDIA芯片和平台均已在机器人企业中广泛应用,并正与阿里云、北京人形机器人创新中心、傅利叶、加速进化、优必选、银河通用、宇树科技、智元机器人等企业共同推动中国在人形机器人和AI解决方案方面的发展。
打造通用机器人,是NVIDIA和几乎所有机器人公司的共识。他们一致认为这样的通用机器人将成为下一个价值数万亿美元市场的关键性、革命性产品,而机器人本体、驱动其运转的具身智能模型、以及模型背后的数据支撑,是通用机器人背后所包含的核心要素。
为此,在2025年CES大会上,NVIDIA CEO黄仁勋提出了著名的“三台计算机”理念,并将其作为NVIDIA推动“物理AI”在机器人领域发展的核心技术体系。用Rev的话来讲,就是“从一开始,NVIDIA的使命就不是解决所有问题,而是打造专门针对‘最难问题’的计算机,解决几乎不可能完成的难题。”
机器人本体计算机。嵌入在机器人内部,例如自动驾驶汽车或人形机器人中。专门为人形机器人打造的Jetson AGX Thor就属于这一类,黄仁勋称它为“实时推理机器”,也是迄今为止NVIDIA发布的最强机器人大脑芯片。
与之前的平台相比,Jetson AGX Thor有着显著的性能提升:计算能力是上一代Jetson AGX Orin的7.5倍;能效提升3.5倍;CPU性能提升3.1倍;I/O吞吐量提升10倍,能满足高带宽感知需求。
以Jetson Thor T5000(旗舰级)模组为例,其拥有2560个CUDA核心和96个第五代Tensor Core、14核Arm Neoverse-V3AE CPU,并配备128GB LPDDR5X统一高速内存,显存带宽达到273GB/s,功率可在40W-130W之间灵活配置。在FP4和FP8精度下,其AI算力分别高达2070 TFLOPS和1035 TFLOPS,既可高效在边缘侧加速生成式AI及大型Transformer模型的推理与运行,也能与多家企业的生成式大模型配合使用,包括字节跳动、DeepSeek、阿里巴巴Qwen、谷歌Gemini、Meta、Mistral AI、OpenAI及Physical Intelligence(π)等。
在实时控制方面,Jetson Thor可并行处理16路传感器输入,运行Llama 3B和Qwen 2.5 VL 3B模型时,生成首个token的时间在200毫秒以内,后续每token生成仅需50毫秒,即每秒可输出超过25个token,响应能力较前代显著提升。
得益于此,Jetson Thor能够运行更大、更强的神经网络和模型,支持更复杂的推理任务,这是之前的产品无法做到的。同时,它还能更快地处理来自各种传感器的大量信息,使机器人能够快速反应,在动态变化的环境中高速移动和操作。
此外,该平台还完全兼容NVIDIA从云到边缘的软件栈,包括用于机器人仿真与开发的NVIDIA Isaac、人形机器人基础模型Isaac GR00T、用于视觉AI的NVIDIA Metropolis、以及用于实时传感器处理的NVIDIA Holoscan。
NVIDIA Jetson AGX Thor开发者套件
来自中国银河通用的具身大模型机器人Galbot G1 Premium,成为了全球首台体内搭载Jetson AGX Thor芯片的机器人产品。2025年世界机器人大会期间,配备该芯片的机器人展现出丝滑的运动性能,以及实时的货箱视觉处理与运动规划能力,速度显著提升,被评价为“最快的人形机器人”。
银河通用具身大模型机器人Galbot G1 Premium
除此之外,联影医疗、万集科技、优必选、宇树科技、众擎机器人和智元机器人等公司也已经开始使用 Jetson Thor。事实上,自2014年推出以来,NVIDIA Jetson平台和机器人技术栈已吸引超过200万开发者,涵盖超过150个硬件系统、软件与传感器合作伙伴,其中Jetson Orin已帮助超过7,000个客户在各行业部署边缘AI。
AI工厂计算机。在使用机器人本体计算机之前,必须先开发它的“大脑”,这就需要依赖DGX和HGX系统,处理海量原始数据,生成物理AI算法、物理AI模型和神经网络,再部署到机器人上。
仿真计算机。物理世界的数据无法直接从互联网获取,只能通过真实世界传感器采集,或基于物理定律和世界规则进行计算机仿真生成。仿真不仅能生成数据,还能在部署前测试机器人,确保它们在真实环境中安全运行,且测试速度可快于现实时间。
此外,NVIDIA还拥有完整的Isaac平台,它结合了硬件与三台计算机所需的软件栈,包括:运行时和计算环境、仿真工具、训练框架。其中,Isaac Sim用于环境和传感器仿真、机器人测试、生成合成数据;Isaac Lab是强化学习的仿真平台;NVIDIA Cosmos是世界基础模型及框架等的集成平台,支持构建理解物理世界的AI,并与Omniverse等仿真器结合,来生成更精确、更大规模的数据。
据宇树科技创始人、CEO兼CTO王兴兴透露,宇树科技就主要使用NVIDIA Isaac Sim平台进行训练,目前已掌握舞蹈、跳跃、空翻等多种动作,其目标是在未来实现“任意动作的任意实时生成”。
在SIGGRAPH 2025上,Isaac Sim也得到了扩展。新扩展工具有助于解决视觉AI开发中的常见挑战,例如有限的标注数据和罕见的边缘场景。这些工具可以模拟人机交互,生成丰富的目标检测数据集,并创建基于事件的场景和图像-字幕对,来训练VLM并加速开发,提高AI在现实世界条件下的性能。
同时,我们还听到了CrowdStrike、Uber、Magna、NetApp和 Zoom等企业通过使用NVIDIA Nemotron和NVIDIA Cosmos模型,为企业构建AI智能体的消息。
物理AI,特别是在机器人领域,对能耗、热管理和体积限制有很高的要求,如何应对这些挑战始终是行业关注的热点。在过去依赖摩尔定律的日子里,计算能力会以指数速度增长,例如每五年性能提升10倍,十年提升100倍。但现在,随着摩尔定律的放缓,单纯依靠这一定律已经不足以解决许多问题。
“NVIDIA预见到摩尔定律在CPU和通用计算机上的效用会逐渐终结,这就是为什么我们要致力于打造针对特定算法的专用计算机的原因。”在Rev看来,这种专用计算机不仅仅是芯片层面的优化,更需要算法、软件以及应用层面的整体优化,才能发挥最大性能。
“这并非靠单一因素,比如芯片变小或变快,而是通过全栈优化实现的。这是一项艰难的工程,也是NVIDIA的核心竞争力所在。”他表示,从最初计算机图形渲染(尤其是游戏领域),到物理仿真,再到深度学习和AI在GPU上的兴起,NVIDIA不断专门化处理器,每一代产品在相同功耗和成本下都实现了显著的性能飞跃,未来仍会持续创新。
另一个易于引发人们关注的话题,是如何确保使用仿真数据训练的机器人具备可靠性和安全性,尤其是在医疗、养老这样的高精度应用场景中。
Rev认为,如果人们想构建一个能够在现实世界中行动且安全可靠的机器人系统,实际上唯一的选择就是使用仿真。以自动驾驶为例,我们绝不可能将人置于汽车前作为训练样本,这样做不道德、危险且耗时昂贵,而通过仿真就能解决这一问题。即使训练完系统,在部署到现实世界之前,也需要在相同场景中进行测试,确保其能正确反应。
尽管目前已经有非常准确的仿真器,但它们计算量大且成本高昂,行业真正面临的挑战是如何弥合仿真到现实(Sim2Real)之间的差距,如何提升仿真速度,使其在大规模系统构建中具有成本效益。否则,一个在“卡通世界”里训练的AI,无法真正理解现实世界。
提升仿真器自身精度会是解决问题的第一步。虽然过去几十年来构建的物理仿真算法,已被验证能较好地反映现实世界的物理规律,但高精度仿真计算成本极高,需要解决如何提升仿真速度,使其能够嵌入AI训练流程中,实现大规模、高效的数据生成和测试。
为此,NVIDIA正在利用AI本身作为提升仿真速度和精度的工具。简单而言,就是AI能够近似任何数学函数,我们可以将物理仿真函数转换为AI函数,构建AI仿真器完成仿真。只要提供足够的示例数据,AI就能学习仿真功能,“Cosmos”项目就是如此。
从这个角度来说,这些“世界基础模型”是能理解世界物理规律的AI模型,人们可以将真实世界数据和可信仿真数据输入这些模型进行训练。一旦有了这样理解世界的AI基础模型,就可以将其与传统仿真结合,构建更精准、更高效的仿真器。
以NVIDIA在SIGGRAPH 2025上推出的NVIDIA Cosmos Reason为例,这是一种专为物理AI和机器人而打造的全新开放式可定制70亿参数推理视觉语言模型(VLM),可为机器人和物理AI应用提供例如训练数据评论和字幕支持、机器人决策制定和视频分析AI智能体等高级功能,或是帮助自动处理并标注大型多样化的训练数据集,加速高精度AI模型的开发,还可为NVIDIA Metropolis平台上基于视频搜索和总结(VSS) NVIDIA Blueprint构建的视频分析AI智能体提供支持。
这样一来,借助Cosmos Reason,机器人和视觉AI智能体就能够像人类一样进行推理,利用先验知识、物理理解和常识来了解物理世界并采取行动。
其次,即使拥有高质量的仿真器,构建代表现实世界的数据也非常困难,全球只有少数专业人士具备这类能力。因此,利用具备物理理解能力的AI辅助生成虚拟环境,成为 “机器人艺术家”,就可以帮助高效创建真实感十足的虚拟世界。
第三种方法是直接捕捉现实世界。即利用物理AI技术将现实环境数字化,并导入仿真环境,确保虚拟场景与现实高度一致。现有的仿真器已经能够生成足够高质量的数据,助力提升AI性能。
“所有在常规AI领域出现的技术和发展,正被应用到物理AI中,是当前最显著的趋势。未来几年,推理能力的提升将会是重中之重。“Rev指出,正如DeepSeek将推理能力带入开源领域一样,将这种能力与仿真结合,会使机器人能更自然地与人互动,并完成复杂的多步骤任务。
“这是一个可能还未被广泛理解,但将成为重大突破的点。”
另一方面,目前人工智能极度依赖数据,而获取合适的数据又非常困难。按照北京大学助理教授,银河通用创始人及CTO王鹤的说法,“目前,真实世界数据仅占我们训练数据的1%,其余99%均为合成数据。”
而且即使是合成数据,也需要大量人工去构建虚拟世界和仿真环境,判断该生成哪些数据才能让智能系统更聪明。但是,如果我们把正在开发的人工智能技术用在数据生成流程中,就可以实现自动化,打造“自动驾驶”的合成数据生成。
如果拥有这样的合成数据生成工厂,就能直接将其接入训练流程,实现训练过程自动化,减少人为干预,让机器人大脑更聪明,目前很多中国的企业已经在积极探索和应用这些仿真技术。
机器人之外,物理AI的持续循环仿真、训练和部署可提供复杂的工业自动化功能,也正让其逐渐成为全球智慧城市、设施和工业流程的基础。目前,NVIDIA正与Accenture、Avathon、Belden、DeepHow、Milestone Systems和Telit Cinterion等公司一起通过基于物理AI的感知和推理强化全球运营。
例如通过 Omniverse,Accenture创造了一个机械臂和工人可在空间中移动的数字孪生。该公司借助Metropolis解决方案训练了其AI模型,并利用视频摄取和NVIDIA DeepStream软件开发套件(SDK)的实时推理功能将其部署到边缘。
利用NVIDIA数字孪生技术,亚马逊设备与服务部门正通过全新物理AI软件解决方案,在制造领域实现重大飞跃。例如NVIDIA基础模型 FoundationPose通过500万张合成图像训练,实现位姿估计与物体跟踪;为帮助机器人理解周围环境,NVIDIA cuMotion可在毫秒级时间内生成无碰撞轨迹;其模块化设计还支持未来集成如 NVIDIA Cosmos Reason等先进推理模型,为功能升级预留了灵活空间。
众所周知,过去三四十年里,计算机、互联网和IT产业极大拓展了各行各业的能力,让计算技术真正走进了每个人的生活。但这些计算技术的影响大多局限于“信息空间”,也就是那些可以数字化的内容,比如语言和各种可编码的信息。
而且从全球市场规模来看,5万亿美元的信息产业,在超100万亿美元的全球所有行业总量面前,只是很小的一部分。其他行业之所以更具价值,是因为它们处理的是真实世界的“原子”——交通、制造、供应链、物流、医疗、制药等涉及物理世界的领域。
如今,随着人工智能的出现,机器终于可以通过“物理AI”的能力,将物理世界和信息世界真正连接起来。尤其在中国,其在电子硬件和机器人所需关键部件方面具备的深厚的专业制造能力、制造规模、人才优势和生态体系,是其他国家难以匹敌的,这种独特的综合条件为物理AI和机器人产业的快速发展提供了坚实基础。
责编:Lefeng.shao