1. 人形机器人高速发展,具身智能是商业化核心
人形机器人核心部分主要包括感知、控制、执行系统。人形机器人是具有人类外形、模仿人类功能和智能的机器人。其核心部分主要包括感知系统、控制系统及执行系统。感知系统:主要包括六维力传感器、视觉传感器、触觉传感器、惯性传感器等,可实现力和力矩测量、环境图像信息获取、目标识别、位置定位等功能;控制系统:主要包括“大脑”和“小脑”。大脑以大模型为核心,为人形机器人提供任务级交互、环境感知、任务规划和决策控制能力。小脑主要负责实现动态平衡、步态规划、关节协调等功能,其底层硬件主要包括处理器芯片、控制芯片和总线管理芯片;执行系统:主要包括旋转执行器、线性执行器以及末端执行器,是实现行走、抓取等动作的物理基础。
人形机器人应用前景广阔,覆盖生产制造、社会服务、危险作业等场景。由于人形机器人具备与人类相似的感知方式、肢体结构及运动方式,其可更好地适配人类社会,未来潜在应用场景主要包括生产制造、社会服务及特种作业。生产制造:有望完成农业采摘、汽车及 3C 领域基础制造生产工作;社会服务:有望应用至家政、物流配送、安保巡逻等服务场景;特种作业:在深海、民爆、核电站等危险场景完成生产、巡检、探测、排爆等工作。
人形机器人仍处发展初期,市场规模有望突破万亿,具身智能是未来发展方向。根据中国信息通信研究院《人形机器人产业发展研究报告(2024)》,其基于智能水平将人形机器人分为 Lv1-Lv5 五个等级。其预计 2024-2028 年人形机器人整体仍将处于 Lv1 等级,具备简单动作交互能力,少部分头部企业最新产品逐步向 Lv2 等级探索,应用场景逐步由 B 端工业制造领域向C 端服务领域拓展,市场规模约 20~50 亿元;2028-2035 年整体进入 Lv2 等级,率先在特种作业场景逐步落地,市场规模达到 50~500 亿元;2035-2040年基本进入 Lv3 等级,在工业场景形成规模,服务场景逐步落地,市场规模达到 1000-3000 亿元;2040-2045 年进入 Lv4 等级,实现工业场景和服务场景规模应用,市场规模达到 5000-10000 亿元;2045 年后有望实现具身智能,全面进入各行业领域,市场规模达 10 万亿元级别。实现具身智能将是驱动人形机器人商业场景落地以及渗透率增长的核心因素。
2. 多模态、强化学习提升运控性能,通信、算力升级增强实时控制
实现具身智能核心在于提升大小脑性能、增强感知精度并具备实时控制能力。我们认为目前人形机器人实际使用难点集中在大小脑控制系统以及机体运动协同:(1)人机交互效率低,泛化性弱。人形机器人难以准确理解人类自然语言中的语义和意图,导致错误或无法理解任务指令,影响交互效率。并且在复杂任务中,难以根据环境变化和任务要求灵活调整行动规划;(2)多模态感知正确性偏低。目前多模态大模型尚未成熟,传感器方案仍待完善,机器人对视觉图像、视频、触觉、听觉等多模态数据的处理能力较弱,在复杂环境中难以准确识别障碍物,易迷失方向或无法准确到达目标位置;(3)运动控制稳定性差,精细度不高,复杂动作响应速度慢。目前机器人针对多接触的全身运动控制仍存在挑战,在执行复杂动作时协调性差,响应速度慢,难以保持身体平衡并满足工作场景需求。并且动作规划精确度较低,执行过程中易出现偏差。伴随机器人大小脑性能提高以及机体实时控制能力改善,未来有望实现具身智能。
2.1. 大脑迈向多模态、高智能,小脑运动算法转向强化学习
大脑:迭代速度较快,思维链赋予高推理性能。自 Transformer 架构发布以来,大模型快速迭代,以 OpenAI 产品为例,其在 2022 年 11 月发布ChatGPT3.5,截至目前陆续发布 GPT-4、OpenAI o1、OpenAI o3、GPT-4.5等大模型,模型性能持续提升。并且其在 OpenAI o1 模型中引入思维链,通过将复杂问题拆解为多个中间步骤,引导模型生成逻辑链条,提升模型在复杂任务中的决策能力。通过结合思维链及强化学习,大模型仅需少量提示词即可完成思维推理过程,增强模型泛用能力。OpenAI o3 在 AIME 2024 数学竞赛评测中准确率达 96.7%,较 o1 提升 13.4 pct,并且在 Codeforce 中 Elo得分为 2727,达到 International Grandmaster 水平,相当于位列 175 名的人类选手。根据《Large Language Models Pass the Turing Test》,GPT-4.5 以 73%的概率被判定为人类。目前优必选基于 DeepSeek-R1 研发适用于人形机器人的具身推理大模型,预期在真实场景的数据调优后实现更高效的任务分解和规划以及复杂环境中的准确反应和决策。
大脑:感知交互向多模态演进。多模态大模型可在不同模态信息之间实现信息融合,使机器人可综合处理来自不同传感器的数据,是未来主要研究方向。目前机器人多模态大模型主要包括 LLM(大语言模型)+ VFM(视觉基础模型)分层大模型、VLM(视觉语言模型)、VLA(视觉-语言-动作)端到端大模型。NV 推出的通用基础模型 GR00T 整合多模态感知与动作生成,支持人形机器人适应动态环境。谷歌 RT-2 模型通过视觉-语言-动作多模态融合,使机器人能根据抽象指令生成动作。伴随大模型适配更多模态信息,其有望提高环境感知能力,驱动机器人在复杂场景中做出更准确决策。
小脑:运动算法由模型预测控制(MPC)向强化学习和模仿学习演进。模型预测控制(MPC):核心是基于系统当前状态,利用数学模型预测未来一段时间内的系统行为,并通过优化算法找到最优控制策略,使系统在未来的行为尽可能接近目标状态。其可在复杂环境中实现高效安全控制,目前波士顿动力机器狗以及特斯拉 Optimus 均采用 MPC。但该方法灵活性较差,由于真实环境中存在大量不确定性、非线性及外部干扰,建立准确模型难度大且模型算法优化复杂;强化学习:通过奖励设计和仿真环境设计实现步态、奔跑等运动学习,提高鲁棒性。并可以通过采用因果 Transformer 模型,从观测和行动的历史中对未来行动进行自回归预测来训练;模仿学习:采用非线性最优化求解的动作映射,以人机关节轨迹相似为目标,以机器人可执行性、安全性、稳定性判据为约束,规划运动方案。强化学习和模拟学习结合可提升机器人运动精度及训练效率,并增强其在不同环境和任务中的泛化能力。
2.2. 数据稀缺束缚模型性能,远程操作+仿真合成或为数据采集发展方向
数据采集是限制模型性能的核心因素之一,主要包括远程操作、视频学习、仿真。根据 Coatue Management,机器人场景数据集仅 2.4M,远低于文本数据集(15T tokens)和图像数据集(6B images),限制模型性能提高。机器人厂商纷纷通过数据采集扩大训练数据集,逐步提高模型训练性能。目前数据采集方法主要包括远程操作、视频学习、仿真(合成数据)。远程操作:实验人员佩戴 VR 眼镜及手套,远程控制机械人操作,实时解析肢体姿态并采集数据。目前 Tesla、Sanctuary AI 均采用该方式,动作信息全面准确但采集效率较低;视频学习:基于多模态大模型,使机器人理解学习视频中人类操作过程,并引导机器人执行相应动作;仿真(合成数据):基于执行任务生成模拟环境,通过仿真计算实现动作模拟并生成相应数据集。
远程操作+仿真合成的混合数据或是未来方向。基于远程操作收集的数据准确性高,但泛化性较差且收集成本高。2025 年英伟达在 GTC 大会中正式推出人形机器人开源基石大模型 GR00T N1,GR00T N1 基础模型采用双系统架构,“系统 1”是一个快速思考的动作模型,反映人类的本能反应或直觉。“系统 2”是慢思考模型,用于进行经过深度思考的决策制定。其可轻松适应并完成通用任务,如单手或双手抓取、移动物体,或执行需要长语境和通用技能组合的多步骤任务。开发者和研究人员可以使用真实数据或合成数据针对特定人形机器人或任务对 GR00T N1 进行后训练。远程操作+仿真合成可有效提高数据采集效率,降低采集成本,并可通过真实数据验证微调减少仿真数据偏差。
2.3. 感知传感:纯视觉+六维力矩+电子皮肤或成未来标准化方案
视觉传感:向 3D 视觉演进,中短期采用激光雷达+深度相机,远期或向纯视觉方案发展。3D 视觉基于立体摄像、激光雷达等技术完成物体三维信息收集。与 2D 视觉相比,其可(1)检测快速移动目标物,获得形状及对比度信息;(2)测量表面角度、体积、表面缺陷等信息;(3)不同光照条件适应力强。目前 3D 感知传感器主要包括激光雷达、单目摄像头、双目摄像头、毫米波雷达、超声波雷达及 GNSS/IMU/RTK。目前波士顿动力、优必选、宇树、智元以及小米等机器人厂商主要采用基于立体视觉与 ToF 的深度相机+激光雷达作为视觉传感方案,基于多传感器融合提高目标检测和识别准确性。特斯拉 Optimus 基于 FSD 芯片与 Autopilot 神经网络技术采用纯视觉方案,其搭载 8 个摄像头可实现 360 度环绕影像识别,FSD 系统可在 1.5ms内实现 2500 次图像识别,并且规划执行路径。纯视觉方案无需采用激光雷达等传感器,可显著降低硬件成本。伴随视觉算法发展以及模型性能提高,其有望成为未来主流的视觉传感方案。
力学传感:六维力传感器感应精准,市场空间加速成长。与一维及三维传感器相比,六维力传感器可同时测量 XYZ 轴向力及环向轴力矩,并通过内部算法解耦各方向力和力矩的干扰。基于六维力传感器可实现关节、手腕、灵巧手的精准力控感知,向大脑传输全面准确的力学信息。其在人形机器人复杂力控操作、摆动稳定控制及安全控制等场景中均有使用。目前特斯拉Optimus、优必选 Walker X、本田 ASIM 等人形机器人均已采用。根据 MIR睿工业,2024-2030 年中国六维力传感器市场规模将由 2.71 亿元持续增长143.31 亿元,CAGR 达 93.7%。伴随人形机器人向精密操作领域持续渗透,六维力传感器需求有望加速增长。
2.4. 实时控制:EtherCAT 加速渗透,端侧算力持续升级
实时控制需要高效的通信协议及强大的硬件算力作为底层支撑。以优必选Walker 机器人为例,其包括 36 个一体化伺服驱动单元。针对该负责分布式控制系统,需要保证控制系统与伺服关节的通信足够高效以保证动作流畅协调和各伺服关节同步运动。并且机器人不同部位运动对应不同的运动算法,针对复杂运动姿势需同时调用多组算法,并且所有算法也需满足实时性要求,因此对端侧算力性能提出较高要求。
通信协议:EtherCAT 具备高实时性、低延迟与高同步性,有望成为机器人主流协议。EtherCAT 协议采用分布式架构设计,每个关节配备独立的EtherCAT 芯片,各关节的多个传感器与 EtherCAT 芯片连接并通过协议形成数据整合和反馈,形成类似生物神经元的分布式网络,实现机器人关节、传感器与控制器间的高效通信,进而确保实时数据传输与动作的精确控制。通信延迟:其可将机器人关节间通信延迟控制在微秒级别,远高于传统 CAN协议的毫秒级响应,并且优于 PowerLink 等其他实时工业以太网协议;拓扑结构:EtherCAT 几乎支持所有的拓扑结构,灵活性高;高精度同步:EtherCAT采用分布式时钟同步各节点,使各节点通信时差不超过 1 微秒;开源:EtherCAT 协议开源及技术中立性加速构建开放的产业生态。根据 EtherCAT技术协会,2020-2024 年全球 EtherCAT 节点数量高速增长,由 2710 万提高至 8830 万,CAGR 达 34.4%,未来有望成为机器人主流通信协议。
端侧芯片:机器人智能提升推高算力需求,成长空间广阔。机器人大脑模型负责感知、人机交互及指令规划,对算力需求较高,目前主要采用英伟达Jetson Xavier /Orin 以及 Tesla FSD 芯片;小脑模型参数通常是千万级别,负责运动控制、电源系统及 OTA 系统管理,算力性能需求较低,目前全志MR813、地瓜机器人旭日 5、瑞芯微 RK3588、黑芝麻智能 C1200 等在小米、宇树、傅利叶等机器人中均有应用。伴随机器人大脑向多模态演进以及小脑运动算法持续丰富,端侧算力需求预计将持续增长,算力芯片成长空间广阔。根据 Omdia,其预计 2028 年全球机器人人工智能芯片市场规模将达到 8.66亿美元。