如果说在大语言模型之后,今年科技领域最出圈的一个主题,应该就是人形机器人。这个主题的引爆源于近期的两个事件:一个是11月3日工信部印发《人形机器人创新发展指导意见》,开始展望机器人新产业的未来;二是11月底总书记走访国内知名的人形机器人创业公司傅里叶机器人。因此,大量自媒体再次把马斯克2022 年 4 月与TED的主持人克里斯·安德森的一场与“未来”的对话翻了出来,向大家营造了一个人形机器人的美妙未来。这属实是一个振奋人心的产业:宅男激动了,还要什么丈母娘,马斯克就是我岳父;投资人激动了,一台10万,如果走进千家万户不是一个数十万亿的市场吗;创业圈激动了,新的主题,融资融资,拿补贴拿补贴;而我,半夜连二老婆外形怎么订制都想好了。但作为一家严谨的产业研究投资机构,我们还是得先控制住自己激动的心,颤抖的手,好好想清楚几个问题:1. 为什么人形机器人在这个时间点爆发?2. 哪些企业/选手正参与到人形机器人赛道之中?3. 人形机器人何时会爆发?
为什么人形机器人赛道爆发了? 首先,我们需要理解一个概念,就是为什么产业界和学术圈在人形机器人前面要加上一个定语,通用人形机器人。当今社会生产生活之中,已经不乏各类形态的专用机器人规模化应用,为人们解决各种各样的问题。
但是关于人形机器人的研究可以追溯到1927年,百年来科学家苦心研究和探索,希望把机器人做出人的形态,本质目的是希望机器人能与人一样灵巧和学习,可以由一台机器人完成烧饭,打扫卫生,取外卖,开车甚至共同繁衍后代等各种通用任务。
那为什么最近产业圈,科技圈,投资圈内会有一种通用人形机器人赛道要爆发的感觉,什么因素发生了变化呢?让我们先看人形机器人的技术层次。
人形机器人的技术层次有4层:第一层是结构与硬件层。指的是构建起人形机器人的本体,目前基于国内的供应链,整合出一台类人形态的机器人,成本大约40-50万左右,虽然零部件性能和成本距离马斯克的预期差距很大,但这是产业规模化可解决的难题。 第二层是运动学模型构建。指的是让机器人的手和脚能让人一样拥有丰富的自由运动的能力。在这个领域科技企业Boston Dynamic遥遥领先,让大家见识到机器人可以跑,跳,后空翻,跳舞,搬运,甚至拿枪射击。
第三层是感知识别。指的是让机器人像人一样能够清晰地感知外在的环境和障碍物。近几年AI与自动驾驶的飞速发展,以及各类视觉传感器的技术成本迭代,让机器人感知识别(主要在视觉感知层)具备了相对较好的产业化基础。 第四层是思考。指的是让机器人能够理解人一样能够各种任务的含义,并且进行良好的任务规划。大语言模型技术驱动下,AI agent出现,让机器人可以用自然语言作为交互方式,高自动化地理解,执行和处理专业或繁复的工作任务。
如上图Google的Demo,单臂机器人站在一张桌子前,桌上有多个塑料雕像:狮子、鲸鱼、恐龙等——给机器人发出指令:「捡起灭绝的动物。」机器人流畅地将手臂伸出,爪子落下,抓住了恐龙。
归根究底,这轮通用人形机器人的浪潮,底层的变化因素是源于人工智能技术出现的变革,让机器人在未来有机会具备通用思考和语言交互的能力。我们判断:机器人会成为本轮人工智能落地应用中相当有分量的一个场景。
哪些企业正在参与到人形机器人的产业赛道中? 作为一个产业规模丝毫不逊色于新能源汽车的大赛道,通用人形机器人势必吸引大量的玩家参与其中。对于中国产业链的调研,我们坚信,这个赛道必将会诞生类似“蔚小理”的先发选手,也会有“比亚迪,长城”等传统势力后发进入,在可预期的将来,也会呈现出一家特斯拉机器人和多家中国机器人公司PK博弈的场景。作为一个覆盖了软件,物理,材料,机械,光电,机电等复合学科的赛道,通用人形机器人的综合技术门槛很高的。在我看来,目前几乎没有创业团队能系统地评估出这个赛道的复杂度和解决方案,大家都是本着攀登珠峰的心态在做在创业。因此,我们看到在通用人形4项技术层次中有技术优势的团队都有下场去做人形的案例。 第一类:AI/大语言模型背景。其中有:北京智源研究院为背景的银河通用,南方科技大学孵化的逐际动力,深圳IDEA研究院为背景的X2,西湖大学为背景的西湖机器人,清华大学交叉信息研究院背景的星动纪元,阿里达摩院为背景的有鹿机器人等等。这类创业企业几乎都是2022年后成立,是机器人赛道的新玩家,他们对AI大语言模型有更深层次的理解,创始团队的能力主要聚集在人工智能与芯片等积累,对数据驱动有一定认知,但对于硬件,供应链和机器人控制方面的理解比较薄弱,甚至可以说得上是比较不重视的。
第二类:运动控制学背景。其中有:出身于机械臂领域的非夕科技,出身于医疗机器人领域最近大热的傅里叶,出身于四足机器人领域的宇树科技等等,这类企业都成立于AI大模型应用之前,围绕着特定场景落地专用机器人来构建商业闭环,技术团队几乎都是以Boston Dynamic作为技术标杆,进行模仿和追赶。作为机器人赛道的老选手,我认为这类企业的优势在于对机器人本体和运动学的理解深刻,以及在中国商业环境下对机器人场景落地的摸索经验。但缺点在于这批创业者的成功路径在专用机器人,对于大语言模型带来的通用变革,他们往往理解,信仰及团队配置是相对欠缺的。
第三类:核心零部件背景。其中有:特斯拉机器人代工,以热管理著称的三花智控,与优必选合资企业的天奇股份,提供机械臂核心零部件减速器的绿的谐波,提供机器人核心零部件电机的步科股份,提供机器人核心零部件电机和驱动的汇川技术等等,站在产业发展的视角上,我认为这些核心零部件层面的上市公司距离通用人形机器人更为遥远,更多偏向于二级市场逻辑。第四类:产业背景。其中有:华为智能计算产品线出来的智元机器人,小米旗下的铁蛋人形机器人团队,老牌机器人企业优必选,老牌机器人企业达闼科技,小鹏旗下的小鹏机器人等等。目前看下来,这些团队呈现出的状态相对综合性高一点,发展所需的资源方面,也有相对全面的储备。
千里之行,始于足下。对于通用人形机器人赛道,现在各个选手都还在起跑第一圈。在可预期的未来,我认为学术界(浙大控制系,北理工高精尖,哈工大,中科大刑天,清华等),产业界(整车企业,腾讯Robotics X,3C代工厂,甚至包括美的等),还会有更多的选手下场,加入到这场竞争之中。
人形机器人何时会爆发? 通用人形机器人的爆发时点,是一个没有标准答案的问题。如果把创业公司PR的时间作为最快预期,把科研院所与行业专家的判断作为最晚预期,我们调研获得的答案是在5-15年。但对股权投资人来说,这个结论并不能提供战术层面的指导,我们能做的更多是伴随着产业的迭代去修正我们的预期。着眼当下,我认为应当关注两个层面的问题:1. 通用人形机器人在技术与供应链上还缺什么?2. 通用人形机器人的爆发场景在哪? 对于第一个问题:我们分软件芯片和硬件本体两个层面来分析差距。
如上图是一个谷歌基于视觉语言模型VLM+机器人执行的路径。看似一个简单的人类执行动作,要让机器人完成推理,实现执行,背后依托的是参数5620亿的视觉语言模型(VLM)PaLM-E,同时结合了13台机器人在17个月内收集而成的机器人执行动作数据集episode,并且在这个执行过程中机器响应非常缓慢,在视频多倍速的情况下才跟上人的执行速度。这里暴露通用人形机器人软件和算法供应链上的三大问题:算力,算法,数据,机器人的通用/专业执行动作数据集非常欠缺,跨场景数据采集的时间成本高,工具链不完备;端侧的推理芯片欠缺,模型未能小型化等等都极大限制机器人的执行效率;对端到端构建机器人任务,如何定义准确率,如何提升准确率,算法层面也存在大量优化的空间。所以在软件算法和算力芯片供应链层面,我们才迈入“可实现”的阶段,但产业远未到“可用”,“可规模化”,考虑成本的时候。硬件的技术与供应链难题更多样复杂,体现在电池能耗,姿态控制,末端执行,成本控制等方面。
即便发展至今,相对成熟的电池技术,也只能支持人形机器人1小时的续航能力。试想机器人保姆烧菜烧到一半突然回房间充电,把锅和铲交给主人继续,让人满脸黑线。因此,电源与电源管理技术远无法匹配通用人形机器人未来的需求,算法优化,结构优化,硬件优化,材料创新,充电方式改变,技术创新的压力很大。
双足的姿态控制与运动控制一直是学界难题,面临的问题包括机器人刚度,关节驱动力,硬件系统,传感器感知,控制算法,环境的交互等。放眼全球在机器人步态领域的人才都是极其欠缺的,主要原因在于过去人形机器人并没有产业基础和产业投入,研究相关领域的国内外高校不多,涉猎相关技术的人才也大多转行。我们可以看到,2022年10月AI Day特斯拉人形机器人“擎天柱”,机器人在进行步态调整的时候,仍需要3个工程师扶着,足以可见这个技术维度的困难。
末端执行同样是通用人形机器人落地的难题之一。从我们小时候开始学会抓第一件东西,似乎理所应当地认为抓各种各样的东西是一样简单的事情。殊不知从“1”迁移到“各种各样”这个事情,对于机器人来说有多难。首先,末端需要有电子皮肤/力传感器来获取足够力反馈的信号,这需要传感器技术有更大的突破;其次,针对于不同材质,不同刚度的各种物体,需要机器人通过AI来学习抓取的姿态,力度等,来达成“抓取”的目标而不是“捏爆”或是“勾取”,这同样是一个很高复杂度的难题。
解决如上各种难题后,我们会发现,成本仍是横跨在通用人形机器人产业化前的拦路虎。为工业机器人准备的供应链产品(无框力矩电机,谐波减速器,编码器,直驱电机等),无论从价格,抑或是性能都远不是人形机器人量产目标可以接受的指标。特斯拉虽然还未量产人形机器人,但马斯克却给这个行业划定了一个“准入门槛”(售价2万美元,成本7-10万人民币),这也给到未来的通用人形机器人硬件供应链极大的价格压力。对于第二个问题:通用人形机器人的应用场景在哪里?我尚未从当前交流的创业者口中获得比较靠谱的答案,清一色的答复是各场景都可落地,反而投资圈有许多有意思的想法,涉及人口老龄化的看护陪伴机器人,涉及个体底层需求的猫女机器人,涉及资源战略掠夺的太空采掘机器人等。
跳出天马行空回到现实,正因为通用人形机器人是多技术复合叠加的结果,因此在场景落地过程中,我认为赛道内必然会存在大量多样化的人形机器人形态。 即使成熟如汽车工业,也没有一款汽车能够完全代替其他的汽车,跑车、轿车、卡车等车型适用于不同的应用场景,不同的使用场景。未来我们也需要应用于各种场景的各种专用人形机器人,而这些不同形态的机器人会在伴随着技术的分批成熟而落地爆发。
写在最后 在一级市场的视角,当下难以预测谁是未来机器人赛道的“蔚小理”或是“比亚迪”。但我们相信创始团队需要具备:对技术的发展,供应链的成熟度,自身的短板和长板有清晰的认知和敏锐的跟进;对通用机器人产业的复杂度和难度有深刻的理解;对中间形态的商业化路径有清晰的规划,对公司自我造血能力和商业闭环有执着的追求;对估值的增长与下滑都能保持克制和冷静,保持长期主义的思维;对于产业的热度起伏,周期波动做好从容的应对。走,买一台猫女机器去。
