2024年12月26日-27日,由中国产业海外发展协会上合-海湾双链专委会指导、极新主办的「重度垂直·2024极新AIGC峰会」先后在深圳、香港两地顺利开幕。本届峰会以AI的垂直应用与出海为核心主题,旨在深入探讨AI技术在全球范围内的融合应用与发展趋势,挖掘AI技术在垂直行业的创新潜力,推动AI技术的全球化进程,共绘未来蓝图。前海香港科技青年之家与粤港澳大湾区青年创新创业中心、香港物联网商会、亚马逊云科技对本次会议给予大力支持。
本次大会以“重度垂直”为主题,与会嘉宾就金融、医疗、工业、文娱、消费等领域的AIGC技术创新实践展开深度讨论,同时围绕AI与IOT、AI与跨境电商两个方向,共同梳理出AIGC在未来产业发展中可能存在的问题及关键趋势。从技术创新到垂直场景的深度应用,我们有理由相信未来AIGC技术在推动行业数字化转型过程中会有新机遇、新升级。
会上,枢途科技创始人&CEO林啸带来了题为《具身智能应用落地的思考与探讨》的主题分享,从具身智能与大模型的结合出发,分析了具身智能机器人的现状、瓶颈、未来的核心发展点以及如何破局,为行业提供了宝贵的思路和方向。
枢途科技创始人&CEO林啸
以下为演讲精彩观点:
为什么现在是大模型的最佳时机?
大模型与机器人结合,真正地投入实际工作这件事情虽然已被广泛讨论,但对我们来说仍具有重要意义。
首先,多模态大模型的崛起是一个关键因素。机器人与传统的图像、声纹等大模型不同,它们需要对周围世界有更深入的感知能力,包括触觉、电机的扭力以及听觉等。多模态大模型的发展使我们能够真正让机器人理解世界、理解人类,甚至理解自身。
此外,知识密度的不断提升也是一个非常重要的因素。要让机器人真正地投入工作,例如清理场景,我们必须将大模型部署在机器人本体上。知识密度的提高使我们能够使用一些较小的模型,并将其集成在端侧的算力中,从而实现让机器人搭载大模型进入实际场景的目标。
如何将具身智能与大模型进行融合?
将具身智能的概念与大模型进行融合,首先需要理解机器人具身智能的构成。目前行业内普遍认为,机器人具身智能可以由大脑、小脑和本体三部分组成。其中,大模型赋予了机器人类似大脑的能力,使其具备对外界进行感知、推理和决策的功能,再结合小脑和本体,实现更进一步的落地应用和推演。
传统机器人控制方式主要针对小脑的微调,例如基于哈尔特征点的控制。如果要在更柔性、场景多变且复杂的环境中工作,就需要重复整个流程,进行新的编码和指令编写。而有了大模型后,它可以代替人工的部署去理解世界,代替机器人进行任务的推理编排和综合服务。
大模型对具身智能的促进作用
近年来,无论是在学术界还是产业和创投界,大模型的发展都非常迅速,对具身智能的发展起到了促进作用。
首先是在合成数据方面。让机器人真正工作需要海量的数据,与传统的大语言模型不同,我们无法从互联网或图书馆收集所有文本数据进行训练,而是需要收集真实场景中物体的形状、颜色、触觉,以及机械臂的关节信息和移动轨迹等数据。
然而,按照现有的数据收集方式,这些信息的收集难度很大,需要大量的人力和物力。因此,枢途科技的研发团队采取了一些新思路,先采集少量数据并将其原子化。例如,采集矿泉水瓶的数据,将瓶身和瓶盖分别作为原子数据,然后在虚拟环境中进行排列组合和迭代生成。如果采集10个矿泉水瓶和10个瓶盖,就可以生成100种不同的矿泉水形态。在虚拟环境中对这100种形态进行训练和识别后,机器人就能识别这些形态,而实际上只收集了10个样本的数据。
但是虚拟环境与真实环境之间的差异还是存在,不能轻易地抹除,尤其是在真实世界中通常存在一些虚拟环境中不存在的噪声,要如果要想让机器人达到更好的操作效果,还是需要使用大量的真实场景数据。
因此,枢途科技选择将这两种方式结合起来,先在真实环境里搜集数据,再将真实数据原子化,利用虚拟环境生成基于真实数据的合成数据,用于训练机器人,最后再将其放回真实环境中进行实际任务操作并调优。在操作过程中,会有部分人力介入去修改或修正机器人的行为。随后,将修正好的机器人行为再次放到真实场景中进行训练和实际应用落地。同时,训练好的行为也会被反馈到虚拟环境中,以静默的方式不断迭代机器人的能力。
具身智能的落地路径
在实现具身智能的过程中,主要有两种思路。一种是基于新兴的人形机器人或轮式人形机器人进行实际落地和操作。然而,这对整个行业来说是一个巨大的挑战,因为人体是一个非常神奇的存在,我们至今仍不清楚人类为何能拥有如此快速的响应速度和强大的关节扭力。
另一种思路是利用更成熟的现有硬件,例如机械臂、机械狗或编码器等。我们的目标是通过结合这些硬件形态的机器人和具身智能大脑的优势,快速地将一个场景落地并吃透,从而真正实现具身智能在真实场景中的应用。通过这种方式,我们可以更高效地推动具身智能技术的发展和应用。
为什么智能机器人还未深入社会
目前,行业内包括我们合作的科技公司,主要目标是为机器人构建一个小型的、属于机器人自己的世界模型,使其能够在自己能够理解的这个世界中进行工作。同时,在机器人影响真实世界的过程中,它不断感知和学习真实世界中的特征,从而能够真正为我们的现实世界带来影响。
尽管大模型和机器人本体已经出现多年,但为什么我们还没有看到特别智能的机器人在路上进行打扫卫生或在酒店里执行类似操作呢?主要原因在于硬件本体的限制和数据的限制,这两者是目前最大的瓶颈。
首先,硬件可以分为三类:传统的工业机器人、柔性机器人(如底盘、机械臂或柔性并联机器人)以及人形机器人。传统工业机器人由于体积庞大、结构复杂,无法在集成智能的柔性场景中工作。而人形机器人虽然功能强大,但成本极高,因为其开发难度大,需要控制全身所有关节以实现良好功能。因此,目前最适合的场景是使用复合型柔性机器人进入实际场景进行工作。
其次,数据限制也是机器人发展的一大瓶颈。我们无法投入大量人力和物力,在每一个需要落地的垂直场景中收集足够的数据,使机器人能够完美表现。同时,还存在数据隐私和安全问题。例如,当我们想进入车厂或机场等场所进行深入操作时,我们的目标是为了获取更多数据,如导航、定位和上下料操作等,但这些数据很机密,使用起来有很多限制。
因此,目前许多友商仍采用传统的遥操作或数据农场方式,通过人工控制机器人来获取数据,但我们认为这不是最优解。基于目前行业所处的具身智能第三阶段,我们选择先让机器人落地,落地后收集海量数据,再将模型进化到第四阶段。同时,我们也可以利用这些数据和实际落地场景,实现“一脑多机”的控制方案。在不同的垂直场景中,我们有不同的硬件配置和模型拆分,可以理解为一个模型控制不同形态的机器人,在场景中实现所需功能。
智能机器人的核心发展方向
在未来3到5年内,全新智能机器人的核心发展方向将主要集中在模型与数据融合、多传感器融合以及观测与观测、监测技术的结合等方面。
首先,模型与数据融合是最重要的,如何利用更少的数据实现大模型的真正驱动至关重要。其次,多传感器融合技术将使机器人像人类一样具备听觉、触觉等多模态感知能力,从而更好的发挥产品优势。最后是与观测、监测技术的结合,探索如何让更小的模型实现相同的功能。
只有在这些技术的推动下,加之与计算资源的结合,才能够真正将算法部署到真实落地的机器人上。