配华为ADS基础版 问界新M7 Pro开售 余承东:超越行业的视觉智驾
GPD发布首款Zen5锐龙掌上电脑Pocket 4:8.8寸小屏 180度转圈
红魔9S Pro系列手机白昼武士配色8月16日开售:骁龙8 Gen3领先版 4799元起
联想moto X50 Ultra AI元启版宣布免费升杯:16 1TB仅4299元
从15世纪达芬奇绘制出世界上第一份人形机器人手稿,到如今波士顿动力、本田、特斯拉、Figure AI等企业相继推出了人形机器人产品,机器人新物种持续衍生,人形机器人产业已经从萌芽概念阶段进入产业化落地前期。
今年3月,Figure 01发布时,就曾引发市场高度关注。当时,Figure 01可以与人类进行全面对话,机器人的所有行为都是学到的,并非是远程操作。这背后不仅有Figure引以为傲的端到端神经网络技术,还全面融入OpenAI所推出的多模态AI大模型,科技界普遍将这一人形机器人视为“行走的ChatGPT”,具备模仿人类行为、深度学习与思考以及与人类进行自然且高效率沟通等诸多强大能力。
与特斯拉的Optimus以及波士顿动力的Atlas相比,与OpenAI大模型的深度集成也一直是Figure引以为傲的强项,该集成使其在多模态推理和任务执行方面更具智能性和适应性,提升其在视觉、听觉和语言交互方面的能力,使其能够执行复杂的端到端任务,适用于工业制造、仓库物流等侧重于轻载搬运和分拣转移的混合任务场景。
在对话推理方面,Figure 02可以通过内置麦克风和扬声器与人类进行语音对话。这一核心功能依托于与OpenAI合作训练的定制AI模型,能够理解、处理并回应人类的语音输入。机器人以语音作为默认操作界面,意味着用户可以像跟人交谈一样自然地与Figure 02互动,而无需依赖传统的按钮或屏幕界面。
特斯拉CEO马斯克在近期举行的2024特斯拉股东大会上表示,人形机器人将是今后特斯拉主要的长期价值来源,他也认为,以具身智能机器人为代表的产品有望成为AI的下一浪潮,并且将成为工业主力,数量有望超越人类,预计将达到100亿至200亿台。特斯拉的目标是年产10亿台,占据市场10%以上的份额。
1950年,图灵在他的一篇论文中首次提出了“具身智能”的概念,其是人工智能的一个重要分支,它强调智能体与其所处的物理环境紧密交互,通过人形机器人等智能实体实现感知、决策和行动。这种结合让人工智能可通过摄像头、传感器等理解环境,并通过机械臂、轮子等执行器作用于物理世界,在物理空间中学习、适应并完成指令任务。这是一个包含人工智能几乎所有技术的领域,可以说是AI的集大成者。
实用派以特斯拉、Agility Robotic和1X Technologies为代表的实用派看重商业化落地的可能性,希望“让一部分人先用起来”。可以接受前期仅在部分场景中替代少量劳动力,在设计初期便拥有明确的商业化落地目标,着重于快速降低成本、推动量产落地。特斯拉于2023年12月中旬发布了第二代人形机器人,提升了行走速度,可完成拿鸡蛋等精细操作,给了市场更多的信心,预计2024年试产,2025年量产,最终目标售价期望低于每台2万美元。
性能派以波士顿动力为代表的运动性能派,则拥有与军方三十年之久的合作经验,着重于挖掘现有人形形态机器人的运动潜力,不太关注成本,Demo机已拥有完成诸如后空翻、跑酷等高难度动作的能力,有可能在未来战争中起到一定作用,但碍于成本过高,而影响了量产计划。而Apptronik这类公司则拥有深海、太空等极端环境下的产品经验,还与NASA有较多合作开发经验,第一款通用机器人Demo只有上半身,计划在2024年底前实现商业化。
具身智能这条长坡厚雪的赛道上从不缺少拓疆者。从简单的结构驱动到关节驱动,再到完成跑步、转弯、识别特定人群面孔系统的高度集成,至目前能发挥自主决策等功能的高动态运动阶段,早稻田大学WABOT-1、本田ASIMO、波士顿动力Atlas、特斯拉Optimus、小米CyberOne“铁大”、优必选WalkerS等代表作,不断突破着技术的边界。
首先,是要适应非结构化真实环境。与预设规则和模式驱动的传统AI系统不同,具身智能必须在一个充满复杂性和不可预测性的非结构化环境中找到立足点。在这种环境中,信息的稀缺和场景的多变性,要求AI系统具备更加先进和灵活的计算能力,以便能够适应环境的不断变化和不确定性。这不仅是一个数据处理的问题,更是对AI系统感知和适应能力的全面考验。
其次,是要发展更高级的认知策略。在自然界中,生物体通过视觉、听觉和触觉等多种感觉途径获得复杂的感知信息,并在大脑中进行有效的多模态信息融合。具身智能同样需要模仿这种高效的多模态融合过程,以更全面地理解和适应其所处的环境。这包括但不限于对三维空间中物体的精确识别和定位,以及对环境变化和内在联系的动态捕捉。
此外,涌现式创新与突破的缺乏影响着具身智能的进化程度。生物群体能够展现出令人惊叹的集体智慧,主要归功于其中个体之间的协同作用。对具身智能来说,一个重要的挑战是模仿这种群体智能系统。这意味着需要将智能分散到多个实体中,并通过它们之间的协作,实现更高级别的认知和决策能力。生物群体所展现的自组织和适应性特征,允许它们根据环境的变化和个体之间的差异进行自我调整。具身智能需要发展类似的机制,以实现分工协作和动态任务分配,从而能够更灵活地应对多种情境。
最后,具身智能在与真实环境进行交互并充分学习时,势必会收集和处理大量数据。这就引出了一个关键问题:如何在实时交互中确保这些数据的安全性和隐私性。保障数据安全和用户隐私是具身智能发展中不可忽视的重要方面。此外,具身智能在决策时还需要考虑伦理和道德问题。因此,未来的发展不仅需要技术创新,还需要建立更为健全和全面的伦理指南,以指导具身智能在复杂情境中的行为决策,确保其行为符合道德原则和社会价值观。
这样一个庞大的市场,自然引得巨头纷纷押下重注。比如,谷歌依托其在AI领域强大的研究团队,丰厚的多领域研究成果,引领着近年来机器人模型的发展。这主要集中体现在,Google DeepMind此前曾发布具备“自我完善”能力的“RoboCat”和融合大语言模型能力的VLA模型Robotic Transformer 2(RT-2)。RT-2在训练时模型就同时学习视觉、语言、机器人行为这三种数据,并将这些知识转化为机器人控制的通用指令。RT-2一方面吸收了视觉语言模型的语义推理、问题解决、视觉解释能力,另一方面能够从真实的机器人动作中实现具身任务推理,且两方面能够相互促进。在自然语言输入后,通过模型的运算,直接产生动作的输出,让人类可以通过纯语言命令优化机器人控制,进一步加速机器人的智能化进程。