cf王者之怒
具身智能是将人工智能与机器结合,将多模态的大语言模型作为人类与机器沟通的桥梁,帮助机器处理具身推理任务,强调智能与身体和环境的互动关系,将智能与实际物理世界结合起来,通过身体感知、运动和与环境互动来实现智能行为。
人形机器人的具身智能包括具身感知和具身执行。其中,具身感知是指通过机器人身上的各种传感器获取周围环境的信息。具身执行是指将机器人的感知和决策转化为具体行动。近年来,人形机器人作为具身智能的代表产品,结构设计日益符合人类特点,AI技术的进步进一步提升了人形机器人的感知、规划、控制和人机交互能力。
下游应用
智能机器人产业链
公共服务工业制造家用服务医疗服务特种应用其他
中游集成制造
系统集成
智能机器人本体制造
硬件系统软件系统
上游软硬件
传感器智能芯片控制器
伺服电机减速器末端执行器感知系统规划系统控制系统交互系统
❑AI技术的进步进一步提升了人形机器人的语音能力、视觉能力和运动能力,但同时也存在众多难点。
❑硬件核心难点:人形机器人在手部和腿部的硬件集成上难度较大。1)手部:手部集成需要大量的电机和驱动器;2)腿部:人形机器人的腿部驱动器需要很高的损失峰值功率和驱动能力。
❑软件核心难点:1)手部:手部涉及20多个自由度,精细化感知难度大;2)腿部:人形机器人在腿部行走上尚未出现真正意义上的类人行走算法,行走算法的技术难度大,且当前的行走算法有很大的不稳定性。3)全身的结合:全身控制需要结合躯干、双臂和腿部等,涉及到难度较大的复合算法。4)规控算法:混合智能操控和避让等算法难度大,需要更高维度的规划。
主流人形机器人性能对比
特斯拉Optim u1s.8 波士顿动力Atl a1s.75 优必选Walker1X.3 小米CyberO n1e.78 身高米米米米
重量57kg 75kg 63kg 52kg
语音能力Tesla SoC:语音交流/四维灯语体系、语音交互85种环境语义识别;6类45种人类
语义情绪识别
视觉能力Tesla SoC:视觉信息处理;
Autopilot的摄像头作为视觉传
感器,共8个摄像头
两个视觉系统:1个激光
测距仪+1个立体照相机
U-SLAM视觉导航技术,实现自主
规划路径;定位精度10cm;精定
位精度1cm;导航精度20cm
2D弯曲;OLED屏幕;Mi Sense
自研空间视觉;AI交互相机
运动能力速度8km/h;身体28个自由
度,手部11个自由度;驱动:
电机+减速器;承载最多约
法律学20kg的物品;可行走、上下楼
张纪中有几任妻子梯、下蹲、拿取物品等动作
速度1.5m/s;四肢28个自
由度;驱动:电机与液压
两种传动;可垂直起跳、奥利维亚 王尔德
跨越障碍、后空翻等
速度3km/s;四肢41个自由度;驱
动:电机+减速器;可在20°斜坡
上行走,15cm台阶上上下楼梯;
动态足腿控制,自平衡抗干扰
速度3.6km/s;21个关节自由度;
驱动:电机+减速器
应用场景特种机器人:为人类执行一些
无聊或危险的任务,如搬运重
物、采购杂货等
特种机器人:执行巡逻、
勘测、运输任务等
服务型机器人服务型机器人
特斯拉横向迁移FSD底座,机器人与自动驾驶软硬件部分适用
❑硬件层面:特斯拉自动驾驶和机器人在硬件上具备一定的通用性。感知层主要包括摄像头、毫米波雷达等传感器;
规划层主要基于AI芯片和FSD系统;控制层包括执行器等。特斯拉机器人在硬件端与自动驾驶具有一定相似性。
❑软件层面:特斯拉打通FSD在自动驾驶和机器人中的底层模块,在一定程度上实现算法的复用。自动驾驶FSD系统可以根据感知到的环境信息进行路径规划和车辆控制,该方法同样适用于机器人,帮助机器人实现视觉感知、从而在复杂环境中选择最佳路径、最后执行适当的决策。实际上,自动驾驶本质也属于机器人,特斯拉目前在感知和识别等模块上具有一定的通用人工智能能力,而通用人工智能算法将是特斯拉未来长期价值所在。
特斯拉通用机器人的人工智能
集合的含义与表示
基于AutoPilot的演员王伯昭
摄像头
基于神经网络算法复用FSD算力设施神经网络规划
复用自动标注系统
复用FSD硬件设施
复用Dojo训练平台
发布评论