人形机器人肯定算是这两年来最火的一个方向了, 大模型的出现让人型机器人落地有了曙光. 目前往往有争议的是假如人形机器人真的能够落地, 又会有多少商业价值? 比较容易想到的场景是工厂自动化, 但是这些场景对 精度和节拍有高度的要求. 就算人型真的到了那一步, 能吃下工业场景的人形机器人肯定少之又少. 更何况人形的复杂度极高, 出问题修复的成本也会非常高. 而一出问题, 产线停了. 后面的代价成本是非常大的.

But anyway, 具身智能一定是未来十年的趋势. 如何造出能够适配不同机器人的"大脑"与"小脑"是非常具有潜力的. 市场上也有不少公司往机器人大脑发力. 按照目前的定义来看, 所谓"大脑"就是指机器人能够对环境感知以及具体任务的理解, "小脑"是负责具体的运动控制. 目前来看"大脑"基本都是基于VLM(Vision Language Model)去做的, "大脑"理解了具体的任务之后进行任务拆解, 然后交给"小脑"去执行.

比较容易想到的做法就是VLM输出对应的分解任务, 小脑根据收到的任务指令调用不同的行为树去执行. 这样落地是最快的方式, 我猜这也是工业界做demo肯定会采用的方式. 这样做的好处是解释性比较高. 坏处是通用性比较差, 肯定不是最优解.

如果纯端到端的话, 通用的机器人大小脑就会非常难做. 这里面的难度绝对不比自动驾驶的端到端低. 为什么会比自动驾驶端到端难做? 因为端到端需要将PNC给的输出提前当成输入, 比如自动驾驶的端到端就要把驾驶员的油门,转角,刹车当成输入, 至少2016年Nvidia在"End to End Learning for Self-Driving Cars"这里面就是这么做的. 有可能fsd v12用了别的黑魔法, 我这边不详细讨论因为没有调研就没有发言权. 回到正题, 此外模型受限于采集的传感器安装位置, 因此不同模型不具备通用性. 这就是很大的一个问题. 不同机器人的运动学模型不一样, 任务也不一样, 所以机器人小脑需要针对不同的机器人做适配. 目前来看, 不会像自驾一样能端到端解决所有问题. 机器人大小脑的结构应该会一直存在.

希望这一波做机器人大小脑的公司比如国外的Sklid AI以及国内的X Square Robot能做出先进的成果.

剩下的文章部分是一些瞎扯关于我觉得人形机器人的落地路线.

Step1. 解决人形机器人的远程遥控问题.

Pro: 完成这一步可以远程演示demo拉融资, 美滋滋.

Con: 可惜最有价值的工业场景工厂是不会连外网的, 落地就gg了.

Step2. 解决人形机器人在特定场景的问题. 比如搬箱子, 分拣等.

Pro: 完成这一步能够吃下具体场景

Con: 在完成这一步之后, 不同厂商就会下沉到不同细分赛道. 所谓的通用机器人发现离落地还很远.

Step3: 完成人形机器人的仿真环境搭建, 云仿真, VR仿真等.

Pro: 能够在仿真环境直接验证不同的具体场景

Con: 仿真环境搭建难度比较大, 并且仿真环境需要和真实环境保持一致. 成本会非常高.

Step4: 发现原来人形的落地本质上是解决 如何在仿真环境里面快速验证原型方案的问题 , 有的玩家开始研发仿真软件.

Pro: 能够完成这一步一定是行业领头羊了

Con: 没有利润

总之, 人形机器人一定需要有类似于联盟的组织, 一起发力去推动这件事才能有希望. 单独靠任何一个玩家去推动这件事, 成本都太高了.