首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
您的位置: 首页 > 实时讯息 >

2025深蓝智库|银河通用:成为现实生产力

0次浏览     发布时间:2025-05-25 16:02:00    

成立于2023年5月的银河通用近日迎来了两周岁生日,这家年轻的企业于人形机器人赛道快速崛起。在3月底召开的2025中关村论坛年会上,银河通用具身大模型机器人Galbot G1为观众取送了数千杯咖啡,任务成功率达到99.97%,成为名副其实的现实生产力。银河通用何以脱颖而出?创始人王鹤的学术背景常被视作关键,除了企业家身份,他还是北京大学前沿计算研究中心助理教授及博士生导师、北大—银河通用具身智能联合实验室主任,以及北京智源人工智能研究院具身智能研究中心主任。从一定程度上讲,创始团队扎实的学术经验让银河通用在技术路径选择上更加坚定。银河通用认为,不论人形机器人的存量有没有达到自动驾驶领域百万级设备的规模,“ 仿真合成数据”的技术路线都是长期可行且具性价比优势的。在应用层面,银河通用走务实路线,目标是推动具身智能机器人在多类场景中真正“动起来,干起来”。

以小补大

有关数据中,谷歌的一个项目常被拿来举例,16人的团队耗费约17个月,投入百万甚至千万美元,仅采集到23万条真实交互数据。而一旦机器人被迁移到新的房间或场景,其模型并不工作,需要重新采集数据。在王鹤看来,这种“场景迁移即重建”的代价是难以接受的。

创立之初,银河通用便坚持以合成数据驱动具身智能训练的技术路线。“当人形机器人的存量尚未达到自动驾驶领域百万级设备的规模时,依赖海量真实数据训练不仅成本高昂,而且周期冗长,极大制约了大模型的训练效率与场景适应能力”,王鹤说。

这是银河通用构建自研仿真数据生成管线的原因,“能够以极低的边际成本批量生成高度多样化的合成数据,用于大模型的预训练阶段。这部分数据约占整个训练数据的99%甚至更高,支撑起模型的泛化能力”,银河通用市场部相关负责人武文韬向北京商报记者解释。

在模型后训练阶段,银河通用会针对特定任务需求,采集少量真机数据进行快速对齐。武文韬举例,“在零售场景中若需要机器人理解‘按顺序抓取矿泉水’,我们只需采集一人一天即可完成的数据量,便能完成模型的高效微调。这种‘以小补大’的方式极大提升了训练效率与场景适应性”。

不止银河通用,其他人形机器人公司也在考虑数据沉没成本、数据采集的范围。全球范围内的人形机器人企业和研究机构都在探索具身智能的最优训练路径,目前还没有形成统一的标准答案。

在路径未收敛的当下,银河通用的想法不变,“即便未来人形机器人出货量达到百万级别,我们依然认为‘合成预训练 + 真机对齐’的策略是长期可行且具性价比优势的。因为即使硬件普及,真实数据的获取依旧面临高昂的成本与复杂的组织难度,尤其在多样化、高频次更新的真实世界场景中更是如此”,武文韬分享了公司的想法。

以用促研

目前,银河通用已通过一款大模型展现了合成数据的价值——全球首个端到端具身抓取基础大模型 GraspVLA。

GraspVLA由银河通用联合北京智源人工智能研究院(BAAI)及北京大学和香港大学研究人员联合发布,训练包含预训练和后训练两部分。

其中预训练完全基于合成大数据,训练数据达到了有史以来最大的数据体量——十亿帧“视觉—语言—动作”,掌握泛化闭环抓取能力、达成基础模型。预训练后,模型可直接Sim2Real在未见过的、千变万化的真实场景和物体上零样本测试,全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求。针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。

作为真正意义的端到端具身基础大模型,GraspVLA 展示了无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程,和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力,定义了VLA(视觉语言动作模型)发展的新范式。

这一范式具有重要意义,打破了世界范围内具身通用机器人当前发展的数据瓶颈和泛化瓶颈。

如果和大模型、移动互联网相比,以人形机器人为代表的具身智能的发展过程相对漫长,一个重要原因是具身智能需要软件+硬件配合发展,但这两者的发展并不同步。

武文韬认为,近两年硬件的发展在已有显著突破,比如市面上的一些人形机器人已具备不错的运动能力,反而在具身大模型的应用上更具挑战。

“银河通用始终坚持‘以用促研’的发展路径,认为具身智能的技术突破,最终必须落实在真实场景中的机器人能力体现上。因此,我们在推进GraspVLA等具身智能基础模型研发的同时,也在推动机器人从实验室走向现实世界”。武文韬表示。

· 应用场景解析 ·

【零售】

任务和场景可通用

真机演示人形机器人自主干活,银河通用在多个国际化场合展示过。

从2024年6月推出Galbot G1算起,7月在2024世界人工智能大会展会现场,Galbot G1通过物体抓取等展示无人值守取货,8月Galbot G1在2024世界机器人大会的两处展位秀“肌肉”,既可抓取物品、搬运料箱,又能在药店理货、在商店取货。此外,Galbot G1还在2024中国国际服务贸易交易会、2024 智能机器人与系统国际会议、美国消费电子展CES 2025、2025中关村论坛年会进行过真机演示。

以最近一次参与的2025中关村论坛年会为例,Galbot G1五天为顾客取送咖啡数千次,成功率超过99.97%,获评官方的“钢铁劳模志愿者”。银河通用与合作伙伴联合发布的“人形机器人智慧药房解决方案”还入选2025中关村论坛年会十大重大科技成果。

之后的4月,银河通用宣布与苏州市达成战略合作,计划率先在商业零售、先进制造、适老康养、文化旅游等重点场景推进具身大模型机器人的应用。

谈到这次合作,银河通用产品合伙人傅强告诉北京商报记者,“希望通过与苏州市的合作,推动人形机器人和具身智能技术在产业中的实际应用,切实解决行业痛点。目前银河通用正推进机器人在商业零售、工业制造等多个领域的落地工作”。

简单来说,Galbot G1可在不同的场景下服务,是一款通用人形机器人。

何为“通用”,傅强向北京商报记者解释,“通用包含两层含义,第一是任务通用,即机器人可以完成多种类型的任务;第二是场景通用,意味着其能够适用于多种应用场景。通用机器人正是任务与场景双重通用的结合体,具备在不同环境中执行多样化工作的能力”。

Galbot G1高度173cm、臂展190cm、身体升降65cm、续航时间10小时,可应用于零售、家庭、教育等场景。

将落地百家门店

上述场景下,零售和药店被展示得最多。谈到差异化,傅强向北京商报记者介绍,“零售商超是一个广义的概念,其中包含药店、便利店、超市等多个子场景,复杂程度也存在差异。相比之下,药店的SKU种类较少、包装形式更为标准,因此被视为较适合率先落地的方向。正因如此,我们与合作伙伴共同打造了人形机器人参与的‘智慧药房’无人值守解决方案,未来也将逐步推广到更复杂的商超场景中”。

他还透露,“‘智慧药房’无人值守解决方案,预计将在2025年落地约百家门店,率先在北京、上海、深圳等一线城市应用落地。部分消费者通过手机购买的商品,其实已是由机器人在门店完成拣货并交付给外卖骑手,再送达用户手中的”。

以“智慧药房”无人值守解决方案的补货任务为例,面对货架上数十种商品, Galbot G1可以自主分析哪些需要补货,并从货筐中识别出对应的商品,精准抓取,并放置到货架的对应位置,无论是货架最高层还是底层都可驾驭。当有顾客“下单”后, Galbot G1会自主规划路径移动到物品附近,通过大模型精准识别、抓取商品,随后平稳送给顾客。银河通用聚焦的是推动具身智能机器人在多类场景中真正“动起来、干起来”。

武文韬也向北京商报记者分享了Galbot G1在多个场景下的工作,“我们的人形机器人已经开始承担车厂料箱搬运、天窗搬运等操作任务的应用测试,在医疗康养领域,我们联合宣武医院成立实验室,致力于探索机器人如何参与到老龄社会的照护支持中,如认知测试、健康监护等。与此同时,在公共服务和接待场景,我们的人形机器人也开始承担迎宾、讲解、参观引导等任务,提升场所的服务体验”。

对于银河通用而言,关注的是机器人整机能力的进化,以及它是否真正解决了现实问题。

· 对话 ·

银河通用创始人王鹤:

智能和硬件轮流成为瓶颈

Q:一个主流观点是具身智能是通往AGI(通用人工智能)的必由之路,影响具身智能发展的瓶颈是什么?

A:我觉得数据是一大瓶颈,这也是学术界近两年激烈讨论的。数据基本上可以分为真实数据和仿真合成数据两大类别,真实数据里有一种是无动作标签的,指的是互联网上的一些视频数据,这种反映真实世界的视频数据在网络上是大量存在的,虽然很有用但不够。我常举这样一个例子,“你看别人游泳真的学得会吗?”除了这种视频数据,真实数据还包括真实世界采集的数据,真机遥操数据很宝贵也很有价值,但是目前的获得成本很高。

银河通用的一个核心观点是,我们要用大量的合成数据去做预训练,用真机数据做后训练。我认为当人形机器人的存量尚未达到自动驾驶领域百万级设备的规模时,合成数据是最宝贵的数据资产,我们用99%甚至99.9%的合成数据来推动具身智能的发展,用真实数据走完“最后一公里”,是现阶段最可行的一种方法。

Q:当前具身智能机器人的任务种类和工作量增多,可以实现跨本体、跨场景、跨任务吗?

A:我个人的看法是先沿着能够产生生产力价值的维度去探索具身智能的泛化,比如抓取、放置,包括在场景中移动。这几个能力看似很简单,但工厂、超市、零售环境里不就是拿、放、走的组合?如果这几个技能都能够通过合成大数据和少量的真机数据做到泛化,那么人形机器人就有了生产力价值。等出货100万台人形机器人时,再去研究它在更多维度的能力,比如家庭场景的各种任务等,去跨越这些技能。最后才是跨本体,因为跨本体意味着每一个本体都要有足够的数据。

Q:具身智能是一个长期主义的事情,ChatGPT时刻会在什么时候到来?

A:当下整个人形机器人的呼声很高,但往前还有不短的路线。在这个过程中智能和硬件会相互促进,在每个时间点相互轮流成为瓶颈,再轮流被突破。我们认为,这种货架级别的智能在2025年、2026年会迎来全面的突破。突破后,机器人就能拿所有货架的东西了,能出产10万台以上的轮式人形机器,算不算ChatGPT时刻?机器人可能需要腿在一些非常复杂的地形穿越,到那时腿式人形机器人会不会非常稳定、成本低、噪音小、续航高?智能和硬件又会相互要求,对方进一步成长,直到机器人进入家庭场景。

(部分观点参考2025年中关村论坛年会)

北京商报记者 魏蔚

相关文章
2025深蓝智库|银河通用:成为现实生产力
2025-05-25 16:02:00
小米发布第二款车型 称其辅助驾驶更智能
2025-05-23 11:40:00
蝶变、拉满、C位……划重点!解锁4月经济数据顶压增长背后政策“组合拳”密码
2025-05-20 21:43:00
曝苹果内测自研AI聊天机器人
2025-05-20 16:52:00
关注 | 劳动课,如何走出“摆拍”困局?
2025-05-20 07:37:00