华创派|梅卡曼德邵天兰:“通用机械人” 的吹
起源:华创资源梅卡曼德是寰球AI+产业呆板人范畴案例最多、技巧最片面、融资额最高的企业之一。梅卡曼德的 3D 高精度相机跟与之共同的感知、计划算法已进入上千个场景:既在金库码钱,也在砖厂搬砖,能检测汽车电池,也给浴缸钻孔,码放 5800 元一箱的五粮液。公司的客户有上汽、蔚小理、丰田、宁德时期、美的、格力、富士康等,涵盖汽车、物流、金属加工、家电、3C、锂电、光伏等十多少个差别行业。自 2020 年以来,据睿产业数据,梅卡曼德始终是中国 3D 视觉领导呆板人市场第一名,市占率濒临 40%。2023 年的年夜言语模子带火了 AI 与呆板人联合的 “具身智能” 赛道,克日,梅卡曼德呆板人开创人、CEO邵天兰接收了《晚点Auto》的采访并分享了他差别的察看视角。邵天兰以为,通用的不是呆板人本体自身,而是中心组件——这包含挪动、操纵、感知跟义务懂得与计划等基本才能,它们能疾速组分解顺应差别场景的差别状态呆板人。呆板人是一个热门潮起潮落的行业,邵天兰说梅卡曼德始终寻求的事很简略:“让呆板人用起来。”*本文经受权转自《晚点Auto》(ID:gh_30ebd85b0f58);作者:程曼祺,编纂:宋玮。AlphaGo 用神之一手克服李世石的 7 个月后,围棋喜好者邵天兰从德国返国创业,建立梅卡曼德(Mech-Mind)呆板人。换算到 2023 年的 AI 高潮里,这是一个典范的技巧 “少年蠢才”:清华本科结业、德国慕尼黑工年夜呆板人偏向进修,在德国参加过呆板人创业公司;返国创业时不外 27 岁,相称于 2023 年的 “95 后”。而经由 8 年实在场景的摔打,拿过华创资源、红杉、IDG、美团、启明、英特尔等头部机构融资的邵天兰当初说,“本人是搬砖的人”。梅卡曼德的 3D 高精度相机跟与之共同的感知、计划算法已进入上千个场景:既在金库码钱,也在砖厂搬砖,能检测汽车电池,也给浴缸钻孔,码放 5800 元一箱的五粮液。他们的客户有上汽、蔚小理、丰田、宁德时期、美的、格力、富士康等,涵盖汽车、物流、金属加工、家电、3C、锂电、光伏等十多少个差别行业。梅卡曼德利用场景的局部实例。自 2020 年以来,据睿产业数据,梅卡曼德始终是中国 3D 视觉领导呆板人市场第一名,市占率濒临 40%。2023 年的年夜言语模子带火了 AI 与呆板人联合的 “具身智能” 赛道,通用呆板人尤其是人形呆板人范畴出生一批新公司,它们建立时就以更通用的前沿具身技巧为目的。已无数年产业、物流场景落地教训的邵天兰有察看这轮高潮的差别视角。他看到呆板人的一些停顿被过火高估、Hype 洋溢行业,带来 “吹嘘比赛”:“创业公司必需一直夸大宣扬,才干融到资;学界也要一直夸张任务后果才干发论文。”不少人形呆板人公司把工场视为第一批实验场,邵天兰却以为,人形呆板人跟大批产业出产场景实质上就不符合:“用多台人形呆板人一同去抬一个多少百公斤的工件,就像坐着光速飞船去拳打外星人。”他以为通用的不是呆板人本体自身,而是中心组件——这包含挪动、操纵、感知跟义务懂得与计划等基本才能,它们能疾速组分解顺应差别场景的差别状态呆板人。当被问及具身智能的结局代价散布,他说这个成绩自身没那么主要:“太多人存眷结局,而更主要的是门路跟速率。”在邵天兰阅历的创业中,从 0 起步的公司,尤其是他们这类研发配景的年青团队,须要专一本人的善于,先找到第一个 PMF(产物-市场婚配),做出实现度充足高的产物,构成贸易闭环:“一开端就讲巨大技巧叙事,要直接登月的创业公司少少胜利。”呆板人是一个热门潮起潮落的行业,邵天兰说梅卡曼德始终寻求的事很简略:“让呆板人用起来。”从视频到实机展现、再到范围利用,每一步的 Gap 都很年夜晚点:往年春晚,宇树人形呆板人扭秧歌火出了圈。作为从业者,你怎样看这个扮演?邵天兰:我很爱好这个节目,我以为宇树是足式呆板人里停顿最好的公司之一,敢在天下国民眼前直播很不轻易。良多不雅众赞叹呆板人能转手帕、扔手帕——不外这些反而跟具身智能关联不年夜。宇树本人也发了花絮,转手帕是靠呆板人手部定制的扭转机构,抛接办帕是经由过程线的收放。真正值得存眷的是多台呆板人实现了踢腿等连续串举措,展示了很好的活动把持才能跟稳固性。实在宇树本人并不衬着抛手帕的技巧,但民众会有一些自发的 hype(炒作夸张)。晚点:当初呆板人范畴的 “hype” 有多年夜?邵天兰:跟七八年前的主动驾驶很像,当初良多呆板人创业公司乃至局部学界研讨者都市经由过程摆拍跟剪辑做出看起来酷炫的视频,招致民众高估了现实停顿。视频里良多呆板人曾经能跑酷跟本人做家务了,但到了线下展会跟客户现场,呆板人展现的义务每每简略良多,速率跟胜利率都欠好,抖音上也能看到不少人去看呆板人展会后大喜过望的视频。并且一些炒得很夸大的技巧道路,比方一些很火的具身模子,没人能复现它所声称的后果,这多少乎是行业里公然的机密。从短镜头摆拍到一镜究竟的长视频,到线下实机持续展现,再到在客户实在场景里小范围运转、年夜范围运转,最后到胜利的贸易化,每一步的 gap 都很年夜。这种炒作的一个不良成果是 “吹嘘比赛”:创业公司必需一直比其余公司更夸大地宣扬,才干融到资;乃至学术界也要一直夸张任务后果才干发论文。晚点:你以为这两年,呆板人跟具身智能范畴的现实停顿是什么?邵天兰:一是活动把持上,强化进修跟仿真练习晋升了四足、双足这种多枢纽庞杂机器构造的活动机能跟稳固性,呆板人能更顺畅地行走乃至腾跃了。固然这离在事实情况临时、稳固运转另有很年夜晋升空间。二是 AI 年夜模子的开展:比方视觉言语多模态年夜模子与呆板人联合,让呆板人能开端懂得指令、看懂图纸,实现多步调庞杂义务;而视觉言语举措模子(VLA,Visual-Language-Action Model)则让呆板人能实现叠衣服等庞杂操纵,有了开端停顿。三是一些中心器件机能显明晋升。包含咱们本人做的高精度 3D 相机,以及呆板人用的激光雷达、枢纽电机等。四是工业链本钱下降,比方入门级多指手的价钱已降到数万元乃至更低。晚点:为什么你把这叫多指手?不是 “灵活手” 吗?邵天兰:由于它当初还不 “灵活”。现在仅中国就有十多少家创业公司在做多指手,这个偏向确定会一直提高,但在机器构造、传感器、把持算法等方面都还比拟开端,比拟咱们真的想要的 “灵活”,进度条可能连 10% 都没走到。这也是一种言语传染,等真正 “灵活” 时再叫灵活手也不迟,不然当时只能叫 “超等灵活手”“究极灵活手” 了。晚点:那么通用呆板人的团体 “进度条” 当初走到了哪儿?邵天兰:团体成熟度相似十多少年前的主动驾驶,各人开端看到曙光,但不料味着 3、5 年、以致 10 年内就能完整实现。由于完整通用的呆板人多少乎等价于 AGI:它能感知情况,能思考、有影象,而后能本人做决议、实现连续串义务。呆板人另有机器构造、传感器等硬件实体,它的实现难度会比软件层的 AGI 更年夜。通用的不是呆板人本体,而是中心组件晚点:梅卡曼德已建立 8 年,效劳了良多产业、物风行业客户;而 2023 年之后建立的一批新公司一开端就做通用呆板人。它们固然当初还不范围落地,但有投资人以为,梅卡曼德这类更早进入详细场景的公司将来会被这批直接做通用的公司笼罩。你怎样看这种主意?邵天兰:通用的实质起首是能适配多个差别行业跟利用场景,极年夜地增加,乃至不须要定制化。咱们的产物当初既在车厂造车、也在银行金库里搬钱、乃至也给浴缸钻孔,效劳了汽车、金属加工、家电、3C、锂电、光伏、物流等多少十个行业的上千家公司,笼罩搬运、拆卸、切割、焊接、涂胶、拧螺丝、质检等良多工艺,并且是用尺度化产物做到的。这阐明以后的产物曾经有不错的通用性,并且还在疾速拓展利用场景。左上为动员机连杆无序上料,右上为物流场景通明膜包包裹抓取,左下为轮胎拆卸,右下为汽车零部件上料。第二,通用呆板人不是说最后都长一个样。通用的不是呆板人本体,而是中心才能跟组件。这跟电脑、手机,乃至汽车都纷歧样。电脑、手机是处置虚构义务的,汽车是在物理天下任务,但义务绝对单一,就是从 A 到 B 运货跟运人;而呆板人要辅助人实现物理天下里的种种庞杂义务,注定状态多样。我以为将来会像《呆板人总发动》那样:天上飞的、地上跑的、水里游的、墙上爬的;帮人们切钢板、割草、洗泳池、扫地、擦窗、带孩子的……什么样的呆板人都有。它们长得纷歧样,但构成它们的中心模块是通用的——全部状态的呆板人,实质上都能够拆解为挪动、手的操纵、视觉感知、庞杂义务懂得跟计划等基本才能的组合。落到工业链里,就是通用中心零部件来支撑差别状态的呆板人。晚点:这是个 “拼积木” 的逻辑,梅卡曼德主攻的 “积木” 是什么?邵天兰:咱们当初专一做呆板人的 “眼睛” 跟 “年夜脑”,也就是高精度 3D 相机跟呆板人的感知、计划、决议才能,这些才能经由过程尺度化、简略易用的软件来交付给用户,能适配差别行业跟场景。梅卡曼德高精度 3D 相机的点云成像,可准确辨认玄色物体、高反光物体等。晚点:现实上有多尺度化?你们当初去效劳一个新客户时要安排多长时光?邵天兰:当初安排跟调试咱们本人的视觉感知体系,平日只有数小时到数天,这是算上了装置跟测试的总时光。由于咱们用的都是尺度化传感器跟软件套件,多少乎不定制了。晚点:你怎样界说 “呆板人年夜脑”?它就即是你方才说的 “感知 + 决议 + 计划” 吗?邵天兰:呆板人年夜脑还须要有知识跟推理才能,要能听懂指令、看懂图纸,本人想措施实现义务目的。年夜言语模子在给呆板人加 “知识” 上很有辅助,比方让呆板人晓得杯子是用来装水的,平常放在桌上;当初各人在摸索的天下模子,也会让人呆板人能具有物理天下的知识,比方能预判情况中别的活动物体的轨迹等等。共同年夜言语模子,梅卡曼德的感知跟轨控算法可让呆板人听懂天然言语指令,实现义务。晚点:这些才能将来会是离开、分层的多个具身模子的组合,仍是像主动驾驶一样有整合为统一个端到端模子的趋向?邵天兰:坦白说我不晓得。久远的技巧道路很难断定,我也不以为任何人对此的断定正确度能超越抛一枚硬币。端到端是一个可能的技巧道路,但它不是邪术。当初一些人把 “端到端” 当做了咒语,好像念了这句咒语就能主动处理良多成绩。现实长进展远不一些人声称的好,并且端到端也有大批的差别细分道路。广义人形呆板人在产业场景不任何上风晚点:你们当初去产业、物流场景竞标时,会碰到做人形呆板人跟通用呆板人的新公司吗?比方智元呆板人 CTO 彭志辉曾告知咱们,工场里的 “PPT”,即抓取(Pick)、放置(Place)跟转运(Transfer)会是人形呆板人最快落地的场景。邵天兰:临时还没碰到过。我以为当初在工场的绝年夜局部出产场景里,广义的人形呆板人不任何上风。从亨利·福特时期的流水线开端,产业出产逻辑就是分工巧化,极致寻求效力跟牢靠性。不论是看近况仍是看趋向,在工场里做抓取、放置跟转运都不合适广义的人形呆板人。比方要在工场里抓取或放置重物跟年夜型工件,人形呆板人的负载跟臂展都比不上重载呆板人,乃至基本无奈实现义务。你能够设想一下——用多台人形呆板人一同去抬一个多少百公斤的工件,这会是个十分搞笑的画面——就像坐着光速飞船去拳打外星人。梅卡曼德产物共同机器臂在汽车工场内上料车内门板,这个场景合适高载严重型机器臂。假如是小型工件,人形呆板人比拟轻型呆板臂、SCARA(Selective Compliance Assembly Robot Arm,一种特化的机器臂) 等,精度跟速率又差良多。而在转运场景,AMR(轮式挪动底盘上,能够加呆板臂)是一个更好的状态,它更高效、稳固、保险,并且续航更长。我本人去过上百家工场,各人对人形呆板人在工场怎样用,还不一个好谜底。但良多客户都须要有更好智力跟视觉才能的呆板人。晚点:假如客户自身就是投资方呢?比亚迪、上汽、宁德时期都在投资人形呆板人公司。邵天兰:对 demo 阶段确定有很年夜辅助,这类支撑对呆板人行业也是利好。但到实在、连续的年夜范围利用时,它们就不是投资方而是客户甲方了。产业、物流等出产场景的客户最重视的是效力、稳固性跟安排本钱;反而不那么在意呆板人究竟用了什么技巧,或是不是很通用。但从咱们呆板人公司的角度,通用性会极年夜影响计划本钱跟安排效力,这是呆板人公司的中心竞争力之一。晚点:更临时来说,人形呆板人会不会由于技巧开展跟同一状态带来的范围降本效应,代替良多出产场景里当初已在运转的计划?邵天兰:这不是纯真的技巧成熟度成绩,之前也提到了,广义人形呆板人在一些场景里,比方搬重物、平川疾速挪动等,就不是最优状态。真正适合人形呆板人的场景应当有如下特色:义务十分机动,任务情况为人类打造,须要呆板人与真人有交互、信赖乃至共情。穿插一下就是旅店、咖啡馆、餐厅等效劳业,以及家务、助老等。而大批别的场景,包含一些 to C、to 家庭的场景,比方扫地、擦泳池、割草等,人形的效力也不是最高的。以是仍是回到方才说的:更主要的是通用的组件——挪动才能、操纵才能、感知跟决议才能——这些组件能疾速、机动地组合出合适特定场景跟义务的呆板人,统筹本钱跟效力。晚点:资源会是一个多年夜的变量?当初不少公司正以更通用的愿景吸引大批融资,能否存在一种可能:以资源上风研发更前沿的技巧,临时在落地上反超更早去做贸易落地的公司?邵天兰:资源是助推器,而不是物理定律歪曲器。汗青上,一开端就讲巨大技巧叙事,要直接 “登月” 的创业公司少少胜利。比方上一代盘算机视觉高潮中,不少公司想做年夜而全的 AI 平台,每每开展得很艰巨。更可行的创业门路是先在工业链部分环节到达充足的效力跟牢靠性,构成贸易闭环跟数据飞轮。即便是巨大叙事的代表人物马斯克,也有十分求实的技巧跟产物道路。比方 SpaceX 的临时愿景是送 100 万人去火星,但它是一步步做了低本钱的反复发射跟星链卫星收集。晚点:一步到位做通用呆板人,这不就是马斯克带起来的风潮吗?邵天兰:马斯克开端做 Optimus 时,特斯拉曾经是市值 7000 亿美元的巨子了,也有当先的主动驾驶技巧,另有本人的工场场景,它有充足的资本跟耐烦去做十年、二十年乃至三十年的计划。但哪怕是独角兽级其余创业公司,资金跟时光都极端无限。并且一个创业公司长时光不实在营业来供给反应跟测验,就像一个只练习不竞赛的足球队一样,会很轻易跑偏。太多人存眷结局,更主要的是门路晚点:通用呆板人的链条很长,当初各创业公司在从差别环节切入这个机遇:年夜脑、活动把持、传感器跟感知、本体硬件、手……也有本人控制 AI 技巧跟场景的至公司在规划呆板人,如特斯拉、宁德时期、小鹏等。你感到从哪个环节动身的公司将来会取得通用呆板人的最年夜代价?邵天兰:从技巧逻辑推理,将来最中心的模块是 “腿”“眼睛”“手” 跟 “年夜脑”。但我想说,“最年夜代价” 这个成绩自身没那么主要。太多人只存眷结局,但更主要的是门路跟速率。实在创业进程是:专一本人善于的事,先找到有代价的场景构成充足竞争力,再疾速迭代、逐渐扩大。至于最后是否拿下最有代价的环节,可遇弗成求。腾讯第一个赢利的营业是短信增值效劳,亚马逊从卖书起步,京东从卖电子产物起步,都不是一开端就是当初的年夜而全状态。咱们本人也是如许:最善于做呆板人的传感、感知、计划跟决议,这在全部工业链里代价很年夜,但咱们不强求,也不声称本人做的就必定是代价最年夜的局部。同时,呆板人的特色是环节多、链条长,由于呆板人十分庞杂,波及传感器、履行器、种种算法,另有种种利用场景跟对应的状态;须要 AI、机器构造、资料、动力等多种技巧,最后弗成能靠五家、十家公司就搞定。以是只有一个公司能在特定环节有很强的竞争力,就无机会参加这个年夜生态。最怕的是什么都做,却什么都不强。晚点:梅卡曼德的门路是什么?邵天兰:第一步是从制作业跟物流中的局部场景起步,树立贸易闭环跟数据飞轮;在这里跑通 “Product-Market Fit”,做出有充足牢靠性、效力,能处理客户痛点的产物。这一点咱们曾经做到了:咱们的智能视觉体系已安排到了上千个场景,是寰球销量最年夜的公司,取得了大批现实利用数据跟行业 Know-how,在现金流、数据跟产物界说与优化上都有正向反应,这会带来更快的开展速率。第二步是经由过程技巧提高拓展更多利用。比方年夜疆的无人机,它的飞控、图传等技巧从航拍开端,能够拓展到植保、巡检、运输等更多场景。相似的,咱们近来也在以 DeepSeek 等模子为基本,晋升呆板人的传感、感知、计划决议等才能,当智能水平充足高、本钱充足低时,就能够天然拓展到更多更场景,比方病院、药店、方便店等效劳业,终极走向全部行业跟家用。晚点:找到第一个 PMF,跑互市业闭环的进程中踩过什么坑?邵天兰:一个主要的经验或教训是,产物实现度十分要害。比方四五年前咱们交付一个名目时,最长须要多少个月。由于成像后果不敷好,就要花时光调试优化,也给视觉算法带来压力;视觉算法不敷好,又须要花时光调试优化,并给呆板人计划带来压力;呆板人计划后果欠好,又须要花时光调试优化,给体系防错带来压力。呆板人智能是一个长链条,每个环节差一点,团体效力就会差良多。当初咱们的交付时光收缩到了多少天乃至多少小时,并且良多时间咱们本人的人完整不必参加或只近程线上参加。就是靠一点点晋升产物实现度,从同时效劳 10 个客户、100 个客户到能效劳 1000 个客户,不然跨不外构成贸易闭环跟数据飞轮的门槛。晚点:在从 0 到 1 的范围化战略上,同类公司中,也有人抉择是做更多总包跟集成,这能更快到达更年夜的收入体量,而你们是卖尺度化产物,让集成商来交付。为什么这么选?邵天兰:起首我做不成一家好的体系集成商。作为研收回身的年青团队,咱们的才能是逝世磕年夜体系中的部分技巧跟产物。而体系集成商每每有丰盛的利用教训,善于工艺懂得、计划计划、年夜型名目治理、年夜客户关联等等,咱们是互补的。我也见过一些跟咱们相似的研收回身的团队做体系集成商,广泛开展不太好。并且我以为智能呆板人仅在制作业跟物流的销量,将来多少年内就能够到数十万乃至百万台。那么假如想做一个主要的参加者,至少也要有十万级的出货量,并且要笼罩寰球主流地域,这种体量只有尺度化产物才干做到。这类贸易形式也是现成的,比方西门子、基恩士、ABB 等,有良多参考。晚点:当曾经效劳良多客户后,你发明有哪些呆板人在现实落地中才会碰见,试验室跟研发情况想不到的难点?邵天兰:以后学术界的良多 benchmark 是年夜年夜简化的。比方在学界的罕见尺度下,呆板人把一个物体抓取起来就算胜利,但现实情形光怪陆离:比方方便店主动结账这个场景,光抓取物体还不敷,还要扫码,而差别产物的条形码地位相差很年夜,偶然也会被包装上的褶皱遮挡或有污损,这都是要现实落地才会碰到的成绩。晚点:假如作为投资人跟外部察看者,怎样评判一个呆板人公司范围化落地的进度?邵天兰:我的一个察看是,当一个公司须要派最好的研发职员去效劳客户时,这长短常晚期的阶段;当不再须要中心研发职员,但仍需研发职员参与时,是略微生长的阶段;当专门的现场工程师就能处理年夜局部成绩时,这是绝对成熟的阶段。咱们明天乃至不须要专门的技巧职员,咱们的客户安排年夜局部是交给集成商配合搭档跟客户自行处理的,由于产物充足尺度跟成熟了。晚点:你感到具身智能范畴的下一个竞争点可能是什么?邵天兰:找到好的产物状态跟场景,并构成贸易闭环。人们经常高估了技巧道路的主要性,而低估了贸易落地门路带来的限度与机遇。比方明天看,直接做全无人驾驶跟 Robotaxi,开展速率不如与乘用车联合的 L2+。那些先从 L2+ 切入,效劳一批客户,有年夜范围收入的公司,前面也无机会往 L3、L4 开展,它们的生活跟胜利概率更年夜。我固然能够说把全部技巧都做到极致——视觉充足通用、走得也很好、手也很好、年夜脑充足聪慧,就会主动解锁全部场景。但这件事实在是倒过去的:须要先在一局部利用场景有贸易代价,才干逐步走到到更多场景。初期场景的抉择很要害,太简略难以树立竞争力;太难会招致很长时光都无奈树立起贸易闭环,这是一种伤害而懦弱的创业形式。晚点:全部智能呆板人行业这些年有良多稳定,热门一直变更,这也让此中的公司处境崎岖。在变更的潮水之中,你始终信任的、稳定的货色是什么?邵天兰:呆板人必定要发生现实代价,它不克不及停在试验室里,也不克不及停顿在视频里。咱们不以为本人是个寻求特定技巧道路的公司,咱们寻求 “让呆板人用起来”。这听起来十分朴实、简略,但也是全部行业寻求了多少十年还在尽力的事。
上一篇:双音腔杰出音质、性价比游戏耳机,雷柏VH850
下一篇:没有了
下一篇:没有了