Physical AI:空间交互大模型让机器深度理解物理真实世界

发布时间:2025-04-28 18:01 【来源:中华教育在线】

当AGI向着 Physical AI 物理具身智能时代演进,一场重塑未来认知的风暴正在悄然兴起。在 2025 SENSETIME TECH DAY 商汤技术交流日上,灵宇宙创始人兼首席执行官顾嘉唯做了分享。他认为在当下AI技术从“工具属性”向“伙伴属性”跃迁,人机交互范式正在经历从“人适应机器”到“机器理解世界”的根本性变革,人们和世界的交互会随之发生巨变,而率先适应变革的人群就是下一代年轻人。

当下,下一代年轻人的学习场景已突破传统边界,学习方式经历颠覆性重构。灵宇宙推出的新款AI终端(灵感源自电影《Her》),通过重塑人与物理世界的交互逻辑,让“世界即课堂,万物皆教材”成为现实。

在这个背景下,灵宇宙开发出一款新产品「Ling!灵宇宙AI学伴(昵称:小方机)」(以下简称:Ling!),它是一个随身的AI助理和伙伴,搭载的一套物理世界的AI-OS,叫做LingOS,让学习的对象从一平米书桌来到更广域的整个物理空间,给孩子构建了一个专属的4D空间交互智能的“世界模型”,让他们在学习认知的成长的过程中获得更好的体验。

灵宇宙是一家专注4D空间交互智能的创新公司,致力于构建新一代物理世界AI-OS,赋予机器人“灵魂”,让万物在AI驱动下焕发“灵性”。自2023年AI大模型浪潮中诞生,公司半年内完成三轮融资,备受资本市场青睐。

Luka 卢卡与 Ling!两大教育陪伴AI终端,公司已经迅速通过市场反馈迭代出“双终端矩阵”和完整的产品规划路线图。前者以“读万卷书”为核心理念,通过绘本识别技术实现桌面交互学习;后者则以“行万里路”为目标,将物理世界转化为互动课堂,让学习突破书桌局限。

在创立灵宇宙前,顾嘉唯的智能AI机器人生涯已经持续10年。他先后在微软研究院,百度人工智能研究院工作,主导前沿AI人机交互产品的研发。后携手A股上市公司创立「物灵科技」并担任CEO,打造了消费级服务机器人矩阵,他还曾在创业期间投资了包括Knightscope、Rethink、Jibo在内的全球最知名AI机器人明星项目。

创始人顾嘉唯佩戴着 Ling!在大会现场

以下是他本次大会上的演讲内容:

各位领导好,商汤的同事们,大家好,我是灵宇宙的创始人顾嘉唯。很高兴来到商汤这个舞台,讲讲“AI之道,百姓之日用”的其中一个环节。我们都知道下一代是我们全社会很关心的人群,2010年以后出生的孩子在人口统计学里叫做“Generation Alpha 阿尔法世代”,他们是智能时代的AI原住民,代表了未来,是看得到光芒的一群人。

但作为这群孩子的家长,怎么带娃是我们很头疼的问题。就像刚才在舞台上散发光芒的徐立,他还有一个标签是“科技奶爸”,我也有这样的标签。这个身份也让我们更加关注孩子们是如何同AI共同成长这个课题,因为在这个AI快速发展的时代,家长都很焦虑:人类该如何与AI共生共存?孩子到底该怎么学、学什么?另一方面,对于大多数的父母,我们有没有机会能够更好地使用AI来解决好带娃的这个重担?随着大模型和具身智能技术日渐成熟,有没有机会给我们的孩子打造一个哆啦A梦?

解答这些问题之前,我先介绍一下我们灵宇宙在做的事情。在过去十年,我们探索过各种各样的陪伴家庭的机器人,有一个爆款叫「Luka 卢卡猫头鹰绘本阅读陪伴机器人」(以下简称:Luka 卢卡),是针对0~8岁孩子的产品,已经卖了近千万台了。Luka 卢卡是利用多模态人工智能技术,OCR文字识别、VQA图像识别等,猫头鹰眉心处有个摄像头去识别桌面上的绘本进行互动阅读和陪伴,“读万卷书”是我们对这款产品的定义。

Luka 卢卡也是伴随着过去十年AI的发展一步步演进的,从最早的感知、分析型的AI(Perception AI),到生成式的AI(Generative AI)的时代。今天的 Luka 卢卡可以实时的在桌面上看到任何东西,并且可以讲读出非常有意思的故事内容创作给孩子。

“万物有灵”的「Luka 卢卡猫头鹰教育陪伴机器人」

有了长记忆、强推理、强交互的大模型能力之后,更加智能的AI终端也会让带娃这件事变得更加松弛且富有创造性。就像徐立刚才演讲提到的,一个好的绘本讲读师,对于一本绘本的延展,可以比爸爸妈妈讲得好很多。而 Luka 卢卡比家长更擅长读绘本讲故事,今天的AI不仅在表达发散能力、创造能力方面带来的惊喜超过了之前的绘本讲读师,还具备对上下文的长记忆能力,这使得互动感更强。

当下是智能体的AI(AgenticAI)时代,并且我们正在加速往具身物理世界的AI(Physical AI)发展。在感知型AI和生成式AI的时代,手机依然会是绝大多数人们的智能AI终端。而在未来,随着AI深度融入物理世界,终端形态将迎来颠覆性变革,在智能体AI和具身物理AI的时代,不仅手机将进化为更轻量化的交互载体,也会有新的AI物种诞生。

我们的公司名为灵宇宙,「万物有灵」是我们秉持的理念,也是我们在追求通用人工智能AGI方向上,从哲学层面的一种思考。伴随着具身物理AI的发展进程,未来我们灵宇宙的产品也会推出各种形态的AGI原生的 AI Native 智能终端,可能是人形机器人、穿戴眼镜或者视网膜的投屏。

在通过 LingOS 改造下一代人机交互的过程中,我们也交出了这个阶段的答卷———Ling!这个产品。作为灵宇宙基于LingOS系统打造的首款产品,Ling!不仅是随身AI助理,更是青少年探索世界的「智能伙伴」。它突破屏幕限制,通过多模态感知与实时对话能力的超级智能体,化身「行走的十万个为什么」——如同电影《Her》中理解世界的胸前的贴身终端,让知识获取从「被动搜索」转向「主动探索」。我们将这一定位凝练为「行万里路」——即让物理世界的每个场景都成为学习的课堂。

随着AGI向物理具身 Physical AI 演进,灵宇宙的终端产品也不断迭代

当年 Luka 卢卡引领了教育行业,让桌面阅读变成了一个交互范式,随之带来了开创式的桌面多模态AI交互空间。在后续的产品创新中,我们也强烈感知到具身AI的时代整个教育电子和AI教育行业会迎来一波新的重大机遇。所以在今天我们又开创了随身的AI学习伙伴这样一个新品类,来引领这个行业。

我们认为Ling!是符合当下AGI演进阶段的PMF(Product-Market Fit 产品与市场匹配)方式。虽然它还不是“万物有灵”的最终形态,但它是目前的最佳解决方案。今天大模型时代下家长想给孩子一个“豆包”,给孩子用DeepSeek、日日新,但因为当下大多数家长是不放心给孩子手机直接使用,所以它解决了孩子在AI时代需要一款新的智能AI终端的问题,陪伴孩子去认知世界。下一代的AI智能手机的交互范式变革会从青少年的随身 AI Agent 智能体开始。

“点物赋灵”的AI随身学伴「Ling!灵宇宙AI学伴(昵称:小方机)」

可以从视频中看到,我们跟李白打一通Facetime实时视频电话,让他跨越时间的长河来到你身边,在今天这样的一个春天的景象上跟你来一场实时对话和互动,我们希望给孩子创造第二个大脑,第三只眼睛,与用户同源感知包括视觉、听觉等第一视角感知与处理能力,让多模态大模型技术实现拟人化实时交互,实现全场景捕捉孩子的每一个可教时刻,让他的好奇心永远不掉在地上。

Ling!除了实时的Facetime外,还有很多丰富的交互。孩子可以不断在刷到更多自己喜欢的角色产生的丰富内容,实现把“把万物变成教材,把世界变成教室”,让孩子活在和真实世界的智能交互中。灵宇宙通过“点物赋灵”技术,为每个物理实体赋予智能属性,当儿童与绘本、玩具、家具、空间互动时,不同的IP角色Agent“人”可实时解析物体的形态、功能、背后的知识图谱,将其转化为个性化学习内容,例如达尔文扫描恐龙玩具自动生成进化史互动故事,用AI拆解恐龙化石构造、解读植物生长原理,将零散见闻转化为系统性知识。身边的现实世界如自然景观、历史文物、日常物品本身就是最佳的学习素材。例如,观察一片树叶可学习生物结构,触摸一块岩石可理解地质变迁,这种“具身认知”比书本教材或屏幕上的二维内容更具冲击力。

比如,当孩子到了植物馆,会有一个达尔文角色主动来找他,为他布置一个探险「百科类」任务,让他扮演“探险队长”一步步去解锁拓展知识,解决每次出行“孩子走马观花、到此一游”的父母焦虑;当他参观博物馆时,可以将眼前的静态展品激活,除了开口还会跳舞,使其变成一个丰富且生动的历史动态场景,把每趟出行变成知识充电站;Ling!让父母无需报高价外教班,「语言类」AI老师能够将真实场景变成沉浸式课堂,带着孩子前往任何地方学习语言,孩子随时随地“用外语解决真实问题”,把碎片时间变成英语角,例如在公园模拟“问路外教”对话,在超市练习商品英文描述,用角色扮演消除开口恐惧,告别“哑巴英语”;此外,Ling!还可以通过图像生成的方式,将物理世界的实物变成孩子喜欢的画作,培养孩子「艺术创造力」,替代低价值屏幕娱乐沉迷,让孩子在创作中释放想象力,并且跟AI一起创作的作品还能分享至IP角色和 Multi-agent 的朋友圈,每一次分享都能获得正向激励,增加“孩子们社交圈”的粘性,越玩越自信。

在创造Ling!的背后,我们会发现今天的AI时代有两层很大的变化:

第一,未来会有无感的交互出现。无感交互指AI会让你不再需要学习设备怎么去用,以前我们通过在设备上了解怎么用微信,用鼠标键盘来操作信息联系人,是在屏幕上交互信息。但有了LingOS之后,孩子都不需要进入APP获取信息和服务,他们只要习惯“找人”做事的交互方式。通过我们的产品,小孩只要开口去呼唤Ling!里面的24小时在线的角色伙伴,就可以解决问题,我们把它定义成叫“万物有灵”的AI人机交互赋能体验。第二,设备会越来越隐形化甚至不可见化。通过设备去跟物理世界完成更丰富的多模态实时交互。没有延时的情况下甚至可以让物理世界“活”过来。未来还会有新的变化,不只限于讲话解读,而是场景中的物体,比如那束花,自己跳出来给你讲它的故事内容和它的阅历,这就是我们所描述的“点物赋灵”的体验。未来,孩子可以跟世界模型打交道的场景,会让万事万物活过来,跟孩子直接互动。

LingOS的“世界即交互界面,万物皆有灵”就是灵宇宙定义的交互范式的变革,人机交互层是AI时代的AgentOS“操作系统”,而新一代的年轻孩子是率先适应具身智能AI时代新交互范式的人群。

通过 Luka 卢卡和 Ling!这两个AI终端产品矩阵,形成个性化数据协同,灵宇宙希望帮助成千上万的家庭完成高质量的带娃体验,率先进入具身物理世界 Physical AI 的时代。Luka 卢卡是通过图像识别解读和互动书桌上的内容,Ling!正在让交互从一平米的书桌来到更广域的物理空间,让孩子真正能够向世界去学习。不只是在设备的屏幕上交互信息,而是透过屏幕跟物理世界交互,以“世界”为中心而不是以“设备”为中心,定位为现实世界的游戏化的探索交互式学习引擎,“点物赋灵”技术给孩子去构建一个专属的非常好的世界模型,让他们能够在具身认知世界和成长的过程当中有更好的体验,让现实世界比游戏更迷人。

灵宇宙的核心价值在于“定义下一代人机交互”,而非制造硬件设备。硬件是载体,交互是灵魂,数据是燃料。通过 AI AgentOS 构建一个类似 iOS 和Android的物理世界 AI-OS —— 这套操作系统核心逻辑在于:物理实体本身成为智能载体,用户无需通过手机、电脑等中间设备,直接与环境中的物体,如绘本、玩具、家具、电器、动植物等进行自然交互。从 Luka 卢卡一开始的无屏触控技术在桌面上形成的绘本阅读及桌面交互场景,到Ling!将世界成为课堂,这种“无设备感”的交互体验,本质上是将整个物理世界转化为可交互的界面,实现“世界即课堂,万物即教材”的愿景。

整个AI电子教育行业会迎来一波新的非常大的机会。因为大家都知道今天教育是整个“AI之道,百姓之日用”里面供需两侧都变化最大的行业之一,这时候恰恰有一个非常好的“iPhone moment”,交互方式的变革让教育内容的连接发生了本质的变化,让每个小朋友在AI的陪伴下,完成和世界的每一次交互。坚持原创,引领行业,一直以来是我们的使命,从几年前 Luka 卢卡的创新让上千万家庭孩子爱上阅读,到今天我们又开创了这样一个新品类来引领这个行业——随身的AI学习伙伴。

开启下一代智能AI新终端:让“随时在线的聪明大脑”成为智能时代原住民的成长标配。当他们从小习惯了无感交互,习惯于找“人”做事,基于伙伴关系式交互和长期记忆,一个AI学伴团,既超级懂你又超级会解决问题,还提供情绪价值,再也回不到APP的使用习惯。更多在物理世界基于空间交互智能,会让下一代年轻人发现身边的真实世界居然那么好玩,而不是一刻不停地刷手机、刷Feeds流被投喂内容。而灵宇宙“万物有灵”的终极形态也会随着AI技术的演进,AI大模型赋予了硬件新生命,功能和交互体验升级,不断优化我们这套4D空间人机交互操作系统 LingOS inside 推出各种形态的家用陪伴AI机器人和随身智能AI终端。

相信很多小朋友和家长已经开始心动了,大家可以关注灵宇宙官网以及社交媒体(视频号、小红书)获取更详细产品信息和公司的最新进展。希望这样的智能交互终端能够给更多的家庭带来轻松愉悦的松弛带娃的体验,也能为智能时代原住民提供一个率先通往未来的窗口!