耳机、玩偶与望远镜的故事(“走进民营企业看创新”④)
0次浏览 发布时间:2025-04-29 06:43:00
来源:人民日报海外版

图为全球开放瞬变望远镜阵列(GOTTA)模拟图。中国科学院国家天文台供图

2024年9月,赛博创力在杭州阿里云云栖大会上亮相,其推出的具身智能AI互动玩具成为焦点。展台前,一名小男孩正与AI小狗聊天。受访者供图

今年1月,阿里线下快闪活动上,观众体验爱富耳机。受访者供图
一款耳机、一个玩偶、一台天文望远镜,在过去这是风马牛不相及之物。
得益于AI,这三者都变了模样,互相之间也有了联系。耳机能做到外语同声传译,也能把语音实时变成文字;玩偶能根据自己的形象设定,用相应的语调和性格跟人聊天;望远镜可以自行将“目光”望向天空,能整理观测到的数据,还能跟全世界其他望远镜协同合作……
它们背后,都有阿里通义千问大模型的身影。看阿里这家平台型科技企业的发展,不妨将目光投向阿里之外。
“所说即所得”
采访结束后10秒,智能硬件企业艾克思的联合创始人公瑾发来一个录音文件、一份录音文档整理、一个会议纪要。这是本报记者从业以来,第一次由采访对象整理录音。
电话采访时,公瑾戴着自家新产品“爱富耳机”,采访过程中,耳机实时录音并整理文字。经过对比,准确率几乎接近原话,作为一份采访记录,已经可以媲美此前需要花费数小时的人工录音整理。
整理录音,只是这个AI耳机的功能之一。去年11月推出的这款耳机,还可以充当AI助理,就在我们谈话完成后,它也生成了一份采访总结。它还可以做同传,戴着它与外国人聊天,耳机可以实时将对方的话翻译成中文,连语气和情绪都同步传递。
这也不是全部功能。公瑾告诉记者,在AI支持下的耳机,真正的变化是由用户需求驱动开发,随时可能出现全新功能。“硬件虽然是固定的,但后台随时可以变化,取决于用户在日常使用中如何与它沟通。”
在智能硬件行业,艾克思已深耕15年,在深圳和杭州有两个团队共同开发。深圳团队负责供应链和硬件研发,杭州团队负责AI模型参数调优、大模型接入、APP及后台开发等工作。
当然,在杭州的团队还有个优势,离阿里更近。
2023年12月,AI耳机项目立项。公瑾说,从一开始,耳机就用到了通义千问大模型的能力和百炼平台的开箱即用能力,将所有信息与数据交由通义千问大模型处理。其中,用到了语义分析、情绪识别等多个模型。
双方分工明确,艾克思的技术人员负责耳机硬件及应用程序的开发,阿里负责大模型的开发。“我们完成数据采集和数据通道工作,然后数据都在阿里云服务器处理及开发。”
比如,录音转文字时,一个很重要的需求是非常低的延时,最好是“所说即所得”。在双方合作之下,艾克思与阿里云四五个研发部门同时合作,仅仅用了一个星期时间,就将延时从500毫秒降到30毫秒,对于用户来说,几乎已经感受不到延时。就在我们讲话的同时,录音文字稿已经同步出现在手机屏幕上。
再比如,耳机上的同声传译功能,实际上是从外文语音到中文语音的直接翻译,而不是先将外文翻译成中文文字,再输出中文语音。其所依赖的,也是大模型对语音的处理能力、对聊天上下文的理解能力,这在过去很难想象。
在很多方面,中国企业已经进入无人区,AI耳机就是其中一例。这意味着,有很多问题需要摸索着解决。艾克思与阿里云的团队互相配合,基本每天都会有一个小型会议,绝大多数问题当天能得到反馈。
“对于今天的硬件公司来说,自己去做大模型的基座研究没有太大价值,因为更新迭代太快了。”公瑾告诉记者,“所以找到一个非常可信赖的、高水平大模型合作方,对我们至关重要”。
如今,双方合作越来越成熟,已经可以用更快的方式、更低的成本将AI接入产品。公瑾认为,如果再做下一款AI耳机产品,研发周期将从过去的两年,变成“顶多一两个月”。
新“聊天搭子”
“赛博大舞台……”
北京市昌平区,中国移动园区内,这段语音在十平方米的办公室里此起彼伏地响起。办公室里,摆满桌子、椅子、电脑和玩偶。此刻是早上十时,办公室里几个年轻人挤在一起,每个人守着一张满是玩具的办公桌。
这里是北京赛博创力科技有限公司,一家AI潮玩企业,也是一家初创并不久的中小企业。其创始人、首席执行官周羿旭告诉记者,公司只有9个人,其中7个是00后,大多是技术人员。这位95后笑称,自己是“整个团队里最老的”。
对于这个年轻的团队来说,手办、潮玩伴随他们长大。如今,在AI时代来临后,他们希望借助新技术,让这些玩具成为更鲜活的陪伴。
巴掌大的底座上,周羿旭放上一个来自三星堆的青铜人面像文创。一放到底座上,它似乎就“活”了,开口说起话来,对于记者提的问题也都对答如流,仿佛它生来就该这么说话。
将一只“哆啦A梦”里的大雄手办放上去后,它开始用日语打招呼,本报记者提醒它说中文,立刻切换成了中文对话。此刻它的说话语气和风格,与印象中的大雄毫无二致。
这些“对话”,对人来说近乎本能,但对AI来说,要实现对话的流畅自然,需要攻克语境理解、多轮对话、知识图谱、实时响应等诸多难题。从“倾听”到说出符合角色的话,都需要大量技术支持。
更为难得的是,就在这个巴掌大小的底座上,已经可以支持3000多个不同角色玩偶对话,支持50多种语言对话。只要有这款底座,再配上特制的角色贴纸,玩偶、摆件、手办等都“活”了,随时可以成为相关爱好者的“聊天搭子”。
事实上,最近一段时间以来,AI玩具日趋火爆。不少行业观察者认为,AI玩具兼具教育与陪伴属性,是具有真实需求的AI硬件落地方向。在这个领域,尽管只是中小企业,但赛博创力已经引起了不少人关注。就在过去两个月中,他们的产品先后亮相巴塞罗那、东京等地的重要展会。
这些逼真的玩具,既诞生于这10平方米的办公室,也有来自远方的支持。
从去年六七月份开始,赛博创力就选择了阿里通义大模型和阿里云的云计算服务器。合作过程中,在通义千问大模型的基础上进行了诸多优化。周羿旭说,在这个过程中,来自阿里云的技术人员会帮助解决底层问题,然后再根据实际需求修改。
双方沟通非常频繁,也有着明确的分工。周羿旭说,阿里有五六个不同的技术团队在与赛博创力对接,既包括产品侧也包括技术侧,解决语音服务、大模型训练等诸多工作。“我们团队的工作是探索更好玩的应用场景,大模型的基础能力则依赖阿里,将它们视作水和电一样的基础设施。”
大模型支撑着诸多新玩法。比如,在赛博创力的APP上有一个功能,用户可以用手机拍一张照片上传,APP自动一键创建一个全新角色。在生成角色过程中需要完成的识别角色、定义性格等,都是大模型辅助用户去完成的。
技术的不断发展,也为AI玩具提供着越来越多的想象力,更多AI玩具正在双方合作之下迅速开发。比如AI照相机,既可以拍照,也可以对话。周羿旭举了个例子,小朋友可以拍下一个不认识的东西,询问AI相机;或者,给爸爸拍张照,然后让AI给照片加个胡子。“这个过程中,用到的不只是大语言模型,还有多模态相关的能力。”
“比起其他大模型,阿里云提供的是很全能、很完整的服务。对于我们来说,通义千问最先进的技术或者更新,我们都想去尝试,只为能让玩具更好玩。”周羿旭说。
创业之路上,这个年轻的团队飞快前进。今年4月,他们完成了“赛博大舞台”底座的量产,开始启动试销售。来自韩国、日本、印度等几个国家的合作客户,也正在积极推动产品海外落地。
在AI时代“观星”
北京大屯路,奥林匹克公园西侧不远处,是中国科学院国家天文台。朴素的建筑里,承载着诸多重大任务。墙上,挂着“中国天眼”FAST的照片,FAST运行和发展中心就在这里。
作为综合性国家天文研究机构,国家天文台一直走在技术探索与革新的前沿。如今,人工智能技术在现代天文学中正在发挥越来越重要的作用。
中国科学院大学天文与空间科学学院博士生、天文大模型“星语”项目组核心技术成员李瑀旸告诉记者,对于国家天文台的多项科学职能,AI都有很好的促进作用。
比如,在位于河北承德的国家天文台兴隆观测站,一名科学家的常规工作节奏可能是这样——早上9时到12时观测选源、晚上六时左右开始观测并进行数据预处理,直到早上5时,一夜下来精疲力尽。如今,人工智能可以上午整合信息布置好任务,在不同时间节点调用工具完成相关流程。这背后,是天文大模型成功接入的近邻星系巡天项目,可实现自主控制望远镜进行观测、分析观测结果,并给出下一步观测建议。
再如,天文力量的调配。过去,由于天气因素影响、软硬件协议不同、台址所处时区等各种原因,天文望远镜存在“各自为战”的情况。而正在开发的基于多智能体观测组网,多望远镜的协同观测能够有可期的进步。
李瑀旸说,这种方式最开始是从爱好者级别的天文望远镜开始,今年逐步提升到中型望远镜,最后期望运用于更高级别的科学望远镜。
如今,AI支持的望远镜协同观测方式正在走向世界。今年4月,在“人工智能赋能的天文学开放科学会议”上,国家天文台台长刘继峰介绍了全球开放瞬变望远镜阵列(GOTTA)。这一阵列计划构建覆盖全球的百余台1米级广角光学望远镜网络,通过小时级高频巡天监测,捕捉超新星、伽马暴等极端宇宙现象的早期信号,揭示强引力场下的时空本质与宇宙演化规律。
自2016年以来,国家天文台和阿里云就已开始长期战略合作,双方共同开展跨领域的研究和应用合作,用计算赋能天文研究。人工智能时代的天文学,作为海量数据学科,提供了AI应用和驱动科学发现的最佳场景之一。
双方在大模型方面的合作,一个重要节点是在2023年12月,阿里通义千问720亿参数大模型Qwen-72B宣布开源之际。在这一模型的基础上,国家天文台成功打造了天文知识能力最强的大语言模型。
在李瑀旸看来,大模型开源能够让科学家能够更专注于模型的应用,而不是花精力在模型训练上。“从假设生成,到基于科学仪器或软件的实验,再到数据处理分析、产生新的假设,整个科研过程,大模型贯穿始终。”
前不久,国家天文台接入通义千问开源模型QwQ-32B。李瑀旸说,新模型核心价值在于模拟人类专家的复杂推理过程,不仅提升了输出内容的质量,还使科研人员能够直观理解模型的思考路径,从而评估结论的可靠性。
比如,接入QwQ-32B后的天文观测助手“星语”,在望远镜观测系统中可实现对观测目标的自动排序、望远镜调度和生成数据报告,将观测中的人工干预减少了90%。
还有科教应用。在漫长的发展历史中,国家天文台积累了大量专家与各省市师生交互的记录,这些高质量信息用于大模型训练,产生了非常优秀的垂直领域大模型。如今,在通义千问全新模型帮助下,在天文科教平台上新增了多项功能,例如多智能体的跨学科圆桌等项目,旨在为20万所中小学和广大天文爱好者提供丰富的科教内容。
在AI支持下,“观星”这件事正在呈现出全新的可能。(本报记者 刘少华)
《人民日报海外版》(2025年04月29日第05版)
