智东西

作者 | 云鹏


(资料图)

编辑 | 漠影

在今天的AI大模型时代,AI和终端场景要如何结合才能真正为我们的生活带来便利?这是当下每一家科技巨头都在思考和面对的问题。

在大模型落地千行百业的大潮之下,智能手机作为与普通消费者生活最为贴近的产品,也在快速卷入AI革命的浪潮中。

iOS版、安卓版ChatGPT的先后发布让更多人可以接触到大模型带来的技术红利,而语音助手与大模型的结合也成为科技巨头们正在争夺的关键高地。

一边谷歌计划彻底重塑其智能语音助手,将大模型能力融入,另一边苹果Siri也曾被多次曝光将融入大模型相关能力,微软的Copilot则已经完成对Cortana的替代。

终端设备中的AI迎来一场大模型革命,已成大势所趋。一直被消费者诟病不够“智能”的语音助手,究竟要如何借助大模型变得“更智能”?

就在8月4日,华为率先交出了一份答卷。

在华为盘古L0基座大模型的基础上,华为针对终端消费者场景构建了大量的场景数据与精调模型后的L1层对话模型,并将该模型用在了智慧助手小艺中,全新的小艺在今年华为开发者大会上正式亮相。

基于此,华为也成为国内率先将大模型能力融入智慧助手并面向消费者落地的科技公司。

用华为的话来说,在大模型的加持下,小艺变得“更聪明、更能干、更贴心”了。基于华为大模型和AI技术的进步,小艺迎来了一次颠覆性的智能化革新,而这些新体验,也将进一步扩展至华为“1+8”的产品生态中。

大模型的融入究竟能给如今的智慧助手们带来怎样的“进化”?华为是如何克服重重行业此前未能突破的难题将大模型成功落地在终端中的?小艺掀起的智能语音助手新革命又将对产业有着怎样深远的影响?

可以确定的是,让智慧助手给我们每个人的日常生活真正带来便利和乐趣,华为把这件事又往前推了一大步。

一、语言理解力暴涨,人人化身玩机达人,小艺变得更聪明了

从大模型进入大众视野的第一天起,一个讨论就从未停息:由大模型驱动的聊天机器人是否会取代手机上的智慧助手?

今天,从华为给出的答案来看,两者绝非替代关系,由大模型赋能的智慧助手能够带来的体验革新,可以说让许多曾经的“想象”真正走入了“现实”。智慧助手越来越像你真正的管家、朋友,人工智能的“智能化”迈入了新的阶段。

纵观小艺的升级,最直观的体现就是:小艺真的变“聪明”了,它知道我在说什么、能够更精准地读懂我话里的意思了。

比如我可以直接跟小艺说,“能不能把手机壁纸设置成实时天气?”此时小艺就能明白我是想要全景天气壁纸。

对于再复杂一点的场景,比如今晚我想请人吃饭,就可以直接跟小艺说,“找一家附近评分高的海鲜餐厅,最好有适合四个人的优惠套餐”,此时小艺可以准确理解我的意图,并直接调用美团服务给我找到相关餐厅。

当我随手拍一个海报,针对海报图片,就可以用自然交流的方式去问小艺相关的信息并获取服务,比如我可以跟小艺说,“我想参加技术论坛,导航去图上的地址”,此时小艺就可以准确识别海报中的地址信息并打开导航App进行导航。

在大模型能力的加持下,小艺还可以处理更加复杂的场景编排任务,帮我们创造专属于自己的特殊场景。

如果喜欢运动健身,我可以让小艺创建一个“晨跑场景”,要求为“每周一到周五早上6点半为我播报当天天气,6点半到7点我会跑步,当我戴上蓝牙耳机的时候,就播放收藏的歌曲,并把手机设置为静音模式”。

这一系列看似复杂的操作,都可以通过这“一句话的时间”让小艺直接设置完成。

可以说,在“更聪明”的小艺的帮助下,我们不再需要一项项地查看玩机技巧和大量的功能说明,每个人都可以成为“玩机达人”,因为我们只需要问小艺就可以了。

小艺这种能力的提升,让很多智能手机具有的强大功能,可以简单便捷地、通过语音口述的方式被用户所接触到。

纵观小艺在“更聪明”层面的诸多升级,我们能清晰地看到,大模型能力的融入,搬开了阻碍用户养成智慧助手使用习惯的最大绊脚石之一——不够自然的对话、无法随心所欲的自然交流。

想要真正让智能语音助手从好玩、新奇走向好用,甚至成为一种“习惯动作”,优秀的语言理解和交互能力是必不可少的。大模型让智能语音助手真正能够读懂、听懂我们,其易用性的提升是极为显著的。

二、数千字文章秒生摘要,图文多模创作不在话下,小艺更能干了

除了自然语言理解能力的跨越式迭代,大模型加持下的小艺在生产力方面效率提升也十分可观,这也是大模型应用的强项之一,智能语音助手终于可以参与到我们平时工作的具体内容中来了。

比如当我们在一些内容资讯App上看到一篇文章,就可以问小艺,“这篇文章主要讲了什么”,此时小艺就可以快速对文章内容进行重点总结并生成简短的摘要。

根据华为在开发者大会上的演示,对于一篇3000多字的文章,一次输入给模型,模型可以在几秒之内完成对文章的总结。

我们还可以进一步针对这篇文章的内容去延伸问一些问题,小艺都可以从文章中找到相关信息组成简洁明了的答案呈现给我们。

不仅是文章、新闻,小艺甚至还可以读论文,可以说,在大模型能力的加持下,每个人都有机会在小艺的帮助下不断地提升自己的能力。

除了理解文章,小艺还可以“写文章”。当我要和一个初次见面的合作伙伴开会时,我可以直接跟小艺口述会议的时间、邀请的公司人员以及讨论内容,小艺就会帮我写一封会议邀请的邮件。

据了解,目前小艺已经学习了上百种的文案风格,包括各类书信、公文、商业文案、祝福语、故事、工作总结等。

其实不只是文字,对于图片的生成和创作,小艺同样拿手。

比如在特定的节日,我只要把相关主题、风格告诉小艺,小艺就可以根据我的照片,一键生成一张属于我的创意卡片。借助多模态大模型技术,小艺无疑可以帮我们更好地使用手机里的大量影像素材。

纵观小艺在办公生产力方面的提升,可以说小艺已经不仅是生活中懂我的朋友,更是我们工作中的得力助手。大模型能力的融入显著促进了智慧助手生产效率的提升。

在当下这个快节奏的时代,小艺快速提供灵感、辅助创作、节省时间获取关键信息的这一系列能力,都显得十分“需求对口”。

大模型让智能语音助手从“需要”变为“必要”,从“能用”变为“好用”,实用性得到了显著提升。

三、从通用到“专属”,AI也可以更有温度

在大模型的加持下,小艺在各方面的能力都有了长足进步,而当我们将时间线拉长,我们还能看到“进化”后的小艺带来的更深层价值。

随着小艺与我们相处的时间越来越长,我们和小艺不断地交流,小艺就会变得越来越懂我们,给出的建议也会更加贴心和个性化,从一个通用智慧助手变为我的“专属贴心管家”。

比如我在开会时有一些待办事项,可以通过“随口描述”的方式让小艺记录下来,小艺可以对我口述的内容进行理解,并将这些重要事项提炼出来,放在日历或者备忘录中。

这还没完,等过一段时间,如果我还要根据上次开会的待办事项,再次与合作伙伴开会,我就可以让小艺根据之前记录的信息直接写出一封新的会议邀请邮件。

当然,对于生活中的一些重要时刻,比如父母的生日,小艺可以帮我记住,并且在提醒的同时,为我提供更多的服务推荐,比如餐厅的选择、礼物的购买建议,这些服务可以一触直达对应的App。

此外,当我们出差时,如果我是一个喜欢美食的人,小艺就会帮我推荐一些当地的美食,如果小艺此前知道我喜欢旅游,它就会给我介绍一些当地的景点。

当小艺对我们更了解的时候,小艺提出的建议也会更加个性化,有更高的概率契合我们当下的实际需求。

值得一提的是,小艺相关的个性化数据和学习都是在端侧进行的处理的,从而保证数据的安全和隐私。在华为看来,安全与隐私保护是他们在所有AI场景设计和体验创新中遵循的第一原则。AI不能无中生有,更不能被滥用,AI是辅助而不是替代,AI是增强而不是虚构。

正如华为所思考的一样,在AI技术高速发展的当下,用更负责任地态度去做更透明的AI,审慎创新善用AI,必然是所有科技企业都应坚持的方向。

四、重构大模型与智慧助手,颠覆体验离不开硬核技术创新

不论是更聪明、更能干的小艺,还是更个性化、更贴心的小艺,抑或是语音交流更加逼真、更有温度的小艺,大模型正让智能语音助手变得更加易用、实用、好用,从根本上解决用户使用语音助手中遇到的诸多“顽疾”,带来体验上的“质变”。

而在这种质变的背后,华为在硬核技术层面的积累和创新无疑是关键支撑。

实际上,华为从底层就重构了大模型与智慧助手的整个协作系统,摒弃了过去多个系统独立构建的“割裂”模式,让大模型成为智慧系统的大脑,以大模型为核心,无缝利用大模型的高阶能力,对系统进行全面增强。

这一架构方向挑战巨大,此前业界没有成熟的商用案例,但华为仍然决定做“第一个吃螃蟹的人”。

为此华为构造了各场景下的语料数据,并设计了能让系统理解、可执行的模型输出,同时华为给大模型注入了可信的结构化、非结构化知识,让大模型能够学习到通识、逻辑关系。

具体来看,华为在预训练、设备操控以及端云协同方面的突破都可圈可点。

首先,预训练的能力强不强,是对各家内功的真正考验。在预训练中,华为构建大量的不同类型表达的语料库,让大模型在预训练的阶段中就成为精通各类表达的大师。

同时,华为从一开始就希望小艺向着“更智能的私人助理”这一方向去进化。为此华为将大模型的能力进行细化拆解,在此基础上构建完整的测试数据集,并使用能力树指导数据构建和大模型能力构建。

在设备操控方面,如何利用大模型进行设备控制,实现真正的智能化设备控制,是用户体验能否实现跨越式升级的关键。

为此,华为将设备控制中大模型生成文本的格式做到了几乎百分百的遵从度,让中枢系统高效解析和对接。同时为了解决场景复杂的挑战,华为详细梳理消费者场景制定工具使用说明书,让大模型“先学习再上岗”。

针对大模型高昂推理成本和推理时延的难题,华为设计了多套完全不同的工具调用范式,将工具调用等待时间加速了一倍。

从最终落地结果来看,小艺所使用的大模型,可以很好地覆盖对话、出行旅游、设备操控、吃穿住行等各类终端消费场景,其知识范围、事实性、实时性以及安全合规等多方面都得到了针对性优化和增强。

最后在端云协同方面,个性化数据处理需要端侧模型,端侧算力和功耗的限制又使得云侧模型不可或缺。云侧和端侧要如何分配任务、协同配合,是对厂商技术的考验。华为在大模型端云协同领域积累的技术能力,让个性化体验得以实现。

据了解,针对消费者在不同设备不同场景下的需求,华为小艺背后的大模型拥有端侧和云侧等形态。在小艺与大模型的结合中,端侧大模型会先对用户请求和上下文信息做一层预处理,再将预处理后的需求发送到云侧,从而最大化地发挥“端侧模型快”和“云侧模型强”的优势。

从重构大模型与智慧语音助手的协同关系,到克服诸多大模型落地终端场景面临的技术挑战,华为还是那个我们熟悉的华为,技术创新能力仍然是华为最硬的底牌。

五、打通软硬全链条,让大模型成为“系统级”能力,全场景生态加速落地

正如我们开头所说,AI和终端场景要如何结合才能真正为我们的生活带来便利,是当下终端侧AI技术落地应用需要回答的关键问题。

华为小艺的一系列技术、能力升级,让我们看到了大模型如何更加贴近消费者的使用场景,大模型的应用如何“更接地气”?小艺可以说做了一个很好的示范。

华为从用户体验出发,用技术解决问题,将传统语音助手在体验上的“不可能”变成了可能。

相比OpenAI的ChatGPT、谷歌的Bard这些生成式AI聊天机器人,华为的小艺是在HarmonyOS操作系统层面,为华为终端用户提供语音对话、图文识别、服务建议、设备智慧能力开放和设备互联管理的应用。

从硬件、软件、系统到应用层全链条的打通,华为让大模型成为“系统级”能力,这是其他产品所无法比拟的,也是华为的核心优势之一。

从云端服务器中的芯片,到终端设备中的鸿蒙操作系统和鸿蒙应用生态,华为这种全栈式技术能力是小艺与大模型结合如此高效且顺利的关键支撑。

华为相关AI专家告诉智东西,系统级的入口跟操作系统结合地更加紧密,跟生态的互联也做到了系统生态底层,这种互联才是真正高效的。

与此同时,华为小艺基于华为鸿蒙生态形成的优势也是其独特竞争力。

目前华为的各类终端产品面向全场景布局,其中“1+8”这几类核心产品小艺都已完成覆盖,未来结合全场景设备的业务形态,华为能够将拥有大模型能力的小艺部署到消费者全场景体验上。

基于小艺的大模型能力在华为全场景业务生态中全面落地,已经只是时间的问题了。

结语:大模型掀起语音助手进化潮,华为已先行一步

此次基于大模型技术,小艺掌握了更多技能,从更自然流畅的对话交互到更高效便捷的生产力应用,从更懂你的主动服务到更有温度的个性化服务,华为已经成为科技巨头中将大模型与端侧用户体验结合的最为紧密的一个。

目前,华为全新的小艺智慧助手将在今年8月底开放邀请测试,并于晚些时候在搭载HarmonyOS 4.0及以上操作系统的部分机型中通过OTA升级,具体升级计划会稍晚公布。

真正让大模型服务于普通消费者,让每个人享受到生成式AI带来的体验革新,这是小艺对于产业和用户最大的价值所在。

面向未来,大模型与智能语音助手的结合必将更加紧密,随着后续各路科技巨头的跟进,智能语音助手的“进化”浪潮将势不可挡。未来还会有哪些新的应用场景、新的应用形态和功能涌现出来,都令人充满想象空间。

推荐内容