客户端下载

logo

当前位置:首页 > 资讯 > 资讯详情

从智障到智能,AI语音差在哪?

水滴 王虚琪 | 02-26

47778

你们有没有被车载语音搞崩溃过?可以肯定的是,从完成基本的识别与反馈,再到后来与导航、影音等功能结合进行服务,再到如今的车载语音能实现免唤醒、多轮对话、上下文理解等功能,进步是巨大的,但实际上呢?用过的都应该知道有多难用吧,那为什么呢?

从过程上看,智能语音大概分为听清、理解、执行这三个步骤,现在“听清”已经不是难点,各个厂家的识别率都是90%以上,并在逐步缩小。而差距就在于把听到的文字充分理解,是最难的,也是用户感觉难用的根本。

比如,请把声音调大,把声音调大,声音大一点,处理器最终识别的指令都是声音大,车机也确实执行了。但每个人说的文字不同,比如我说声音有点小,表达的意思相同,对于机器来说是非常困难的,它需要去断句。并且中文是具有二义性的,需要大量算法模型去处理运算,所以车辆基本控制、导航、收音、车辆信息查询等等在车机本地就可以解决,但一旦到了比较难的语义上,更多是放到云端服务器去处理,处理速度也会更快一些,比如chatgpt也是这样做的。

基本路数相同,考验各家的本领的时候。如果具有基础功能交互控制能力的语音系统被划作1.0时代,那2023年以后的大模型时代则可被称之为2.0时代,chatgpt就是那个最显眼的引爆点。语音作为汽车智能座舱的一部分是不可忽视的重要部分,逐渐开始接入大模型,运用AI以及云端提升学习和边缘计算能力,最终让语音交互更接近我们想象中的样子。但最终从实际体验看,大部分是与宣传不符的,多说一句都理解不了,让人很难不怀疑AI语音大模型的实际意义。

其实这并不怪车企,在1.0时代不同车载语音交互厂商往往会训练自身的小模型,参数量并不大,成本可控,自身是能掌握核心能力的。但到了2.0时代与那些大模型大厂相比,车企想要获得大模型需要极为高昂的成本,所以更多是依赖供应商,况且有少数几个玩家脱颖而出即可满足需求,反复做同样的基建工程属浪费资源。而供应商的水平,合作程度,投入资金种种差距,就导致了最终在体验上的差距,产生广告与实际不符的情况。

就像是最近有人“宣传”L3级别的脱手开车,但当下法规和环境并不允许,实际体验上会有很多不安全的因素存在一样,存在“欺骗”行为。这并不利于行业发展,甚至损害人身安全,这是极其不负责任的妖魔化宣传手段。

另外,据内部人士透露,当下的AI大模型领域并非表面那么美好,作为风口上的新产业,有大部分人在踏踏实实做事业,还有小部分人套现离场。

水滴汽车公众号
扫码关注,获取更多汽车资讯
水滴汽车
扫码下载水滴汽车APP

热门评论(1)

加载更多

热门车系资讯

更多 >

D7 DMH

12.58-14.58万元

雅阁

17.98-25.98万元

奥迪 e-tron

54.68-64.88万元

杰德

12.99-18.38万元

思域

11.99-16.99万元

  1. 北京水滴交互网络科技有限公司

Copyright @ 水滴汽车 京ICP备17030485号-2 京公网备 11010102003639号