从智障到智能，AI语音差在哪？-水滴汽车

从智障到智能，AI语音差在哪？

水滴王虚琪 | 02-26

47778

你们有没有被车载语音搞崩溃过？可以肯定的是，从完成基本的识别与反馈，再到后来与导航、影音等功能结合进行服务，再到如今的车载语音能实现免唤醒、多轮对话、上下文理解等功能，进步是巨大的，但实际上呢？用过的都应该知道有多难用吧，那为什么呢？

从过程上看，智能语音大概分为听清、理解、执行这三个步骤，现在“听清”已经不是难点，各个厂家的识别率都是90%以上，并在逐步缩小。而差距就在于把听到的文字充分理解，是最难的，也是用户感觉难用的根本。

比如，请把声音调大，把声音调大，声音大一点，处理器最终识别的指令都是声音大，车机也确实执行了。但每个人说的文字不同，比如我说声音有点小，表达的意思相同，对于机器来说是非常困难的，它需要去断句。并且中文是具有二义性的，需要大量算法模型去处理运算，所以车辆基本控制、导航、收音、车辆信息查询等等在车机本地就可以解决，但一旦到了比较难的语义上，更多是放到云端服务器去处理，处理速度也会更快一些，比如chatgpt也是这样做的。

基本路数相同，考验各家的本领的时候。如果具有基础功能交互控制能力的语音系统被划作1.0时代，那2023年以后的大模型时代则可被称之为2.0时代，chatgpt就是那个最显眼的引爆点。语音作为汽车智能座舱的一部分是不可忽视的重要部分，逐渐开始接入大模型，运用AI以及云端提升学习和边缘计算能力，最终让语音交互更接近我们想象中的样子。但最终从实际体验看，大部分是与宣传不符的，多说一句都理解不了，让人很难不怀疑AI语音大模型的实际意义。

其实这并不怪车企，在1.0时代不同车载语音交互厂商往往会训练自身的小模型，参数量并不大，成本可控，自身是能掌握核心能力的。但到了2.0时代与那些大模型大厂相比，车企想要获得大模型需要极为高昂的成本，所以更多是依赖供应商，况且有少数几个玩家脱颖而出即可满足需求，反复做同样的基建工程属浪费资源。而供应商的水平，合作程度，投入资金种种差距，就导致了最终在体验上的差距，产生广告与实际不符的情况。

就像是最近有人“宣传”L3级别的脱手开车，但当下法规和环境并不允许，实际体验上会有很多不安全的因素存在一样，存在“欺骗”行为。这并不利于行业发展，甚至损害人身安全，这是极其不负责任的妖魔化宣传手段。

另外，据内部人士透露，当下的AI大模型领域并非表面那么美好，作为风口上的新产业，有大部分人在踏踏实实做事业，还有小部分人套现离场。

水滴汽车公众号

扫码关注，获取更多汽车资讯

水滴汽车

扫码下载水滴汽车APP

热门评论(1)