从智障到智能,AI语音差在哪?
水滴 王虚琪 | 02-26
47778
你们有没有被车载语音搞崩溃过?可以肯定的是,从完成基本的识别与反馈,再到后来与导航、影音等功能结合进行服务,再到如今的车载语音能实现免唤醒、多轮对话、上下文理解等功能,进步是巨大的,但实际上呢?用过的都应该知道有多难用吧,那为什么呢?
从过程上看,智能语音大概分为听清、理解、执行这三个步骤,现在“听清”已经不是难点,各个厂家的识别率都是90%以上,并在逐步缩小。而差距就在于把听到的文字充分理解,是最难的,也是用户感觉难用的根本。
比如,请把声音调大,把声音调大,声音大一点,处理器最终识别的指令都是声音大,车机也确实执行了。但每个人说的文字不同,比如我说声音有点小,表达的意思相同,对于机器来说是非常困难的,它需要去断句。并且中文是具有二义性的,需要大量算法模型去处理运算,所以车辆基本控制、导航、收音、车辆信息查询等等在车机本地就可以解决,但一旦到了比较难的语义上,更多是放到云端服务器去处理,处理速度也会更快一些,比如chatgpt也是这样做的。
基本路数相同,考验各家的本领的时候。如果具有基础功能交互控制能力的语音系统被划作1.0时代,那2023年以后的大模型时代则可被称之为2.0时代,chatgpt就是那个最显眼的引爆点。语音作为汽车智能座舱的一部分是不可忽视的重要部分,逐渐开始接入大模型,运用AI以及云端提升学习和边缘计算能力,最终让语音交互更接近我们想象中的样子。但最终从实际体验看,大部分是与宣传不符的,多说一句都理解不了,让人很难不怀疑AI语音大模型的实际意义。
其实这并不怪车企,在1.0时代不同车载语音交互厂商往往会训练自身的小模型,参数量并不大,成本可控,自身是能掌握核心能力的。但到了2.0时代与那些大模型大厂相比,车企想要获得大模型需要极为高昂的成本,所以更多是依赖供应商,况且有少数几个玩家脱颖而出即可满足需求,反复做同样的基建工程属浪费资源。而供应商的水平,合作程度,投入资金种种差距,就导致了最终在体验上的差距,产生广告与实际不符的情况。
就像是最近有人“宣传”L3级别的脱手开车,但当下法规和环境并不允许,实际体验上会有很多不安全的因素存在一样,存在“欺骗”行为。这并不利于行业发展,甚至损害人身安全,这是极其不负责任的妖魔化宣传手段。
另外,据内部人士透露,当下的AI大模型领域并非表面那么美好,作为风口上的新产业,有大部分人在踏踏实实做事业,还有小部分人套现离场。