科大讯飞帮奇瑞做了一款车载系统,顺便完成了角色转型

发布时间：2023-06-05 13:39:33

点击上方

车云

，欢迎关注和置顶哦！

导读：

大数据成就了更加智能的语音交互，智能语音想上车使用，要结合系统定制。

车内人机交互原则之一，是尽量减少达成目标的交互次数。

从这一点看，语音交互赚足了优势。因为语音是扁平化的，一句话包含多种信息。但只要表达得足够清晰，产品足够智能，就可以直接为用户推送最需要的结果。与按键和触摸操控执行复杂命令时的层层定义相比，语音可以更好满足开头的原则。

奇瑞和科大讯飞联合开发的Cloudrive2.0，就是一款搭载了深度定制语音技术的车载系统，整套软硬数服都由科大讯飞操刀，更是标志了科大讯飞从语音技术提供商向语音服务提供商转型。

两天前，车云菌在奇瑞总部所在地芜湖体验了这款车载系统，并在科大讯飞就车载产品转型问题进行了深入沟通。

Cloudrive2.0初体验

6个月时间完成了Cloudrive2.0的正向开发，软硬数服一体都由科大讯飞来做。在这之前，讯飞并没有车载系统的整合经验。科大讯飞汽车事业部总经理刘俊峰在介绍整款产品时，做了上述说明。

系统在奇瑞新款艾瑞泽5上是首次搭载，车云菌在芜湖进行了短暂体验。在整个系统操作的过程中，都可以在车内用方向盘或中控台上的物理按钮唤醒语音命令。不过这个操作，常常被“小艾你好”这条语音唤醒指令代替。

目前语音适用于系统的三类功能，第一是信息搜索，包括天气、音乐、股票、酒店等生活资讯查询。第二是动态文本输入，比如在通过蓝牙将手机车机连接导入通讯录后，可以语音指令发送短信。还有一块是文本播读，可以阅读一些新闻等长文本。

因为语音指令在整个系统内被打通，因此可以在任意页面唤醒语音识别功能，在发布指令上也可使用更加随意的自然语音。诸如“来首摇滚”、“我饿了”这种口语表达，系统也能识别。准确表达“王菲的红豆”之后，可以直接调出准确结果，免去二级页面再操作。下达“我饿了”这类模糊指令之后，给出的数个选项也可以直接口头回复“第二个”实现选择。

对行车环境而言，除了准确识别，降噪技术也是一个难点。在硬件上，Cloudrive2.0使用麦克风阵列定位人声，两颗面向驾驶和副驾驶位置的麦克风位于中控台的物理按钮附近，定位准确的音源位置。在路上行驶至60公里/小时，车云菌开窗测试了两次风噪较大时的识别表现，系统成功向我们推送了附近美食和崔健的摇滚。

△手机车机互联方案艾智驾

目前系统内的APP不多，大多整合的是POI等服务应用。如果要客观寻找一些进步空间，应该是各类功能的丰富与本身细化。比如手机车机互联功能，在测试安卓手机时已经完成了手机车机间的双向操控，但还不能很好支持视频播放之外的车端自适应显示。不过科大讯飞对艾瑞泽5这款系统的定位是定制化自然语音交互系统的样本级产品，从这个角度来看，Cloudrive2.0的自然语音表现应该能让大多数人满意。

交互如何更智能？

与以往语音产品相比，Cloudrive2.0自然语音识别表现是最大亮点。车云菌询问了效果背后的具体工作，得到的两点答案：在资源上与不同应用的垂直打通，让语音在功能和应用层面的深度结合；依靠讯飞云的大数据分析，不断优化交互效果。

以地图搜索为例。传统地图搜索时大多数入口是店名和门牌号等命令搜索，而不是兴趣点，这对自然语言检索来说会受到限制。科大讯飞的自然语音交互首先会进行语音转写文字，然后从语义理解层面上提取用户话中包含的需求和倾向，然后将需求（“饿”）与（“餐馆”）关联，对接到生活美食应用输出结果。

当然收集倾向化标签是一个漫长而耗费成本的积累。据科大讯飞工作人员介绍，后台会对当时无法分析的语音进行再分析，这些原本无法识别的口令在半自动预处理后，会由人工进一步标定正确的倾向。而且随着当时的流行趋势，歌曲餐厅等做一些推荐上的选择调整。

Cloudrive2.0的语音识别采用的“端+云”的方案。诞生于2010年的讯飞语音云平台，不单单承载汽车相关的业务。这种本地与云端的打通，可以为一些本地无法完全识别的内容提供联网识别，并且由云端下载小更新包完善离线识别的效果。

因此这款在使用中逐渐完善的产品，依赖大数据，也需要一个不断维护和优化的云端数据库支撑。作为一家老牌语音企业，目前科大讯飞可以给到的语音实时数据是：日服务次数超过20亿。车辆高速行驶时，识别率在90%以上。

在产品介绍现场，科大讯飞还带来了今年年底要亮相的迭代产品，是将语音与应用的定制做进一步垂直细分后的升级版。当地图检索返回多个结果时，对结果的选择可以更加模糊，进而接近说话习惯。比如面对一排筛选出的烤鸭店，你可以瞟一眼后报出更加随意的选定方式，“朝阳北路上的”，“大悦城隔壁的”，而不受限于“第n个”这样增加交互时间的反馈，而越快就意味着越安全。

不过很多人都在期待更加智能的版本。

2015年，科大讯飞在年度大会上，推出了人机交互的产品AIUI，目的是解决自然语音交互。AIUI包括全双工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术。产品面向消费级电子产品企业，把整个麦克风阵列、语音唤醒、语音合成、语义交互和其他辅助交互打包成一个模块销售。而当时科大讯飞提到的“也可深度化定制化开发”，就让人们把想象空间留给了极其复杂的智能硬件——汽车。

本次采访交流中，科大讯飞依然不愿在还未推出产品以前谈论太多，刘俊峰只是透露了些许信息。比如基于AIUI的语音交互，或许不再需要语音唤醒。行车手册功能也正在优化，如果未来能和汽车部分打通，新车车主只要按下车内功能按钮，向系统提问，就可以听到按钮具体功能的语音播报。

角色转型

很显然，科大讯飞在Cloudrive2.0中扮演的角色，已经不再是一家单纯的语音技术提供商。从做语音技术，到做车机系统集成，公司在汽车领域的业务正在向语音服务提商转型。

这种转型可以归结为商业策略，毕竟纯技术供应商在激烈竞争中面对的是薄利市场，集成整合服务的打包方案已经成为大势所趋。当然这也是技术驱动，更深层次的功能定制由一名整合方案提供商来做，才能实现效率上的最大化和功能强大化。

△科大讯飞执行总裁吴晓如

或许我们可以提取另一个观点。正如科大讯飞执行总裁吴晓如所言，目前车联网服务提供商只是帮助汽车厂商完成了数据基础采集工作，真正将大数据运用并发现延伸价值的并不多。语音交互因大数据兴起，未来也可以成为驱动数据应用的入口，甚至减少落地服务的中间环节，促进数据转化。

一个典型例子就是，当我们对一个驾驶者提取了足够多的倾向标签，个性化的主动推送也不再是难点。

要实现这一点，科大讯飞面临的技术之外的任务是资源整合。为了把语音和地图做更好的耦合，科大讯飞去年投资了一家地图引擎公司——美行科技。而作为科大讯飞的股东之一，中国移动的流量和咪咕音乐，都是未来可以用上的资源。除了喜马拉雅、考拉FM1000+网络电台，咪咕音乐中300万首歌曲在数量上做足功课，作为语音直接调用的后方资源库，这些内容还要足够新，足够好。

而且落地到前装车载产品不是一项简单工作。试新Cloudrive2.0，与科大讯飞牵手的主机厂是奇瑞。刘俊峰强调了科大讯飞目前只做娱乐信息功能，不碰安全功能。在与主机厂合作中，配合沟通尤为，这也是与科大讯飞相隔不远的奇瑞，成为首家应用Cloudrive2.0的主机厂主因。现在首个样板亮相，进一步的细化版也将在年底揭晓。如何快速复制，但又兼顾个性化，是未来从1到n中，科大讯飞要继续操心的事。

车云小结

吴晓如在接受采访时，提到了互联网女王玛丽·米克尔2016年的最新报告，报告中讲到“假如语音识别准确率从95%上升到99%后，语音交互将迅速普及，甚至将改变现有的游戏规则。”很多人把报告解读为语音交互公司迎来新一波热潮，但真正参与竞赛的各家公司心里应该都门清：最先被推上风口，一定是把识别率从95%提升到99%的那家。

Hackathon

悬赏200,000软妹币

奔驰全城通缉极客

点击下方阅读原文，即刻加入。

投稿、合作、提问、每日早报、新闻直播，结交大咖

只需扫描下方二维码，添加车云菌个人微信cheyunjun2015为好友