qita-fanyiji (1).jpg

到了今天,已经很少有人再提人工智能音箱了。使用率低、售价跳水、缺乏销售数据……我们不能武断地说智能音箱凉了,但的确不少所谓的AI企业的硬件梦碎了。

相对于一些盲目涌入AI的公司,一些科技公司似乎找到了另外一条硬件路——翻译机科大讯飞推出了晓译翻译机、谷歌推出了实时翻译耳机,搜狗也在最近推出了搜狗旅行翻译宝和搜狗速记翻译笔。

开始呈现扎堆趋势的智能翻译机,是否会颠覆智能音箱成为下一个AI硬件浪潮?

打败大魔王,AI消费级硬件当务之急是走出手机的阴影

我们可以先从智能音箱的前车之鉴来看,智能翻译机最该避开哪些坑。

除了产品质量良莠不齐等等弊端之外,智能音箱最大的问题是没有一项功能超出手机功能的子集。播放音乐、语音交互、传达命令,这些功能其实都能在手机上很好的完成,让智能音箱的使用率不断被压榨。

AI消费级硬件

其实不光是智能音箱,现在开始搭载移动AI芯片的手机简直是AI消费级硬件界的大魔王,让很多产品毫无用武之地。智能翻译机也是一样,翻译App已经能满足大部分的消费级翻译需求,翻译机一方面要赶上翻译App文字、图片多种媒介适用的特点,另一方面还要保证离线使用、操作简单和续航时间长,从而获得与手机之间的差异化优势。这很可能会成为让智能翻译机不会重蹈智能音箱覆辙的重要优势。

三次迭代,什么才是智能翻译机的最终形态?

其实这是一个最浅显道理,智能翻译机的产品迭代的方向也一直朝着替代和超越翻译App发展。

第一代智能翻译机应该是以科大讯飞的晓译为代表,主打随说随译。这一代产品其实是最为尴尬的:虽然有强大的自然语言处理技术,可以较为准确的进行翻译工作,但很多功能还需连接手机借助网络才能使用。

AI消费级硬件

这类作为手机外置产品的翻译机和手机中的翻译App比起来几乎毫无竞争力,除了晓译之外,同类产品还有有道翻译蛋、全球译等等。虽然到后来第一代智能翻译机都增加了离线语言的种类,但比起App的拍照翻译等功能,还是差了一截。

谷歌推出的实时翻译耳机Pixel Buds可以被看做第二代智能翻译机,这类翻译机常常以耳机的形态出现,有些需要WiFi/蓝牙与手机连接。同类产品还有IBM Watson和Lingmo推出的Translate One2One。实时翻译耳机相比单纯的翻译机有着更丰富的功能,除了用作翻译还可以当成蓝牙耳机使用,并且翻译速度更快,在双方都配置耳机时可以很好的进行拾音和语音生成,方便交流。但大多数翻译耳机还是作为手机外设存在,自身并不具备真正的翻译功能,甚至谷歌的Pixel Buds只能配适谷歌Pixel手机。

而搜狗推出的搜狗旅行翻译宝,可以说是第三代智能翻译机了。除了提高翻译速度和准确率外,还加入了OCR技术,让用户可以进行实景翻译,并且摆脱了翻译APP对网络连接的依赖。

高准入门槛和优质的参与者,或许才是智能翻译机的王牌

智能翻译机不会成为智能音箱的另一个原因,就是这一行业较高的准入门槛。

和智能音箱简单的接收语音信号、下达指令不同,智能翻译机的实时离线翻译对机器翻译、语音识别、图像识别、语音生成甚至知识图谱技术都有很高的要求。

就拿在海外餐馆点菜使用搜狗旅行翻译宝这一简单的场景来说,就需要拍下照片进行图像识别,找到其中的文字并翻译成中文,和他人对话时,智能翻译机需要通过定向波束扫描规避噪音,准确拾音并进行翻译。在翻译过程中,还需要拥有相关领域的知识图谱,才能准确的捕捉到俚语、术语、双关语等等人类专属的文字游戏。而想要这一切都在离线状态下进行,还需要强大的压缩技术,让模型得以存储终端中。

所以在智能翻译机领域很难见到类似智能音箱的盛况:各种相关的和不相关的企业都来赶风口。目前智能翻译机领域的参与者,基本有三类。

第一类是专业从事AI技术开发的企业,如科大讯飞和IBM Waston。第二类是拥有巨大用户规模,通过自身产品,像输入法、搜索等业务在知识图谱和语音技术上建起壁垒的企业,比如搜狗、谷歌。第三类,是一些垂直研发翻译产品的企业,像有道云、全球译等等。较高的准入门槛对智能翻译机形成了一种保护,竞争对手都各有优势,不至于出品太过劣质的产品让市场对整个品类失望。

智能音箱留给我们最大的反思大概就是,宁愿在泥土中多蛰伏一会儿,也不要开出畸形的花。如今智能翻译机已经开始破土而出,愿它能结下AI消费硬件的第一枚果实。