会“说话”的浏览器


  通过下载谷歌浏览器Chrome的预先发布版,也就是测试版,早期使用者可以对未来网络先睹为快。最有意思的新特性之一是,它能够完全通过网络把语音转化成文字。

  这个特性是谷歌和万维网联盟(World Wide Web Consortium)的HTML语言孵化组(HTML Speech Incubator Group)协作工作的结果,该孵化组的任务是“确定把语言技术整合进HTML5的可行性”,HTML5是网络新兴的标准语言。

  采用新HTML5特性的网页有一个图标,点击之后会通过浏览器启动计算机麦克风的录音。此时语音被捕获并发送到谷歌服务器进行转录,完成的文本发送回网站。

  要体验从声音到文本的特性,你可以下载Chrome的最新测试版。然后转到该网页,点击麦克风,开始讲话。你可能会发现结果有混合,并且有些很滑稽。我使用最好的朗诵技巧,读了理查德·耶茨(Richard Yates)的革命之路(Revolutionary Road):“最后一次彩排结束了。桂冠社的演员无所事事地站在舞台上。安静,无助。”我在一行中得到了多次错误消息(“语音不能识别”或“与语音服务器的连接失败”)。一次,我收到了这样的转录:“9听起来像世界上好的饭馆,好像与其他的没什么关系。”

  新特性继承了谷歌为移动设备Android操作系统所进行的部分实验。谷歌语音识别小组的成员文森特·凡豪客(Vincent Vanhoucke)说,一年多以后,Android应用程序开发人员就能够把语音识别加入到使用谷歌技术的应用程序中。这样可以为谷歌提供有用的语音数据以训练其语音识别算法。目前,Android手机上20%的搜索都在使用语音识别,凡豪客说,人们使用语音识别写文章,发送邮件或进行研究。“它将真正开启有趣的新道路,” 凡豪客说。

  但是,Chrome不像从语音到文本的桌面软件那样让自己习惯于一个用户的声音,它试图从未经训练的语音中产生文本。

  “我想如果他们记录IP地址,那么就可以自适应”一个用户的声音,麻省理工语音识别专家吉姆·格拉斯(Jim Glass)说。格拉斯注意到移动电话所提供的声音环境和笔记本电脑或桌面电脑很不同,首先,手机的话筒可靠的位于用户的嘴巴处,不像电脑麦克风安装在家里或办公室里。“这是Chrome的测试版”,格拉斯说,“它们将采集数据,我们坚信这样会改善模型—这是语音识别游戏的本质。”

  尽管这项技术在边缘地方有些粗略,但有时是让人印象深刻的。我说 “棕色狐狸快速跳过那条懒狗”的时候,Chrome应用程序可以把它敲成文字。

  第三方程序员也开始创建能够使用Chrome新特性的网页。可以试用的是一个浏览器插件Speechify,它可以让你使用Chrome语音搜索谷歌,Hulu,YouTube, 亚马逊以及其他网站。

  其它别出心裁的使用方法将会相继出现。“游戏可以把使用键盘,鼠标,触摸屏,加速计和语音结合在一起,”卡尔·威斯丁说,他是德国柏林Nerd 通讯公司HTML5的专家。“在玩飞机游戏时你可以大声喊‘上升,上升,上升!’这是非常美妙的。”

  但是这项技术不只是一个玩具,它为扩展网络能力指明了道路。出现于1997年的HTML4是HTML语言最新的主流版本。从那时开始,像Silverlight 和 Flash这样的插件为网络增加了多媒体处理能力。但是HTML5能够通过浏览器重放多媒体和离线存储。

  谷歌Chrome产品经理布莱恩·拉科夫斯基(Brian Rakowski)说:“我们知道越来越多的人在浏览器上花费了所有时间。”较之单独的电子邮件或即时通信应用程序,二者越来越多的出现在浏览器中。“我们希望这样的情况出现:你不再需要安装本地应用程序,”拉科夫斯基说,“因为网络都可以做到。”