能听会道的语音网络


  在世界范围内,约有10000人口使用同一个与众不同版本的网络:它是通过从电话里传出的声音来操作的。这个网络被称作“语音网络”(Spoken Web),是IBM的一个研究项目的结果。该项目试图为发展中地区那些文化和技能都比较低的人重新改造以文本为基础的万维网。

  自从四年前第一个版本发布以来,语音网络就成为了印度四个邦以及部分泰国和巴西用户日常生活的一部分。这些人使用它来获悉诸如当地谷物价格或者工作机会这样的事情。在语音网络上,电话号码取代了网络地址。一个人可以打电话至一个语音网站收听或者记录内容。

  现在,这个项目正在经历一个可反映常规网络历史的发展阶段:搜索的出现作为驾驭不断增长的内容。

  “随着语音网站的增长,它们的内容会越来越多,人们需要一种可以迅速找到自己所需要的内容的方式。” IBM印度研究院一位高级研究员奈特恩德拉·拉其普特(Nitendra Rajput)说道。拉其普特是语音网络项目创始人阿伦·库玛尔(Arun Kumar)早期的合作者。

  一个语音网络有一些基本的架构:举例来说,当一个人打电话到一个网站,他就会与自动电话系统产生互动,该系统可接受语音指令,提示用户创建一个自己的网站标题并把不同部分的信息添加到上面。不过拉其普特说,要收听长的语音信息是昂贵且效率低下的。

  “比如,我们要你能够说出一种杀虫剂的名字,以便迅速找到相关内容。”他说。但是设计一个像那样工作的搜索引擎远不是那么简单。语音识别(Voice-recognition)技术可被用于获得一个人的搜索关键词,并将其与语音网站上记录的事先处理过的索引项目进行对比匹配。但输出结果则是一个挑战。“我们不可以使它读出20个结果的一览表。那将会占用太长的时间,而且人们也不会全部都记住。”拉其普特说,“相反,它必须告诉用户结果有那么,并询问如何缩小范围。”

  被询问的用户可以按他们希望的那样对结果进行分类过滤,比如,按网站拥有人的名字、网站创建地或者某个搜索关键词是否属于一个特殊的类型——新闻发布、问答等。这个步骤一直被重复直到剩下五个或者更少的结果,这些结果都会被读给用户听,以使他们可以选择自己想要“浏览”哪一个。

  一项有40个印度古吉拉特邦农民(the Indian state Gujarat)参与的试验验证了这个设计,它将被推广应用于整个语音网络。不过,仍然需要更多的能够辅助内容导航的功能。随着语音网络的增长,寻找更多辅助内容导航的方法会变得很重要,拉其普特说,与文本网络已经发展出的机制类似。

  另外一项正在进行中的改进提供了一个浏览语音网站的方法。用户已经可以使用一种快进(fast-forward)功能来加速收听网站内容——该功能可以正常速度的十倍来“播放”内容,读词速度太快以至于无法听清,不过它会在某些重点词或者短语处放慢速度。拉其普特说,其效果与一个人大声速读一篇文章相似,而且恰好能迅速使人们找到他们所需要的内容。

  研究人员认为,这个系统可以通过看哪些特殊的词组会使用户们从快进转换为正常语速得知,哪些字词是重要的。“为了知道哪些是重要的字词,我们目前正在收集来自用户的数据。”拉其普特说。

  “世界上有相当多的人已经不知道如何使用网络,甚至不理解上面的文字。”纽约罗切斯特大学(University of Rochester, New York)的研究人员纳奥什德·尤兹齐曼(Naushad UzZaman)说,“尽管你不能够消除数字鸿沟,但通过使从语音网络获益成为可能是我们可以如何缩小这个鸿沟的榜样。”

  拉其普特说,迄今为止,IBM的语音网络已经完全从万维网分离出来,而且大部分用户主要对本地内容感兴趣。然而,二者仍有可能相遇。“如果真实的网络上有相关内容,我们可以使用应用程序接口(API)电话和文字-语音转换(text-to-speech technology)技术将其移至语音网络。”拉其普特说,“但是,这需要转换成并支持正确的语言,因为那不是好的美国之外的英语。”

  尤兹齐曼说,理想地说,技术还是应该能够创造一条道路,将全部或者一部文盲人口与至少一部分更广阔的网络功能相连接。他已经设计出一个系统原型,可以对在线文本内容进行摘要,变成非常简单的、可以传递相同核心意思的句子。图片被放置在文字旁边,以帮助阅读困难的人们获得要旨。尤兹齐曼还说,当使用维基百科页面进行测试时,这个系统运行良好。