智能手机拥有强大的计算能力和连接性能:我们可以随时随地搜索互联网或通信。但细小的屏幕和按键限制着我们,很难全面使用所有功能。现在,一大批新的应用将语音识别和人工智能结合起来,帮助人们在移动设备上执行简单任务。
最新的一项此类服务来自Vlingo,一家开发语音识别应用的公司,尝试将用户的语音指令和在线存储的个人数据信息结合起来,超越之前同类应用。举例来说,这个名为“超级拨号器”的服务可以在用户说出“订披萨”之后显示出一张列表,将用户地址簿与互联网中搜索到附近的披萨店展示出来。
超级拨号器是Vlingo公司计划发布的一系列产品中的排头兵。该系列全都力图为公司的语音识别软件加入更强劲的人工智能支撑。
Vlingo希望于8月发布可以连接用户多个账号的社交网络应用,用在基于位置的Foursquare与Loopt等服务中。这样,用户就可以大声询问他们的朋友在哪里,然后得到结果。
这些产品中一个名为“Vlingo解答”的独立服务,会在用户提出一个特定问题,如“基弗•萨瑟兰(Kiefer Sutherland)多大年龄?”之后,做出回应。Vlingo会尝试利用标准网络搜索并扫描专业信息网站如Wolfram Alpha和True Knowledge获取答案。
表面上看,这类应用似乎很简单,但CEO大卫•格拉南(Dave Grannan)说,实际上这涉及了相当复杂的技术。首先,应用需要识别出用户说了什么。随后它得分辨用户的意思——例如,决定该怎样理解多义词,像“拜”之类。最终,它还要获取用户所需信息,并提供简单的操作接口。
格拉南说,Vlingo的目标是帮助用户将言词转换成操作,从而让人们不必考虑应该按哪个按键,或者应该怎样准确表述他们要求设备执行的任务。
这个想法与Siri公司为iPhone提供的虚拟助理(virtual assistant)类似,该公司最近被苹果公司以保密的价格收购。Siri的CEO达格•基特劳斯(Dag Kittlaus)常常称该公司的技术为“执行引擎”,并小心地将它为用户执行任务的能力与互联网上常见的搜索功能加以区分。
格拉南承认,Siri由加利福尼亚州门洛帕克的斯坦福国际研究所(SRI International)带来的深度人工智能技术比Vlingo目前使用的更优秀。但是他仍然相信Vlingo可以大有作为。格拉南认为,与Siri特色的“局部深度挖掘”方法不同,他希望Vlingo能提供“广泛浅层作业”。换句话说,他解释到,Siri在处理小范围主题时很拿手,例如帮人们预订餐厅,但他想让Vlingo处理更大范围的主题。
Vlingo基本版是免费的,这家位于马萨诸塞州剑桥市的公司盈利的方式是出售定向广告和针对高级功能收费,例如通过语音识别发送短信。该应用可用于Android、iPhone、黑莓、诺基亚和Windows Mobile平台。
Vlingo与Siri这类应用所代表的对个人智能助理的期望在过去几十年里都是重点研究方向。
最近10年,语音识别和自然语言处理取得了大幅进步,使电脑能更好地理解人们所说的内容。但将这种技术引入智能手机的过程中,最大的困难之一在于用户需要在几秒钟内看到设备做出响应,以便感觉程序还在运行,AT&T实验室的技术研究执行主管,同时也是此类技术专家的马津•吉尔伯特(Mazin Gilbert)说。智能手机的处理能力无法满足复杂的语音识别及分析所需,任何一部使用此类程序的设备都只是获取音频并通过网络发送出去。直到不久之前,吉尔伯特说,低速网络造成的瓶颈都还使超级拨号器这类应用无法工作。
今天的语音识别管家程序还获益于大量在线数据和那些帮助不同服务互相连接的编程接口(API)。但吉尔伯特相信,软件在解读用户意图方面还有很大的发展潜力。他对智能手机应用的涌现十分兴奋,因为这些应用可以提供更多的信息,展示用户希望如何与个人助理进行交流。这将进一步刺激机器学习与自然语言处理的发展,是未来的应用更加聪明易用。
“讲”电话
评论
26 views