“真是令人难以置信的结果,它的确让我在这最后一个工作日感觉不错。”在比尔·盖茨退休当天,微软亚洲研究院手写识别团队收到了一封盖茨的回复邮件。盖茨在邮件中所说事情指的正是微软亚洲研究院用户界面组(现软件分析组)与Windows产品部门共同研发的东亚文字手写识别技术,当时,东亚文字手写识别项目已经在微软亚洲研究院所在的希格玛大厦完成了后期的优化。
2007年3月,东亚文字手写识别技术刚立项一年,比尔·盖茨也曾在给微软亚洲研究院的邮件中表示出了极大的兴趣和期待。在项目组每个成员的邮箱里,至今仍保存着比尔·盖茨的这两封邮件。
一方面,这两封邮件见证了东亚手写识别技术从研发到植入Windows 7的本地化进程。可以想象,对技术无比痴迷的盖茨体会到的欣慰和兴奋,微软亚洲研究院又一次对微软核心产品贡献了重要智慧。同时,Windows 7也实现了一项革命性的跨越——东亚语言用户用电脑做手写笔记的应用变得更加简单实用。
文字游戏
世界上恐怕任何一款文字游戏,都没有微软亚洲研究院手写识别团队遇到的更具挑战。
“对于输入来讲,我们不能要求用户怎么样,而是要尽量满足用户。不同用户写字的习惯,包括笔顺和字形,都有很大变化。因此我们要把这些因素包含进去,尽量应付这些情况。”微软亚洲研究院软件分析组韩石对本刊记者说。
微软亚洲研究院软件分析组及其前身用户界面组的一个重要研究分支,是基于数据的统计学习和模式识别技术的应用性研究,通俗一点讲就是如何教机器去从大量的真实数据中学会分类。转化到Windows 7里的手写文字识别本质上就是一个分类的问题,也就是让计算机知道用户输入的是什么字。而与以拉丁语系为代表的西方语言相比,东亚语言文字的字符集特别大,笔划变化多端,相似的字又特别多,这些对识别率和识别速度来讲都是挑战。
据韩石介绍,对于单字的手写识别来讲,最难就是写得比较草的时候。立项之初,在行业内对潦草数据集的识别率已经达到95%左右,单字识别当时主要应用的技术是利用字形的空间信息,从字局部和整体的特性来挖掘字与字之间的区分度。空间关系的好处是它可以对字有一个整体的概念,但它忽略掉了每一笔的先后顺序和走向,不容易捕捉到一些细节的局部。而如果把笔画的时序信息应用进去的话,对于“味”和“昧”这样的字就可以更准确区分了。
通过整整两年的时间进入Windows 7,手写识别团队把东亚语言文字的识别率推向一个更高的水平,以简体中文为例,对潦草数据集的识别率达到97%,甚至更高。
提高了识别率,剩下的是把它做快、做小。Windows 7中的文字手写识别有整句输入、纠错和联想的功能,通过联系上下文,基于大量材料从已有的文字组合中统计出的语言模型,在这些功能中起着重要作用。对于东亚语言来讲,它的字符集是超大的,这是一个非常大的挑战。以中文为例,完整的汉字字符集有两万多个字,最常用的一级和二级字符集也有近七千字。由这些字组成的词和短语,其模型空间之大可想而知。
本文出自《互联网周刊》 2009年第22期
微软亚洲研究院(MSRA)创新进行时系列专栏之二十二
评论
5 views