“书写纹”揭匿名作者真面目


  IP地址并非唯一确定匿名电子邮件来源的手段,一种新的作者身份识别技术(authorship identification technique)可以比IP地址更准确地确定匿名信息的作者。

  这项技术由加拿大康卡迪亚大学(Concordia University)的研究人员开发,最初目的是为了帮助警方调查网络犯罪。该研究研究合作者包括康卡迪亚大学信息系统工程学的教授(Information Systems Engineering )本杰明·方(Benjamin Fung)、数字取证(Cyber Forensics)专家莫拉得·德巴比(Mourad Debbabi)和博士研究生法克哈恩得·伊克巴尔(Farkhund Iqbal)。

  方也是一位数据挖掘(Data Mining)领域的专家,他说:“在最近几年里,我们看到与匿名电子邮件有关的网络犯罪数量不断上升。”警方通常会使用确定IP地址的方法来寻找嫌疑人,但往往一个IP地址的使用者可能有多个。方的团队就是要开发出一种足够可靠且能够用于官方调查的身份识别技术,能够在使用同一个IP地址的人中找出发送特殊邮件的人。

  这种创新的身份识别技术建立在言语识别(Speech Recognition)和数据挖掘的基础上,凭借对频繁模式(frequent patterns)的识别进行工作。这种频繁模式是嫌疑人的邮件中独一的特点组合。为了确定嫌疑人是否写了该目标邮件,必须首先在这些邮件中识别出模式,然后再过滤掉那些在其他嫌疑人的邮件中也发现过的模式,剩下的模式对于被分析的邮件的作者来说就是独一的。它们就组成了嫌疑人的“书写纹”(write-print),就像人的指纹一样,是一种独特的标识符。

  方举例说:“假设一封匿名邮件包含打印或语法错误,或者完全是用小写字母书写的。我们就可以用这些特殊的特点来制造一个书写纹。使用这种方法,我们就能以很高的准确度来确定谁写了邮件,进而推断其性别、国籍和教育水平。”

  为了测试技术的准确性,方和他的团队测试了安然公司包含158名员工超过20万封真实电子邮件的邮件数据集(Enron Email Dataset)。采用了10个主题的100封邮件(每个主题10封)作为样本进行测试,结果证明这种身份识别技术可以达到80%—90%的准确率。

  据方说 ,他们的方法可以将确凿的证据呈至法庭使用,调查者也可以向法庭解释他们是怎么得出结论的。