与以往相比,医学网站让用户有更多机会接触到综合的保健和医疗信息。但是,如果用户在网站搜索中使用不明确或非传统的语言来描述情况,那么医学网站的实用性就会受到限制。然而,乔治亚理工学院的一组研究人员发明了一个“机器学习模型”(machine-learning model),该模型可以让医学网站来“学习”方言和其他医学俗语,让使用方言和专业术语的用户更快找到所需内容,从而提高网站性能。
该系统叫做“diaTM”(是dialect topic modeling的简称),它通过比较不同等级的专术语言的医学文件而进行学习。在比较足够多的文件后,diaTM最终能学会哪种医疗状况、症状和程序会和方言词语句子相联系。这样就能缩小有健康问题的用户和他们寻求答案的医学网站之间的“语言差距”。
“语言差距似乎是医学领域里最大的问题。为该领域提供一个解决方案将会对维护和提高人们的健康产生深远的影响。” 乔治亚理工学院的教授查宏远(音译Hongyuan Zha)说到。
斯蒂芬·克雷恩(Steven Crain)是乔治亚理工学院计算机科学的博士,也是diaTM论文的第一作者。为了在不同模式的医学语言中对diaTM进行教育,克雷恩和他的同事研究员不仅从WebMD(提供实时可靠的保健和医疗新闻信息的网站)调出可使用的文件,也从雅虎上搜集资料。问答网站(Answers)、文献服务检索系统(PubMed Central)、疾病控制中心和预防网站(Centers for Disease Control & Prevention)以及其他的资源都是研究人员查找资料的来源。在加工足够多的文件后,克雷恩说,diaTM能够学会像“粘性物质”(gunk)这样的词语,并且它能够适当处理用户的搜索中包含“粘性物质”词语的情况。
研究人员在最初的研究中使用小规模的实验,他们发现,diaTM在nDCG(Normalized Discounted Cumulative Gain,一种对搜索引擎或相关程序有效性的度量。假设:强相关的文档出现在结果列表越靠前,也就是等级越高,越有用。强相关文档比弱相关文档有用,比不相关文档有用)中提高了25%。査弘源的研究主要集中在网络搜索引擎和它们相关的算法,他表示,在nDCG中能做到5%的提高就已经是“意义重大”了。
“diaTM能算出足够多的语言关系,随着时间的过去,它完成的相当好。”克雷恩说到, “另一个好处是,我们不是在做就字论字的工作,因此‘粘性物质’这个词没必要非得和‘释放’(discharge)联系在一起,只要它能辨认‘粘性物质’与传染有关就行。”
diaTM也不限制在医学搜索领域。它是一种机器学习技术,同样可以在任何主题相关搜索中应用。除了将diaTM合并到搜索引擎中而与网站连接,克雷恩说,下一步就是发展该模型,这样它就能通过看模式来学习方言,这些模式不从局部角度看问题。例如,通过使用一个相似的算法,他能够自动发现包含短信语言中的方言,但是,这些方言是和成群的与主题相关的词语混合在一起的。
査弘源说,这一特性将会帮助医学网站的普通用户,它可以让用户通过用一个相关性较低的健康词语就能得到他们需要的严肃的医学信息。
diaTM:帮网站提高“学习”能力
评论
5 views