文献信息检索效率研究


 
摘自:http://blog.163.com/gjhhzq@126/blog/static/24230808200841795133611/
引言:从人类进入二十一世纪以来,网络功能的日趋完善以及网络用户的快速增长,特别是现在高校内大学生计算机的拥有量飞速上升,互联网络改变着人们工作和生活的方式。但是也正是由于网络的普及,致使网络上的信息纷繁复杂,信息分类不规范等原因,在一定程度使信息用户在浩如烟海的信息海洋中不能迅速、准确地找到具有较高价值的信息。从情报学领域来看,“信息”用户是目前研究最多的领域,探究网络用户信息查寻、选择、吸收和利用行为,也迅速成为人们关注的焦点。只有深入了解和分析网络用户信息行为,才能发现网络用户信息获取行为的特点及障碍因素,才能更有针对性的开展信息用户教育,并利于信息管理工作的开展。
    从引言中我们也看出了,网络对于当代人们生活特别是在校大学生所产生的巨大作用,所以我的论文重心主要依托网络进行相关信息资料的调研和分析并把调研的重心放在网络文献信息检索方面的研究部分。
1 影响文献信息检索效率高低因素是多方面的,下面我们将对其每个方面的因素进行相关分析与讨论:
11 计算机网络设备的性能指标分析 这个问题可以两个角度对其进行讨论,从数据库开发者的角度来讲主要是看系统开发的完善性和运行的稳定性,这是此因素中的决定性因素;从客户端来讲主要是看用户界面的友好度及系统的高配置及简洁易用性、快速高效性,当然网络的好坏也会影响其在信息利用过程效率。
12 文献信息提供单位在软件服务方面的周全性、数据库检索的便利性、相关的配套软件以及文献信息的全面性,特别是文献信息分类的专业性都是决定文献信息检索效率高低的因素之一。
13 信息用户检索能力和方式 用户的文献信息检索能力的专业化和非专业化是决定检索效率的一个至关重心的因素,专业程度的高低就会影响信息用户检索方式的不同,自然会得到有价值信息的多少也就各有所异了!
从信息用户的角度来考虑这个问题是我的论文所讨论的重心,原因有二:
一、虽然网络信息分类法具有一定的不成熟和无序性,但是大体上还是比较完善的,特别是网络数字图书馆的相关数据库的开发;再就是机器配置性能的提高以及互联网的迅速发展;
二、信息用户对文献信息检索的了解程度是影响他们的检索效率高低的关键所在,所以我们调查研究的重心主要放在了信息用户的这一个角度上。
2、解决检索结果过多过杂的问题,目前有多种方法:
2.1 是通过各种方法获得用户没有在检索时表达出来的真正目的,包括智能代理跟踪用户检索行为,分析用户操作模型;
2.2是用文本分类技术,将结果分类,使用可视化技术显示分类结构,用户只浏览自己感兴趣的类别;
2.3是进行站点聚类或内容聚类,减少信息的总量,从而有利于从大量返回结果中找到用户所需要的信息;
2.4是支持自然语言检索,这也是基于网络智能的基础之上的;
3、电子文献检索工具建设的类型
3.1 电子文献检索工具及其数字资源:计算机检索作为网络环境下文献信息检索的现代化手段和科学方法,以它所特有的优越性与先进性(如检索速度快,查全率和查准率高等),把文献检索引领到一个崭新的天地。文献检索的电子文献检索工具已不单是局限于检索工具书、刊而是有电子型的文献检索工具,还有网络型的文献检索工具。各种搜索引擎等,不仅可以方便地利用到书目、索引、文摘等的检索,又可以检索到全文数据库;不仅有实体的光盘等非纸质文献检索工具,又有虚拟的网络文献信息资源。
3.2 书目类检索工具和数据库类检索工具
3.2.1 购买文献检索工具数据库。数据库的购买,要根据读者的需求,根据院校的性质和地区文化特色,有目的地选购相应类型的数据库,以便实现有针对性的服务。数据库的类型主要包括书目数据库、索引数据库、文摘数据库、全文数据库等。
3.2.2 自建文献检索工具数据库。文献检索除了提供一般性的文献检索服务外,还应加强特色文献检索工具数据库建设。自建的数据库可以包括以下几个方面:一是针对院校专业特色、重点学科而建立的专业或专题数据库;二是教师与学生历年教学用书与教学参考书目数据库和全文数据库。三是院校科研成果、学报论文数据库。四是地方特色书目及全文数据库。五是建立校各系部各专业的推荐参考书目数据库。
3.3 网络检索工具很多、很方便。对于网络检索工具的建设,着重要做的是下载、收集、整合工作。可在数字图书馆的主页上专门设置“虚拟馆藏检索工具”项目,有目的地选择集中一些功能强大,方便实用的网络检索工具。如:类似Google、百度、3721等搜索功能强大的搜索引擎和与教学科研密切相关网站的链接工作,或下载安装好常用数据库的阅览器等等。让有限的馆藏检索工具和无限的网络检索工具共同构成文献检索室文献检索服务的坚实基础。
4 综合分析以上的信息和相关的调查信息等我得出以下几点结论:
4.1文献信息归类的确切性和一致性;其确切性是指文献信息在分类体系中位置的适当性;其一致性是指在某分类原则在一定领域的统一性。
4.2 最好严格执行国家公布的文献信息分类标准和准则;如《中国图书分类法》和《中国分类主题词表》等。
4.3 主题分析的精确性;要使文献信息主题尽量反映文献信息的本质。
4.4 更好的将文献信息检索融入到现代计算机网络中来;
4.5培训文献信息获取者的检索意识;培养学生利用现代化计算机网络工具进行文献信息检索的意识,如开设文献检索课、在在实践中系统地了解并运用文献信息检索的方法与技巧。
4.6针对相相关专业信息进行相关检索能力培训;如采用专题报告、讲座、宣传等形式帮助读者了解文检索相关内容,并交流文献信息检索的细则、方法、技巧等。
综合分析网络和信息的相互关系,我们可以看出在这样一个信息充斥着人们生活的社会中,文献信息检索对于信息用户是多么的至关重要呢!为此,我选择了这个课题作为我论文的题目,希望能为相关人士提供参考信息。
穆尔斯曾经说到:“一个检索系统,如果是用户在获取信息时比不获取信息时更费心更麻烦,这个系统将不会利用。”所以要使一个信息系统能为人们更好的利用,检索系统质量的高低是至关重要的,但是检索系统的评价只能从系统的检全率和检准率这两个主要的性能来评价,为此我进行了如下的分析和调查。
选择此研究目的的原因:
1、研究背景
1.1现在已经步入信息经济时代,所以信息的获取对于现在的人们具有至关重要的作用;
1.2检索工具的种类繁多、功能各异,检索工具的选择和检索方法的应该对于检索效率起着非常重要的作用;
1.3专业信息检索人员和非专业检索人员的信息获取存在的巨大差异性;
1.4在校大学生对于相关专业信息的急切需求与获取信息相对困难的矛盾性;
1.5传统图书馆信息获取效率不高及电脑在大学生中的普及引起大学生对数字图书馆的极大兴趣,但是存在着检索方法的不完善性;
1.6信息检索效率的高低关系到我们能否及时高效的获取有价值信息;
1.7文献分类不规范,编目著录数据格式不统一,成为数据库向网络发展的一大障碍。
2、研究目的:为了使网络搜索引擎信息搜索查准率有所提高、数字图书馆资料安排选择更为合理提供一些相关资料;同时也为信息用户特别是在校大学对数字信息的利用更为充分合理,并能及时找到所需要信息提供一些相关的帮助!一个快乐分享给另一个人就是两人快乐,同理,一个有价值的信息分享给更多的人就是更多人的有价值信息。
3、研究对象和研究环境:研究对象主要是在校大学生及其对于高校数字图书馆的利用,最主要是的检索方法的选择和检全率、检准率等相关问题分析等等。研究的环境:我校拥有多种国内外数字图书馆如超星数字图书馆、万方数字图书馆、维普数字图书馆、CNKI等,并且校园网络访问速度的快速(仅限于校园内用户),在校大学生对于数字图书馆的依赖性不断增强如论文的写作、丰富个人知识及其他兴趣爱好等使用数字图书馆比利用传统图书馆具有更快捷方便的特性,再就是计算机在大学生普及率相不高,几乎每1.3人一台,这就使得大学生通过网络访问数字图书馆具有一种极大的可能性。
4、同类研究分析:4.1 网上搜索引擎的利用情况和网上信息检索检索效率分析     4.2 数字图书馆文献资料的利用情况和文献资料检索效率分析
5、研究假说:总假说:“信息检索专业培训将提高文献信息检索效率”
子假说:1“信息检索专业培训将提高人们对文献信息性质和作用的认识”
 研究问题1有没有接受过信息检索专业培训的人是否在对文献信息的性质上认识有差异?
研究问题2接受过信息检索专业培训的人对文献信息性质的认识是否更准确?
3有没有接受过信息检索专业培训的人是否对文献信息的作用认识有差异?
研究问题4:接受过信息检索专业培训的人对文献信息作用的认识是否更准确?
子假说2“信息检索专业培训将提高人们文献信息检全率和检准率”
研究问1:有没有接受过信息检索专业培训的人是否在文献信息检全率上有差异?
研究问题1-2:接受过信息检索专业培训的人文献信息检全率是否更高?
研究3:有没有接受过信息检索专业培训的人是否在文献信息检准率上有差异?
研究问题1-4:接受过信息检索专业培训的人文献信息检准率是否更高?
子假说3 “信息检索专业培训将节约人们文献信息检索的时间”
研究问题1-1:有没有接受过信息检索专业培训的人文献信息检索所用时间是否有差异?
2接受过信息检索专业培训的人检索文献信息时所花费的时间是否更少?
6、研究方法的选择:由于单独的一种调查方式不能很好的反应我们所想得到的结果,因此,为了能得出更准确的、有实际意义的调查结果我选择了多种调查方式,本次研究调查主要采用了以下几种调查方式:
61 社会调研研究方法 主要是采用问卷调查和访谈调查两种方法
62 观察研究法 采用直接观察和间接观察两种方式
7、研究工具:
主要是使用校园网蓝色星空BBS、百度、调查表、访谈提纲、办公自动化软件。
8、研究过程安排
8.1 调查过程规范
8.1.1调查目的的明确和假说体系的建立;
8.1.2调查过程中所使用概念及相关术语的诠释;
8.1.3调查过程中的应遵循的规则: 网络虚拟信息与现实社会访谈并举、调查过程中提问方式的简洁及不能有意引导并举、问卷发放目的的限定性、各项费用的节约性;
8.1.4调查程序安排:1) 网络文献和相关纸质文献的信息了解;
 2) 调查问卷及访谈提纲的设计
3) 具体的调查、访谈以及过程观察信息的记录和总结
4) 对调查到的信息进行选择和鉴别     5) 通过SPSS软件进行相关信息分析
6) 将分析数据进行再加工进行保存     7) 课题研究的最终总结
8.2 具体调查程序说明: 8.2.1 调查过程的整体时间限定:5月份和6月份
 8.2.2 调查活动的具体时间安排:
网络文献和相关纸质文献的信息了解------------------------5.15以前
问卷设计及访谈提纲设计---------------------------------------5.155.31
具体的调查、访谈以及过程观察信息的记录和总结-------6.016.03
对调查到的信息进行选择和鉴别-------------------------------6.046.10
通过SPSS软件进行相关信息分析-----------------------------6.116.12
将分析数据进行再加工进行保存-------------------------------6.13
课题研究的最终总结----------------------------------------------6.14
8.3 对被调查对象进行调查的具体方法:调查问卷的发放
 面谈及网络访谈(主要是利用QQ)
 网上数字图书馆登陆人数及传统图书馆的人数流量观察
8.4调查程序安各项活动具体调查制作工具以及记录方式:
1) 网络文献和相关纸质文献的信息了解; 使用工具:网络文献主要通过百度、川大数字图书馆、川大东区文理图书馆;记录方式:网络文献主要采用WORDCAJ格式,其他采用传统纸笔记录。
 2) 调查问卷及访谈提纲的设计:使用工具:MICROSOFT OFFICE系列工具、记录方式:WORD
3) 具体的调查、访谈以及过程观察信息的记录和总结:使用工具:联网电脑一台、聊天软件、相关调查问卷及访谈提纲文件  记录方式:WORD、传统纸笔
4) 对调查到的信息进行选择和鉴别:主要是人式进行调研信息的选择和鉴别
5) 通过SPSS软件进行相关信息分析:使用工具:办公电脑一台、SPSS软件
 记录方式:WORD
6) 将分析数据进行再加工进行保存:使用工具:信息存储数据库
 记录方式:关系模型记录并附带WORD说明
7) 课题研究的最终总结  使用工具和记录方式均为WORD
8.5 成本预算:时间成本:45天左右(时间无价、作业需要)
 经济成本:上网费:7元(因主要利用校园网)   问卷打印费:5
电脑损耗费:0元(自己电脑不做计算)     办公软件费:0元(网上下载安装)
 其他费用:无从讨价      合计费用:≥12
 8.6 调查人:于海洋
9、研究项目讨论
 有了好的系统如果不懂得利用,那可就是人类最大的悲哀!现在信息社会飞速发展,网络文献信息的检索手段也是目新月异,如果我们不学习一些相关的检索知识,那我们的知识涉猎的范围就太狭小了,但是我们却不知道我们自己已经身在井底了,所以我就此机会做一些有关文献利用及检索效率的调查并进行相关的分析,以为我们信息获得的方式增加一些新的观念,特别是也可以为数字图书馆的开发者们提供一些数据库的更新升级提供一些参考意见.总而言之也就是在信息的社会使大家更能切身的体会到信息共享给我们带来的伟大快乐!
10、参考文献
杨兴菊.文献分类编目规范化与文献检索的探讨.中国医学图书情报杂纪录志,2003,(12)36-37
喻华林.网络用户信息查寻行为研究.机电产品开发与创新,2006,5:107-108
胡自玲.网络环境下文献检索室检索工具建设之我见.科技情报开发与经济,2005,(15):59-60
洪丽.浅析高校文献检索课的现状与教学改革.科技情报开发与经济,2006,(16):252-253
韩改样.浅谈《中国学术期刊(光盘版)》文献检索策略.图书馆,1999,(4):55-57
超星数字图书馆http://book.sslibrary.com/library.jsp
百度搜索引擎http://www.baidu.com
附录:调查问卷——文献信息检索效率调查表:
亲爱的_______你好:
 为了我们能有一个更好的信息获取的平台;为了我们能更方便快捷的获取我们所想得到的信息;为了你能与其他人一起为中国的文献信息服务性献出你的一份力量;为了我们能得到真实有效的调查数据,请你从百忙之中拿出几分钟的时间来完成我们的调查问卷,并请你认真填写,如有不便于回答的问题可以跳过暂不做答,谢谢合作:
1你的学历:A、高中及高中以下 B、大专 C、本科 D本科以上
2你获取信息的动机是什么呢?A生活 B、工作 C、学习 D、其他
3你是否经常上网呢?  A经常 B、偶尔 C、从不
4你通常选择在什么时间上网呢?A上午 B、下午 C、晚上 D、不确定
5你在网上获取信息主要是通过数字图书馆吗?    A B、不是
6你认为在数字图书馆获取的信息互联网上获得的信息更用利用价值吗?
A B、差不多 C、不是
7你认为哪种方式检索信息更方便?
A互联网 B、数字图书馆 C、传统图书馆D、传统情报机构E、其他方式
8你认为互联网和数字图书馆哪个提供的信息更有利用价值呢?
A互联网 B、数字图书馆
9你认为现在数字图书馆收费现代是否合理呢?
A、合理 B、还可以 C、不合理 D、不了解
10你是通常采用的索词为几个?A1 -2 B3 C4 D4个以上
11、你是否经常使用高级检索方式呢?   A、是 B、偶尔 C、不是 
12、你是否使用字段检索呢?  A、是 B、偶尔 C、不是
13、你是经常使用二次检索呢?  A、是 B、偶尔 C、不是
14、你对所检索到的信息通常是查看多少页呢?
   A1 B2-4 C4-6 D6页以上
15、你认为你在数字图书馆检索到的信息能不能满足你的需要呢?
      A、不能 B、基本能 C、完全能
16、你认为数字图书馆提供信息的方式需要不需要改进呢?如果有请写下你的意见:
最后再次表示你对本次调查研究的支持!
调查结果:(由于篇幅的限,我只列举了三位被调查者的填写信息)
调查者A 1C 2C 3A 4C 5B 6B 7A 8B 9
10A 11B 12C 13A 14A 15B
调查者B 1C 2D 3B 4D 5A 6A 7A 8A 9
10A 11C 12C 13C 14B 15B
调查者C 1A 2D 3B 4C 5B  6C 7A 8A 9
10A 11C 12C 13C 14B 15A
调查结果分析:由于本次调查的重心放在了在校大学一的身上,所以反映的状况也有一些不够全面,但是一部分校外人士的参与也可以使我看到一部分对于网络信息的独见解。
本人经过分析得出如下结果:
1接受教育程度的高低直接影响着人们对于网络文献信息的利用程度;
2有没有接受过信息检索专业学业习的人文献信息检索效率存在明显的差异;
3在校大学生对于数字图书馆和网络的利用要明显的优于校外人士;
4不过,从调查问卷中也反应出了一个问题那就是大多数人利用网络进行学习的并不多,多数使用数字图书馆的目的也只是为了作业的需要,而非增加个人知识见识的需要;
5能不能使用高极检索及二次检索直接关系到他们对于网络文献检索结果的满意度;
6现在数字图书馆的建设上存在很多的障碍,特别是网络的飞速发展的同时,数字图书馆的发展速度就显明得格外慢了好多;
7数字图书馆的收费问题也是人们利用数字图书馆的一个门槛;
8现在网络传送速度的局限性,特别是校园网的用户;
9最后要着重提出一点就是上网的动机直接决定着每个上网获取信息的满意度。
访谈调查法:  访谈大纲:
1你认为你获取信息最好的途径是哪些呢?
2你对数字图书馆了解多少呢?
3和网络相比你对数字图书馆是不是有更大的兴趣呢?为什么呢?
4你喜欢在电脑上看书还是看传统的纸质文献呢?
5你认为互联网的信息和数字图书馆的信息哪个对你更有帮助呢?
6你从网上检索到信息是不是大都符合你的要求呢?
7你通常得到信息是只浏览一下呢?还是要仔细的研究每篇文章呢?或者是有选择的阅读呢?
8如果从数字图书馆里下载到一本资料你会不会看完它呢?
9你认为对数字图书馆的利用存在哪些不方便呢?
  访谈记录:
由于篇幅的限制我在这里只能就将一个具有代表性的访谈记录发上来以供参考:
1你认为你获取信息最好的途径是哪些呢?
我认为获得信息最好的途径就是从网上查找,有什么问题都可以从网上搜索到的!不过那些信息并不是为了什么学习,只是消遣而已,如果谈到学习什么知识的话我还是会选择到图书馆(传统图书馆)去借阅相关资料的!
2你对数字图书馆了解多少呢?
说到对数字图书馆的了解我并不知识的很多,不过我到是用几个,但是那上面找到的资料只是一部分,文章还好一些,特别是一文书,大部分的数字图书馆都不提供全部内容而只是提供几页,让人感觉就是不舒服!这样做,我觉得数字图书馆是在搞笑,只提供几章的信息还不如不提供呢!
3和网络相比你对数字图书馆是不是有更大的兴趣呢?为什么呢?
如果和网络相对,我认为还是网络更能引起我的兴趣,因为数字图书馆有太多的限制了,麻烦的很!如果说起数字图书馆,它已经比传统的图书馆有很多的先进性了,因为从那上面可以直接下载并拥有信息,不必每天惦记着去图书馆还书,这就是省去了我们好的麻烦!我就是认为数字图书馆有这么一点先进之处!哈哈!
4你喜欢在电脑上看书还是看传统的纸质文献呢?
我还是更喜欢看传统的纸质文献的图书,因为图书看着比较方便,可以随时阅读,最主要是我一到电脑上去就不想看什么书了,我只想在网上玩玩什么,哪里还有什么心情看书嘛!如果我有一个笔记本的话我或许会经常在网上看看书哦!
5你认为互联网的信息和数字图书馆的信息哪个对你更有帮助呢?
应该说是互联网上的信息吧!因为那上面的东西比较多,大不了就多找几篇嘛,而且也不用下载,最主要是上面的信息多,这个网页看不了就换另一个呗,而数字图书馆就不行了,这本书下不了就没有另一本同样的书可供下载了!所以我认为还是互联网的信息对我更有用一些!
6你从网上检索到信息是不是大都符合你的要求呢?为什么呢?
并不是大都,也就只有三分之一符合我的要求!我想好东西总太少了,并具互联网上的信息都是共享的,没有什么利益好图,人家为什么要把自己的成果发布给其他人嘛!不过也有好多的东西是可以用的,必定有好的“黑客”为人家服务嘛!
7你通常得到信息是只浏览一下呢?还是要仔细的研究每篇文章呢?或者是有选择的阅读呢?
这个问题很好回答嘛!每次得到一些信息的时候我当然是无总体上浏览一下嘛,选择一上我比较感兴趣的信息,然后再慢慢的欣赏!
8如果从数字图书馆里下载到一本资料你会不会看完它呢?
我以前也下过几本书,但是已经在电脑里放了一个学期了,一直都没有去看过,虽然看过几眼,但是第二次看的时候总是因为不知道第一次看到哪里也就没有兴趣于找了,所以干脆就不看了!不过在这一段时间内,我到图书馆里去借的书看了一大堆了!
9你认为对数字图书馆的利用存在哪些不方便呢?
我上网不方便,再就是我没有钱所以也就只能在学校里面的校园书上登陆到数字图书馆里面去,如果到了校外我可就没有办法了!就是这么简单!
 访谈法得到的结论为:大多数用户习惯于长期使用某一两个最初被自己所接触到的搜索引擎,大多数用户也是习惯于长期使用一个到两上最初被自己所接触到的数字图书馆,与传统手工检索与联机检索相比,因特网对海量信息的强大检索功能与全文信息的一次性提供能力使用户受益匪浅,深受用户的喜爱.
观察记录
 直接观察法:此方法只能应用于对传统图书馆的观察上,因为我只要抽出一个小时的时间在川大东西文理图书馆进行一个人数统计就可以了,并且操作起来也非常的方便,在人们不自觉的情况下就可以得到很自然的结果,一点也不受利益和其他条件的限制。由于时间的限制,我只做了三天的统计,并且每次只做了十分钟的统计调查:
     6115:50-16:00 进出图书馆人数30
     6215:50-16:00 进出图书馆人数26
       6315:50-16:00 进出图书馆人数45
 间接观察法:此种方法也主要是应用于超星数字图书馆的登陆性的观察记录统计:同样由于时间的有限性,我只做了一天三个时间段的观察分析:
       6310:00-10:10 可以直接登陆
       6315:00-15:10 可以直接登陆(但是网速明显的减慢了好多)
       6320:00-20:10 登陆2次才登陆进去
观察法得到结论为:现在大学生们对于传统图书馆的利用还是比较高的,但是我发现每个人都是抱一堆的书,我就在想,在短短的几个月内能不能看完这些书呢?再就数字图书馆的利用也是可以的,但是人们大都是利用时间有一个高峰时间,其他的时间就有很少人登陆了!不过从登陆的冲突也可以看出,现在数字图书馆仍然存在一些不完善的地方,仍需要相关的数据库建设人员进行改进!
经过上面三种调查方法的详细详查,我经过相关资料的整理,我得出下在几个结论同时也在相关的论文著作那里得到了一些相关印证的信息,我也就以此作为我论的一个结束语好了:
用户多倾向采用单一的检索词。通过对用户使用中国期刊网和Google搜索引擎时的检索行为的研究,发现90%左右的用户输入的中文检索单字为2-6个,其中2字词居多(占58%),其次为 4 字词(18%) 3 字词(14% )。过少的检索词无法与数据库中的标引词产生关系,从而会影响用户需求的满足;
用户通常使用简单的检索策略,很少使用布尔逻辑检索、限制性检索。斯宾克(A?SPINK)等人发现,仅有51.24%的检索式中包含有布尔逻辑算符.
用户对结果信息的查看趋于粗略。詹森(BJ?Jansen)等人对Excite搜索引擎的研究有些相似:58%的用户只查看检索结果的首页,用户每次检索平均查看2135个结果页面;
综合结论:经过以上的调查和方法的比较研究。如何减轻因特网用户信息检索行为中的认知负担,作好信息过滤或自动词汇推荐等服务,更好地满足用户的信息需求,是新一代网络文献信息检索系统必须思考的课题。
Over
 
                      :于海洋
 
                      完成于2006.6.19