图书馆数字资源访问统计策略研讨
1图书馆数字资源访问统计的现状
1.1典型的研究计划
美国和欧盟针对图书馆数字资源的访问统计已经展开了一些针对性的研究计划,比如,由美国研究图书馆协会资助的e-metric项目、美国多个机构(包括arl、jisc、niso等)资助的counier项目、欧盟telematicsforlibrariesprogramme支持的equinox项目等,这些项目多为研究制定描述电子信息服务和资源的统计指标和绩效测度及其方法。
1.2相关标准
在相关的标准方面,面对新的信息环境和图书馆形态,一些组织开始尝试将新的电子资源绩效评估标准融入原有相关标准/指南的框架。例如niso在2004年批准了图书馆和信息提供者信息服务和利用的测度和统计数据字典(nisoz39.7-2004informationservicesanduse:metrics&statisticsforlibrariesandinfomationproviders–datadictionary),该标准在传统图书馆工作的基础上,还特别增加了网络服务、网络资源、网络运行的新的测度方法,这套数据字典将逐渐纳入美国图书馆统计工作,成为美国图书馆统计工作的参考依据,
icolc1998年制定的《网上索引、文摘和全文资源使用统计测度指南》(guidelinesforstatisticalmeasuresofusageofweb-basedindexed,abstractedandfulltextresources)提供了一套网络化信息资源使用的绩效测度指南。2001年的修订版明确了网络信息使用数据统计的最基本要求,并提供在隐私、保密、获取、传递和报告形式方面的指导。
isoiso/cd11620也在传统服务统计指标的基础上,结合icolc和counter的研究,进行了图书涫数字资源测度及其定义、方法的描述。
1.3国内图书馆数字资源访问统计的研究和应用
国内随着公共图书馆、大学图书馆、科学图书馆系统图书馆评估工作的进行,图书馆界开始逐步重视对图书馆数字馆藏、图书馆数字化信息服务的评估。
参考文献2中提出了数字资源后评估的概念,但是对图书馆数字资源访问统计等后评估的方法和指标体系尚未全面展开评论。一些图书馆自行开发了基于jsp或者asp的图书馆网站访问统计软件,一些数字图书馆系统,如清华同方的tpi、北京拓尔思的trs、浙江天宇的cgrs等等也提供了相应的统计功能,但是尚没有一款商业化的软件针对图书馆的各种类型的数字资源提供一揽子的访问统计方案。
2图书馆数字资源访问统计的方式
2.1web日志方式
web服务器在工作时,时刻将www访问的结果记录在一些log(日志)文件中,通过对服务器日志的分析可以得到以下信息
(1)通过对访问时间进行统计,可以得到服务器在某些时段的访问情况;
(2)对访问者的ip进行统计,从中可以判断主要是那些用户在访问web服务器;
(3)对访问请求的错误进行统计和分析,可以找出有问题的页面加以改正;
(4)对访问者清求的url进行统计,就可以判断出读者对那些页面的内容最感兴趣,对哪些页面的内容不感兴趣。
各种web服务器日志文件的格式和内容大致相同。根据w3c的际准[2],一般web日志都包括诸如用户的ip地址、请求时间、方法(get/post等)、被请求网页或文件的url、发送/接收字节数、协议版本等信息。表1列出了几种不同类型的web日志。
但这些日志文件信息量很大,用户难以直接从log文件获得直观的结果。对日志文件的分析,可以借助一些商业性的或者源代码开放的软件完成。其中比较好的开放源代码的日志分析软件有:awstats、webalizer等。
从日志文件提供的信息进行统计和分析,就可以对整个网站有一个数字化、精确的认识,从而对网站的设计和内容进行改善和调整,使图书馆网站更好地为读者提供服务。
2.2资源提供商提供
数据库的使用情况属于后评估指标,主要用于更新、续订数据库时使用,一般在图书馆购买资源提供商的数字资源时,应该要求由出版商或数据库商提供使用报告,再据此进行各类分析。
目前出版商/数据库商提供的统计报告常用的相关统计指标有:
①检索次数(searfh/query)。用户在某一个数据库中提出检索式的次数。
②登录次数(session/signon)。用户打开某个数据库的次数。
③下载文摘/全文(abstract/fulltextpage/image):用户在某一个数据库中下载到本地客户机中的文摘或全文篇数。
2.3通过网络代理proxy
代理服务器(proxyserver)是一种服务器软件,它的主要功能有:设置用户验证和记帐功能,可按用户进行记帐,没有登记的用户无权通过代理服务器访问internet网,可以对用户的访问时间、访问地点、信息流量进行统计。
2.4利用脚本语言自行开发
通过web服务器的日志可以获得用户访问图书馆网站信息的情况,但是,这种方式需要对日志的格式进行了解,然后用相应的工具软件或者进行一定的开发来完成。还有一种获取网站访问情况的方法是利用asp或者isp等网络脚本语言,利用它们内置的server、session、request对象等获取相关的信息,获取数据进行统计。比如:利用jsp我们可以用jsp的内置request对象的获取参数方法request.getparameter(”userid”),获取用户名;用(request.getremoteaddr)获取访问者的ip地址;通过request.getheader(”user-agent”)获取包含浏览器和操作系统的信息,然后用字符串分割substring方法来分别得到浏览器和操作系统;通过jsp的内置对象session的方法session,getcreation-time返回session被创建的时间,而session.getlastaccessedtime则返回当前session对象最后被客户发送的时间,两者之差为停留时间。
主要分以下几个开发步骤:
(1)确定将要统计的信息;
(2)建立数据库;
(3)实时的访问信息纪录,记录每次点击的信息,包括页面信息、用户信息、访问ip、访问时间;
(4)实时信息的分类存储;
(5)显示方式的选择。可以用windows的表格系统,也可以自行编制表格显示。
利用这种方法相对比较简单,但是可获得的统计指标也有限。
此处内容需要权限查看
会员免费查看4张晓林、宛玲、徐引篪、宋小冬、王欣.国家科学效字图书馆数字资源采购的技术要求.中国图书馆学报.2004(7),14-19
5索传军.论述字馆藏的质量评价.中国图书馆学报,2004,30(152):43-46
6肖珑、张宇红.电子资源评价指标体系的建立初探.大学图书馆学报,2002,(3):35-42