Skip to main content

2015年北京地区高校图书馆数字图书馆年会会议纪要

Posted in

会议主题:大数据支撑下的图书馆服务创新

2015年北京高校图书馆 “大数据支撑下的图书馆服务创新”学术研讨会通知(更新)

Posted in

 

    新技术的发展给图书馆带来挑战的同时也伴随着新的发展机遇。为深入交流北京地区高校图书馆应用信息技术的服务经验,提升北京地区高校图书馆的服务能力,加强北京地区各高校图书馆业务之间的联系、交流和借鉴,共同促进高校图书馆在新技术坏境下的发展和转型,北京高教学会图书馆工作研究会数字图书馆专业委员会将主办2015年北京高校图书馆年度会议。

    2015年北京高校数字图书馆年会由北京科技大学图书馆承办,欢迎北京地区各高校图书馆的同仁报名参会。同时征集会议主题发言和信息新技术应用案例,欢迎大家积极参与。

一、会议主题:大数据支撑下的图书馆服务创新

分主题:

基于Splunk的图书馆资源网站服务效率研究 --------以北京工业大学图书馆为例

Posted in
作者信息
姓名: 
雷东升
学校名称: 
北京工业大学图书馆

Splunk是面向大数据的机器数据引擎,是支持日志聚合、搜索、提取的日志文件管理工具。本文使用的数据库资源访问日志是北京工业大学图书馆数据库资源访问日志,时间是2015年6月1日至7日。通过网站访问的有效性和网站请求未成功访问流量研究数据库服务效率问题,并通过网站服务效率仪表盘对研究结果进行可视化揭示。
北京工业大学图书馆每个数据库资源都有独立的网站。在导入日志后,Splunk将日志数据中“uri_domain”字段标识为域名和端口。每个域名都对应一个数据库资源网站,“uri_domain”字段包含的每个值都代表了一个网站,不同数据库可能包含多个域名,为了分析的方便,本文不对Web日志中的所有域名及其所属的数据库进行具体归纳,只对本文中所使用的部分域名进行说明。
本文将图书馆资源网站服务效率定义为网站对用户请求的响应能力。当用户浏览资源网站页面并向服务器端发出请求时,服务器能够将用户请求的资源成功返回给用户,则用户的访问行为有效,否则为无效。影响用户访问有效性的主要因素是页面访问有效率。
1访问有效性分析
(1)网站返回错误事件数比例
使用Splunk的聚合和搜索功能对状态码大于400的事件进行处理,并对不同页面发生的错误事件数进行统计,使用饼图显示错误事件中每个域名的比例。处理结果如下图1所示:

图1 网站返回错误事件数比例图
(2) 总事件数与返回错误HTTP状态事件数对比

图2 网站总事件数与返回错误HTTP状态事件数对比图
图2中,上方条形图表示每个网站被访问产生的总事件数,下方条形图表示该网站返回错误HTTP状态码的事件数。将上方和下方条形对比后,发现有些网站发生错误次数较多,总事件数在所有事件中占有的比例不大,这样的网站稳定性较差,对用户请求响应的能力不高,其对应的数据库服务效率较低。在用户访问数据库时,页面经常返回错误输出将会影响数据库的使用效率。
2请求未成功流量分布分析
(1) 网站错误HTTP状态比例分布
从网站返回错误事件数可知,所有域名中http://epub.cnki.net产生的错误流量最多,为了对网站的不同错误HTTP状态码进行统计,使用Splunk对域名中http://epub.cnki.net产生的错误事件进行深入细分并用饼状图表出,结果如图3所示。

图3 http://epub.cnki.net错误HTTP状态比例分布图
(2)网站HTTP错误状态码监测
因为http://epub.cnki.net产生的错误流量最多,使用Splunk对域名中http://epub.cnki.net产生的错误事件进行监测分析,把错误事件按照日期对该网站的监测分析,处理结果如图4和图5所示。

图4 http://epub.cnki.net每日请求未成功流量监测条形图

图5 http://epub.cnki.net每日请求未成功流量监测区域图
3数据库服务效率仪表盘及分析

图6数据库服务效率仪表盘
将以上可视化结果综合起来,绘制北京工业大学图书馆数据库服务效率仪表盘,如图6所示。
提高数据库资源网站服务效率措施及建议
(1)合理购买并发用户的限制。
(2)放弃或减少购买使用效率低或访问有效性低的数据库。
(3)改进VPN等远程访问技术。
(4)根据用户的兴趣领域引进相关数据库。用不同的分析方法挖掘用户所感兴趣的学术领域,综合得出热门学科及相关研究领域,引进相关领域数据库资源,提高图书馆经费使用效率。
(5)及时更新数据库链接。当网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误时,会导致原来的URL地址无法访问,此时网站会返回404状态码。
(6)对易出现的错误进行预测,建立合理的网站防护措施。

开发环境(编程环境,开源软件的利用): 
开发环境
应用环境(运行环境,应用范围):: 
应用环境
应用效果(访问量,访问频率等): 
应用效果
开发人员: 
雷东升

基于drupal8的多馆网站设计与开发

Posted in
作者信息
姓名: 
基于drupal8的多馆网站设计与开发
学校名称: 
北京大学图书馆

案例特色
1、我们采用Drupal8建立了北京大学历史学系,哲学系(宗教学系)、新闻与传播学院图书分馆网站。网站采用了Drupal8的多站点模式,同时页面设计兼顾到手机用户的浏览习惯,使用了响应式的设计思路。
2、整个网站也采用了模块化的思想,将分馆的服务、馆藏内容进行了分类整理,从个体服务中提取共性。为我们开发更多分馆门户网站积累了经验。后期再有其他分馆有门户网站需求的时候,只需安装我们积累的模块即可组建新的网站,省去了很多开发成本。同时网站的整体设计也包装成不同的主题,供后续分馆选择。
3、我们此次建站过程中,通过对分馆服务的梳理,整理了一套完善的服务展示图标,使得分馆提供的特色服务让读者浏览网站首页便一目了然。
4、分馆网站还整合了多个外部网站的数据(包括北京大学图书馆主页,学者主页、多媒体平台、新书通报系统、学科服务平台等)从多个层面和角度对分馆的馆藏、服务进行了全方位的展示。

开发环境(编程环境,开源软件的利用): 
Drupal8
应用环境(运行环境,应用范围):: 
Linux XAMPP
应用效果(访问量,访问频率等): 
应用效果
开发人员: 
吴越、徐清白、张元俊

北航教师成果数据库建设

Posted in
作者信息
姓名: 
张国栋
学校名称: 
北京航空航天大学

为完整典藏北航科研教学成果,记录学校科研活动历史,同时为我校教师提供一个学术交流展示平台,我馆于2016年正式启动北航教师成果库建设,2017年5月4日系统正式上线。
教师的科研成果展示是本系统的主要功能。系统建设前期以期刊论文的收录为数据建设重点。收集我校教师产出的绝大部分中英文期刊数据,展现论文收录情况、题录信息(包括篇名、刊名、关键词、摘要等)、论文全文等。并根据实际出版情况,实时新增。对于SCIE收录数据,除收集论文基本信息以外还准确提供论文被引次数,期刊影响因子及分区信息。
由于系统易用性强,用户使用非常踊跃,半年左右,系统总访问量超过147万次,得到了教师和学生的持续关注和广泛好评。由于教师是学术研究的主体,通过该系统还可以以点带面梳理北航学术产出,了解各院系在SCI、SSCI、EI、CSSCI等收录平台的发文情况,为学科分析提供基础性数据。

开发环境(编程环境,开源软件的利用): 
1)编程环境 .NET Framework 4.0,Visual Studio 2013,SQL Server 2008数据库 2)开源软件 Redis,Ormlite,Lucence,ASP.NET Identity,Echart,.NET MVC,Microsoft Insights
应用环境(运行环境,应用范围):: 
1)运行环境 .NET Framework 4.0,Windows Server 2008及以上版本的操作系统,SQL Server 2008及以上版本数据库 2)应用范围 典藏北航科研和教学成果,记录和沉淀机构历史,展现北航教师风采,同时作为机构的一个交流窗口,可为北航其他相关系统提供数据支撑。
应用效果(访问量,访问频率等): 
半年左右,站点总访问量超过147万次
开发人员: 
张国栋 宋爽
同步内容