Skip to main content

基于读者行为模型的图书推荐系统的研究

Posted in
作者信息
姓名: 
彭菲菲
学校名称: 
北京邮电大学

    随着数字图书馆规模的不断扩大,图书数量和种类快速增加,馆藏资源越来越丰富,读者需要花费大量的时间才能找到自己需要的图书。这种浏览大量无关图书的过程无疑会使淹没在信息过载问题中的读者厌烦。

         Web2.0 时代最大的特点就是会对用户的行为会产生一个反馈,比如说:用户喜欢一部电影、一首歌会给用户推荐同类型或者是流行的电影或者音乐。对于数字图书馆,老师和学生借阅了图书之后这种良性的反馈是欠缺的,图书馆存储系统积累了老师和学生的阅读行为的大量非结构化的数据却并没有对这些数据进行深入的挖掘,而这些数据的深入挖掘无论是对数字图书馆事业更好的发展,还是对学生学业的辅助和兴趣的拓展,老师学术研究的帮助都是有着积极有益的尝试。

    个性化服务技术为数字图书馆的建设带来一些新的挑战,可有效提高数字图书馆的服务质量和服务效率。如果读者对图书推荐列表中的某些图书没有丝毫兴趣,但是图书推荐系统仍会不断重复的推荐给读者,或者是图书推荐系统仅仅将新到的图书通报给读者,读者会感觉到被骚扰。

更有效的方法是定位读者的兴趣,然后指引读者去选择满足读者需求的图书。

比如,“记录你读过的、想读和正在读的书……

怎样将这样一个想法付诸实践呢?

        1.  解决大数据量存储的问题。

        大规模数据存储要借助NoSQL或云端存储。Web2.0网站的兴起,传统的关系数据库在应付超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库---NoSQL,其应用体系结构的数据存储在上可以满足需求。

        2. 解决非结构化数据的分析和挖掘的问题。

    待处理的非结构化数据与读者兴趣密切相关,通过分析读者显性行为和挖掘隐性行为,为读者提供个性化图书推荐。

    目前应用广泛的推荐方法是基于内容的推荐方法和协同过滤的推荐方法。基于内容的推荐方法就是根据读者过去的浏览记录来向读者推荐读者没有接触过的推荐项。协同过滤算法是目前最为成功的算法,其中,基于读者的协同过滤算法的主要任务是找出读者的最近邻居,从而根据最近邻居的喜好做出未知项的评分预测。协同过滤方法克服了基于内容推荐方法不能为读者发现新的感兴趣资源的缺陷。但依然存在读者兴趣变化、数据稀疏性、读者评分的真实性及差异性等问题。

 

    为解决目前存在的问题,结合基于读者行为的协同过滤算法,首先根据读者信息构建个性化读者行为模型,然后使用Apriori算法,挖掘模型中存在的规则,从而产生个性化图书推荐列表。

    3.解决大数据量运算的问题,要构建并行计算的模型。

 

    通过逐一解决上面的问题,将逐步建立起来一套具有反馈推荐的智能图书推荐系统。这对于学生大学四年有一个良好的指导,步入职场也会有一个好的学习习惯;对于做学术研究的老师和同学,这将是一个更为持续的支持,成为学术之路上的得力助手!

 

开发环境(编程环境,开源软件的利用): 
Eclipse IDE
应用环境(运行环境,应用范围):: 
服务器端:windows server 2003及以上版本
应用效果(访问量,访问频率等): 
测试中
开发人员: 
北京邮电大学图书馆 信息网络部