谈谈借阅基于关联规则算法图书馆读者借阅行为学报

更新时间:2024-01-15 点赞:7888 浏览:25341 作者:用户投稿原创标记本站原创

摘 要 用关联规则算法对读者借书数据进行数据挖掘,在挖掘结果中进行读者行为分析,并在此基础上阐述数据挖掘结果对图书馆决策及服务的启示。
关键词 数据挖掘;关联规则;读者行为分析;Apriori算法
1671-489X(2013)03-0077-02
Application of Association Rules to Demand Analysis of Library’s Readers//Bai Han
Abstract In this paper, the author tells us how to realize the association rules algorithm to readers of data mining. Then the author analyse the results of mining and respectively expounds the data mining of library decision-making and service enlightenment.
Key words data mining; association rules; readers behior analysis; Apriori algorithm
图书馆的服务对象是读者,图书馆的各项工作也是围绕读者展开的,因此,工作人员需要尽可能地了解读者的行为,并基于这些行为对图书馆工作进行调整。图书借阅是图书馆最传统的职能之

一、读者与图书馆之间的交互最常用的功能就是图书的借还。

关联规则算法最典型的就是超市的购物篮分析,超市通过顾客购买商品的数据,可以得出一些对于超市非常有用的信息,对超市的商品排架、宣传等具有非常重要的意义。对于图书馆而言,这些信息一样非常重要。本文借用购物篮分析原理,采用Apriori算法对读者借阅行为进行关联挖掘分析。
1 Apriori算法
Apriori算法是迄今最有影响的挖掘布尔关联规则频繁项集的关联规则算法。该关联规则在分类上属于单维、单层、布尔关联规则。
算法主要分成两步:首先,找出数据中所有的频繁项集,这些项集出现的频繁性要大于或等于最小支持度;然后,由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度。算法的总体性能由第一步决定,第二步相对容易实现。
第一步主要是基于Apriori性质:频繁项集的所有非空子集都必须也是频繁的。因此,这一步主要由连接和剪枝两个过程组成。
连接:频繁项集Lk-1与自己连接产生候选k-项集的集合Ck。假定事务和项集都按字典次序排序。连接Lk-1Lk-1,Lk-1中的l1和l2项是可连接的,如果(l1=l2)∧(l1=l2)∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]剪枝:若一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选集不可能是频繁的,可由Ck中删除。Ck可存在hash-tree中。
第二步由频繁项集产生关联规则:对每个频繁项集l,产生l的所有非空子集;对l的每个非空子集s,如果,则产生规则“s=>(l-s)”,min_conf是最小置信度。
2 数据准备
数据挖掘应该选择多大的样本比较合适,这是一个困扰很多数据挖掘从业者的问题。样本数据量大,得出的关联规则更具有普遍性,但是却忽略了个性的特点,而恰恰是这个个性化的内容,才是本章数据挖掘结果的亮点所在。因此,本文选取北京师范大学珠海分校工程技术学院工业设计专业一个班级115名学生作为样本。
ALEPH 500里对读者流通有关的数据有z36(在借信息表)、z36h(借阅历史表),通过SQL语句得出原始数据,简单处理后得到数据格式如下:
B1018050002 J214
B1018050002 K837
B1018050005 TP39
B1018050006 I247
B1018050006 I247
B1018050007 TP39
B1018050007 B81
B1018050007 J214
B1018050007 TP39
…………
因为关联规则算法要求数据属性间相互独立,要构建适合算法的数据模型,对数据进行排序、筛选,得到的数据格式如表1所示(部分)。
3 结果分析
将最小支持度设为0.5,最小置信度设为0.9,最大置信度设为0.93,关联规则数量设为5,通过计算得到结果如下:
Best rules found:
1)B825=O13=74==>TS93=69 conf:(0.93)
2)B825=O172=72==>TP31=67 conf:(0.93)
3)J218=77==>TS93=71 conf:(0.92)
4)O172=75==>TP31=69 conf:(0.92)
5)TH12=72==>TP31=66 conf:(0.92)
从获得的关联规则,得出结论:
1)同时借阅B825(个人修养)和O13(高等数学)类图书的学生,有93%的可能会关注TS93(工艺美术制品工业)类的书;
2)同时借阅B825(个人修养)和O172(微积分)类图书的学生,有93%的可能会关注TP31(计算机软件)类的书;
3)借阅J218(各种画技法:按用途分)类图书的学生,有92%的可能会关注TS93(工艺美术制品工业)类图书;
4)借阅O172(微积分)类图书的学生,有92%的可能会关注TP31(计算机软件)类图书;
5)借阅TH12(机械设计、计算与制图)类图书的学生,有92%的可能会关注TP31(计算机软件)类图书。
4 小结
1)该专业学生较为关注个人修养及心理学(B8)、素描、速写技法(J214)、数学(O1)、计算机软件(TP31)、机械设计(TH12)类图书,这些图书类别与该专业的专业性质有较强的关联性,由此可见,读者借书范围仍局限在专业范围内,对于课外阅读涉猎较少。
2)通过数据挖掘的结果,得到一些有趣的发现:读者借书种类与所在专业直接相关;学生更关注与课程表上课程相关的图书;所得的关联规则与学生的课程表直接相关;设计类专业的摘自:毕业论文范例www.618jyw.com
学生会更关注个人修养类(B825)图书;大一学生对英语类图书的关注不及大

二、大三的学生。

3)该专业学生借书数目最多的B825、J214、TP39、I247、TB47类图书,而这几类图书因为图书馆建筑结构等原因,被分在3个不同的阅览室,这样该专业学生要想看到自己想要的书,就要跑3个不同的地方,这从根本上违背了阮冈纳赞提出的图书馆五定律之一的“节省读者的时间”。那么,如何改善这种状况就成为北京师范大学珠海分校图书馆面临的一个重要课题。
4)将数据挖掘的结果提供给本馆负责该院的学科馆员,能更有针对性和目的性地为读者提供信息推送服务,提高图书馆学科服务的质量。
参考文献
Han Jiawei, Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社,2008:150-167.
Pyle D.业务建模与数据挖掘[M].北京:机械工业出版社,2005.
[3]Soman K P, Diwakar S, Ajay V.数据挖掘基础教程[M].北京:机械工业出版社,2009.
相关文章
推荐阅读

 发表评论

共有3000条评论 快来参与吧~