| 网站首页 | 校园文化 | 视频在线 | 搞笑图片 | 廊坊师院 | 师院风光 | 商家联盟 | 关于我们 | 下载 | 学习考试 | 创业管理 | 求职相关 | 实用文档 | 留言 | 
您现在的位置: 廊坊师范学院最大网络交流平台 >> 实用文档 >> 师院论文 >> 计算机论文 >> 计算机应用 >> 文章正文 今天是:
超市事务数据库挖掘关联规则的设计
作者:佚名 文章来源:不详 点击数: 更新时间:2007-9-12 23:36:07

摘要:现在全球经济发展正在进入信息经济时代,各种形式的信息大量地产生和收集导致了信息爆炸,如何采用基于关联规则的数据挖掘技术发现超市事务数据库中的关联规则是本文所研究和探讨的重点。

关键词:数据挖掘  电子商务  关联规则

1引言
目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注。我们可以利用数据挖掘技术从海量数据中发现有用信息,帮助商家了解客户以往的需求趋势,并预测未来,从而给商家带来巨大的利润。在数据挖掘领域,采用关联规则在大型事务数据库中进行数据挖掘是一个重要的研究内容。关联规则是美国IBM  Almaden  Research Center的Rabesh  Agrawal等人于1993年首先提出的KDD研究中的一个重要课题。关联规则挖掘的一般对象是事务数据库,这种数据库的主要应用在零售业,比如超级市场的销售管理。关联规则就是发现事务数据库中不同商品(项)(Item,指事务中的内容,比如,面包、牛奶等都是项目)之间是否存在某种关联关系。通过这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。
2关联规则描述
目前关联规则挖掘主要考虑支持度和置信度两个阈值。设X是项集,T是数据库DB中的任意一个记录。X的支持度是指支持X的记录数与全体记录数的比,Support(X)=|{T| T X,T∈DB}|/|DB|。蕴涵关系X==>Y在数据库DB中的置信度是指同时支持X和Y的记录数与支持X的记录数之比,即:Confidence(X==>Y)=|{T| T XY,T∈DB}|/|{T| TX,T∈DB}| 支持度可理解为在DB中随机抽取一个记录,该记录同时支持X和Y的概率。置信度可理解为在支持X的记录全体中随机取一个记录,该记录支持Y的概率。
3发现关联规则的操作步骤
目前,由于条码技术的发展,顾客在超市中购买商品的信息可以很方便的被存放在数据库中,针对数据库中大量的数据,我们如何发现它们之间存在的关联是本文主要讨论的问题。关联规则的挖掘问题就是在超市事务数据库DB中找出具有用户给定的最小支持度和最小置信度的关联规则。关联规则的挖掘对市场调节和争取顾客方面的应用是极有价值的。因此,有必要采用快速算法从超市事务数据库中挖掘关联规则。由超市事务数据库发现关联规则挖掘可以分以下两步完成:
1)找出超市事务数据库DB中所有大于等于用户指定最小支持度的项目集,具有最小支持度的项目集称为频繁项集。
2)利用频繁项集生成所期望的关联规则,即这些规则必须满足最小支持度min_supp和最小置信度min_conf。
事实上,第一步的任务是迅速高效地找出超市事务数据库DB中全部频繁项集,数据挖掘所面临的最大的挑战是计算效率问题,解决这一问题的途径是产生高效的数据挖掘算法,但从超市事务数据库中产生频繁项集即费时又占用空间,所以说第一步是关联规则挖掘的核心问题,是衡量关联规则挖掘算法的标准。当找到所有的频繁项集后,相应的关联规则将很容易生成,目前大多数的关联规则挖掘算法研究是针对第一步而提出的,本文重点讨论第一个问题。
4由超市事务数据库发现关联规则的总体设计
在现有的不少关联规则发现算法中,最著名的仍然是R.Agrawal本人在他们自己的AIS算法基础上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“频繁项集的所有非空子集都必须也是频繁的”这一定理对事务数据库进行多遍扫描。
众所周知,对数据库的扫描伴随繁重的磁盘I/O任务,Apriori算法中,扫描次数较多,这样就大大限制了挖掘算法的速度。因此,在实际的应用中,减少对事务数据库的扫描次数,有效地减少数据的吞吐,将会有效提高算法的效率。为了高效率的由超市事务数据库中发现关联规则,本系统在Apriori算法的基础上采用基于划分的算法。该算法只对事务数据库DB扫描两次,大大减少了I/O操作,从而提高了算法的效率。
通过划分方法进行数据挖掘的过程如下图所示:
本系统的总体设计包含三部分:
(1)      在服务器端第一次扫描超市事务数据库中的表,按照超市事务数据库中不同项集的数量,以及兼顾客户端计算机硬件配置,对其进行数据分块,分块的大小选择要使得每个分块可以被放入主存。
(2)      在各个客户端计算机上,利用并行技术分别访问服务器上的数据分块,求出各数据分块所对应的局部频繁项集,并将所求局部频繁项集存入服务器的一个指定表中。
(3)      在服务器端,汇总各个分块数据生成的局部频繁项集,第二次扫描超市事务数据库中的总表,最终生成全局频繁项集。
系统的总体设计可以如下图2 应用程序总体设计所示。
一旦由超市事务数据库DB中的事务找出频繁项集,由它们产生强关联规则是直截了当的。所谓的强关联规则是指满足最小支持度和最小置信度的规则。
5结论
随着计算机硬件的降价,利用并行处理的思想,划分的数据块分给多个处理机并行计算各数据块的局部频繁项集,然后各分块所求的局部频繁项集汇总到服务器上,再次扫描数据库最终求出全局频繁项集。这种将关联规则挖掘算法与并行处理相结合的方式能更大的提高算法的效率。今后,如何能够更有效的提高关联规则算法执行的效率,怎样设计更有效、更实用的算法,是我们进一步需要思考的问题。


 
参考文献
1.Jiawei Han Micheline Kamber著. 范明,孟小峰等译 .《数据挖掘概念与技术》(Data Mining Concepts and Techniques).机械工业出版社.2001,8
2. Agrawal R,Srikant R.Fast algorithms for mining association rules[Z].Proc. Of the 20th VLDB Conference Santiago,Chile,1994.`
3.铁治欣, 陈奇, 俞瑞钊. 关联规则采掘综述. 计算机应用研究 . 2000,01.


文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 【字体: 】【发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
     

    高校无厘精彩推荐
    固顶文章 校花扎堆!大学男生最向往的女生
    普通文章 有调查称女大学生未婚同居者62.4
    普通文章 网友公认纯美校花 今成为北影大一
    普通文章 大学各系的接吻方式
    普通文章 中国高校十大荒唐事件 从象牙塔到
    普通文章 “图说八荣八耻”宣传画进校园
    普通文章 图文:大学校园内的性学讲座
    普通文章 中国青年DV大赛-激扬互动视界
    普通文章 男子在校园内放飞99只蝴蝶求爱
    普通文章 让女生流口水的绝版帅哥

    高校动态
    固顶文章 廊坊师范学院2007年本科新生入学
    普通文章 大一新生流行高校论坛虚拟报到老
    普通文章 两名在校大学生借环保公益广告创
    普通文章 北大学生告微软侵隐私 称其程序收
    普通文章 贫困大学生因恋爱心理扭曲 持枪杀
    普通文章 大学四年,我没有谈过一次恋爱
    普通文章 大二学生对话新生:恋爱放纵不是大
    普通文章 大学新生军训强制女生剪短头发遭
    普通文章 大学新生军训强制女生剪短头发遭
    普通文章 找关系开发人脉 85后大学新生打探

     

    最 新 热 门 最 新 推 荐 相 关 文 章
    Spring框架的事务管理应…
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    | 设为首页 | 加入收藏 | 关于我们 | 友情链接 | 发展历程 | 用户留言 | 管理登录 | 
    420Studio