数据挖掘读书笔记Chapter6FrequentPatternMining frequent flyer

第四章、第五章,和数据仓库、联机分析处理、数据立方体有关,只是粗略地翻了翻,暂且跳过。这学期选了门Databases的课,有一本TransactionsInformationSystem要读,加上上课、做Project,希望能把自己在数据库上的基础打牢。
第六章,FrequentPattern,挖掘频繁模式
(1)主要问题是,寻找经常在一起出现的itemset。有多经常?使用约束指标:支持度(support),置信度(confidence)。一些有意思的特性:如果一个itemset是frequent的,那么它的subset也是frequent的。由于subset实在太多了,我们引入closedfrequentitemset概念。
(2)算法Frequentpatternmining的算法:Apriori算法:先算size为1的频繁itemsetL1,然后由L1构建L2,再逐次往上构建。其中,构建Lk只需要L(k-1)就可以了。源于这么一个性质:如果一个集合不能通过测试(足够frequent),则它的所有超集也不能通过测试。这属于一种反单调性(antimonotone)。这个算法看起来还是很直接很暴力的,但是它work而且makesense。原始的算法效率低,可以通过诸多方法优化。一个性能更好的算法FrequentPatternGrowth(FPGrowth)。构建频繁模式树,使用最不频繁的项作后缀,降低搜索开销。
Apriori和FPGrowth都是使用水平数据集操作的,{Transaction_ID:itemset}。数据可以用另一种方向来表示:{item:Transaction_ID_Set},右边是所有包含这个item的transactions,称为垂直数据格式,verticaldataformat。使用垂直数据格式也可以进行frequentpatternmining,其中主要是进行集合取交的运算,为了提高效率,可使用差集的表示技术。
(3)模式评估只使用support和condifence会有误导性。书中提出了更多的相关性度量:卡方,提升度,全置信度,最大置信度,Kluc,余弦。我们需要注意零事务(null-transaction),是不包含任何考察项的事务。有的度量指标受零事务影响很大,不是null-invariant零不变量,全置信度,最大置信度,Kluc,余弦是null-invariant,卡方和提升度则不是。书中还引入了不平衡比。总之,由于大型数据集常有大量的null-transaction,所以我们要考虑零不变性,以上各种度量中,推荐Kluc和不平衡比配合使用。


数据挖掘读书笔记Chapter6FrequentPatternMining frequent flyer

  

爱华网本文地址 » http://www.aihuau.com/a/25101014/217175.html

更多阅读

转载 读书笔记-《刘太医谈养生》一 刘太医谈养生

原文地址:读书笔记-《刘太医谈养生》一作者:黑不白病人是相信医生的;但是如果庸医杀人,那么病人就会人财两空。世界上没有一个病人,认为自己使用的治疗方法是错误的。但是为什么有些时候,事与愿违呢?比如,高血压的病人,认为吃降压药是胜劵在

转载 《甘地自传》读书笔记 莫 甘地自传

原文地址:《甘地自传》读书笔记 莫作者:hui_ting1979一个人如果想要改造别人,就不应该同时和被改造者保持过于亲密的关系。朋友是相互影响的,在友谊中是不会有轻易改造任何一方的机会的。我以为一切排他性的亲密友情都应当避免,因为人容

《谈谈辩证法问题》的读书笔记 谈谈辩证法问题读后感

《谈谈辩证法问题》的读书笔记列宁认为,对于客观事物分为矛盾对立和联系统一的两部分的认识是马克思主义辩证法的实质。这个科学的命题可以由科学的经验事实来予以证明。他列举了客观自然界和人类社会的典型例证进一步说明了这一点

声明:《数据挖掘读书笔记Chapter6FrequentPatternMining frequent flyer》为网友讨你半生分享!如侵犯到您的合法权益请联系我们删除