Rapidminer关联规则和⽂本挖掘模型对评论数据进⾏分析
班主任培训计划关联规则是if / then语句,可帮助发现看似⽆关的数据之间的关系。关联规则的⼀个⽰例是“如果客户购买鸡蛋,那么他有80%的可能性也购买⽜奶”。关联规则包含两个部分,⼀个前提(if)和⼀个后果(then)。前项是在数据中到的⼀个或多个项⽬。结果就是与前项组合在⼀起的项(或项集)。
关联规则是通过分析频繁使⽤的“如果/然后”模式的数据并使⽤条件⽀持和置信度来确定最重要的关系来创建的。⽀持表⽰项⽬在数据库中出现的频率。置信度表⽰发现if / then语句为真的次数。使⽤FP-Growth运算符之类的运算符来挖掘频繁的if / then模式。“创建关联规则”运算符采⽤这些频繁项集并⽣成关联规则。带动物的成语
这样的信息可以⽤作关于诸如促销价格或产品安置的市场活动的决定的基础。除了上述来⾃市场篮⼦分析的⽰例外,当今在许多应⽤程序领域中都采⽤了关联规则,包括Web使⽤挖掘,⼊侵检测和⽣物信息学。
在这个短⽚中我们分享了如何使⽤RAPIDMINER创建关联规则和⽂本挖掘模型对评论数据进⾏分析
输⼊项
•项⽬集(常⽤项⽬集)
•该输⼊端⼝需要频繁的项⽬集。诸如FP-Growth运算符之类的运算符可⽤于提供这些频繁项集。
任达华三圾片输出量
•项⽬集(常⽤项⽬集)
•作为输⼊提供的项集将通过此端⼝传递,⽽不会更改为输出。这通常⽤于在其他运算符中重⽤相同的项⽬集,或在“结果”⼯作区中查看这些项⽬集。
•规则(关联规则)
•关联规则通过此输出端⼝传递。
参数
苏醒李炜事件•条件此参数指定⽤于选择规则的条件。
•置信度:规则的置信度定义为conf(X表⽰Y)= supp(X∪Y)/ supp(X)。阅读表达式时要⼩⼼:这⾥
supp(X∪Y)的意思是“⽀持X和Y都出现的交易的发⽣”,⽽不是“⽀持X或Y都出现的交易的发⽣”。置信度范围为0到1。置信度是Pr(Y | X)的估计值,即在给定X的情况下观察Y的概率。
•提升:规则的提升定义为提升(X表⽰Y)= supp(X∪Y)/((supp(Y)x supp(X))或观察到的⽀持度与预期⽀持度之⽐(如果X和Y提升也可以定义为lift(X表⽰Y)= conf(X表⽰Y)/ supp(Y).lift度量X和Y与独⽴性之间的距离。其范围在0到正⽆穷⼤之间。值接近1表⽰X和Y是独⽴的,规则并不有趣。
•conv:conv对规则⽅向敏感,即conv(X表⽰Y)与conv(Y表⽰X)不同。conv定义为conv(X表⽰Y)=(1-supp(Y))/(1-conf(X表⽰Y))
•增益:选择此选项时,使⽤增益theta参数计算增益。
•laplace:选择此选项时,使⽤laplace k参数计算Laplace。
•ps:选择此选项后,将使⽤ps标准进⾏规则选择。
•min_confidence此参数指定规则的最⼩置信度范围:实数
在深秋歌词
白沟10元箱包批发•min_criterion_value此参数指定所选条件的规则的最⼩值范围:实数
•gain_theta该参数指定在增益计算中使⽤的参数 Theta范围:实数
•laplace_k此参数指定在Laplace函数计算中使⽤的参数 k。范围:实数