Python金融数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

4.4.2 关联规则的序列模式

序列模式(Sequential Pattern)挖掘最早由Agrawal等提出,是指针对带有交易时间属性的交易数据库,获取频繁项目序列以发现某段时间内客户的购买活动规律。

消费者的淘宝订单栏中包含了他购买各个商品的时间信息,通过这些信息可以将消费者在一段时间内的所购物件拼接成一个事件序列。同样的,在通信网络、计算机网络和无线遥感网络等系统中收集的各个事件的数据都具有一定的序列特征,通常这些事件在基于时间或空间上具有先后次序,然而,到目前为止,我们讨论的关联规则都只是强调同时出现的关系,忽略了数据中相关的序列信息。序列信息对识别事件中的重要特征或预测特定事件在未来的发生时间,是非常有价值的。例如:购买了冰箱、电视机、油烟机的客户会在3个月内购买洗衣机的结论。

1.序列模式和关联规则的区别

序列模式和关联规则的区别如表4-2所示。

表4-2 序列模式和关联规则的区别

2.序列模式的应用场景

·客户购买行为预测:基于用户上次购买商品的信息和时间,推断用户下次购物的商品和时间。

·Web访问模式预测:基于用户上次浏览页面的时间和信息,推断用户下次最可能浏览的页面。

·流量来源预测:基于用户上次到达网站的时间和到访信息,推断用户下次最可能从哪些媒体渠道进入该网站。

3.实现序列模式的关联算法

·AprioriAll:与Apriori算法的执行过程一样,但在候选集的产生时不相同。

·AprioriSome:在AprioriAll算法的基础上做了改进。

·CARMA:一种相对新的关联规则算法,处理在线连续交易数据。

·GSP:基于水平存储结构和AprioriAll遍历操作的序列关联算法,它与Apriori算法的主要区别在于产生候选序列模式。

·SPADE:一种改进的GSP算法。