在Internet上创建和分发的纯文本文档正以各种形式发生变化。这些文档的挖掘主题在许多领域都有重要的应用。大多数文献致力于主题建模,而文档流中主题的顺序模式则被忽略。此外,传统的顺序模式挖掘算法主要关注确定性数据集的频繁模式,因此不适合主题不确定和稀有模式的文档流。在本文中,我们制定并处理了针对Internet文档流的稀有顺序主题模式(STP)的挖掘问题,该问题总体上很少见,但对于特定用户而言则相对较少,因此也很有趣。由于这种类型的稀有STP反映了用户的特定行为,因此我们的工作可以应用于许多领域,例如个性化的上下文感知推荐和对Internet上异常用户行为的实时监控。我们提出了一种基于相关主题的时间和概率信息来发现与用户相关的稀有STP的新颖方法。在通过LDA从文档中提取主题并将文档流分类为不同时间段内不同用户的会话之后,提出的算法通过(1)通过基于模式增长的高效算法为每个用户挖掘STP候选者来发现稀有STP,并且( 2)通过模式稀有度分析生成与用户相关的稀有STP。综合和真实数据集上的实验表明,我们的方法可以非常有效和高效地发现有趣的稀有STP。