202.122.32.110 - - [22/Apr/2007:18:13:34 +0800] "GET /index.html HTTP/1.1" 200 3383
许多对WEB访问的统计分析和模式挖掘,都建立在WEB日志基础上的,并以会话为基本单元进行处理。因此,WEB会话识别是WEB数据挖掘等研究工作的前提,是数据预处理的重要组成部分,它直接影响着挖掘的效果。可是,从WEB日志中我们无法对WEB会话进行正确的识别。目前,通常采用的WEB 会话识别方法主要有时间阈值(Timeout)、最大向前引用(Maximal forward reference)。然而,这两种方法都不能很真实地反映用户的浏览习惯和访问模式,会话识别正确率比较低。
我从概率统计的角度出发,用另一种数学模型来进行会话识别。为了验证这种方法的有效性,我首先需要得到真实的会话集合。但从当前的WEB日志中无法得到,因此设计了本实验,通过实时记录用户会话信息来识别出原始的会话集合。 数据挖掘研究院

