RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

基于SEO的Log 日志分析软件应该提供那些功能?

来源: 作者: 时间:2007-08-21 点击:
今天是连续第3个要过了12点才睡的日子了,希望今天可以告一个段落.

最近在考虑如何做基于 SEO 的日志分析工具, 每天都熬夜, 还真吃不消啊.


当用户在浏览器地址栏输入一个网址的时候,web服务器在返回用户需要页面的同时也记录用户的其他数据,比如用户的浏览器是什么牌子的,用户使用的IP地址,操作系统甚至记录了用户是输入的网址还是从其他链接跳转过来的等等。(好罗嗦)这部分记录无疑是最基础也是最重要的数据,很多web数据挖掘工作都是从这里作为起点进行的。

看过web服务器(比如apache , iis )日志的朋友们都知道,当用户访问一个页面产生的日志并不是只有一行,而是有很多行。稍加注意就会发现,web服务器为当前访问页面中包含的每个文件(图片、javascript脚本等)都生成了一行记录。这一行行的记录就组成了原始日志文件。

对SEO工作来说,分析日志是一项必不可少的基本功。与SEO最相关的信息莫过于搜索引擎的来访记录和从搜索引擎带来的流量2个指标。目前国内网站用户使用的web log 日志分析工具大多使用 awstats 一类的开源工具。可以说awstats的流行,与日志分析爱好者的引荐是有很大关系的比如车东等人。

数据挖掘研究院



虽然我也使用awstats等工具,但毫无疑问现在市场上专门针对seo的log日志分析工具还很少见。同时由于awstats采用perl编写,加上使用awstats自有的文件格式,这就导致了在awstats的基础上加以修改提供基于seo的日志分析功能也非容易之事。

那么基于SEO的日志分析应该提供那些功能呢,这就是我这几天想的问题.

目前已经实现了以下三个部分:

1.从原始日志文件中提取 页面访问 的记录 .(去掉 .js , .css , .jpg 等记录)见:"原始Log -> 页面 Log "

2.针对提取出的 页面访问记录 进行派重 (bloom filter), 提取唯一的访问记录.见:"页面Log -> sitemap "

3.针对提取出的  页面访问记录 ,提取从 google 和 baidu 过来的搜索关键词 记录.
见:"页面Log-> 搜索关键字分析"

准备提供的功能:
通用功能: 除去没有意义的请求(如JPG,GIF等), 分析真实的访问请求
多日日志: 蜘蛛的图表
单日日志: 蜘蛛的来访数字, 蜘蛛的来访时间段(这个很重要,可以判定搜索引擎更新频率)



alpha 下载地址 数据挖掘研究院





基于SEO的日志分析
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?