RSS
热门关键字:  数据挖掘  数据仓库  商业智能  人工智能  搜索引擎

基于非法文本用词特征分析的文本分类器构建

来源: 作者:unkonwn 时间:2004-11-27 点击:

网络安全一直是困扰网络用户的主要问题,建立可信网络[1]体系成为网络研究者的一项重要任务。威胁网络可信度的因素有很多如网络病毒、非法入侵[2,3],目前不健康的网络内容也正在成为重要的影响因素。本文针对这些非法文本[4]的用词特征作了进一步的研究,提出一种自动识别标志非法文本的特殊用词的方法,通过特殊词信息与二分文本分类器相结合的方法进行非法文本的识别,以提高分类器的精确度。

我们在文献[4]中,对于非法文本的用词特征作了初步归纳。为了研究这些特殊词在出现频率及出现形式上的具体特征,我们进行了进一步统计。
在对12万字的含特殊形式特殊词的非法文档进行手工提取后,我们共提取特殊词217个,作为初始特殊词表,同时统计该词以这种形式出现的频率。为了进一步确定这些词在非法文本与合法文本中出现的频率特征,我们分别对20万字的非法文本与合法文本进行特殊词频的统计,并根据统计结果确定这些特殊词的权重。
根据对统计结果的分析,我们可以将特殊词分为四类:
①绝对高频词,即在非法文本中出现频率较高,在合法文本中出现频率较低或根本不出现的词。如:群体灭绝、大纪元、六四等词。这类词占16%。
②相对高频词,即在非法文本与合法文本中出现频率都很高的词。如:法轮功,天安门邪恶、自由等词,这类词占11%。
③绝对低频词,即在非法文档中出现频率较低, 而在合法文本中出现频率较高的词。如中国政府、病死、病毒等词。
④相对低频词,即在非法文本中出现频率较低,而在合法文本中的频率更低或者根本不出现的词。如大参考、肉体上消灭、中国大赦等词。

阅读全文 数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?