信息安全国家重点实验室副主任 荆继武
数据挖掘简介
常见算法:
分类:根据输入集建立分类模型 Key:找到赖以分类的参数 method:决策树
关联:发现隐藏在数据之间的联系 支持度
聚类:根据数据对象间关系分组 特点:无监督分类(自学习)
序列
信息安全中的数据挖掘:
用来入侵检测,发现并检测异常(数据流,数据操作,CPU使用)
防DDoS:识别方法,self-learning DoS detection
模型:
模型产生——————数据库
|
监控器
|
Internet——安全网关——内网
problem:发现已有攻击不用数据挖掘 数据挖掘利用的关键是发现未知攻击
攻击数据可能是正常数据,只不过多一些
如何定位/定位攻击数据
流程方法:
network->数据采集->特征提取->自适应模型产生->异常检测->自动攻击特征发现->防御策略执行
人工分析来检测新的未知攻击
假设:正常和异常数据有不同的特征,可表征维多维空间中的不同的团。
特征提取:TCP/IP:目的/源IP,端口,连接持续时间,数据包长度,结束标记
使用加权的欧几里得距离来度量相似性,用层次聚类(类似Huffman的贪心)来形成向量模型。
优化:门限,最优平均半径迭代,多半径局部优化,球状到非规则状
攻击检测与定位攻击连接:与正常聚类比较距离,长时间持续非正常数据->查源地址,根据防御策略执行
Topic Detection and Tracking(TDT) (GFW?)
自动从大量新闻中识别重要话题,对新话题的出现进行报警……
文本聚类的流程:通过分词将文本转化为向量,高维稀疏向量的降维(结合TDT的目的保留高区分度分量),聚类的融合(元学习)
problem:需要设置参数,可参数设置不当是否影响聚类效果?
解决方法:让文本自己告诉我们如何聚类:相似性分布
用一个矩阵来描述两个向量的相似程度
理论上说,相似性分布实际上是两个正态分布混合而成的,一个分布在数量-相似度图的左侧(相似度低),表征两个向量不相似,一个分布在右侧(相似度高),表征两个向量相似 数据挖掘实验室
实际的相似度图并不是这样,可是强制把看成上述分布。用最小二乘法的曲线拟合,找出相似双曲线图的拐点作为两个正态分布的分界点,将向量聚合成簇。但是在此次聚合中允许同一点属于多个簇。
第二次迭代:每个簇视为一个文本(取中心),再次合并聚类。
剔除孤立点
优化:把软聚类用于元学习:用属于每个分类的概率来描述分类而非简单的属于/不属于
数据挖掘在网络安全中面临的挑战
scaling up for high dimensional data and high speed stream
实时,高速,高维
最新评论共有 0 位网友发表了评论
查看所有评论
发表评论
热点关注

