1. 模糊集的概念
对于一个普通的集合A,空间中任一元素x,要么xÎA,要么xÏA,二者必居其一。这一特征可用一个函数表示为:
数据挖掘实验室
A(x)即为集合A的特征函数。将特征函数推广到模糊集,在普通集合中只取0、1两值推广到模糊集中为[0, 1]区间。
定义1 设X为全域,若A为X上取值[0, 1]的一个函数,则称A为模糊集。 数据挖掘实验室
如给5个同学的性格稳重程度打分,按百分制给分,再除以100,这样给定了一个从域X={x1 , x2 , x3 , x4, x5}到[0, 1]闭区间的映射。 数据挖掘交友
x1:85分,即A(x1)=0.85 数据挖掘研究院
x2:75分, A(x2)=0.75 数据挖掘交友
x3:98分, A(x3)=0.98 数据挖掘论坛
x4:30分, A(x4)=0.30
数据挖掘工具
x5:60分, A(x5)=0.60
这样确定出一个模糊子集A=(0.85, 0.75, 0.98, 0.30, 0.60)。 数据挖掘论坛
定义2 若A为X上的任一模糊集,对任意0 £ l £ 1,记Al={x|xÎX, A(x)³l},称Al为A的l截集。 数据挖掘论坛
Al是普通集合而不是模糊集。由于模糊集的边界是模糊的, 如果要把模糊概念转化为数学语言,需要选取不同的置信水平l (0 £ l £ 1) 来确定其隶属关系。l截集就是将模糊集转化为普通集的方法。模糊集A 是一个具有游移边界的集合,它随l值的变小而增大,即当l1 <l2时,有Al1∩Al2。
定义3 模糊集运算定义。若A、B为X上两个模糊集,它们的和集、交集和A的余集都是模糊集, 其隶属函数分别定义为: 数据挖掘研究院
(AÚB) (x)= max ( A(x), B(x) )
(AÙB) (x)= min ( A(x), B(x) )
AC (x)=1-A(x) 数据挖掘工具
关于模糊集的和、交等运算,可以推广到任意多个模糊集合中去。 数据挖掘论坛
定义4 若一个矩阵元素取值为[0, 1]区间内,则称该矩阵为模糊矩阵。同普通矩阵一样,有模糊单位阵,记为I;模糊零矩阵,记为0;元素皆为1 的矩阵用J表示。
数据挖掘研究院
定义5 若A和B是n×m和m×l的模糊矩阵,则它们的乘积C=AB为n×l阵, 其元素为: 数据挖掘工具
Cij= (i=1, 2, …, n; j=1, 2, …, l) (20.1)
符号“∨”和“∧”含意的定义为: a∨b=max(a, b),a∧b=min(a, b)。
模糊矩阵乘法性质包括: 1) (AB)C=A (BC);2) AI=IA=A;3) A0=0A=0; 4) AJ=JA; 5) 若A、B为模糊矩阵且aij £ bij (一切i, j),则A£B,又若A£B, 则AC £ BC,CA£CB。
2. 模糊分类关系
模糊聚类分析是在模糊分类关系基础上进行聚类。由集合的概念, 可给出如下定义:
定义6 n个样品的全体所组成的集合X作为全域,令X´Y={(X, Y)|xÎX, yÎY},则称X´Y为X的全域乘积空间。 数据挖掘交友
定义7 设R为X´Y上的一个集合,并且满足:
数据挖掘工具
1) 反身性: (xi , yi)ÎR,即集合中每个元素和它自己同属一类;
2) 对称性: 若(x, y)ÎR,则(y, x)ÎR,即集合中(x, y)元素同属于类R 时, 则(y, x)也同属于R; 数据挖掘论坛
3) 传递性: (x, y)ÎR,(y, z)ÎR,则有(x, z)ÎR。 数据挖掘论坛
上述三条性质称为等价关系,满足这三条性质的集合R为一分类关系。 数据挖掘实验室
聚类分析的基本思想是用相似性尺度来衡量事物之间的亲疏程度, 并以此来实现分类,模糊聚类分析的实质就则是根据研究对象本身的属性未构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。
3. 模糊聚类 数据挖掘工具
利用模糊集理论进行聚类分析的具体步骤如下:
数据挖掘实验室
(1) 若定义相似系数矩阵用的是定量观察资料,在定义相似系数矩阵之前,可先对原始数据进行变换处理,变换的方法同系统聚类分析, 可参考第17章系统聚类分析一节。
(2) 计算模糊相似矩阵。设U是需要被分类对象的全体,建立U上的相似系数R,R(i, j)表示i与