我要把3种花分类(A类花,B类花,C类花),4个属性:
如下: 开始是三种花各有50个;
花瓣长度
小于等于3.2 / 大于3.2
/
结果: A类:20个 A类:30个
B:40个 B: 10个
C:40个 C: 10个
因为是分出来之后是3种,就不知道怎么算了。
在这里怎么算gain啊?Gain= I(花瓣长度)-100/150*I(左孩子)-50/150*I(右孩子)
I(花瓣长度)= -( 1/3*log2(1/3) + 1/3*log2(1/3) + 1/3*log2(1/3) )
I(左孩子)= -(20/100*log2(20/100) + 40/100*log2(40/100) + 40/100*log2(40/100)) 数据挖掘论坛
I(右孩子)= -(30/50*log2(30/50) + 10/50*log2(10/50) + 10/50*log2(10/50))
这样对不对啊?Create By Any-Extract(WL-AE)
数据挖掘研究院