一、公安信息化建设对数据挖掘的需求
经过20年的努力,公安系统的信息化建设从无到有、从小到大,已具相当规模,目前已经建成连接全国各级公安机关数万台电脑的公安信息网,大量业务信息系统已经得到推广和应用,各种信息得到网上共享。由于行业的特殊性也决定了信息系统的复杂多样性,从110接处警、居民户籍资料、犯罪分子和案件资料、机动车和驾驶员信息、交通管理信息、出入境人员、消防管理、监管罪犯、旅馆流动人口等。据粗略统计,仅一个地市级公安局业务信息系统已多达数十种,数据记录数已达上千万之多,数据库总容量达几个G。
尽管许多业务信息系统逐步从微机个人数据库移植到大型数据库,但对信息的处理还基本停留在增、删、改、查询、统计等传统功能上,缺乏智能化的分析功能。可以说其事务性功能已经基本完善,但分析功能还相当欠缺,具备关联性的规律趋势等潜藏在大量业务数据后面,尚有待挖掘和提取,“金盾工程”对此也提出了相应要求。数据仓库和数据挖掘技术为这一切提供了可能,在案例分析、行为分析、司法调查、领导决策等方面,都大有可为。
二、数据挖掘技术简介
数据挖掘(Data-Mining)指在建成数据仓库或数据集市的基础上,借助有效的分析方法和工具,从传统的事务型数据库功能(增加、删除、修改、查询、统计等)背后,获得更深层次的信息。数据挖掘可以详细描述如下:“数据挖掘是一种决策支持过程,主要基于AI(人工智能)、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测分析对象的行为趋势,帮助决策或管理者调整策略,作出正确的决策。”
较为著名的数据挖掘例子是美国加州Wal Mart超市对长期积累的顾客购物数据建立数据仓库,并对其进行数据挖掘。结果发现凡是购买纸尿布的男顾客通常也会购买啤酒。再进行调查发现,这一地区的不少已婚男子常在下班回家路上帮太太买纸尿布,销售主管迅速作出了调整,将纸尿布和啤酒的货架摆在一起,并在附近放上许多佐酒的小食品,结果可想而知,几种商品的销售都显著上升。数据仓库和数据挖掘对决策支持的重要可见一斑。
数据挖掘涉及的学科领域相当多,主要利用人工智能中一些已经成熟的算法和技术,大致可以分为:机器学习、统计、人工神经网络和数据库方法等。根据挖掘的任务,我们可以把数据挖掘分为五种:关联、序列模式、分类、聚类分析和数据总结。
通常挖掘的步骤如下:数据采样;数据特征探索、分析和预处理;问题明确化、数据调整和技术选择;模型的研发、知识的发现;模型和知识的综合解释和评价。整个数据挖掘流程是反复进行的,需要不断的优化和趋近。限于篇幅,这里不再详细介绍。
三、对模拟数据的尝试性挖掘
在一个刑侦违法犯罪涉嫌人员数据集市的基础上,我们可以采用数据挖掘分析方法来进行尝试性的挖掘,这里仅用关联、序列和分类分析介绍一下。
1. 关联分析
仅对这些样本而言,显然我们可以直观地得出如下结论:凡是涉嫌盗窃案件的都涉嫌赌博案件;相反则未必成立。
用严格一些的关联分析方法来加以分析,我们需要确定两个参数:
⑴最小置信度Confidence,用来过滤可能性过小的规则,不妨设为0.3。
⑵最小支持度Support,表示这种规则发生的概率,即可信度,不妨设为0.3。
设规则“既涉嫌A罪的人员同时也涉嫌B罪”的置信度为C,支持度为S,则可以得出
C=(同时涉嫌两罪的人员数)/(涉嫌A罪的人员数)
S=(同时涉嫌两罪的人员数)/(总人数)
可以得出同时涉嫌两罪的置信度和支持度。这样一来,通过有效的关联分析,我们可以得出如下结论“涉嫌赌博罪的人员中75%同时涉嫌盗窃”,当然这个结论仅对本样本有效,如果样本数据非常之大,我们就可以将关联分析结论作为挖掘出的知识。
2. 序列分析
我们以一组样本为例。该样本是一组犯罪人员涉及的各种案件的时间序列表,对这个样本集来说,我们可以通过数据挖掘,得到犯罪案件的先后关系。我们不妨设最小置信度为0.3,最小支持度为0.3,规则可以定义为“先犯A罪的人后犯B罪”,则
C=(先犯A罪的人后犯B罪)/(先犯A罪的总人数)
S=(先犯A罪的人后犯B罪)/(总人数)
我们得出的结果如表4所示
3. 分类分析
用决策树表示分类模型最为有效,决策树每个内部节点表示一个属性的测试,每个分枝表示一个测试输出,每个树叶节点表达类或类的分布。在树构造时需要使用剪枝来检测和剪去训练数据的噪声和孤立点。我们采用ID3算法构造出以下的决策树,可以用来对违法犯罪人员数据集市中的数据进行判断潜在再次违法犯罪风险。
这个决策树只是一个简单的粗层次的分类分析模型,如果我们结合公安刑事侦察专业知识,从作案对象、手段特点、作案工具、作案时间和场所、专长等特征具体加以分析,将是一个具有相当意义的分析模型。
四、对进一步应用数据挖掘的设想
如前所述,公安业务信息系统具有分散、繁杂的特点,管理决策具有相当的广度和深度。在实践的基础上,经过对实际工作认真的思考,公安业务信息领域应用数据仓库和数据挖掘技术应该在如下几个方面取得进展和突破:
1. 对犯罪行为的分析
犯罪行为分析本身是一门很复杂的学科,渗透了法学、心理学、行为学等多门学科,需要相当的专门知识,现在还处在探索研究阶段,利用计算机数据仓库,可以在拟定的算法下对大量的犯罪行为记录进行分析,从而发现犯罪的规律、趋势,了解不同犯罪行为之间的关联,譬如何种状态会诱发何种犯罪行为,相信这是公安司法领域数据挖掘的主要方向。
2. 对交通管理的决策
交通管理一直是城市管理的重要问题,随着道路、车辆的迅速增长,传统的手工劳动式的交通岗亭指挥已经不能适应实际工作的需要。建立交通情况数据仓库,应用数据挖掘和OLAP技术,实时监测路面状况和交通流量,及时制定对策,有效疏导交通阻塞,是未来交通管理的重要方向。
3. 对警力安排的决策
如何预防和制止突发事件,一直是各级公安机关考虑的头等大事,如何科学、合理地安排警力,在治安状况多变的情况下,既保证社会生活秩序,又不浪费警力,减少无效劳动,也是今后工作的重点之一。
4. 消防调度决策
消防工作具有很强的时间性,其调度具有极强的科学性,在人员、车辆配置、水源安排、最佳路线选择等方面都具有大量的信息可供挖掘。
其他还有许多方面有待我们去探索和实践。

