2 数据挖掘技术的基本概念和方法
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中识别出存在于数据库中有效的、新颖的、具有潜在价值的、最终可理解的模式的非平凡知识的过程。它利用各种分析方法和分析工具在大规模的海量数据中建立模型和发现数据间的关系。数据挖掘的技术很多,相应的实现方法也很多。一般包括下述几种方法:决策树方法,神经网络方法,概念树方法,粗糙方法,遗传算法,公式发现,模糊论方法,统计学方法.可视化技术,贝叶斯网络等。在不同的领域,针对需要解决的具体问题,需要完成的挖掘主题,采用不同的数据挖掘技术或方法。
3 交通管理信息数据挖掘方法
3.1 需求理解
涉及到交通管理信息积累的原始数据很多,存在于不同的数据库中,甚至有些与交通安全相关的某些数据跨行业保存在其他行业的数据库中,如气象部门记录的天气气象数据。这些数据库大多是事务性的数据库,其中的数据各自独立、互不相关。数据挖掘的主题是从这些互不相关的数据中寻找出与交通事故相关的信息,导致交通事故发生的各种因素以及交通事故对各种因素的概率分布。
3.2 数据准备
由于机动车辆.机动车驾驶员、交通事故信息管理系统的建设都是针对特定需求建立起来的事务性数据库,其中存放的数据往往不能直接用于挖掘主题的数据挖掘,必须进行必要的数据预处理或数据准备,包括数据选择、净化、转换、数据缩减等工作,获取与挖掘主题直接相关的有效数据。数据准备是非常重要的一个步骤,将影响数据挖掘的效率和准确度以及最终模式的有效性。
机动车驾驶员信息管理系统主要记录与驾驶员相关的信息,如驾驶员姓名、性别、年龄、学历、驾龄、准驾车辆类别、驾驶证编号、发证机关等;机动车辆信息管理系统记录车主姓名、车辆牌号、型号、类别、颜色、发动机号、车架号、出厂时间、购买时间、车辆用途等;交通事故信息管理系统记录肇事驾驶员信息,如肇事驾驶员姓名、性别、年龄、驾龄、驾驶证编号以及肇事车辆的牌照号、型号、类别等。这些信息有些与交通事故相关,有些信息无关。车辆事故发生的概率与驾驶人员本身有着密切的关系,影响驾驶人员安全驾驶的主要因素包括年龄、性别、驾龄等。数据处理后可得表l所示的与交通事故密切相关的数据记录。
3.3 数据挖掘方法设计
数据挖掘算法或数据挖掘技术的选择,依赖于已有的原始数据资源和选定的挖掘主题,本课题所涉及的数据资源储存于不同的事务性数据库中,而确定的挖掘主题是利用数据挖掘技术,对这些大量的数据进行宏观的基础研究,寻求导致各种交通事故发生诸多因素的概率分布,为交通管理部门、商业保险部门、安全教育部门、机动车驾驶员培训部门等行业提供决策的宏观支持。挖掘的方法选用分类模式中的决策树方法,这是分类模式中常用的一种分类器,通过对大量数据进行有目的的分类,从中找到一些有价值的、潜在的信息。决策树方法的主要优点是可以生成可理解的规则,计算量小,可以处理连续和集合属性,决策树的输出包括属性重要性排序。决策树是一个类似于流程图的结构,它包括决策节点、分枝和叶子节点。根据本课题的目标,决策树法采用ID3方法,选择互信息最大的属性作为根节点。表l中有3个决策属性和一个分类属性,决策属性是驾驶员年龄、驾龄和性别,分类属性是事故的有无。ID3算法包括信息熵的计算、属性A条件熵的计算和互信息的计算。