前言
随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验。数据挖掘方法应运而生。它是一个多学科的交叉研究领域,不仅大学里的学术人员在研究它,而且也有商业公司的专家和技术人员在密切的关注它和使用它;它不仅涉及到人工智能领域以及统计学的应用,而且也涉及到数据库的管理和使用。从技术上来讲,数据挖掘是从大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又潜在有用的信息和知识的过程。从商业应用来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取,转换,分析和其它模式化的处理,从中提取辅助商业决策的关键性数据。
本书第一章对数据挖掘进行了总的概述,包括数据挖掘的定义,重要性,功能,步骤,和常用方法等。第二章和第三章介绍了两种数据挖掘中常用的无指导的学习算法,关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的放在一类,而不同类之间尽量做到有较大的不同。第四章和第五章介绍了两种数据挖掘中常用的指导的学习算法,决策树和神经网络。它们处理的数据含有独立的需要预测或分类的变量,它们的目的就是寻找一些自变量的函数或算法对数据进行准确地预测或分类。决策树方法在对数据处理的过程中,将数据按照树状结构分成若干分枝形成决策规则。神经网络在一定程度上模仿了人脑神经系统处理信息,存储以及检索的功能,它是一个非线性的映射系统。第六章和第七章介绍了两种数据挖掘中常用的传统统计的方法,回归分析和时间序列。回归分析是寻找自变量和因变量之间关系的预测模型,包括线性回归和Logistic 回归,时间序列分析,顾名思义,是处理以时间为序的观测数据的方法。本书的一个特点是不仅对上述方法作了理论的阐述,还结合案例分析讲述了如何应用STATISITCA软件实现上述方法对数据的分析,是一本理论和实践相结合的理论性和应用性都很强的书。此外书中所有数据,包括例题和习题,均可以在中国人民大学出版社的网站上下载,以供读者练习。
在此书的编写过程中,中国人民大学统计学院的研究生参与了初稿的部份内容的写作,再次对他们的辛勤工作表示衷心的感谢。他们是刘冬,戴杭君,张倩,孙兆楠,刘中华,詹瑾,和王曦。此外编者要特别感谢中国人们大学统计学院易丹辉教授,对此书的写作提出了非常多的宝贵意见。
由于编者的水平和时间有限,错误之处在所难免,恳请读者批评指正。
|