数据挖掘自学笔记(1)

什么是数据挖掘?百度说数据挖掘也可以叫做知识抽取、信息发现、智能数据分析、探索式数据分析、信息收获、数据考古等等。

但是这样不能回答什么是数据挖掘。

浙大王灿老师在讲数据挖掘第一节的时候对“为什么会有数据挖掘”做出了很详细的解释,使我受益匪浅。

数据挖掘(Data mining)的前世今生

数据挖掘是数据库技术发展、演化的结果。它诞生在这样一个时代——数据海量,信息海量,但是发掘困难。数据库技术的发展使我们可以存放下尽可能多的数据,但是却无力帮我们提取有价值的信息。

我们不希望数据库只是存放数据的“记事本”,我们希望能从历史信息中找出规律、找到模式,帮助我们去更好地应对“未来”。

所以,我们需要一种沙滩淘金的计数,在数据的海洋里寻找有价值的信息。而数据挖掘就是这样一门技术。

但是,数据挖掘不是一种全新的技术,它是一种对现有技术的整合。比如机器学习、统计学、算法、数据库系统、可视化等。

至此,我们可以得出结论:数据挖掘是从大量数据中挖掘有价值的信息(知识)。

具体如何挖掘?这就是数据挖掘的核心了。

KDD是何物

有人把数据挖掘等同于KDD(知识发现),也有人把数据挖掘仅仅作为KDD的一个关键步骤。而我心中是数据挖掘应该是用一些算法模型对现有的数据进行分析。它不管这些数据是怎么来的,也不管挖掘出来的东西去向何方,仅仅是我们发现知识的一个步骤。看一下wikipedia的解释:

Data mining (the analysis step of the "Knowledge Discovery in Databases" process, or KDD).

KDD的具体步骤如下图。

我们可以把KDD作为一个数据挖掘的系统,或者可以这样理解:凡是用到数据挖掘的系统都可以叫做数据挖掘系统。数据挖掘系统的架构如下图。

我们学习的“数据挖掘”不仅仅包括“数据挖掘分析”,还包括挖掘前要做的事情,以及挖掘后要做的事情。所以,我们学的应该是数据挖掘系统,或者说是KDD的设计与实现。

-- EOF --