首页|资讯|互联网|电信|硬件|软件|情报|产经|博客|家庭|商用电脑|游戏|评测|学院|下载|网络通信|方案应用|搜索
移动计算|商用软件|外包|开源|中间件|企业|IT经理|发烧友|程序员|IT女性|学生|老板|笔记本|手机|台式机|数码|论坛

什么是数据挖掘?

2007-08-03 15:32 作者: 来源:eNet硅谷动力
[摘要] 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
  数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

  1. 数据挖掘能做什么?

  1)数据挖掘能做以下六种不同事情(分析方法):

  · 分类 (Classification)

  · 估值(Estimation)

  · 预言(Prediction)

  · 相关性分组或关联规则(Affinity grouping or association rules)

  · 聚集(Clustering)

  · 描述和可视化(Des cription and Visualization)

  · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

  2)数据挖掘分类

  以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘

  · 直接数据挖掘

  目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

  · 间接数据挖掘

  目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。

  · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

  3)各种分析方法的简介

  · 分类 (Classification)

  首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

  例子:

  a. 信用卡申请者,分类为低、中、高风险

  b. 分配客户到预先定义的客户分片

  注意: 类的个数是确定的,预先定义好的

  · 估值(Estimation)

  估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

  例子:

  a. 根据购买模式,估计一个家庭的孩子个数

  b. 根据购买模式,估计一个家庭的收入

  c. 估计real estate的价值

  一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。
关键词: 数据挖掘,
  • 精选专题

关于eNet | 广告服务 | 版权声明 | 加入eNet | 联系我们 | 建议/投诉 | 网站导航 | 加入收藏

网站合作、内容监督、商务咨询、投诉建议:010-65245588
合作建议:hezuo@mail.enet.com.cn
Copyright © 1998--2008 硅谷动力公司版权所有 京ICP证000044号

京ICP证000044号