博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据挖掘——数据预处理
阅读量:4132 次
发布时间:2019-05-25

本文共 1500 字,大约阅读时间需要 5 分钟。

第三章 数据预处理

3.1 数据预处理

3.1.1 数据质量

  数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

3.1.2 数据预处理的主要任务

  数据处理的主要步骤:数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据,这涉及集成多个数据库、数据立方体或文件,即数据集成。数据归约,得到数据集的简化表示,它小的多,但能够产生同样的(或几乎同样)的分析结果,数据归约包括维归约和数值归约。维归约使用数据编码方案,以便得到原始数据的简化或压缩表示,例如小波变换、主成分分析等;数值归约使用参数模型(回归和对数线性模型)或非参数模型(直方图、聚类、抽样或数据聚类),用较小的表示取代数据。数据变换主要有规范化、数据离散化和概念分层等形式。

3.2 数据清理

3.2.1 缺失值

  缺失值的处理方法有:忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组同意类的所有样本属性的均值或中位数、使用最可能的值填充缺失值(利用回归、贝叶斯推理、决策树方法)。

3.2.2 噪声数据

  什么是噪声?噪声就是被测量的变量的随机误差会方差。我们则怎样才能“光滑”数据、去掉噪声呢?主要的方法有分箱、回归、离群点分析等。

3.2.3 数据清理作为一个过程

数据清理过程第一步是偏差检测,第二步是数据变换。

3.3 数据集成

数据挖掘经常需要数据集成——合并来自多个数据存储的数据。

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  有些冗余是可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量另一个属性能在多大程度上蕴含另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数。

3.4 数据归约

  数据归约技术可用来得到数据集的归约表示,它小的多,但接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效,仍然产生相同(或几乎相同)的分析结果。

  维规约:减少锁考虑的随机变量或属性个数,主要包括小波变换和主成分分析。数量归约:用替代的、较小的数据表示形式替代元数据。数据压缩:使用变换,以便得到原数据的归约或“压缩”表示。

3.5 数据变换与数据离散化

3.5.1 通过规范化变换数据

规范化的主要方法有:最小-最大规范化;z分数规范化;小数定标规范化等。

3.5.2 通过分箱离散化

3.5.3 通过直方图离散化

3.5.4 通过聚类、决策树和相关分析离化

3.5.5 标称数据的概念分层产生

总结:

  • 数据质量:用准确性、完整性、一致性、时效性、可信性和可解释性定义。
  • 数据清理:例程试图填充缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。数据清理主要包括偏差检验和数据变换。
  • 数据集成:将来自多个数据源的数据整合成一致的数据存储。
  • 数据归约:得到数据个归约表示,而使得信心内容的损失最小化。数据归约的方法包括维归约、数值归约和数据压缩。维归约减少所考虑的随机变量或维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建。数值归约方法使用参数或非参数模型,得到原始数据的较小表示,方法主要有回归和对数线性模型、直方图、聚类、抽样和数据立方体聚集等。数据压缩方法使用变换,得到原始数据的归约或“压缩”表示。
  • 数据变换:例程将数据变换成适用于挖掘的形式。主要方法有规范化、数据离散化、概念分层。
  • 数据离散化:通过把值映射到区间或概念标号变换数值数据。

转载地址:http://xvfvi.baihongyu.com/

你可能感兴趣的文章
浅谈Spring声明式事务管理ThreadLocal和JDKProxy
查看>>
初识xsd
查看>>
java 设计模式-职责型模式
查看>>
构造型模式
查看>>
svn out of date 无法更新到最新版本
查看>>
java杂记
查看>>
RunTime.getRuntime().exec()
查看>>
Oracle 分组排序函数
查看>>
删除weblogic 域
查看>>
VMware Workstation 14中文破解版下载(附密钥)(笔记)
查看>>
日志框架学习
查看>>
日志框架学习2
查看>>
SVN-无法查看log,提示Want to go offline,时间显示1970问题,error主要是 url中 有一层的中文进行了2次encode
查看>>
NGINX
查看>>
Qt文件夹选择对话框
查看>>
1062 Talent and Virtue (25 分)
查看>>
1061 Dating (20 分)
查看>>
1060 Are They Equal (25 分)
查看>>
83. Remove Duplicates from Sorted List(easy)
查看>>
88. Merge Sorted Array(easy)
查看>>