本文共 1500 字,大约阅读时间需要 5 分钟。
数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
数据处理的主要步骤:数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据,这涉及集成多个数据库、数据立方体或文件,即数据集成。数据归约,得到数据集的简化表示,它小的多,但能够产生同样的(或几乎同样)的分析结果,数据归约包括维归约和数值归约。维归约使用数据编码方案,以便得到原始数据的简化或压缩表示,例如小波变换、主成分分析等;数值归约使用参数模型(回归和对数线性模型)或非参数模型(直方图、聚类、抽样或数据聚类),用较小的表示取代数据。数据变换主要有规范化、数据离散化和概念分层等形式。
缺失值的处理方法有:忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组同意类的所有样本属性的均值或中位数、使用最可能的值填充缺失值(利用回归、贝叶斯推理、决策树方法)。
什么是噪声?噪声就是被测量的变量的随机误差会方差。我们则怎样才能“光滑”数据、去掉噪声呢?主要的方法有分箱、回归、离群点分析等。
数据清理过程第一步是偏差检测,第二步是数据变换。
数据挖掘经常需要数据集成——合并来自多个数据存储的数据。
有些冗余是可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量另一个属性能在多大程度上蕴含另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数。
数据归约技术可用来得到数据集的归约表示,它小的多,但接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效,仍然产生相同(或几乎相同)的分析结果。
维规约:减少锁考虑的随机变量或属性个数,主要包括小波变换和主成分分析。数量归约:用替代的、较小的数据表示形式替代元数据。数据压缩:使用变换,以便得到原数据的归约或“压缩”表示。规范化的主要方法有:最小-最大规范化;z分数规范化;小数定标规范化等。
转载地址:http://xvfvi.baihongyu.com/