博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[数据分析学习笔记] 数据预处理
阅读量:4040 次
发布时间:2019-05-24

本文共 633 字,大约阅读时间需要 2 分钟。

数据分析学习笔记 —— 数据预处理

数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。

为什么需要进行数据预处理?

包含在数据源中的大部分原始数据未被处理,它们是不完整的数据或者含有不符合数据分析要求的数据,为此需要进行数据预处理。这些数据中可能包含(不符合要求的数据):

  • 过时或冗余字段
  • 缺失值
  • 离群值
  • 其形式不适合数据分析模型的数据
  • 与分析策略或常识不一致的值

离群值是偏离了其他值得趋势的极端值。识别离群值非常重要,因为它们有可能代表数据输入错误。此外,某些统计方法对离群值是非常敏感的,即使离群值是有效的数据而不是错误的数据,也可能对分析产生不可靠的结果。

识别离群值的图形方法是校验变量的直方图。

识别离群值的数值方法:

  • 使用Z-score
  • 均值和标准差
  • IQR

 

数据预处理的主要内容包括:数据清洗、数据集成、数据变换和数据规约。

知识点总结如下图所示:


数据预处理的主要过程 

数据清洗:主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。

数据集成:将多个数据源合并存放在一个一致的数据存储(如:数据仓库)中的过程。

数据变换:对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务及算法的需要。

数据规约:在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。

转载地址:http://qpvdi.baihongyu.com/

你可能感兴趣的文章
各种排序算法的分析及java实现
查看>>
SSH框架总结(框架分析+环境搭建+实例源码下载)
查看>>
js弹窗插件
查看>>
自定义 select 下拉框 多选插件
查看>>
js判断数组内是否有重复值
查看>>
js获取url链接携带的参数值
查看>>
gdb 调试core dump
查看>>
gdb debug tips
查看>>
arm linux 生成火焰图
查看>>
linux和windows内存布局验证
查看>>
linux insmod error -1 required key invalid
查看>>
linux kconfig配置
查看>>
linux不同模块completion通信
查看>>
linux printf获得时间戳
查看>>
C语言位扩展
查看>>
linux dump_backtrace
查看>>
linux irqdebug
查看>>
git 常用命令
查看>>
linux位操作API
查看>>
uboot.lds文件分析
查看>>