搜索
写经验 领红包
 > 科技

大数据的数据预处理包括哪些方面(大数据预处理的方法主要包括哪些)

导语:大数据预处理七步法(四):数据规约

1.数据规约策略:

①维规约:减少考虑的随机变量或属性的个数,或把原数据变换或投影到更小的空间,具体方法:小波变换、主成分分析等。

②数量规约:用替代的、较小的数据表示形式替换原数据 具体方法包括:抽样和数据立方体聚集

③数据压缩:无损压缩:能从压缩后的数据重构恢复原来的数据,不损失信息。有损压缩:只能近似重构原数据。

抽样:

图1

多阶段抽样:

图2

基于Hash函数取样技术SHF

图3

数据立方体聚集

图4

下钻是将一个大范围度量细化,如图将季度分成月份表示,上卷与其相反,将城市上卷为国家。

2.机器学习中的降维方法:

正在学习,日后学到再补。

图5

3.主成分分析法---线性降维方法

在降维之后能最大程度的保持数据的内在信息,通过衡量在投影方向上的数据方差大小来衡量该方向的重要程度。

图6

4.线性判别分析----有监督的线性降维方法

数据在降维后能很容易得被区分开,将高维的模式样本投影到最佳鉴别矢量空间,保证模式样本在新子空间内有最大类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。

图7

5.局部线性嵌入LLE----非线性降维方法

能使降维后的数据保持原有的流形结构。如果数据分布在整个封闭的球面上,LLE则不能将其映射到二维空间,且不能保持原有的数据流形,于是在处理数据时首先要保证数据不在封闭的球面或者椭圆内。

图示将三维曲面数据映射到二维坐标轴内,还能保证其大致的流线型。

图8

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小美创作整理编辑!