' [; j0 ^$ E( b* e3 n 为什么要进行数据预处理?
& d$ s' ^/ A- T0 h! z' k) }9 ~ 因为原始数据往往是不完整的,含有噪声的以及不一致的,采用这些数据进行机器学习往往得到的结果是不准确的。所谓不完整是指缺少相应的属性值;含有噪声是指数据中存在错误的、异常的数据;而不一致的数据是指数据中可能存在在编码上或者命名上的差异重复。
4 x% ?, A- H. s& x" K N7 @- R

7 \$ N+ a6 G+ ]& C+ \& V: ?
如何进行数据预处理?
) k( ~9 ]- I) k) V$ N' { 数据预处理主要包括以下步骤:数据清洗,数据集成,数据规约以及数据变换
0 c" c6 j; A% M, F4 x/ Z

. g. {/ O3 ]5 l. m# j 一、数据清洗:
2 @5 D g0 V G$ a (1) 数据清洗的目的:消除错误、冗余和数据噪音。
) C! Y$ R% g; f5 G7 ~( G
(2) 数据清洗过程需要满足的条件:
1 X" L# r( ^; j+ X! p 1、不论是单数据源还是多数据源,都要检测并且除去数据中所有明显的错误和不一致。
3 J. B9 a2 p4 W3 H. k7 l' H 2、尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源。
_) I% v% g# G' y; s. \7 k" n 3、应该和数据转化相结合。
: e$ h8 T$ u4 z! [& h: p7 @9 K# `* | 4、要有相应的描述语言来指定数据转化和数据清洗操作。
4 a' \9 W7 k* m! |6 ?+ W4 p 异常数据的清洗过程主要分为以下6个步骤:
6 V& j; {4 X t5 O 1、元素化:将非标准的数据,统一格式化成结构数据。
6 U2 H ~, g. b% f7 h8 Q 2、标准化:将元素标准化,根据字典消除不一致的缩写等等。
' H: I" F( V8 ^ 3、校验:对标准化的元素进行一致性校验,即在内容上修改错误。
9 n$ w% c- f6 K! T* A( } 4、匹配:在其它记录中寻找相似的记录,发现重复异常。
; y7 }0 x5 ]/ Q7 n" S, K8 [ 5、消除重复记录:根据匹配结果进行处理,可以删除部分记录或者多个记录合并为一个更完整信息的记录。
3 S5 r8 o3 \5 T& Q) t: z
6、档案化(documenting):将前5个步骤的结果写入元数据存储中心。这样可以更好地进行后续的清理过程,使得用户容易理解数据库以及更好地进行切片、切块等操作。
, d4 y7 @2 l' J9 S4 O) a+ C 
5 ?4 k* b* D( Y7 Z2 w- @( H# y 几种发现数据异常的方法:
7 ]4 z$ `" O- S8 ^7 E
1. 基于契比雪夫定理的统计学方法:这种方法可以随机选取样本数据进行分析,加快了检测速度,但是这是以牺牲准确性为代价的。
9 }$ P, Y6 |+ x( m/ o. V0 ^$ L! w, ]1 r 2. 模式识别的方法:基于数据挖掘和机器学习算法来查找异常数据,主要牵涉关联规则算法。
4 Z. m, [7 n N1 S 3. 基于距离的聚类方法(聚类分析是一种新兴的多元统计方法,是当代分类学与多元分析的结合。聚类分析是将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。通俗的讲,聚类分析就是根据事物彼此不同的属性进行辨认,将具有相似属性的事物聚为一类,使得同一类的事物具有高度的相似性。):这也是数据挖掘中的算法,重点在于它的类的评测标准为Edit距离,来发现数据集中的重复纪录。
8 m& Z, H. I1 z$ X8 ]) X) h
4. 增量式的方法:如果数据源允许,我们可以采取随机的方法获取元组。这允许给异常检测算法一个随机元组流的输入。一些异常检测算法对这种输入可以使用增量、统计学方式,可以发现更多的异常。从数据源中获得元组,然后转换之后作为异常检测算法的输入。
# e' z* r+ p! Q5 \3 } 二、数据集成:
( _, e* g) G8 {: g- S, F 数据集成的目的:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题。
1 Q" l7 n0 E. o* b5 l' E" W, [
三、数据归约:
* ?+ g6 Y! e9 j! m1 e3 X
数据归约的目的:是指在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据模型,从而在尽可能保持数据原貌的前提下最大限度的精简数据量。简单的说就是压缩数据。
( s! N8 t! U& Z9 }5 l
数据归约的方法:可以通过如聚集、删除冗余特征或聚类来压缩数据的规模。
0 t7 W% p$ h$ _
1.数据立方体聚集:把聚集的方法用于数据立方体。
6 l8 }* x, e$ I2 v/ } 2.维归约:检测并删除不相关、弱相关或冗余属性。
, |4 q2 I/ o+ Y, v 3.数据压缩:选择正确的编码压缩数据集。
7 M- m' [) c4 X
4.数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。
: [ v" h% E! B& B% ~- v" I 5.离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概
8 Q/ x9 ^# a4 H1 z; g

# e( ~, [, l- \ 四、数据变换:是找到数据的特征表示,用维变换或转换来减少有效变量的数目或找到数据的不变式,包括规格化、规约、切换和投影等操作。就是指把原始数据转换成为适合数据挖掘的形式
9 ]- @. @2 Z' c8 H4 Q 1.光滑:去掉数据的噪声,包括分箱,回归和聚类
' ]: G0 i. I. e9 v' Z 2.聚集:对数据进行汇总或聚集。这一步通常用来为多粒度数据分析构造数据立方体
I3 c; m: x9 T! S* c 3.数据泛化:使用概念分层,用高层概念替换底层或原始数据。
n4 ?5 C$ z- y8 ?- b 4.规范化:又称为归一化,指将属性数据按比例缩放,使之落入一个小的特定区间。
$ S8 K" d. T4 Y/ j

* [4 y0 I F& e2 E; @ 那么运用python如何进行数据预处理呢?其过程主要包括以下6个步骤:导入库、导入数据集、处理缺失数据、解析分类数据、将数据集分为训练集和测试集、特征量化。
) \+ y& @5 v' m 
1 o! Z4 \4 o' q, r7 K T 其代码实现如下:
6 u% @+ \+ {+ y' l ~; p 
3 \; V" q% K Y$ Y7 m! x 以上关于机器学习数据的预处理是在阅读了其它文献资料的基础上总结的,如有错误,希望指正!
. w* ~' E2 M! @4 q( _