第3章〓Python数据挖掘中的常用模块 Python具有强大的扩展能力，其中的数据分析与挖掘常用模块几乎可以满足人们的各种需求。例如，科学计算模块NumPy提供了矩阵运算；基于NumPy的数据分析处理模块Pandas提供了一些数据挖掘工具；数据可视化模块Matplotlib具有类似MATLAB的绘图工具；针对Python编程软件免费版的机器学习模块Scikitlearn具有常用的分类、回归和聚类等算法。 3.1NumPy模块 NumPy(Numerical Python的简称)是Python的一个开源数值计算扩展模块，可以用来存储和处理大型矩阵。NumPy要比Python自身的嵌套列表结构高效得多，支持大维度数组与矩阵运算，并且针对数组运算提供了大量的数学函数库。 3.1.1NumPy数据类型 NumPy提供了一个n维数组类型ndarray，描述了相同类型的“items”的集合。n维数组(ndarray)是NumPy主要的数据类型，数组的下标从0开始。 1. ndarray对象 ndarray对象可以通过一个常规的Python列表或者使用array()函数的元组来构建，通过调用生成后数组的dtype属性来了解该数组的元素类型。导入NumPy库的语句形式主要有以下3种。  import numpy as np：在这个方式下使用NumPy函数或属性时以np.开头。  import numpy：在这个方式下使用NumPy函数或属性时以numpy.开头。  from numpy import *：在这个方式下使用NumPy函数或属性时可以直接引用。一般常用第一种方法，尽量不用第三种方法。以后如果没有特殊说明，都是默认使用第一种方法。 (1) 利用列表创建数组，其常用形式为np.array(object［,dtype］［,ndmin］)。参数说明： ① object为同类型元素的列表或元组。 ② dtype表示数组所需的数据类型，默认为None。 ③ ndmin为int类型，指定生成数组应该具有的最小维数，默认为None。例3.1用列表生成数组示例。程序代码如下： import numpy as np data=［3,-4,7,12］ x=np.array(data) #使用列表生成一维数组 print(x) data=［［1,2］,［3,4］,［5,6］］ y=np.array(data) #使用列表生成二维数组 print(y) (2) 利用range()和arange()函数生成一维数组，其常用形式如下。 ① range(start,end,step)：返回一个list对象，起始值为start，终止值为end，但不含终止值，步长为step。该函数只能创建int型list。 ② arange(start,end,step)：与range()类似，但是返回一个ndarray对象，并且可以使用float型数据。 (3) 利用arange()函数和reshape()函数创建多维数组，其常用形式为： np.arange().reshape(,,…,) 说明：该方法利用arange()函数生成一维数组，而利用reshape()函数将一维数组转换为多维数组。例3.2创建数组示例。程序代码如下： import numpy as np a=np.arange(0,1,0.1) #生成一维数组 print(a) b=np.arange(10).reshape(2,5) #生成2×5数组 print(b) 2. matrix对象 matrix是ndarray的一个小分支，它拥有ndarray的所有特性。在NumPy中matrix的主要优势是具有简单的乘法运算符号。例如a和b是两个matrix类型的对象，则a*b就是矩阵积。利用mat()函数或matrix()函数可以创建矩阵，其常用形式为np.mat|matrix(