第1章Python语言基础1 1.1Python语言的特点1 1.2Python的安装方法2 1.3编写Python代码的方式4 1.3.1用文本编辑器编写代码4 1.3.2用命令行格式的Python Shell编写代码7 1.3.3用带图形界面的Python Shell编写交互式代码8 1.3.4用带图形界面的Python Shell编写程序代码9 1.4Python中的注释10 1.4.1Python中的单行注释10 1.4.2Python中的多行注释10 1.5Python中的对象11 1.5.1对象的身份11 1.5.2对象的类型11 1.5.3对象的值11 1.5.4对象的引用12 1.5.5对象的共享引用12 1.5.6对象是否相等的判断13 1.6Python中的变量13 1.7Python中的基本数据类型14 1.7.1number(数值)14 1.7.2string(字符串)16 1.7.3list(列表)28 1.7.4tuple(元组)37 1.7.5dictionary(字典)39 1.7.6set(集合)43 1.7.7Python数据类型之间的转换46〖3〗Python数据分析目录〖3〗1.8Python中的运算符48 1.9Python中的数据输入53 1.10Python中的数据输出55 1.10.1表达式语句输出55 1.10.2print()函数输出55 1.10.3字符串对象的format方法的格式化输出58 1.11Python中文件的基本操作60 1.12Python库的导入与扩展库的安装61 1.12.1库的导入61 1.12.2扩展库的安装62 第2章程序控制结构64 2.1布尔表达式64 2.2选择结构65 2.2.1单向if选择语句65 2.2.2双向ifelse选择语句66 2.2.3嵌套if选择语句和多向ifelifelse选择语句67 2.3条件表达式69 2.4选择结构程序举例70 2.5while循环71 2.6循环控制策略76 2.6.1交互式循环76 2.6.2哨兵式循环77 2.6.3文件式循环77 2.7for循环79 2.7.1for循环的基本用法79 2.7.2for循环与range()函数的结合使用82 2.8循环中的break、continue和else85 2.8.1用break语句提前终止循环85 2.8.2用continue语句提前结束本次循环86 2.8.3循环语句的else 子句86 2.9循环结构程序举例89 第3章函数92 3.1为什么要用函数92 3.2怎样定义函数93 3.3函数调用95 3.3.1带返回值的函数调用95 3.3.2不带返回值的函数调用98 3.4函数参数传递98 3.5函数参数的类型99 3.5.1位置参数99 3.5.2关键字参数99 3.5.3默认值参数99 3.5.4可变长度参数100 3.5.5序列解包参数101 3.6函数模块化102 3.7lambda表达式104 3.7.1lambda和def的区别104 3.7.2自由变量对lambda表达式的影响107 3.8变量的作用域107 3.8.1变量的局部作用域108 3.8.2变量的全局作用域109 3.8.3变量的嵌套作用域110 3.9函数的递归调用111 3.10常用内置函数115 3.10.1map()函数115 3.10.2reduce()函数115 3.10.3filter()函数117 3.11函数举例118 第4章正则表达式121 4.1什么是正则表达式121 4.2正则表达式的构成121 4.3正则表达式的模式匹配124 4.3.1正则表达式的边界匹配124 4.3.2正则表达式的分组、选择和引用匹配125 4.3.3正则表达式的贪婪匹配与懒惰匹配128 4.4正则表达式模块re129 4.5正则表达式对象133 4.6Match对象135 4.7正则表达式举例138 第5章文件与文件夹操作140 5.1文本文件140 5.1.1文本文件的字符编码140 5.1.2文本文件的打开142 5.1.3文本文件的写入145 5.1.4文本文件的读取146 5.1.5文本文件指针的定位148 5.2二进制文件149 5.2.1二进制文件的写入149 5.2.2二进制文件的读取150 5.2.3字节数据类型的转换150 5.3文件与文件夹操作152 5.3.1使用os操作文件与文件夹152 5.3.2使用os.path操作文件与文件夹154 5.3.3使用shutil操作文件与文件夹156 5.4csv文件的读取和写入158 5.4.1使用csv.reader()读取csv文件158 5.4.2使用csv.writer()写入csv文件159 5.4.3使用csv.DictReader()读取csv文件161 5.4.4使用csv.DictWriter()写入csv文件162 5.4.5csv文件的格式化参数163 5.4.6自定义dialect165 5.5文件与文件操作举例166 第6章用matplotlib实现数据可视化168 6.1matplotlib架构168 6.1.1后端层168 6.1.2表现层169 6.1.3脚本层171 6.2matplotlib的pyplot子库172 6.2.1绘制线形图174 6.2.2绘制直方图181 6.2.3绘制条形图183 6.2.4绘制饼图187 6.2.5绘制散点图189 第7章numpy库192 7.1ndarray多维数组192 7.1.1创建ndarray数组192 7.1.2创建特殊的ndarray数组194 7.1.3ndarray对象的数据类型200 7.1.4ndarray对象的属性201 7.2数组元素的索引、切片和选择202 7.2.1索引和切片202 7.2.2选择数组元素的方法203 7.2.3ndarray数组的形状变换207 7.3随机数数组209 7.3.1简单随机数209 7.3.2随机分布211 7.3.3随机排列213 7.3.4随机数生成器214 7.4数组的运算215 7.4.1算术运算与函数运算215 7.4.2统计计算218 7.4.3线性代数运算221 7.4.4排序224 7.4.5数组拼接与切分225 7.5读写数据文件228 7.5.1读写二进制文件228 7.5.2读写文本文件229 第8章pandas库231 8.1Series对象231 8.1.1Series对象创建231 8.1.2Series对象的属性233 8.1.3Series对象的数据查看和修改234 8.2Series对象的基本运算235 8.2.1算术运算与函数运算235 8.2.2Series对象之间的运算237 8.3DataFrame对象237 8.3.1DataFrame对象创建237 8.3.2DataFrame对象的属性240 8.3.3查看和修改DataFrame对象的元素242 8.3.4判断元素是否属于DataFrame对象244 8.4DataFrame对象的基本运算245 8.4.1数据筛选245 8.4.2数据预处理247 8.4.3数据运算与排序264 8.4.4数学统计270 8.4.5数据分组与聚合277 8.5pandas数据可视化284 8.5.1绘制折线图286 8.5.2绘制条形图287 8.5.3绘制直方图288 8.5.4绘制箱线图290 8.5.5绘制区域图290 8.5.6绘制散点图291 8.5.7绘制饼状图292 8.6pandas读写数据293 8.6.1读写csv文件293 8.6.2读取txt文件296 8.6.3读写Excel文件298 8.7筛选和排序数据实例302 第9章数据质量分析304 9.1缺失值分析304 9.2异常值分析305 9.3一致性分析308 9.4数据特征分析309 9.4.1分布分析309 9.4.2统计量分析309 9.4.3周期性分析313 9.4.4相关性分析314 9.4.5贡献度分析316 第10章数据预处理319 10.1数据清洗319 10.1.1处理缺失值319 10.1.2噪声数据处理329 10.2数据集成331 10.2.1实体识别问题331 10.2.2属性冗余问题332 10.2.3元组重复问题332 10.2.4属性值冲突问题333 10.3数据规范化333 10.3.1最小最大规范化333 10.3.2z分数规范化335 10.3.3小数定标规范化335 10.4数据离散化335 10.4.1无监督离散化336 10.4.2监督离散化337 10.5数据归约338 10.5.1过滤法338 10.5.2包装法340 10.5.3嵌入法341 10.6数据降维342 10.6.1主成分分析342 10.6.2线性判别分析法343 10.7数据预处理举例344 第11章数据分析方法350 11.1相似度和相异度的度量350 11.1.1数据对象之间的相异度350 11.1.2数据对象之间的相似度352 11.2分类分析方法354 11.2.1决策树分类方法355 11.2.2朴素贝叶斯分类方法362 11.2.3支持向量机方法369 11.3回归分析方法374 11.3.1一元线性回归375 11.3.2多元线性回归380 11.3.3逻辑回归分析386 11.4聚类分析方法391 11.4.1聚类分析的概念391 11.4.2划分聚类方法392 11.4.3层次聚类方法397 11.4.4基于密度的聚类方法406 第12章基于信用卡消费行为的银行信用风险分析410 12.1背景介绍410 12.2数据获取与数据探索分析411 12.2.1数据获取411 12.2.2数据探索分析411 12.3数据预处理413 12.3.1缺失值处理413 12.3.2异常值处理415 12.4数据特征分析417 12.4.1单变量分析417 12.4.2多变量分析419 12.5客户信用分析419 12.5.1特征选择419 12.5.2逻辑回归分析420 第13章文本情感分析421 13.1中文分词方法421 13.1.1基于字符串匹配的分词方法422 13.1.2基于统计的分词方法425 13.1.3基于理解的分词方法429 13.2文本的关键词提取429 13.2.1基于文档频率的关键词提取429 13.2.2基于互信息的关键词提取429 13.2.3基于词频逆文件频率的关键词提取430 13.3文本情感分析简介435 13.3.1文本情感分析的层次435 13.3.2中文文本情感倾向分析436 13.4LDA主题模型438 13.4.1LDA主题模型介绍438 13.4.2LDA主题模型的最大似然参数估计440 13.5运用LDA模型对电商手机评论进行主题分析443 13.5.1电商手机评论数据的采集443 13.5.2评论预处理450 13.5.3评论文本分词457 13.5.4去除停用词458 13.5.5绘制评论文本的词云图459 13.5.6评论文本情感倾向分析461 13.5.7评论文本的LDA主题分析466 参考文献469