第1章大数据基础1 1.1什么是大数据4 1.1.1天文学——信息爆炸的起源5 1.1.2信息爆炸的社会5 1.1.3大数据的发展7 1.1.4大数据作为BI的进化形式8 1.2大数据的定义9 1.2.1定义大数据9 1.2.2大数据的3V特征10 1.2.3广义的大数据12 1.3大数据的结构类型12 1.4大数据应用改变生活13 1.4.1在线娱乐14 1.4.2在线广告14 1.4.3销售和营销14 1.4.4数据可视化15 1.4.5运营智能15 1.5大数据准备度自我评分表16 作业19第2章大数据分析基础22 2.1大数据的影响25 2.2数据具有内在预测性27 2.3大数据分析的定义27 2.44种数据分析方法28 2.4.1描述性分析29 2.4.2诊断性分析30 2.4.3预测性分析30 2.4.4规范性分析32 2.4.5关键绩效指标33 2.5定性分析与定量分析33 2.6大数据分析的行业作用33 2.6.1大数据分析的作用33 2.6.2大数据分析的关键应用35 2.6.3大数据分析的能力分析36 2.6.4大数据分析面临的问题36 作业38第3章大数据分析生命周期40 3.1大数据分析生命周期概述43 3.2商业案例评估44 3.3数据标识44 3.4数据获取与过滤44 3.5数据提取45 3.6数据验证与清理46 3.7数据聚合与表示47 3.8数据分析48 3.9数据可视化48 3.10分析结果的使用49 作业50第4章大数据分析基本原则52 4.1大数据的现代分析原则54 4.2原则1: 实现商业价值和影响56 4.3原则2: 专注于最后一千米56 4.4原则3: 持续改善57 4.5原则4: 加速学习能力和执行力58 4.6原则5: 差异化分析58 4.7原则6: 嵌入分析59 4.8原则7: 建立现代分析架构59 4.9原则8: 构建人力因素60 4.10原则9: 利用消费化趋势60 作业61第5章构建分析路线63 5.1什么是分析路线66 5.1.1商业竞争3.0时代66 5.1.2创建独特的分析路线67 5.2第1步: 确定关键业务目标69 5.3第2步: 定义价值链69 5.4第3步: 头脑风暴分析解决方案机会71 5.4.1应用描述71 5.4.2分析手段71 5.5第4步: 描述分析解决方案机会74 5.6第5步: 创建决策模型74 5.7第6步: 评估分析解决方案机会75 5.8第7步: 建立分析路线图77 5.9第8步: 不断演进分析路线图77 作业77第6章大数据分析的运用79 6.1企业分析的分类81 6.2战略分析82 6.2.1专案分析83 6.2.2战略市场细分84 6.2.3经济预测84 6.2.4业务模拟84 6.3管理分析85 6.4运营分析86 6.5科学分析88 6.6面向客户的分析89 6.6.1预测服务89 6.6.2分析应用89 6.6.3消费分析90 6.6.4案例: 大数据促进商业决策91 作业94第7章大数据分析的用例96 7.1什么是用例100 7.2预测用例101 7.3解释用例104 7.4预报用例104 7.5发现用例106 7.6模拟用例106 7.7优化用例107 作业107第8章预测分析方法109 8.1预测分析方法论111 8.2定义业务需求113 8.2.1理解业务问题113 8.2.2定义应对措施113 8.2.3了解误差成本115 8.2.4确定预测窗口116 8.2.5评估部署环境116 8.3建立分析数据集117 8.3.1配置数据117 8.3.2评估数据117 8.3.3调查异常值118 8.3.4转换数据119 8.3.5执行基本表操作119 8.3.6处理丢失数据120 8.4降维与特征工程120 8.4.1降维120 8.4.2特征工程120 8.4.3特征变换123 8.5建立预测模型123 8.5.1制订建模计划123 8.5.2细分数据集124 8.5.3执行模型训练计划125 8.5.4测量模型效果125 8.5.5验证模型126 8.6部署预测模型126 8.6.1审查和批准预测模型127 8.6.2执行模型评分127 8.6.3评价模型效果128 8.6.4管理模型资产128 8.7预测分析软件系统129 作业129第9章预测分析技术132 9.1关于预测分析技术136 9.2统计分析136 9.3生存分析137 9.4有监督和无监督学习138 9.4.1有监督学习138 9.4.2无监督学习140 9.4.3有监督和无监督学习的区别141 9.5机器学习141 9.5.1机器学习的思路141 9.5.2异常检测142 9.5.3过滤144 9.5.4贝叶斯网络145 9.5.5文本挖掘146 9.6神经网络147 9.7深度学习149 9.8语义分析151 9.8.1自然语言处理152 9.8.2文本分析152 9.8.3文本处理153 9.8.4语义检索154 9.8.5A/B测试154 9.9视觉分析155 9.9.1热点图156 9.9.2空间数据图156 作业157第10章大数据分析模型161 10.1什么是分析模型169 10.2关联分析模型169 10.2.1回归分析170 10.2.2关联规则分析171 10.2.3相关分析172 10.2.4相关分析与回归分析173 10.3分类分析模型173 10.3.1判别分析的原理和方法174 10.3.2基于机器学习的分类模型174 10.3.3支持向量机175 10.3.4逻辑回归176 10.3.5决策树176 10.3.6k近邻177 10.3.7随机森林178 10.3.8朴素贝叶斯180 10.4聚类分析模型180 10.4.1聚类问题分析181 10.4.2聚类分析的分类182 10.4.3聚类有效性的评价183 10.4.4聚类分析方法183 10.4.5聚类分析的应用184 10.5结构分析模型184 10.5.1典型的结构分析方法184 10.5.2社团发现185 10.6文本分析模型185 作业186第11章用户角色与分析工具189 11.1用户角色193 11.1.1超级分析师193 11.1.2数据科学家194 11.1.3业务分析师195 11.1.4分析使用者195 11.2分析的成功因素196 11.3分析编程语言197 11.3.1R语言197 11.3.2SAS编程语言199 11.3.3SQL200 11.4业务用户工具201 11.4.1BI的常用技术201 11.4.2BI工具和方法的发展历程202 11.4.3新的分析工具与方法204 11.4.4业务工具实例206 作业208第12章大数据分析平台210 12.1分布式分析217 12.1.1关于并行计算217 12.1.2并行计算的三种形式218 12.1.3数据并行与“正交”218 12.1.4分布式的软件环境219 12.2预测分析架构220 12.2.1独立分析220 12.2.2部分集成分析221 12.2.3基于数据库的分析223 12.2.4基于Hadoop的分析224 12.3Apache Spark分布式分析软件225 12.4云计算中的分析227 12.4.1公有云和私有云228 12.4.2安全和数据移动229 12.5现代SQL平台229 12.5.1什么是现代SQL平台230 12.5.2现代SQL平台区别于传统SQL平台231 12.5.3MPP数据库232 12.5.4SQLonHadoop232 12.5.5NewSQL数据库233 12.5.6现代SQL平台的发展233 作业234第13章社交网络与推荐系统236 13.1社交网络的定义239 13.1.1社交网络的特点240 13.1.2社交网络度量241 13.1.3社交网络学习242 13.2社交网络的结构243 13.2.1社交网络的统计学构成244 13.2.2社交网络的群体形成245 13.2.3图与网络分析246 13.3社交网络的关联分析248 13.4推荐系统248 13.4.1推荐系统的概念248 13.4.2推荐方法的组合251 13.4.3推荐系统的评价252 13.5协同过滤252 13.6推荐方法254 13.6.1基于用户评价的推荐254 13.6.2基于人的推荐255 13.6.3基于标签的推荐255 作业256第14章组织分析团队258 14.1企业的分析文化262 14.1.1管理分析团队的有效因素262 14.1.2繁荣分析的文化共性263 14.2数据科学家(数据工作者)264 14.2.1数据科学家角色264 14.2.2分析人才的四种角色264 14.2.3数据准备专业人员266 14.2.4分析程序员266 14.2.5分析经理267 14.2.6分析通才268 14.2.7吸引数据科学家269 14.3集中式与分散式分析团队270 14.4组织分析团队272 14.4.1卓越中心272 14.4.2首席数据官与首席分析官272 14.4.3实验室团队273 14.4.4数据科学技能自我评估273 14.5走起,大数据分析275 作业276附录278 附录A部分作业参考答案278 附录B大数据分析课程实践280 B.1大数据帮零售企业制定促销策略280 B.2电信公司通过大数据分析挽回核心客户280 B.3大数据帮能源企业设置发电机地点281 B.4电商企业通过大数据制定销售战略281 B.5案例分析与课程实践要求281 参考文献284