本书目标 我们正处于激动人心的时代!除了面向过程和面向对象的编程语言,统计计算和大规模数据分析任务需要一种新的计算机语言,这类语言的主要目标是支持各种类型的统计分析和数据分析任务,而不是开发新的软件。目前,人们已经可以对大量的数据进行不同的分析,并为不同的行业运营提供广泛而有效的见解。然而,目前存在的问题是缺乏针对不同目的的数据分析的支持、工具和技术。R是一种开源的统计和分析语言,它的出现拯救了我们。 读者对象 本书的读者对象包括各级IT专业人员,确定IT发展战略的主管人员、系统管理员、数据分析师和负责推动战略举措的决策者等。本书将帮助读者从一个新手变成一名专业的数据分析师。 本书也将成为商业用户、管理学毕业生和商业分析师感兴趣的读物。 本书结构 本书共12章,每章的内容安排如下。 第1章。介绍R及R软件包的安装,使读者通过find.package()、install.packages()、library()、vignette()和packageDescription()函数利用任意R包进行工作。 第2章。利用dir()和list()函数分析目录下的内容,并利用str()、summary()、ncol()、nrow()、head()、tail()和edit()等函数轻松地分析数据集。 第3章。本章帮助读者熟悉从csv文件、电子表格、网络、JASON文档、XML等导入数据的过程,熟悉MySQL、PostgreSQL、SQLite和JasperDB等数据库在R中的使用方法。 第4章。主要关于数据框的操作,帮助读者将不同类型的数据存入数据框,并从数据框中提取数据,执行dim()、nrow()、ncol()、str()、summary()、 names()、head()、tail()和edit()等R函数,以理解数据框中的数据;帮助读者实现对数据的描述性统计(如频数、均值、中值、众数、标准差等)。 第5章。讨论常用于基于预测变量预测结果变量值(目标或响应值)的回归分析。 第6章。介绍逻辑回归、二项逻辑回归模型和多元逻辑回归模型。 第7章。关于分类问题,帮助读者引入一个决策树以执行分类,并利用创建的决策树模型预测结果变量的值。 第8章。介绍探索时间序列数据,帮助读者使用scan()和ts()函数读取时间序列数据,对其应用线性滤波,并对时间序列数据进行分解;通过合适的绘制图对时间序列数据进行可视化。 第9章。帮助读者利用hclust()函数实现在R中的聚类,讨论R中的kmeans算法。 第10章。帮助读者在给出特定事务和项集的情况下确定关联规则,同时使用支持度、置信度和提升度对关联规则进行评价;讨论在R中实现关联规则的挖掘,创建给定项集的二元关联矩阵,创建项矩阵,确定项频率,使用apriori()函数和eclat()函数。 第11章。帮助读者在R中实现对文本的挖掘。 第12章。使用doParallel包和foreach包在R中进行并行计算。 在线学习中心 本书提供附加的内容支持,这些内容可以通过扫描下方二维码获得下载链接,该链接包含以下内容。 教师资源: PPT; 习题解答手册。 学生资源: 重要的参考资料链接; 问题库; 进一步阅读的建议。 大数据分析——基于R语言前言如何使本书发挥最大作用 严格遵循以下规则,可以很容易地通过本书获得最大的收益。 仔细阅读,根据示例中的指令说明亲自动手实践,不要跳过任何示例,如有需要,则再重复一遍,或者直到概念被牢牢记住。 探索所有R函数和命令的各种选项。 完成各章最后的巩固练习。 收集公开的数据集,并对其应用书中的数据挖掘算法和分析技术。 下一步该做什么 本书尽力解析R作为统计数据分析和可视化工具的能力,并为读者介绍几种数据挖掘算法和图表表示/可视化方法。建议读者从头读到尾,当然也可以直接阅读最感兴趣的部分。 给教师的话 本书在确定各章的顺序时,也考虑到了每章中各个主题的顺序,这将有助于教师和学生从这本书的目录中划分出教学大纲。完整的目录可以作为一个学期的教学大纲;如果已有关于数据分析、数据科学或分析及可视化的教学大纲,也可以将本书的一些章节添加进去,从而使其更完整。 本书已确保讨论的每一个工具和组件都有足够的实践内容,使教师能够更高效地教学,并为学生提供充足的实战练习。 Seema Acharya