第5 章大模型数据分析 随着大数据时代的到来,数据分析已成为推动现代企业和行业发展的核心动力。它与 人工智能一起,正逐步改变各行各业的运作模式。本章阐述数据分析的核心概念与方法,运 用大模型技术为数据可视化、回归分析及聚类分析等应用提供切实可行的解决方案,并通过 实例演示,助力读者掌握相关的技能。 5.数据分析概述 1 大模型不仅在自然语言处理领域具有广泛应用场景,还在数据分析、推荐系统等领域展 现出了强大的应用潜力。作为智能化、个性化服务的提供者,大模型正逐步成为企业和个人 在数据驱动决策过程中不可或缺的重要工具。其强大的生成能力使得非专业人士也能迅速 掌握并应用大模型技术,有效降低了数据分析和人工智能的入门门槛。 5.1 数据分析的定义 1. 数据分析是对数据进行系统的收集、清洗、分析、解释和展示的过程,旨在从数据中发现有 用的信息和知识。这一过程的核心在于通过技术手段揭示数据背后的规律、趋势和关联,从而 为决策提供帮助。大模型在数据分析中的优势主要体现在自动化、智能化和准确性等方面。 它能够自动处理海量数据,发现数据中的隐藏模式和关系,提供深入的洞察和决策支持。 数据分析在大模型技术中的重要性不言而喻,它不仅是大模型训练和优化的基础,也是 大模型能够在实际应用中发挥效能的关键。以下是对数据分析重要性的解释。 1.数据分析是大模型训练的基础 大模型依赖大规模数据集进行训练。数据分析能够从这些数据中提取有用的特征和信 息,为模型提供学习的基础。通过数据分析,可以识别并去除数据中的噪声和异常值,提高 数据的纯净度和质量。这有助于大模型准确地学习数据的分布和模式,从而提升模型的 性能。 2.数据分析支持大模型的优化 数据分析可以帮助识别对模型性能影响最大的特征,并进行特征选择和降维处理。这 可以降低模型的复杂度,提高模型的泛化能力,并降低过拟合的风险。在大模型的训练过程 第5章大模型数据分析 中,数据分析可以用于评估不同参数设置对模型性能的影响。通过数据分析,可以找到最优 的参数组合,从而提高模型的性能。 3. 数据分析助力大模型的应用 大模型在实际应用中,如金融风控、医疗诊断和智能推荐等,需要依赖数据分析来进行 预测和决策。数据分析能够帮助模型识别出潜在的风险和机会,为实际应用提供有力的支 持。通过数据分析,大模型可以了解用户的偏好和需求,从而提供个性化的服务。例如,在 电商领域,大模型可以根据用户的浏览和购买历史,推荐符合用户喜好的商品。 4. 数据分析推动大模型技术创新 数据分析能够从数据中挖掘出潜在的知识和模式,为大模型的创新提供灵感和方向。 例如,通过数据分析,可以发现某些特征之间的关联关系,从而设计出更有效的算法和模型。 数据分析在大模型技术中的应用促进了计算机科学、统计学和数学等多个学科的融合与发 展,这种跨学科融合为大模型技术创新与发展提供了新的思路和方法。 尽管大模型在数据分析中取得了显著成果,但仍面临数据偏见、模型可解释性不足等挑 战。未来的研究需要更加注重算法的公平性和可解释性,并加强跨学科合作,推动技术创新 和应用拓展。 5.2 数据分析的特点 1. 1. 数据规模庞大 大模型通常需要处理海量的数据,这些数据规模可能达到TB 级别甚至PB 级别。庞大 的数据规模对数据的存储、处理和分析能力提出了很高的要求。 2. 数据类型多样 大模型需要处理的数据类型多种多样,涵盖了文本、图像、视频、音频等多模态数据。不 同类型的数据蕴含着不同的信息和特征,需要采用不同的处理和分析方法。这对数据分析 的灵活性和适应性提出了更高要求。 3. 数据质量要求高 大模型的性能在很大程度上依赖数据的质量。高质量的数据能够提高模型的准确性和 泛化能力。因此,在数据分析过程中,需要对数据进行严格的清洗、去噪和预处理,以确保数 据的准确性和可靠性。 4. 分析技术复杂 为了从海量、多样的数据中提取出有用的信息和知识,大模型采用的数据分析技术通常 较为复杂。这些技术可能涉及深度学习、自然语言处理和计算机视觉等,需要综合运用多种 算法和方法。 大模型技术与应用 5. 分析结果具有预测性 通过数据分析,大模型能够揭示数据之间的内在联系和规律,从而对未来的趋势和结果 进行预测。这种预测能力对于制定决策、优化资源配置等方面具有重要意义。 5.3 数据分析的流程 1. 通常,数据分析包括以下几个阶段。 1. 数据收集 数据收集即收集需要分析的数据,这些数据既包括结构化数据,如数据库中的表格数 据、电子表格中的数值数据等,又包括非结构化数据,如文本、图像、视频、音频等多媒体数 据。在收集数据的过程中,还需要注意数据的时效性和合法性,确保数据的新鲜度和合 规性。 2. 数据清洗 在收集到的原始数据中,往往存在着缺失值、异常值、重复值和格式不一致等问题。这 些问题如果不及时处理,会对数据分析结果产生影响。因此,需要对数据进行清理、转换和 整理,以确保数据的准确性、完整性和一致性。数据清洗的具体操作可能包括删除或填补缺 失值、替换或删除异常值、合并或删除重复数据,以及统一数据格式等。 3. 数据分析 在数据分析阶段,需要使用统计学、机器学习等方法对数据进行分析和探索。通过数据 分析,人们可以发现数据中的模式、趋势和关联,揭示出数据背后隐藏的规律和信息。数据 分析的方法多种多样,包括描述性统计、推断性统计、聚类分析、回归分析和关联规则挖 掘等。 4. 数据解释 数据分析的结果往往是以数学模型、算法或图表等形式呈现的,这些结果对于非专业人 士来说可能难以理解。因此,需要将数据分析的结果转换为可理解的形式,并解释其意义和 影响。数据解释的过程需要结合业务背景和实际需求,提出有针对性的见解和建议。数据 解释可以帮助决策者更好地理解数据分析结果,从而做出更明智的决策。 5. 数据展示 将数据分析的结果以图表、报告等形式进行展示。数据展示是数据分析成果的最终呈 现方式,它直接影响数据分析结果的传播和应用效果。因此,需要注重数据展示的可视化效 果和易读性,确保数据展示能够清晰地传达数据的意义和价值。同时,还可以根据实际需 求,将数据展示结果以不同的形式(如PPT 、在线报告、交互式仪表板等)进行分享和传播, 以便更好地沟通和传达数据分析的成果。 第5章大模型数据分析 5.4 数据分析的应用 1. 在大模型技术中,数据分析的应用非常广泛,涵盖了多个行业和领域。 1. 金融领域 (1)风险评估:大模型通过分析大量的金融交易数据、客户信用记录等信息,可以精准 地评估贷款、投资等金融活动的风险。 (2)市场趋势预测:通过分析市场数据、经济指标等,大模型可以帮助金融机构预测市 场趋势,制订投资策略。 2. 智能制造 (1)质量检测:大模型可以对生产过程中的产品进行实时质量检测,及时发现并纠正 质量问题。 (2)预测性维护:通过分析设备的运行数据、维修记录等,大模型可以预测设备的故障 风险,提前进行维护,避免生产中断。 3. 零售与电商 (1)消费者行为分析:大模型可以分析消费者的购买历史、浏览记录等数据,了解消费 者的偏好和需求,为个性化推荐和精准营销提供依据。 (2)库存管理:通过分析销售数据、库存数据等,大模型可以帮助企业优化库存管理策 略,降低库存成本,提高资金周转率。 4. 医疗领域 (1)医学影像分析:大模型能够对医学影像进行自动分析和诊断,辅助医生发现病灶、 判断病情。 (2)疾病预测与预防:通过分析患者的遗传信息、生活习惯和体检数据等,大模型可以 预测患者患病的风险,并提出预防措施。 5. 教育领域 (1)智能辅导:大模型可以根据学生的学习进度和能力,提供个性化的学习资源和建 议,帮助学生提高学习效果。 (2)学情分析:通过分析学生的学习数据、作业完成情况等,大模型可以帮助教师了解 学生的学习情况,制订针对性的教学计划。 6. 智慧城市 (1)交通流量预测:通过分析历史交通数据、天气信息和节假日等因素,大模型可以预 测未来的交通流量,为交通管理部门提供决策支持。 (2)智能红绿灯控制:大模型可以根据实时交通情况,智能调整红绿灯的配时,缓解交 大模型技术与应用 通拥堵。 综上所述,数据分析在大模型技术中的应用非常广泛,涵盖了金融、制造、零售、医疗、教 育、智慧城市和媒体娱乐等多个领域。通过深度挖掘和分析数据中的价值信息,大模型能够 为企业和机构提供精准的决策支持和创新服务。 【例题5-1】列举3个数据分析在大模型技术中应用的例子。 【解】(1)金融风控。 ①信贷审批:大模型通过对借款人的历史还款记录、收入状况、信用评分等多维度数 据进行分析,可以快速、准确地评估借款人的信用风险,辅助金融机构做出信贷审批决策。 ②反洗钱监测:利用大模型对交易数据进行实时监测和分析,能够识别出异常交易模 式,及时发现并报告可疑的洗钱行为,保障金融系统的安全稳定。 (2)智能制造的预测性维护。 ①设备健康监测:大模型通过对设备的运行数据、维护记录、故障历史等多维度数据 进行分析,可以预测设备的健康状况,提前发现潜在的故障风险。 ②维护计划优化:基于设备健康监测的结果,大模型可以自动生成维护计划,包括维 护时间、维护内容、所需备件等,帮助企业合理安排维护资源,降低维护成本。 (3)教育领域的智能评估。 ①学生能力评估:大模型可以通过分析学生的作业完成情况、考试成绩、课堂表现等 多维度数据,对学生的学习能力进行客观、全面的评估。 ②教学效果反馈:通过对学生的学习数据进行分析,大模型还可以为教师提供教学效 果反馈,帮助教师了解教学情况,及时调整教学策略。 这些例子展示了数据分析在大模型技术中的广泛应用。通过深度挖掘和分析数据中的 价值信息,大模型能够为企业和机构提供精准、高效的决策支持和创新服务。 5.数据处理方法 2 数据处理是数据分析流程中的核心环节,它涉及对原始数据进行一系列的操作和转换, 以确保数据的准确性、一致性和完整性,从而支持后续的分析和决策过程。数据处理主要包 括数据预处理、数据选择、数值操作、数值运算、数据分组和时间序列分析等。 2.数据预处理 5.1 数据预处理是数据分析前的必要准备阶段,其目的是清洗和整理数据,使其适合进一步 的分析。数据预处理主要包括缺失值填充、重复值删除、异常值删除或替换等。 缺失值是数据中常见的现象,可能由于记录错误、设备故障或人为疏忽等原因造成。缺失 值的处理方法包括删除含有缺失值的记录(在数据量大且缺失值比例较小时可行)、使用均值/ 中位数/众数等统计值进行填充,或采用插值法、机器学习算法等更复杂的方法进行预测填充。 重复值是指数据集中完全相同的记录,它们可能在数据录入错误时或数据合并过程中 产生。重复值的存在会扭曲数据的分布,影响分析结果的准确性。因此,在数据分析前,需 要仔细检查数据集是否存在重复值,并予以删除。 第5章大模型数据分析127 异常值是指数据中明显偏离其他数据点的值,可能由于测量错误、数据录入错误或极端 事件等原因造成。异常值的存在会对统计分析和机器学习模型的性能产生负面影响,如拉 高或拉低平均值、影响回归模型的拟合效果等。处理异常值的方法包括删除异常值、用统计 值(如中位数)替换异常值、根据业务逻辑进行特殊处理等。在处理异常值时,需要谨慎判 断,以免误删或误替换包含重要信息的数据点。 【例题5-2】基于提供的图书管理数据集,分别执行以下操作,并以表格形式返回大模 型工具的处理结果。 (1)删除数据集中有重复的记录行; (2)找出数据集中缺失值,并使用这一列的均值(整数)进行填充; (3)将库存量大于30的值视作异常值并将其替换为30 。 图书管理数据集如下: 图书ID 书名作者出版社出版日期定价库存量 201201 计算机导论蔡平电子工业出版社2012.8 35 8 201202 计算思维导论陈国良高等教育出版社2012.10 29 15 201203 计算思维导论唐培和广西师范大学出版社2012.10 45 12 20201 大学计算机王移芝高等教育出版社202.9 43 3 201201 计算机导论蔡平电子工业出版社2012.8 35 8 202401 计算机科学导论战德臣高等教育出版社2024.8 82 2020 1 人工智能导论廉师友清华大学出版社2020.10 69.8 20202 人工智能通识教程王万良清华大学出版社202.6 59.8 2 202402 人工智能引论吴飞高等教育出版社2024.4 56 38 202403 人工智能导论莫宏伟人民邮电出版社2024.1 69.8 10 【解】模型回复分别如图5-1、图5-2和图5-3所示。 (1)删除重复行后的数据集如图5-1所示。 图5- 1 删除重复行后的数据集 大模型技术与应用 (2)填充缺失值后的数据集(均值整数填充)如图5-2所示。 图5- 2 填充缺失值后的数据集 (3)替换异常值后的数据集(库存量>30 的值视作异常值并替换为30)如图5-3所示。 图5- 3 替换异常值后的数据集 第5章大模型数据分析 5.2 数据选择 2. 数据选择主要是根据实际需求和分析目标,从数据集中选取特定的记录行或列。通过 数据选择,可以减少数据的维度,聚焦关键信息,提高数据分析的效率和准确性。本节以上 述例题的结果数据为例,进行数据选择。 【例题5-3】2.如图53所示), 清华 基于5.1节处理后的图书管理数据集(-将出版社为“ 大学出版社”的全部图书筛选出来,并以表格形式返回大模型工具的处理结果。 【解】模型回复如图5-4所示。 图5- 4 大模型工具按出版社筛选后的结果 【例题54】基于5.1节处理后的图书管理数据集(如图53所示), 选择库存量大于 10 且定价低于50 元的图书,并筛选出这些书的“书名”“作者”“库存量”信息,并以表格形式 返回大模型工具的处理结果。 【解】模型回复如图5-5所示。 -2. 图5- 5 大模型工具按库存量和定价筛选后的结果 5.3 数值操作 2. 数值操作主要是对数据进行替换、排序等。本节仍以之前的数据为例,进行数值操作。 -2. 【例题55】基于5.1节处理后的图书管理数据集(如图53所示), 依次执行以下操 作,并以表格形式返回大模型工具的处理最终结果。 (1)将库存量小于12 的值替换成20; 大模型技术与应用 (2)将数据集记录按照库存量进行降序排列。 【解】模型回复如图5-6所示。 图5- 6 大模型工具进行替换和排序操作后的结果 读者可以思考,若将库存量为20 的数据记录参与排序,应该如何修改提示词(参考思维 链提示)。 5.4 数值运算 2. 数值运算主要是对数据进行算术运算、比较运算和汇总运算等,这些运算能够帮助用户 从原始数据中提取出有价值的信息,为后续的数据分析和决策提供支持。本节仍以之前的 数据为例进行数值运算。 【例题56】2.如图53所示), -基于5.1节处理后的图书管理数据集(-依次执行以下操 作,并以表格形式返回大模型工具的处理结果。 (1)将“定价”和“库存量”进行相乘,用相乘结果生成“小计”列,并删除“出版日期”列; (2)对数据记录进行计数,并对“小计”列求和,返回计算结果 。 【解】模型回复如图5-7和图5-8所示 。 5.5 数据分组 2. 数据分组是按照某些维度先对数据进行分组,再对分组后的数据进行汇总运算等操作。 本节仍以之前的数据为例进行数据分组。 -2. 【例题57】基于5.1节处理后的图书管理数据集(如图53所示), 依次执行以下操 作,并以表格形式返回大模型工具的处理结果。 第5章大模型数据分析 图5- 7 大模型工具完成增加列、删除列操作后的结果 图5- 8 大模型工具完成计数和求和操作后的结果 (1)以出版社名称进行分组,返回除高等教育出版社以外的分组数据; (2)统计各出版社出版图书的数量 。 【解】模型回复如图5-9和图5-10 所示 。 5.6 时间序列分析 2. 时间序列分析主要有时间格式互换、时间索引和时间运算等。本节仍以之前的数据为 例进行时间序列分析。 -2. 【例题58】基于5.1节处理后的图书管理数据集(如图53所示), 依次执行以下操 作,并以表格形式返回大模型工具的处理结果。 (1)删除“定价”“库存量”两列,同时删除高等教育出版社出版的图书记录; (2)提取“出版日期”中的“月”部分,存储在“月份”新列中; (3)将清华大学出版社所出版图书的出版日期推迟30 天,存储在“备注”新列中。 【解】模型回复如图5-11 、图5-12 和图5-13 所示。