前言 全比较问题数据分发策略研究前言前言 全比较问题是一类特殊的计算问题,广泛存在于生物信息学、生物测定学和数据挖掘等领域。生物信息学中的序列比对、聚类分析以及当前的研究热点全局网络比对均属于典型的全比较计算问题。分布式计算系统由于具有高性能、高可靠性和高可扩展性等优点,被广泛地用于解决大规模的计算问题,包括全比较计算。它把一个大问题分解为多个小问题,然后把每个小问题交给分布式系统中的各个计算节点来处理。然而,它的性能依赖于数据分发、任务分解和任务调度策略。本书主要阐述了全比较问题的数据分发问题,提出了3种数据分发策略以充分利用分布式系统的计算资源,提高多序列比对任务计算效率,具有一定的创新性,可为相关领域研究者进行大数据计算研究工作提供参考模型,也可为构建生物信息序列比对大数据平台提供基础。 本书首先阐述全比较问题的本质、形式化描述和研究现状,提出了基于混合整数规划、启发式算法和粒子群优化算法的3种数据分发策略,并通过相关实验验证了模型算法的有效性,在此基础上构建了文件切分方案评价模型,实现了面向全比较问题的分布式文件分发框架系统。 全书共分为6章: 第1章为绪论,主要介绍全比较问题的研究背景与意义及其全比较问题的形式化描述、全比较问题中文件分发策略研究现状、基因组序列比对大数据分发模型研究现状以及大数据技术;第2章为基于整数规划的基因组序列比对大数据分发模型,主要构建了一个满足数据本地化、存储均衡且不超过节点存储上限、节点负载均衡等条件的多目标最优化通用数据文件分发模型,并通过实验验证了模型的有效性;第3章为基于启发式的基因组序列比对大数据分发模型,提出了一种可扩展的、高效的数据分发策略,并在此基础上提出了一种静态任务调度策略,用于分配具有良好数据本地化和系统负载平衡的比较任务,针对模型存在的问题进行优化和改进,提出了一种基于模拟退火的、可扩展的、高效的数据分发策略,用于均匀分布系统中全比较问题的分布式计算,最后通过实验验证了模型算法的高性能、可扩展性;第4章为基于粒子群优化的全比较计算数据分发策略,提出了基于粒子群优化算法的数据分发模型DDBPSO及相关算法,实验结果表明,DDBPSO模型给出的数据分发方案可以实现任务所需数据文件的完全本地化,能够降低分布式系统中存储空间的使用;第5章为文件切分方案评价模型研究与构建,针对大文件切分方案构建了文件切分评价模型并设计切分方案中m值的确定算法,并对文件切分算法和文件合并算法进行了研究;第6章为面向全比较问题的分布式文件分发框架构建,主要阐述了分布式文件分发框架结构设计、文件分发策略计算、文件传输和分布式文件分发系统实现,介绍了分布式文件分发原型系统。 在本书的编写过程中,我们参阅了很多同行的科研成果,得到了多位同行专家的指导,在此表示感谢。在本书的编辑出版过程中,得到了硕士研究生邓丹、博士研究生刘振宇等的支持和帮助,还得到了清华大学出版社张玥编辑的大力支持,在此一并表示感谢。 本书由内蒙古自治区农牧业大数据研究与应用重点实验室、内蒙古自治区科技重大专项(2019ZD016,2019ZD015)、国家自然科学基金(61462070)、内蒙古自然科学基金(2019MS03014,2019MS06027)、内蒙古自治区科技计划项目(2019GG372,2019GG273,2020CG0073,2020GG0094)联合资助。 由于作者水平有限,书中难免有不妥和疏漏之处,恳请各位专家、同仁和读者不吝赐教和批评指正。 作者2021年3月