前言 人工智能已经发展了六十多年。随着2016年谷歌AlphaGo战胜人类围棋选手,人工智能已经在深度学习、图像识别、自然语言处理、计算机视觉、智慧语音、智能商业、自动驾驶等领域取得了突破性成绩。特别是在对抗新冠肺炎疫情的战斗中,人工智能技术在医疗行业的应用发挥了举足轻重的作用。AI医学影像产品可以在短短几秒之内处理十万级别数量的影像,大幅提升诊断效率。在疫苗和特效药的快速研发中,在人工智能技术的帮助下,研究人员能大幅节省药品筛选的时间,同时提高精确性。新冠肺炎疫情的强传播性给其他入院就医的患者带来了感染风险,AI融入远程问诊,可以在很大程度上缓解特殊时期的就诊需求压力。而从更长远来看,远程医疗的普及又可以帮助解决医疗资源分布不均导致的医疗资源紧张。在公共卫生应急响应体系的构建上,运用大数据、人工智能、云计算等数字技术的疫情监测、病毒溯源、传播防控等措施,可以为打赢疫情攻坚战提供助力。 而这些人工智能技术需要利用专业领域的实际业务数据定制AI模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际AI模型开发过程中必不可少的重要环节。随着人工智能成为国家发展战略,其势头锐不可当。我们生活中一部分工作正在或将被人工智能所替代。 目前的人工智能算法由数据驱动,也可以说,数据是人工智能的血液。当下是基于样本数据累积基础上的人工智能。数据标注有许多类型,如分类、画框、注释、标记。数据标注员被称作“人工智能背后的人工”,从事的是人工智能时代的信息处理工作。他们生产大量可供计算机深度学习的训练数据,使人工智能“学会”从人脸识别到车辆自动驾驶甚至更为复杂的任务。 从2019年开始,作者依托校企联合的数据标注创新中心,结合真实项目工作经验,带领多位具有丰富教学经验和工程经验的教师与工程师组成编写创作团队,以流水线管理理论为基础,就人工智能数据标注的相关技术和数据标注工厂的管理经验,精心编撰了这本著作。 全书共分为四个部分,12章。第一部分包含第1~3章,主要介绍了数据标注的缘起和演变,介绍数据标注行业的发展趋势和行业标准,阐述了数据标注的基础知识和技术发展方向; 第二部分包含第4~7章,系统阐述文本数据标注、图像数据标注、语音数据标注、视频数据标注并以具体案例来进行阐述; 第三部分包含第8~11章,主要以流水线理论为基础,设计了数据标注工厂的架构,并根据数据标注创新中心的经验介绍了数据标注工厂的项目管理、客户管理、质量管理、案例管理等可执行的数据标注管理方法; 第四部分包含第12章,分享了数据标注平台,就平台的作用、架构、运行机制进行了详细的介绍。本书以数据标注核心技术为基础,以经典管理理论为依托、以数据标注工厂的管理方法为指导、以现实案例为示范,使数据标注技术人员可以快速掌握数据标注的基础知识与核心技术,使从业者可以快速提升数据标注技术水平,同时为想进入数据标注行业的创业人员提供数据标注工厂的管理方法,可以指导复刻数据标注工厂的运行。 本书由长期从事教学与行业实践一线工作的李颖智编撰,特别感谢肖来元教授、俞侃教授、王方、周文景、冯军等专业人士的帮助,对相关人员的用心指导和真诚建议表示由衷的感谢。另外,本书借鉴了参考文献中列出的一些专著、教材、论文、报告和网络上的成果、素材、结论或图文,在此一并向原创作者表示衷心感谢。 由于时间仓促,加之作者水平有限,书中考虑不全面、描写不准确之处在所难免,恳请广大读者、专家、老师和社会各界朋友批评指正! 李颖智2022年12月