云数据中心运维服务管理 学习目标 通过本章学习,读者可熟练掌握云数据中心运维紧密相关的云服务交互与云服务运 维两大管理。 为使云数据中心提供7×24h不间断云服务,运维管理人员需依照云数据中心运维管 理规范做好云服务交互和云服务运维两大管理。云服务交互管理就是管理云数据中心与 云服务用户之间的交互,是对外的统一服务窗口,在整个运营管理中处于最前端。优质的 云服务运维是云数据中心运营最终目的,集中化、自动化运维管理是实现云数据中心正常 运营的保障。下面详细介绍云服务交互与云服务运维两大管理。 3.1 云服务交互管理 云服务交互管理包含服务目录管理、服务级别管理、服务报告管理、服务计费管理、满 意度管理和业务流程管理6个管理功能模块,如图3-1所示。 图3-1 云服务交互管理 3.1.1 云服务目录管理 云服务目录是云服务提供方为客户提供并维护已投入或即将投入运营服务的信息, 是客户获取云服务的集中式信息来源。云服务目录定义了服务提供方所提供云服务的全 部种类以及服务目标,云服务目录管理就是确保业务领域可以准确连贯地看到可用的云 服务及服务细节与状态,并保证信息的一致性。 3 481.服务目录框架 服务目录可以让云服务提供方和消费者能够很容易地比较云服务供应商所提供的产 品和服务是否标准化。服务目录管理将推动服务业务的一致性以及对服务的计量。简单 来说,服务目录将赋予云用户更多所需要的信息,使用户在选择产品和服务时如同比较两 种苹果的价格一样容易。 对于传统服务目录中的内容,按照IaaS、PaaS和SaaS的分类重新进行整合。整合完 成后,一部分传统服务内容可能还没有包容到云服务中,这类服务可以归入“非云服务” 中,因此云计算数据中心的服务目录构架如图3-2所示。 图3-2 云计算数据中心的服务目录构架 这就是服务目录将会给云服务带来的变化。它将帮助建立一个更开放、透明的云服 务市场。这对于那些更依赖云服务的用户来说是一件好事情,同时对于那些希望能够清 楚地凸显其产品差异化的服务供应商来说更是件好事。 2.服务目录管理目标 建立IT部门的服务菜单,将IT部门所提供的IT服务面向用户提供可视化、明确描 述的服务目录,方便用户快速找到所需的IT服务项目。 ①根据现有的各种IT服务,制订服务目录。 ②管理服务目录中的相关信息,包括分类、类型、流程简介等。 ③保证服务目录中的信息可以准确反映已投入或将投入运营服务的具体细节、状 态、接口及与其他服务的依赖关系。 ④保证服务目录可以准确并有效地被授权者访问与使用。 ⑤保证服务目录相关信息与其他服务管理流程有效地互动与相互支持。 ⑥服务目录可灵活地进行自定和修改,便于维护。 493.管理活动与过程 服务目录由一系列配套的管理活动和措施完成对服务的定义、发布和下线等任务的 并以菜单形式加以呈现,如图3-3所示。 图3-3 服务目录管理 支撑服务组合管理:配合服务组合管理,生成与维护准确的服务目录及相关 服务目录定义:书面制定服务目录及相关信息。 业务服务目录管理:通过业务单元的沟通,建立与IT 服务连续性管理、业务关系 管理等服务流程在业务要求、业务流程方面信息的互动,管理业务服务目录及相关信息。 技术服务目录管理:通过与技术单元、供应商的沟通,建议资产与配置管理等服 务管理流程在技术信息、资源信息方面等的互动,管理技术服务目录及相关信息。 服务目录的可视化。如何使一个服务目录的展现让用户更好地感知、认识和理 这叫服务目录的可视化。对于服务目录的定义,第一是服务内容或者是服务条目的定 第二是要让客户更好地认识云服务,可将服务目录分层和打包,并用可视化图形来 服务等级划分,SLA 可接受,可预期。要让用户更好地感知和参与到整个服务的 包括从申请、提交,到后端的支持、开通、使用和回收的整个过程的生命周 服务目录可以与后端服务支撑流程进行整合。比如每项服务要建立一个后端的 用户在前端可以查询、搜索和使用,在后端的配置通过服务目录和服务蓝图来体现。 后端会通过一些自动化产品和监控产品等,实时把这些工具整合在 云服务级别管理 如果服务目录中只有服务部门所提供的服务内容是不够的。比如,有一些需要面向 而且每一种客户对同一项服务的要求是不一样的,这样很难对不同的服务进行 区分。为了确保所有用户满意,有时候只能将所有服务按照最高的标准来提供,这种情况 会导致后端的资源产生浪费。越来越多的客户希望能够对以前不同服务的客户、不同客 管理, ① 信息。 ② ③ ④ 4. 实施与度量 解, ① 义, 展现。 ② 生命周期管理, 期管理。 ③ 流程, 前端的服务请求, 一起。 3.2 1. 各种客户, 户的需求还有现有的资源,以及所能提供的内容进行区分,就是区分不同的服务级别。从 原来的传统服务方式到现在要区分服务等级,一个很重要的方式转变是,要细分不同的客 户市场,进而细分不同的客户需求,最终来做不同的服务交付,这是传统的没有任何服务 等级的服务方式的一个很重要的改变。 1. 服务级别管理目标 服务级别管理的目标包括以下几项。 ①通过对云服务绩效的协商、监控、评价和报告等一整套相对固定的运营流程来维 持和改进云服务的质量,使之既符合业务需求同时又满足成本约束的要求。 ②采取适当的行动来消除或改进不符合级别要求的云服务。 ③提高客户满意度以改善与客户的关系。 2. 服务级别管理的活动与过程 服务级别管理是对每个IT 服务提供商组织都非常重要的流程,负责在SLA(服务级 别协议)、SLR(服务级别需求)中约定和记录IT 活动的服务级别目标与职责。它主要是 指规划、协调、起草、约定、监控和报告SLA 的执行情况,以及持续评审服务成果,用于确 保满足客户要求的服务质量并能逐步改进。 根据用户或问题的级别,设定不同的响应和解决时间规则。当响应时限或解决时限 到达前进行邮件通知、自动转发或升级问题。 1.云服务报告管理 3.3 对于传统的服务,总结为两个特点:第一,传统服务门户更多管理的是事务,比如对 一些故障的处理,或者其他的操作等;第二,传统服务门户也是需要体现出对整个服务的 生命周期的管理,包括从服务申请到后端执行、反馈,以及服务的退出过程。 在云计算环境之下,服务门户与传统的IT 服务门户之间有较大的区别。可以看到, 很多客户经常把IT 传统的服务门户和云计算的服务门户结合在一起。先看一下传统的 服务门户是怎么建立的,原来的交付模式是用户发现一个故障后会打电话到某一个IT 部门,后面通过事件流程受理,这其中问题的预防和解决可能需要有变更的途径处理。在 这种传统模式之下,提供一个显现的让用户 IT 门户是在后端服务流程和前端用户之间, 能够直接接触、使用和参与到整个服务过程的这样一个东西。比如,可以让用户提供门户 的概念,客户可以随时报告故障,也可以提供密码申请等服务。 1. 服务报告管理目标 服务报告管理的目标包括以下几项。 ①统一收集服务相关信息。 ②完成对服务用户的报告,并提供报告质量的数据支撑。 ③完成对运行能力衡量的运行分析报告。 ④服务衡量和运行能力,发现数据中心短板,指导提升计划。 50 2. 服务报告管理活动与过程 服务报告管理分成三个过程。 ①服务报告规划。 ②服务报告撰写。 ③服务报告发布。 1.云服务计费管理 3.4 云计算是指服务的交付和使用模式,通过网络以按需、易扩展的方式获得所需的服 务。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完 美系统。 云服务计费管理,主要是指在精确和可靠的收集SaS 、IaS和PaS的服务资源的各 种指标数据,并根据一定的计费算法计算出所提供服务资源的费用,或者预测服务可能的 收费额度,并将这些信息展示给用户和云服务的提供商。同时,结合第三方平台提供便捷 的支付手段。此外,安全和保密措施也是云服务计费的重要内容。 云服务把计算机资源、平台资源和软件资源虚拟化为服务提供给客户,客户使用这些 资源就像使用水电一样。而云服务计费管理则充当云计算“水表”“电表”的角色。云计算 是传统的网格计算、分布式计算的商业模式,因此其服务计费的需求正日益凸显。采用适 用于各种云服务模式的计费平台,可以降低云服务提供商的实施费用和难度,规范云服务 市场,使云服务资源的使用合理化、透明化。 1. 云服务计费目标 通过云服务计费管理,实现如下的管理目标。 ①根据IT财务中心计费管理的策略要求,通过技术与管理手段落实具体计费与账 单出具的动作。 ②对实际资源暂时进行测量,并进行相应处理,提供相应的服务账单。 ③把服务质量与计费挂钩,将服务级别协议中涉及的奖惩条款体现到服务账单中。 2. 云服务计费活动过程 云服务计费管理一般包括如下活动过程。 ①计量:通过观测流量,记录使用情况,以及相关的计量策略来跟踪和记录资源的 使用情况。 ②收集:访问测量实体提供的数据,收集与收费有关的事件,将它们转发给记账层 进一步处理。这一层可以记录各个域的信息,例如虚拟服务器、物理服务器等。 ③记账:将收集到的信息进行聚合,建立服务记账数据集合或记录,传递给定价层 进行定价。 ④计费:根据具体服务的计费和记价方案,计算记账记录的会话费用。 51 523.云服务计费模式 云服务目前主要有免费增值模式、消费模式、分级定价、永久许可模式等。 (1)免费增值模式 这种收费方式降低了客户进入云服务的门槛,通过提供一些不收费的核心服务,以此 来吸引更多的用户采用云服务,当客户想升级到更复杂的级别的时候,需要额外收取相应 的费用。这种收费方式是目前很多服务商都选择的收费方式,例如微软的SkyDrive等。 这种方式很可能会吸引很多客户,使得云服务的基础架构面临着巨大挑战。免费提供的 服务可能是消费级的,一般不适合需要较稳定的企业,这种业务会让你的注册用户急速增 多,但是却不能保证他们会付费升级。 (2)消费模式 针对特定的云服务付费进行有针对性的购买,这个是最经典的销售方式,例如亚马逊 的云服务收费方式。这种方式的好处是随付随得,使得客户可以添加和删除相应的服务, 通常没有处罚或附加费用。目前,很多大型公司都在使用这种方式,预计未来市场会更 大。使用这种模式时,供应商不仅要直接针对客户的需求提供服务,还要不断追加销售新 的和现有的服务。 (3)分级定价 这种分级方式在企业中非常常见,定价层通常绑定成一个数量指标,如用户数、模块、 数据量和服务器。这种方式针对的客户业务一般未预计到在未来会有显著的增长,这个 时候就可以选择向上的服务。在销售过程中,这种方式能够有助于与客户建立长期的合 作关系,对企业的未来收益有一定的帮助。 (4)永久许可模式 这种方式是之前购买软件的旧的方式,通过一次性购买,可以永久采用此款服务,通 常捆绑支持和其他专业服务,通过后期的技术服务来赚取相应的费用。微软和甲骨文是 这种方式的忠实粉丝,这种方式的最大优势就是终身锁定了用户。 4.云服务计费案例 下面以腾讯公司曾经推出的腾讯开放平台云服务技术服务费计费标准作为案例介绍 云服务计费的模式。 1)计费标准 (1)计虚拟机服务计费 虚拟机服务计费即腾讯为应用提供的虚拟机对应的技术服务费。虚拟机服务计费标 准如表3-1所示。 表3-1虚拟机服务计费标准 资源配置说明(每台) 操作系统单价(每台日)/ 元 VC2 4核CPU,3.5GB,内存,200GSATA raid0 结构单盘硬盘 SUSE1064 位/CentOS6.264 位 安全版9.40 续表 资源配置说明(每台) 操作系统单价(每台日)/ 元 VC3 8核CPU,7GB,内存,300GSATA raid0 结构单盘硬盘 SUSE1064 位/CentOS6.264 位 安全版/Windows200864 位18.70 VB3 4核CPU,30GB,内存,100GSAS raid1 结构双盘硬盘 SUSE1064 位/CentOS6.264 位 安全版32.40 VB5 8核CPU,30GB,内存,100GB,硬盘SUSE1064 位46.80 VB6 4核CPU,60GB,内存,300GB,硬盘SUSE1064 位90.00 VA2 2核CPU,15GB,内存,350GSAS raid1+0 结构双盘硬盘 SUSE1064 位/CentOS6.264 位 安全版/Windows200864 位40.50 VA3 4核CPU,30GB,内存,750GB,硬盘SUSE1064 位81.00 (2)CEE 服务计费 CEE 服务计费标准如表3-2所示。 表3- 2 CEE 服务计费标准 资源类型配置说明(每实例) 单价(每实例日)/ 元适用场景 微型1/4核CPU,250MB 内存0.8 适用于DAU(日活跃用户)在10 万户以 下的工具类应用,或用于搭建应用测试 环境 小型1核CPU,1GB 内存3.2 适用于DAU(日活跃用户)在10 万户以 下的小型游戏类应用,或DAU(日活跃 用户)在100 万户以下的工具类应用 标准型2核CPU,2GB 内存6.4 适用于DAU(日活跃用户)在10 万~ 100 万户的中型游戏类应用 大型4核CPU,4GB 内存12.8 适用于DAU(日活跃用户)在100 万户 以上的大型游戏类应用 (3)以带宽服务计费 带宽服务计费即腾讯为应用提供的带宽服务对应的技术服务费。计费算法和规则 如下。 CDN 带宽计费:IDC 带宽当月总使用量小于等于300Mb/s的部分, 80 元/ IDC 带宽当月总使用量大于300Mb/单价为3. 单价为1. 兆比特每秒;s的部分, 60 元/兆比特每秒。 IDC 带宽计费:以单个应用消耗的所有IDC 带宽的总和(外网出流量)作为计费的依 据。IDC 带宽不满1Mb/s的部分, 不是按照1. 比特每秒计算。 按实际带宽乘以单价计算价格, 80 元/兆 (4)云存储服务计费 云存储服务计费即腾讯向应用提供的云存储服务对应的技术服务费。云存储服务分 为CMEM 和CDB 两种解决方案,因此云存储服务计费也分为两种。 53 CMEM 服务计费即腾讯向应用提供CMEM 存储解决方案对应的技术服务费,根据 数据存储量进行计费。CMEM 服务计费标准如表3-3所示。 表3- 3 CMEM 服务计费标准 资源配置说明单价(每GB 日)/ 元 CMEMB 型 有热备 每GB 存储量最大支持10000 次/秒的访问量(例如,如果申请 10GB 存储,那么访问量上限是100000 次/秒) 从2013 年3月5日起,不支持购买CMEMB 型 3.20 CMEMC 型 有热备 每GB 存储量最大支持10000 次/秒的访问量(例如,如果申请 10GB 存储,那么访问量上限是100000 次/秒) 从2013 年3月5日起,仅支持购买CMEMC 型 2.00 CDB 服务计费即腾讯向应用提供CDB 存储解决方案对应的技术服务费,根据实例 数量进行计费。CDB 标准版服务计费标准如表3-4所示。 表3- 4 CDB 服务计费标准 规格配置说明(每实例) 单价(每实例日)/ 元适用场景 微型 内存750MB,容量限制 20GB,有热备5.10 适用于DAU(日活跃用户)在万人户 级别的工具类应用或测试环境 小型 内存4GB,容量限制 100GB,有热备27.50 适用于DAU(日活跃用户)上万人户 的小型游戏应用或DAU(日活跃用 户)在百万人级别的工具类应用 标准型 内存8GB,容量限制 230GB,有热备60.00 适用于DAU(日活跃用户)数十万人 户的小型游戏应用或DAU(日活跃用 户)在百万人级别的工具类应用 大型 内存24GB,容量限制 700GB,有热备164.00 适用于DAU(日活跃用户)在百万人 户级别的大型游戏应用 (5)外网IP 计费 外网IP 计费即腾讯为应用提供的外网IP 服务对应的技术服务费。计费标准如 表3-5所示。 (6)操作系统计费 操作系统计费即腾讯为应用提供的虚拟机上安装的付费操作系统对应的技术服务 费。计费标准如表3-6所示。 表3- 5 外网IP 服务计费标准表3- 6 操作系统服务计费标准 资源单位单价/元 外网IP 个/天1 资源单位单价/元 WindowsServer2008OS OS/天5 54 2)计费方式 云服务费用的扣除机制包含了4个主要的步骤:冻结、解冻、扣除和结算日冻结,如 图3-4所示。 图3-4 计费方式 各步骤的详细描述如表3-7所示。 表3- 7 各步骤的详细描述 步骤步骤名称步骤详细描述 1 冻结 发生时间:开发者申请云服务时。 冻结机制:冻结的费用并没有实际消耗,至下个结算日(5—8日)会解冻。 系统按照如下计算公式冻结云服务费用: 申请云服务时冻结的费用=申请的云服务数量×云服务单价×30 2 解冻 发生时间:每月结算日(5—8日)时。 解冻机制:系统会对开发者上个月内(1日至月底)被冻结的云服务费用进行解冻 3 扣除 发生时间:每月结算日(5—8日)时。 扣除机制:系统会按照开发者上个月内(1日至月底)实际使用的云服务费用进行 扣除 4 结算日 冻结 发生时间:每月结算日(5—8日)时。 结算日冻结机制:系统按照如下计算公式再次冻结云服务费用,直至下个结算日 (5—8日)解冻: 结算日时再次冻结的费用=上个月底最后一天实际使用的云服务数量×30× 单价 5. 云服务计费面临的挑战 云服务供应商面临着不少计费挑战。 云服务的复杂性让云资源的使用和最终的成本变得难以跟踪。云服务是相当复杂 的。一个单一的“云服务”往往就是众多具有高度特殊性服务和功能的总和,而供应商们 必须能够深刻知晓所有这些服务是如何彼此交互的,包括所有服务的相互依存关系。在 云爆发的情况下,其核心问题就是发挥作用的资源的数量可能会有较大的不同,这主要取 决于客户如何使用这些资源及使用资源的持续时间。 在某些情况下,云服务供应商会发现,即便在客户释放了服务资源之后,资源却仍处 于已分配状态。供应商需要知道这些“僵尸资源”何时将被创建,以便于可以创建能够找 55 到和删除它们的服务。 有太多的资源需要手动跟踪。供应商向客户提供的云服务的数量已经达到了一个瓶 颈,即手动核计测量资源已成为一种不切实际的做法。使用云爆发的客户可能会在一天 之内多次申请和释放资源,有时在一个月内会高达上千次。供应商无法再进行人工跟踪, 原因是,如果他们这么做,计费结果往往是不准确的。 还有太多的客户是手动跟踪资源使用的,正如达到服务的临界点一样,也达到服务客 户的阈值。在某些时候,因有太多的用户和组织在使用云服务而使供应商无法手动进行 跟踪。 3.5 云服务满意度管理 1. 1. 云服务满意度目标 云服务可以为众多的消费者提供方便、快捷的云服务。为了保留和吸引客户,在服务 交付的过程中,客户关系管理至关重要,其目标是在理解客户及业务基础上,通过有效手 段与客户之间建立和维持良好的合作关系。 2. 云服务满意度调查与分析 客户满意度调查是云服务管理中的一个基本环节。客户满意度反映的是客户对云服 务的主观感受和相关的服务级别水平。服务提供的成本等服务能力限制因素很可能在客 户反映其满意度时被忽略。因此在客户满意度调查的同时,对客户的服务认识、期望值进 行综合的管理是进行云服务管理的核心工作之一。 一般来说,客户满意度调查是通过客户满意度调查的设计、执行及对客户满意度调查 结果进行分析和改进4个阶段来完成的。 ①客户满意度调查设计。 ②进行客户满意度调查。 ③客户满意度调查结果分析。 ④客户满意度改进。 3. 云服务满意度管理 ①客户服务报告与评估。 ②客户投诉处理。 ③客户投诉处理结果反馈。 ④客户服务质量优化。 1.云服务流程管理 3.6 云服务业务流程是指云基础架构中存在的所有自动化。业务流程肯定不是云所独有 的,但却是区分云与其他技术的方面之一。业务流程支持服务目录部署在现有服务中,支 持自助服务门户向云基础架构发布服务;更重要的是,业务流程还支持响应特定事件与警 56 57 报。因此,如果存储空间不足,或者I/O 要求太高,那么就可以自动排定一个事件来创建 更多空间,或通过动态转移系统来释放特定存储池中的空间或I/O。 企业需要在自己本来的业务之外再增加云服务项目,不管其经济目的是什么,企业开 始搭建云之前,云端互通建议要最先完成3个步骤。 (1)确定搭建云服务的目的,并制定出基本的使用场景 这一点看似人人理解,但实际情况是很多企业还没有制定出好的计划或基本性的设 计就开始行动了。记住:搭建云服务时,其承担的责任和那些规模更大的面向公众的云 计算提供商是一样的;因此,对于刚刚尝试的项目,在设计和规划环节不要吝惜人力物力。 (2)确定什么样的信息需要外部化 这些信息包括数据存储在哪里,如何获得数据,以及任何安全或管理事项。这就要求 你必须了解数据和元数据的物理地点,以及从源系统到承载云服务系统的集成路径。 (3)制定一个API服务管理战略 选择最佳的外部化和管理途径。这主要是指服务呈现的机制,包括具体使用什么样 的技术。很多公司都提供API管理技术,既有软件形式的也有云计算形式的。然而,更 重要的是考虑这些服务在生产过程中要怎样管理,包括用户接入验证和防止服务饱和。 服务管理技术可以解决这些问题。 当然,根据最终目标的不同,还有更多的步骤。但是如果从以上3个根本性步骤开始 做起,会发现后续工作将方便很多。 3.2 云服务运维管理 在云计算数据中心运营架构中,运维管理提供IaaS层、PaaS层、SaaS层资源的全生 命周期的运维管理,实现物理资源、虚拟资源的统一管理,提供资源管理、统计、监控调度、 服务掌控等端到端的综合管理能力。云服务运维管理与传统IT 运维管理的不同表现为 集中化和资源池化。 云服务运维管理需要尽量实现自动化和流程化,避免在管理和运维中因为人工操作 带来的不确定性问题。同时,云服务运维管理需要针对不同的用户提供个性化的视图,帮 助管理和维护人员查看、定位和解决问题。 云服务运维管理和运维人员面向的是所有的云资源,要完成对不同资源的分配、调度 和监控。同时,应能够向用户展示虚拟资源和物理资源的关系和拓扑结构。云服务运维 管理的目标是适应上述的变化,改进运维的方式和流程来实现云资源的运行维护管理。 云数据中心运维管理中所涵盖的范围非常广泛,其中主要包括服务发布管理、服务开 通管理、服务运行管理、服务质量管理四个方面。 3.2.1 服务发布管理 云服务发布管理主要负责云服务所涉及产品的发布过程,包括服务产品服务能力的 建立、测试和交付,同时还负责及时响应业务需求并达到预期目标的服务。 发布管理服务提供便捷的软件发布管理平台,包括发布规划、发布内容管理、发布实 58 施、发布验收和总结等主要过程。通过安全可靠的发布流程,实现发布包管理,缩短发布 周期。 1.发布管理活动与流程 从发布的管理角度出发,将发布流程分解为10 个活动:发布申请、策划与评审、发布 培训、发布测试、发布沟通、发布推演、发布执行、发布实施、发布验收与发布总结,如图3-5 所示。 图3-5 云服务发布管理活动与流程 2.发布管理实现目标 ①定义发布规划。 ②保证发布包所包括的各个组成部分进行正确的组合。 ③保证完整的发布在整个发布过程中可以进行维护、记录按要求执行。 3.2.2服务开通管理 云服务开通管理负责从服务目录接受用户的服务申请,管理审批和服务将会交付的 过程,并在交付完成后负责更新配置信息,保证资源计量工作的及时开展。 1.开通管理目标 ①向用户提供一个请求和获取标准服务的渠道。 ②向用户服务部门提供哪些服务和交付这些服务的过程。 ③向用户交付标准的服务。 ④管理服务交付的过程。 59 负责配置信息的及时更新。 2.开通管理活动与流程 云服务开通管理活动与流程如图3-6所示。 图3-6 云服务开通管理活动与流程 服务运行管理 云计算监控与传统的数据中心基本类似,把监控分成两个层面的工作, 即各类资源层面的专业资源监控和数据中心层面的统一监控管理。资源监控管理实时监 捕获资源的部署状态、使用和运行指标和各类告警信息。 云监控作为云服务的监控管理入口,能让用户快速了解各产品实例的状态和性能。 告警数据汇聚、汇聚数据处理到告警集中展现等方面来为用户提供服 务。通过云监控管理控制台,用户可以看到当前服务的监控项数据图表,清晰地了解服务 并通过设置报警规则,管理监控项状态,及时获取异常信息。 监控与管理架构如图3-7所示。 监控管理活动与过程包括5个活动。 告警侦测和过滤。 ⑤交付完成后, 3.3 2. 1. 监控管理 在监控领域, 控、 云监控从监测告警、 运行情况, ① 告警判断。 ② ③告警处理。 ④告警关闭。 ⑤告警监控。 60 图3-7 云服务监控与管理架构 监控管理活动流程如图3-8所示。 图3-8 云服务监控管理活动流程 2. 配置管理 配置管理是对用于交付IT 服务的所有软件、硬件、文档等资源进行统计的识别、记 录、跟踪、控制的流程。配置管理为组织IT 服务管理提供了一张及时更新的“技术地 图”,为组织的IT 服务管理提供了实时的配置信息。 配置管理流程记录和展现配置项的配置属性及历史细节。通过配置管理流程确保配 置管理数据库能够准确地反映现存配置项的实际版本状态。 ①支持配置管理工单的创建、修改和关闭,创建时自动记录时间,可手工录入。 ②支持与监控系统关联,能自动获取部分配置信息。 ③配置管理工单能对应不同的配置类型进行分类。 ④配置管理流程能在流程引擎中进行定义,可以灵活地根据实际情况进行调整。 ⑤配置管理流程的表单属性可以灵活定制,满足以后的扩展需求。 ⑥支持通知功能,使不同组别或部门间保持沟通。 ⑦流程状态变更或者指派发生变化时,系统能够自动以邮件或短信等方式及时通知 到相关人员。 ⑧根据服务级别协议,对流程环节处理超时,提供升级和告警机制。 ⑨配置项的属性可以灵活定制,满足以后的扩展需求。 3. 知识管理 建立规范的知识管理流程,对事件、问题解决方案进行分析评估并生成知识记录,为 用户、服务台客服、IT 服务支持人员提供支持。 (1)知识记录识别、分类和记录 通过手工录入,对事件解决方案、问题解决方案进行自动分析生成等方式,评估生成 知识记录工单。 (2)知识记录评审和发 布 对提交的知识记录进行评审,评审通过后更新知识库并发布 。 (3)知识使用和评价 用户和IT 支持人员可以通过多种方式方便地查找知识库,并能对知识的完整性、准 确性、有效性进行评价反馈。 (4)知识记录维 护 对知识库里的知识记录进行全生命周期管理,包括新建、使用、终止等 。 4. 故障管理 云计算平台在运营过程中出现各种故障是不可避免的,在出现故障时如何保障服务 快速恢复,如何保障用户数据的安全,这些是至关重要的。因此需要一整套比较完备的应 急预案,在发生故障时能够有条不紊地按照预案操作,最大程度地缩短维护时间,提高服 务质量。 61 (1)应急预案管理流程的目标 快速、安全、高效是应急预案管理流程的目标,具体分为以下内容。 ①应急预案等级分类。 ②应急预案等级管理。 ③应急预案演练。 ④应急预案演练总结。 ⑤应急预案更新优化。 (2)应急预案设计 针对不同的应用场景设计不同的应急预案。在设计预案之初要对应用场景做详细的 分析,依据分析设计对应的方案。预案在正式加入预案管理库之前要做环境模拟测试,找 出其中的不足,并不断改进直至可靠。 (3)应急预案演练 定期对各种预案在测试环境下进行演练,以提高面对真实故障环境时的处置能力。 在演练过程中要严格按照预案的内容进行操作,一方面是规范演练的过程,另一方面也是 在查找方案的漏洞。在不断地演练中使维护工程师逐步熟练操作步骤及流程。 具体内容为预案等级选择、预案选择、预案实施。 (4)应急预案效果分析及总结 应急预案演练后要及时分析该演练过程中出现的问题,对问题进行归纳总结并提出 处理方法。要客观分析哪些是人为因素造成的,哪些是方案本身有问题造成的,针对不同 的问题提出不同的解决方法。 (5)应急预案优化 依据预案效果分析报告及时更新预案内容,包括处理流程、预案内容等相关内容。 5. 变更管理 在云技术、大数据、移动技术出现后,无论组织计划或者决定使用哪种技术时,变更管 理都是非常重要的一部分。然而,由于过去几年云服务的关注点一直放在敏捷、快速部署 方面,以至于大家都没有意识到这一概念。把业务移动到SaS模型中不仅技术受影响, 还有各种业务影响。业务操作和业务流程可以打包成服务,就可以迅速地交付出去。 (1)变更请求和记录 该步骤是变更管理流程的起点,变更请求和发布请求必须由此开始。该步骤包括收 集变更请求和发布请求的必备信息,创建请求并定义执行请求的途径,如标准、紧急途径、 验证和维护配置数据库。 (2)变更评估和审批 变更的审批者将从IT和业务的角度来评估及检查变更请求所产生的影响,确保能 够在实施变更时,既能满足业务的要求,同时又对服务造成的影响最小。 (3)变更计划和排程 该步骤始于得到审批的请求,结束于确定的请求的计划实施日程。几个请求(变更请 求)之间的冲突将在这个步骤中解决,并确定请求的最终实施时间。 62 (4)变更实 施 通过本步骤,将经过审批的请求在生产环境中实施 。 (5)变更完成后评审和关闭 本步骤的目的是考察提出的请求是否达到了预期的效果、用户是否接受实施结果。 如果未能达到预期的结果,同样也需要评估。出于管理的目的,还需衡量投入的资源,并 在请求单中记录这些信息。所有这些信息都将有助于流程的改进。 2.服务质量管理 3.4 服务质量管理遵循服务等级协议(Service-LevelAgrement,SLA)要求,按照资源的 实际使用情况而进行服务质量审核与管理,如果服务质量没有达到预先约定的SLA要 求,自动化地进行动态资源调配,或者给出资源调配建议由管理者进行资料的调派,以满 足SLA的要求。 云服务提供过程中需要对相互竞争的云服务提供商所提供的服务进行比较,并对它 们自身的能力进行考核。此类比较应包括在“类似”或“同等”基础上的“定量”对比(如消 费量、使用期限等),以及对一系列服务保证属性进行的“定性”对比(如弹性度、服务水平 程度等)。为了能够在有限的网络资源内更好地为用户提供差异化服务,云网络的业务提 供过程不仅需要从技术层面考虑业务质量需求、网络服务能力,还需要兼顾用户体验、投 资成本、网络收益等面向运营流程的各个方面。目前,运营商通常选择与用户签订SLA 的方式对提供的服务质量进行保障。 1. 风险管理 关于云计算风险的争论一直没有停歇过。这不是因为那些大企业关注的风险加剧 了,也不是因为有新的风险出现,而是因为云计算技术导致了更多的买方不确定性。虽然 云计算的成熟度已经足以使厂商能够根据市场变化快速地交付产品和服务,但厂商的认 知还有提升空间。由于风险和价值的评估本身就在不断变化中,云计算的价值体现仍不 明朗。 那么,在当前的环境下,云风险管理的哪些方面是IT主管们最为关注的呢? 最重要 的不在于云服务提供商本身,而是大企业缺乏一种针对云计算的统一框架。诸如数据隐 私和安全等技术相关的云计算风险本身就处于快速的变化中,即使技术本身也因服务或 提供商的不同而存在显著区别。缺乏对这些技术和提供商的统一应对方法是最大的风 险,因为这会导致原本合适的外包协议恰得其反。 2. 风险管理因素 ①缺乏评估云服务提供商的统一方法。CEB前期的研究表明,有些关于云服务的错 误会立刻导致对厂商的误判。很多企业还未开始厂商评估标准的改进。 ②缺乏应用整合和迁移到云服务的明确指导。应该采用参考体系架构的模式,从而 使开发人员、项目经理和业务伙伴能协调一致地进行风险管理。 ③在IT转向云服务的过程中,缺乏与关键人物的有效沟通。对于厂商来说,一般倾 63 64 向于绕过IT 主管直接和业务部门打交道,因为这样可以将合同金额提高50% 到100%, 还能将销售周期缩短50% 到80% 。为了形成统一的评估框架和体系指导,IT 主管需要 向业务端传达后者所能理解的业务目标,让业务端形成明确的预期,并且指出哪些问题需 要IT 部门与业务部门之间共同解决。 当需要和业务伙伴或服务商一起评估风险时,最后一项就显得尤为重要。对大部分 IT 团队来说,消除这些风险并非难事,但有个前提是必须对厂商管理框架进行革新。当 前大多数厂商管理框架都太过于重视技术或服务商,而有些IT 组织已经开始质疑这一 点。比如,是否需要在应用层而非基础架构层提供冗余性? 3.风险管理评估 领先一步的企业已经认识到,应该基于参考架构来考虑用于云风险管理的工具,例 如,根据业务发展路线图来进行评估。 ①新的价值来源。 ②将云服务与更宏观体系集成的模式和标准。 ③确保云服务安全的决策框架和指导。 那些可以成功管理云计算技术和风险的大企业认识到,无论市场如何变化,云计算可 能都将是未来技术体系的必然组成。而且企业都会需要参考模型来定义云服务所扮演的 角色。最大的风险不在于技术或者服务提供商,而在于因为无法充分利用云计算而丧失 的机会。 【本章小结】 本章详细介绍了服务目录管理、服务级别管理、服务报告管理、服务计费管理、服务满 意度管理和服务业务流程管理六大云服务交互管理功能模块;阐述了服务发布管理、服务 开通管理、服务运行管理、服务质量管理四大云数据中心运行维护管理模块。