数据中心的运维管理内容及特点,数据中心运维思考

“萧何是谁?”单纯的问我们一般老百姓,还真不知道。但是说到俗语“成也萧何,败也萧何。”“萧何月下追韩信”等等,似乎一下子清楚了:他呀,推荐给刘邦打败西楚霸王项羽的那个韩信的人啊。至于萧何其他事迹,则是知之甚少了。《史记·高祖本纪》中高祖曰:“……镇国家,抚百姓,给馈饷,不绝粮道,吾不如萧何……。连百万之军,战必胜,攻必取,吾不如韩信……”从高祖的结论来看,萧何本身的工作很大一部分就是刘邦的后勤部长。看历史得知萧何尤其是在楚汉战争期间,使刘邦在关中站稳脚跟,为刘邦屡败屡战,最后打败项羽提供了源源不断的物质和兵力支持。

图片 1

图片 2

为IT系统设备提供稳定运行平台的数据中心,好比是为战场前线提供支持的大后方,相关的运维人员的工作和萧何的本职工作何其相似。古今中外,赫赫有名的将帅不可胜数,太多了。而在战争期间,对于负责“兵马未动,粮草先行”的后勤部队而言,他们的长官的名字在史书的记载中,可是凤毛麟角。而萧何作为大后勤部长,似乎也没有做出什么出名的成绩,假如他为了突出自己的成绩,这样写自己的总结:“······本年度为前线提供粮草X万石,提供兵源十万······”;前方将领看到后一定骂死他:“你的意思是我们损兵折将起码十万了?······”刘邦为了全局出发,也会斥责萧何的。在《三国演义》中出了一个有名的“后勤部长”—王垕:在曹操和袁绍的官渡之战中,曹操缺粮,为了稳定军心,争取时间的主动性,杀了运粮官王垕,使王垕成为替罪羊,为整个战争的胜利提供了一定的保障。在战争期间,一线最重要,所有的工作都是为战胜敌人服务的,以大局为重。我们一般认为萧何的出名很大程度沾了前线名将韩信的光,毕竟在以后的传承中似乎萧何没有韩信的名气大。虽然如此,西汉建立后,刘邦在分封大臣时,萧何位列众卿之首,被称为“开国第一侯”;“汉初三杰”之首。

云计算是一种新的计算方法和商业模式,通过虚拟化、分布式处理和宽带网络等技术,按照“即插即用”的方式,将计算、存储、网络等IT基础设施,以及其上的开发平台、软件等服务,抽象成高效、弹性、可运营、可管理的公共信息处理资源,通过公众通信网络,以按需分配的服务形式向用户提供动态可扩展信息处理能力和应用服务,用户按实际使用数量进行付费。

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。

一般而言,每个人都想在自己的工作中做出成绩,受到表扬,扬名立万,但是由于每个人所从事的工作不同,有的工作正常来说是很难出名的,比如数据中心运维相关工作:数据中心基础设施的运维工作,从来没有走到前台,一般人们看不到他们的身影,甚至不知道他们的存在,相关的设施设备的巡检、检修、维护等都是在立足于影响最小的情况下完成。随时当前信息技术的发展,使得对整个系统运行安全、运行效率的要求也越来越高,这就对为信息系统平稳运行提供平台的数据中心机房等基础设备的稳定性、安全性、可靠性等提出了更高的要求。相应的其安全性等也越发的重要。所以一旦基础设施出了问题,大到甚至或者影响到了相关业务的正常,无论从经济效益,还是社会影响等各方面,负面影响都是巨大的。这样的出名后果是可想而知的。这其中最大的出名就是火灾。

以云计算服务为核心的数据中心运维管理,是一种新型的管理理念,数据中心运维管理是数据中心生命周期中最后一个也是历时最长的一个阶段,从前期应用架构设计、软硬件资源配置评估、应用服务性能瓶颈评估到安全防护和系统优化等工作,都需运维人员全程参与。

由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也需要人们加以重点分析和关注。

看到上面的图片,许多人都会嗤之以鼻:这不是PS的吗,这是假的等等类似的评论:确实,这图片不是真的。试想一下,真要是机房失火,相关人员不是忙着逃生,就是忙着灭火,谁还有工夫或者时间去找相机、调试焦距等认真的拍摄失火的现场呢?一般人总认为数据中心都配有完善的消防器材、设施,并备有温感、烟感等报警器。防火纯粹是小题大做。殊不知,一旦数据中心失火,到了灭火的程度,意味着事发地点的所有的设备都要受到牵连,后面的影响将是巨大的。下图为例

云计算服务的运维管理集中体现在对云计算服务生命周期的管理。服务的生命周期在IT服务的标准ITlLv3中有明确定义,其核心架构是基于服务的生命周期。服务的生命周期以服务战略为核心,以服务设计、服务转换和服务运营为实施阶段,以服务改进来提高和优化对服务的定位及相关的进程与项目。

一、厘清云计算数据中心的运维对象

这可是真实的火灾后的现场照片,触目惊心。

IT运维领域迫切需要对以云计算为核心的下一代数据中心提供更好的运维支撑解决方案,将各种先进的运维管理技术进行有效的整合,对新增虚拟网络、数据存储、虚拟机、宿主机、集群对象采用全新管理方式,从日常监控、周期巡检、服务受理、故障处理、平台维护、配置管理、安全管理等方面着手,利用自动化运维工具,实现对物理资源、虚拟资源统一管理,提供资源管理、统计、监控、调度、服务管控等端到端的综合管理能力,从而实现对云数据中心统一、便捷、高效、智能的一体化运维管理。

数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类:

防火贯穿数据中心整个生命周期。为此对于数据中心的火灾一定要有“隐患险于明火,防范胜于救灾,责任重于泰山。”的思想意识,时刻牢记“安全第一”这根弦。在数据中心的生命周期中,测试验证是数据中心运维的起点,如果没有意识到测试验证的重要性,可能因为各种缘由把这个重要的步骤省略掉,这样疏漏很容易导致后期运维的重大隐患,魏徵在《谏太宗十思疏》中的首句“臣闻求木之长者,必固其根本”就是这个道理。数据中心主要服务的对象是IT系统。在其几十年的生命周期中,IT系统的变动却非常大。IT技术的变革同时也带动了关键基础设施技术的不断变化,所以还要关注一些关键基础设施的生命周期。这些关键基础设施的生命周期由多方面的因素所决定的。其中新技术的发展是数据中心关键基础设施更新换代、周期缩短的主要原因。这就要求运维人员也要紧跟时代潮流,不断了解、学习业界最新的动态、技术,与时俱进。在保证安全的前提下,采用新的技术来处理和解决问题,以减少处理的时间和风险。为相关设施的更新换代提供参考或者技术支持。安全性、可靠性是数据中心运维最基本的要求,因此日常的检查、维护、保养计划等一定做精做细做全,做到可预防性维护。同时根据各类设备的特点还要“具体问题具体分析”,如IT设备上架,要提前查看空开的容量等;夏季多关注空调的冷凝系统,防止高压报警等;冬季多关注空调加湿系统,防止加湿故障报警等。虽然各种新的绿色的或者先进的技术层出不穷,但是采用相关技术或者设备一定要采用成熟、稳定的—安全第一

业务导向放首位根据国家标准化管理委员会下发的文件,运行维护服务是供方依据需方提出的服务级别要求,采用相关的方法、手段、技术、制度、过程和文档等,针对运行维护服务对象提供的综合服务。为确保提供的运行维护服务符合与需方约定的质量要求,供方应具备实施运行维护服务的基本条件和能力。

(1) 机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。

总之,数据中心基础设施的运维是一项非常关键的、又是一项枯燥的、重复性很高的工作,其工作的特性就是运维正常是应当的、必须的,出现问题绝对是禁止的;数据中心基础设施推行的是风险管理和预防性维护策略,风险一定要及早控制或消除,因此必须做到:

云计算体系下的运维目标首先应该以业务为导向,如新业务的快速部署、系统容量的平滑扩容、随需而变的资源分配等,保证服务达到要求的等级标准,根据业务目标形成IT服务的管理目标。其次通过自动化的运维工具完成系统预备、配置管理以及监控报警等功能,降低故障发生率,提升故障发生后的响应处理效率,实现业务的快速恢复。最后通过改进运行维护服务能力管理过程中的不足,持续提升运行维护服务能力。

(2) 在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。

一、建立完善的巡查和维护、保养、应急处理等机制。

打造智能化运维管理模式数据中心需要建立集中高效、性能优质、快速响应的智能一体化运维生产管理模式,对数据中心的网络、系统、设备、设施,实行集中监控、集中IT平台支撑、垂直专业管理、统一运行调度。建立合理的运维服务管理制度,包括完善的管理组织结构、明确的岗位职责、人员素质能力要求、工作流程和管理制度。建设智能集中监控信息化平台,包含集中动环监控系统、集中网络监控系统、集中电子运维系统、集中IT运营支撑等系统,实现可用性、安全性和预警控制。建立降本增效、绿色节能的效益管理模式。

(3) 系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。

二、采用与时俱进的动环监控、报警系统。以减少误报、漏报的发生。

为保证故障响应、解决问题和交付结果可控,供方应在人员管理和岗位结构以及人员的知识、技能、经验、安全意识等方面满足所需水平,组建掌握网络、动力、安全、消防、IT软硬件等核心专业技术的运维支撑队伍。

(4 )管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。

三、相关人员的责任心、行动力至关重要。毕竟人才是最重要的因素:才是解决、处理问题的关键。扁鹊大哥擅长的是“事前控制”、“治未病”、防患于未然、无为而治才是解决问题的最好方式或者最高境界。借用一位老运维人士的话:宁可默默无闻,不当救灾英雄。

云计算将为运维体系带来新的理念,通过一体化、自动化、智能化的IT系统,将传统运维工作中的大量简单、重复性的手工工作通过软件实现,使运维人员有更多精力、条件,投入到整个服务生命周期当中。IT运维服务企业需要构建完善、成熟的IT运维服务体系,从制度、流程、人员、技术、资源等方面入手,不断提高IT运维质量,实现高效运维。

(5) 人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。

声明:本网站发布的内容以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8306;邮箱:hyg@west.cn。本站原创内容未经允许不得转载,或转载时需注明出处::西部数码资讯门户 云时代IT运维体系或迎重大变革

二、定义各运维对象的运维内容

云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪管理。

三、建立信息化的运维管理平台系统

云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。

数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。信息化的数据中心运维管理平台系统包括如下方面:

机房环境基础设施监控管理系统

IT系统监控管理系统

IT服务管理系统

四、定制化管理

灵活性、个性化是云服务的显著特点,用户对应用系统有着千差万别的个性化需求,云服务提供商在保证共性需求的基础上,需满足用户个性化定制需求,向用户提供灵活、个性化配置的云服务系统。云服务提供商要提供按需变化的服务,就要有反应敏捷的人、流程、工具来适应业务变化的需要。云计算服务下的运维需要更多的灵活性和可伸缩性,可以根据客户、合作伙伴的需要,快速调整资源、服务和基础设施。

五、自动化管理

IT服务根据负载变化可以自动调整所需资源,以求在及时响应和节约成本上取得平衡:同时,计算能力规模越来越大,人工管理资源也越来越不实际。这些新特性对IT管理自动化能力提出了更高要求,企业往往希望在不失灵活性的前提下可以得到更高程度的自动化。

为此,云计算数据中心需要部署自动化管理平台,集中管理虚拟化和云计算平台、提供自定义规则定制功能的自动化解决方案,用户通过使用事件触发、数据监控触发等方式来自动化管理,节约人力同时提高响应速度。

六、客户关系管理

云计算数据中心是为多租户提供IT服务的,为了保留和吸引客户,在运维过程中客户关系管理非常重要。

(1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

(2) 客户满意度调查:客户满意度调查主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。

(3) 客户抱怨管理:客户抱怨管理规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。

七、安全性管理

由于提供服务的系统和数据被转移到用户可掌控的范围之外,云服务的数据安全、隐私保护已成为用户对云服务最为担忧的方面。云服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。

要解决云服务引发的安全问题,云服务提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的服务帐号保密意识,可以提升用户对安全的认知;在服务管理方面,严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。

八、流程管理

流程是数据中心运维管理质量的保证。作为客户服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”.

数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。

九、应急预案管理

应急预案是为确保发生故障事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

(1) 根据业务影响分析的结果及故障场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

(2) 应急预案除包括特定场景出现后各部门、第三方的责任与职责外,还应评估复原可接受的总时间。

(3) 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。应急预案应是一个闭环管理,从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能是为了应付某个演练工作,制定后就束之高阁了,而是应该在实际演练和问题发生时不断地总结和完善。

十、总结

数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放和管理。只有运维管理好一个数据中心,才能发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理,降低人员工作量的同时提高运维人员工作效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体管理效益,同时提高客户满意度,实现云计算数据中心的价值最大化。

声明:本网站发布的内容以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-62778877-8306;邮箱:hyg@west.cn。本站原创内容未经允许不得转载,或转载时需注明出处::西部数码资讯门户 数据中心的运维管理内容及特点

本文由澳门威斯尼人平台登录发布于服务器&运维,转载请注明出处:数据中心的运维管理内容及特点,数据中心运维思考

相关阅读