国津.鸿运维-十年专注一个领域!IT运维管理软件,ITIL管理系统,运维管理系统,运维软件

云计算:拼的是运维管理


云计算:拼的是运维管理

==节选自:2014-04-16 Infoq 陈皓三影塔CIO之家

  【引言】卖汽车也是卖服务。造出汽车来,并不代表你搞定这个事了。如果没有公路、没有加油站、没有4s店、没有交通管理、规则等等,你要么用不了,要么就是乱七八糟。不能只让用户在那看着你的汽车好牛啊,但是用户不知道怎么用。所以说,云计算最终旁边必须要有一套服务设施,而这套服务设施也是今天被人低估的...ITSM软件就是这里所说的服务设施的基本组成部分之一.

  云计算的IaaSPaaSSaaS最后那个S都是Service。就是说,无论你云计算长成什么样,都得要向用户提供“服务”而不仅仅是软硬件和各种资源。

【云计算的技术难点】

  到今天,云计算的工业实现已经不太难了。现在有开源软件KVMXen,这两个东西基本把虚拟化搞定;而OpenStack则把管理、控制系统搞定,也很成熟。PaaS也有相应的开源,比如OpenShift,而Java里也有N多的中间件框架和技术。另外分布式文件系统GFS/TFS,分布式计算系统Hadoop/Hbase等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。

  对于云计算工程方面,现在最难的是运维。管100台、1万台还是100万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心/云计算拼的就是运维能力。运维管理,除了网络监控、云监控、运维自动化之外,还有桌面管理、工作流管理(ITSM/ITIL)。

  为什么我说运维比较复杂,原因有这么几个。

  一方面,云计算要用廉价设备取代那些昂贵的解决方案。所谓互联网的文化就是屌丝文化,屌丝就是便宜,互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如EMCIBM小型机、SGI超级计算机等等,你如果用它去搭建云计算,成本太贵。用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。

  另一方面,因为你机器多了,然后你用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的,你服务的可用性是3949还是59

  最后,这一大堆机器和设备都放在一起,你的安全就是一个挑战,一方面是Security,另一方面是Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。

  面对这样的难题,人是无法搞得定的,你只能依靠技术来管理和运维整个平台。比如必须有监控系统和ITSM流程管理系统。这跟操作系统一样,对资源的管理,对网络流量、CPU利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。另外,相关的人员操作也要遵守一定的工作流规定,这就需要ITSM/ITIL系统。

  我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。  

         为了数据的高可用性,你只能使用数据冗余,写多份到不同的节点——工业界标准写三份是安全。然而,你做了冗余,又有数据一致性问题。为了解决冗余带来的一致性问题,才有了paxos的投票玩法,大家投票这个能不能改,于是你就需要一个强大的控制系统来控制这些东西。

  另外,除了运维自动化之外,还有流程管理(ITSM/ITIL)、资源管理、权限管理等等;例如,公有云人来人往,里面的资源和服务今天用明天不用,有分配有释放,有冻结,你还要搞一个资源管理系统、流程管理系统(ITSM/ITIL系统)来管理这些资源的生命状态。还有权限管理,就像AWSIAM一样,如果没有像AWSIAM权限管理系统,AWS可能会不会像今天这样有很多大的公司来用。这些,都需要完善的相关“工作流的管理”,好在现在有ITIL标准和相关的ITSM软件系统;企业级的云平台,你需要有企业级的运维和管理能力。相关的ITSM/ITIL系统、软件工具也就必须是企业级的。

【云计算的门槛】

  为啥云计算有这么多开源的东西,却不是人人都能做?

  一方面,尤其是你要提供CDN服务,这个就更明显,因为有多少物理节点直接决定你的CDN服务质量。

  另一方面,正如前面所说的,运维是件很难的事,运维这个事并不是一般人能搞的事。没有足够的场景、经验和时间,这种能力很难出现。

  从用户的角度来说呢,云计算是一种服务,你需要对用户企业内的解决方案要有很好的了解,这样才能提高很好的服务。能提供“好服务”的通常都是把自己真正当成用户公司。

  卖汽车也是卖服务。造出汽车来,并不代表你搞定这个事了。如果没有公路、没有加油站、没有4s店、没有交通管理、规则等等,你要么用不了,要么就是乱七八糟。不能只让用户在那看着你的汽车好牛啊,但是用户不知道怎么用。所以说,云计算最终旁边必须要有一套服务设施,而这套服务设施也是今天被人低估的...ITSM软件就是这里所说的服务设施的基本组成部分之一.

  云计算有两个东西我觉得是被人低估的,一个是运维,一个是那堆服务。做服务的需要有生态环境,有人帮你做。所以做云计算要落地并不简单。相关的ITSM也要同时落地。

  还是那句话,云就是服务,只要提供了好的服务,无论公有还是私有都是会有价值的。

  作者陈皓,CoolShell.cn博主。

>>返回

国津软件-十年只做一个产品!IT运维管理软件,IT服务管理软件,ITSM/BSM系统,ITIL!