阿里云紧追亚马逊?2014年云计算稳定性对比

2015 年 3 月 23 日2830

  稳定性是云计算的关键

  德国提出的“工业4.0”国家战略,在过去的一年多里持续成为全球各国关注的焦点;而李克强总理今年的一场政府工作报告,也让“互联网+”瞬间成为了网络热词。作为互联网+、工业4.0的关键支撑,云计算也由此在中国获得了前所未有的关注。

  事实上在过去几年里,云计算一直都是资本市场最青睐的题材。包括谷歌、微软、亚马逊、IBM等全球IT巨头,也都在以云计算题材来拉动股价和吸引资本市场的关注。

  既然云计算如此重要,那么我们在面对不同厂家提供的云计算服务时,应该重点考量什么指标?

  对于这个问题,大多数用户都会将“稳定性”放在第一位,原因不言自明——站在用户的立场上来看,没有一位用户愿意自己的业务被中断哪怕是一分钟。在越来越多的企业将业务迁往云平台的今天,一旦出现宕机或数据丢失,其后果可想而知。

  2014年云计算稳定性报告

  既然大家这么关心云计算的稳定性,那么关于云计算服务的稳定性报告自然也就有了市场。

  不久前,美国网站追踪公司CloudHarmony发布了一份报告,表示云计算服务在近几年发展迅速,稳定性方面也开始直追运营商。在过去的一年里,CloudHarmony一直监测着48家云服务商的宕机故障频率。该公司首先在这些服务商中的每一家都运行一个网络服务器,然后追踪服务何时无法使用,最后记录下宕机故障的发生次数和时长。这种办法虽然算不上完美,但是却可以很好地观察到这些服务商的服务运行情况。

  根据CloudHarmony的统计报告,亚马逊的弹性计算云(EC2)在2014年共发生了20次宕机故障,累计宕机时长为2.41小时,这意味着亚马逊云服务的可靠性已得到大幅提升,正常运行时间百分率达到了99.9974%。研究机构Gartner在2014年预测称,亚马逊分布式系统的规模将是其竞争对手的五倍。以亚马逊AWS的规模而言,能够得出这样的可靠性数据可以说非常了不起。

  相比之下,谷歌的云平台累计宕机时长仅14分钟,可用性达到99.9996%,成绩也相当不错;微软2014年的宕机事故导致其Azure云服务在可靠性方面表现欠佳。据统计,微软Azure在计算方面一共出现92次宕机故障,总计宕机时长39.77小时;其存储平台一共出现141次宕机故障,总计宕机时长10.97小时。至于其他几家主要的云计算公司,像CenturyLink、DigitalOcean、Rackspace、Joyent等云厂商的宕机时长则分别为26小时、16小时、7.52小时、2.6小时。

  报告同时还揭示,各大云服务商在2014年中各自遇到了一些问题。譬如在虚拟化平台Xen的漏洞于2014年秋季被发现后,大约有10%的亚马逊AWSEC2实例必须被重启;Rackspace也在2014年秋季经历了一次大规模重启;微软的存储服务在2014年11月出现服务中断;Verizon更是在2015年初就开局不利——该公司告诉客户,由于计划性维护,2015年1月其云服务宕机时间最长可能将达到48小时。

  中国云计算厂商的崛起

  除了CloudHarmony关注的这些云计算巨头们,国内近年来也有大量云计算厂商快速崛起。不过非常可惜的是,由于CloudHarmony公司并没有将中国的云计算厂商列入统计范畴,所以我们很难根据该公司的报告来对比国内外厂商的云计算服务。

  不过非常幸运的是,笔者最近从业内人士处得到了一份关于阿里云的数据报告。根据里面的统计数据,2014年阿里云ECS的可用率平均每月达到了99.996%以上,与亚马逊AWD的表现相差无几。这样的成绩甚至已经超越了大多数国外的云计算厂商。因此在云计算的稳定性方面,国内厂商其实已经可以与国外同行媲美。

  事实上,阿里云近年来在技术领域的进步非常引人注目。之前在那场Xen漏洞风暴中,阿里云的表现就超出了不少人的预期。许多读者应该都还记忆犹新,不久前开放源代码虚拟机监视器Xen接连爆出数个新型高危漏洞,包括Linode、AWS、Rackspace在内的多家云计算厂商,均不同程度地告知客户需要停机维护或重启服务器来解决,导致不少客户业务大受影响。而令人刮目相看的是,阿里云却找到了热修复的方式完成漏洞修补从而避免了上百万台服务器中断服务,保证用户业务对修复过程无感知。

  值得一提的是,这其实并不是阿里云第一次有着如此卓越的表现。2014年9月,同样也是因为Xen漏洞,导致很多云服务商被迫停机维护,而阿里云的用户则没有收到影响。

  阿里云的技术实力

  为什么在Xen漏洞风暴中,那么多大牌云计算服务商纷纷中招,阿里云却能独善其身?阿里云究竟掌握了怎样的秘密武器?

  在卓越表现的背后,往往都有着强大的技术作为支撑。事实上,阿里云近年来在技术、工程等领域已经有了突飞猛进。

  以Xen漏洞风暴为例,根据严格的NDA协议和披露流程,Xen安全团队会在公布漏洞前提前10-14天发给全球的关键公司做预披露相关的动作,以留出时间给这些公司做线上系统安全漏洞的修复。阿里巴巴是国内唯一一家进入Xen安全漏洞预披露列表的公司,因此阿里云可以提前得知漏洞的相关信息,然后做相应的安全防范动作,比如重启机器或者热修复漏洞。不过与国外云计算巨头不同的是,阿里云在技术层面突破了从控制域Dom0无法访问XenHypervisor内存的限制,在确保上层用户业务不受影响的前提下,动态替换XenHypervisor中有问题的指令。这也是阿里云能够屡次在Xen漏洞风暴中独善其身的秘诀。

  阿里云在稳定性方面的出色表现,不但赢得了众多创业者的青睐,而且也得到了政府部门的关注。不久前,阿里云就得到了中央政府采购网的订单。2015年3月4日,阿里云又正式宣布美国硅谷数据中心投入试运营,向北美乃至全球用户提供云服务,这也是阿里云继杭州、青岛、北京、香港、深圳之后的全球第六个数据中心。

  硅谷数据中心的开放,将帮助中国互联网公司更轻松地拓展海外业务。通过阿里云,国内用户再也不用像以前那样需要在海外租用和部署服务器,以及面临语言、当地法律政策、换汇等多种不便,而是只要在中国本地轻点鼠标,就能实现位于美国的网站、移动应用部署。而美国公司也将首次使用来自中国的云服务。阿里云硅谷数据中心的运营,意味着阿里云即将开始在云计算的发源地美国与亚马逊AWS、微软Azure、谷歌等强大的对手展开直接竞争。

  由是观之,阿里云已经有了“中国亚马逊”的雏形。

  阿里云的野心

  虽然已经进入了美国市场,但是阿里云的野心显然不止于此。

  尽管在阿里帝国的庞大业务中,阿里云只能算是个初出茅庐的婴儿,但是阿里云所表现出来的爆发力和加速度,却不得不让人为之惊叹。

  就在阿里云宣布开放美国数据中心运营的前后,IDC发布了《2014上半年度中国公有云服务追踪研究》(ChinaPublicCloudServices Tracker, 2014H1),阿里云以22.8%的市场份额首次登顶IaaS服务市场。

  在刚刚闭幕的2015德国汉诺威CeBIT上,马云现场展示的“刷脸支付”也让阿里云大放异彩,因为“刷脸支付”背后的人脸识别就采用的是阿里云的服务。据德国当地媒体报道,阿里云将在欧洲建数据中心,德国是重点考虑对象之一,阿里云与德国电信(DeutscheTelekom)的相关合作也正在洽谈当中。另外据了解,除了欧洲之外,阿里云还计划在北美、日本、中东等全球各地选址建立数据中心。

  伴随着阿里云一路的高歌猛进,也许在明年CloudHarmony公司的统计报表上,我们就能看到阿里云的排名。

0 0