唯品会的网站基础架构改造和流程优化之路
在过去一年,唯品会业务高速发展,CDN流量翻了接近10倍,IDC网络流量翻了十几倍。过去老的运维基础架构在去年年初时就已经不能满足业务发展的需要,还要面对419,719,双11等大促活动的流量冲击。为应对这些挑战,唯品会去年对网站的基础架构进行了较大规模的优化和改造,这些优化和改造取得了明显的效果。
唯品会运维工程部高级运维经理黎毅敏,介绍了该公司网站基础架构和运维流程改造和优化的一些实际案例。
黎毅敏,目前是唯品会运维工程部高级运维经理,2013年4月加入唯品会,负责网站系统运维。有十多年系统运维相关工作经验,之前分别就职于宝信、用友、eBay、渣打银行,做过系统工程师、技术顾问、Unix SA,维护过大型电商搜索引擎Voyager,在银行搞过SAN存储。在网站基础架构和高可用性、高可扩展性系统以及运维流程方面有较为丰富的经验。
在介绍公司业务背景时,黎毅敏表示:唯品会网络流量每几个月就翻一番,公司团队也非常年轻,网络基础构架薄弱。具体挑战包括:
1、交换机之间的流量经常跑满;
2、无法接入更多的服务器和机柜;
3、内网经常丢包;
4、交换机之间网线经常降速;
5、运维人员经常踩坑;
6、非常多的单点故障点;
7、对流量要求高的新业务无法上线;
另外,原有IDC网络架构存在缺点,包括千兆骨干、无冗余、无扩展性、内外网机构,是两套网络,成本太高、安全性差等。
如果重新设计架构至少需要三个月时间,需要2名工程师。并且新的IDC网络结构要具备新特点,包括高性能(10G骨干,核心交换机TB级转发能力)冗余性、可扩展性、五生成树、模块化、合理收敛比、内外网融合,运维友好,并且要加强安全性。最大的一件事是,新架构要涉及迁移项目,包括4个数据中心的迁移,要建大数据平台,这可能需要持续半年时间,人力投入巨大。
经过具体的规划以及项目实施,最终新项目取得了预期效果,消除了网络单点故障点,应用性能高,服务器带宽及可靠性提高,可快速扩展,网络整体容量提高10倍以上。在流程上也进行了优化,基于ITIL,进行了体系化,做了变更管理、事件管理、问题管理,并且采取了监控中心负责制。目标是,团队作战,而不是每个人有自己的打法,根据个人意愿进行操作和运维。比如变更管理,就是减少变更对生产系统的影响,减少故障定位和发现的时间,有助于跨团队和打团队的沟通,确保对生产环境的变更都经过审查和审批,避免孤独审批,进而引起蝴蝶效应。
而在事件管理中,需要监控中心负责,这涉及多个监控系统,包括Zabbix,Telescope.这需要统一告警平台,然后按照标准化流程进行故障处理,必要时可直接进行电话会议。对于问题管理也一样,监控中心驱动,对于网站重大故障,或者反复发生的故障,会有专人跟进,去定位原因,提出彻底的解决方案。
从运维自动化角度来看,唯品会还处于初级阶段,服务器安装的是Cobbler,配置管理此阿勇Puppet框架,在QA、大数据、DBA、移动运维团队已经采用Puppet实现服务器快速部署和系统配置标准化,对还没有接入管理系统的服务器从流程上要求把配置和运维操作进行了规范化和标准化。
总结:
1、设计良好的基础架构可以有效提高网站容量、可靠性和可维护性水平;
2、运维流程可以有效提高网站可用性和提供团队效率;
3、运维和开发是互补、相互扶持的关系;
4、大数据对提高运维水平有很大帮助。