周一下午 3 点,用户打不开网易云音乐了。宕机长达两小时,” 网易云音乐崩了 ” 登上热搜第一。
在一个需要精神抚慰的工作日下午大面积瘫痪,不管从舆论角度,还是内部组织角度,这对网易都是一场级别极高的事故。
官方账号很快回应是基础设施出了故障;晚上 9 点,网易云音乐又补充称,是因为 ” 业务扩容 ” 出现的技术事故。
无论是 ” 基础设施 ” 还是 ” 业务扩容 “,这些解释普通人几乎都很难看懂。
流言开始以大家能理解的方式口口相传,版本不一,但背后的叙事逻辑无外乎 ” 裁员裁到大动脉 “,程序员离职报复导致的问题——这是大家喜闻乐见的爽文模式。
网易很快辟谣,称 ” 没有删库、没有跑路 “。
截至发稿,网易集团没有对外释放更详细的解释公告;但根据目前两个公开解释,结合网易云音乐近期的技术动作,背后的原因也几乎浮现出来 .
答案其实还是 ” 省钱 “。
但这个 ” 省 ” 并不一定直接指向裁员。而是指网易在技术基建、方案上的省钱;也指网易这家公司在创始人就是唯一决策人的文化基因下,一直贯彻的省钱禀赋。
01
一位大公司的技术人员告诉我们,所谓 ” 业务扩容 “,是公司为了应对更多用户或者更大规模的使用需求,在技术上增加或升级服务能力。这是一个相对常规的动作,是一家公司在正常运维过程中需要保障的东西。
简而言之,” 业务扩容 ” 对一家技术合格的公司几乎不可能会造成如此严重的问题。
网易集团是目前中国互联网市值前五的上市公司,云音乐也是一家年收入已经达到 20 亿的上市公司,这意味着,正常 ” 业务扩容 ” 不太可能、也不应该出现这样级别的事故。
网易此次的特殊性在于,它刚刚完成了从杭州到贵州数据中心的迁移。
7 月 11 日,网易云音乐技术团队在程序员社区 ” 稀土掘金 ” 以及自己的公众号都发布了一篇名为《云音乐贵州机房迁移总体方案回顾》(后续简称《迁移方案》)的文章。
通过文章,我们可以看出云音乐整体迁移至贵州机房是一个巨大的系统工程,规模大、难点多、风险大。
上述大公司技术人员向我解释,像贵州机房这种规模的迁移即便完成也可能有很大潜在问题,因为它会让整体稳定性和保障性降低。在这样的设施基础上,一次简单的 ” 业务扩容 ” 就可能让问题大爆发。
换句话说,虽然网易云音乐宕机可能并不发生在迁移过程中,但因为换到了贵州机房,网易很多应用的稳定性至少在短时间内会变得更加脆弱。
既然一次大规模迁移可能带来多次不可预知的问题——不到半年前的 3 月,网易云音乐也出现过短暂宕机——那为什么一定要迁到贵州?
地理要素是其一,比如贵州一年四季气候凉爽宜人,其喀斯特地貌和洞穴可以为服务器更好降温;而且贵州远离地震带,是很安全的数据储存库。
但对企业来说,更重要的决策原因可能还要回到我们一开始就已经提到的答案:省钱。
根据 China Daily 的报道,与在东南部沿海地区建立同样的数据中心相比,在贵州可以节省大约 58% 的电费。1 万个标准服务器机架,每年光电费就可以节省 1.3 亿元。更别提贵州作为大数据产业先行区,提供的政策支持和税收优惠了。
这与想降本增效的大公司一拍即合。
2021 年到 2022 年,腾讯是对 ” 降本增效 ” 最明确的公司,它也是第一个在贵州建立数据中心的大公司。到 2022 年 9 月,网易贵安数据中心项目也正式签约,项目规划的标准机架就是 1 万架。
这意味着,这个项目落地后,网易未来在数据中心的花费上,仅电费就可以节省 1.3 亿元。
02
省钱换更好的地方无可指摘。但对网易来说,宕机事故的爆发,再往深追溯,其实是另一个问题——技术基建的薄弱。
大规模的数据迁移以及后续的保障是考验一家公司技术底子的时候。在《迁移方案》中,网易技术团队就列出了一系列技术债务;迁移完成后,也反思还存在应用元信息(即 ” 信息标签 “)建设不足、应用配置等多个问题。
保障性和稳定性也依然存在漏洞,网易技术团队自己总结:
” 尽管在贵州机房迁移中,做了大量的稳定性保障措施,但依赖每个研发对各自负责领域的理解、运维能力。是否能在团队管理、设施管理、服务管理、稳定性管理、架构设计等多方面,探索出一套可持续的长效保障机制?并进行一定的稳定性系统化建设?从而避免点状问题随机发生。”
这个问题暂时无人可以回答,或许在这次事故出现后的复盘里,技术团队可以重提。
不过一家企业技术基建、技术团队管理的问题,归根究底也是它的文化和组织优先级的问题。
一位网易前员工告诉我们,网易并不是个追求技术先进的公司;技术架构可能一开始还行,但后来会因为工期问题,只能继续往上堆垃圾。
另一位从网易跳槽到阿里的员工,对比两家公司的技术基建,也觉得网易在技术投入上过于看重投入产出比,一旦看不到效果就收缩,难有动力长期投入。
网易对技术人才的重视度从招聘上也能看出。不仅平均薪资低于其他大厂,岗位也更少。
一位今年毕业的技术岗位应届生告诉我,在他们理想公司的排序里,字节是首选;阿里和腾讯是优选;快手对新技术很看重,面试体验不错;而京东和网易岗位不多,在校招生中存在感不强。
相比追求技术进步,网易是一家产品文化驱动的公司。这也跟创始人的志趣相关。
创业前两年,网易创始人丁磊还在担任网易的联席首席技术执行官;到 2005 年底,他仍是网易的首席架构师。此后,你能看到,他的兴趣就从技术转移到了产品,他在逐渐成为网易的 ” 头号产品经理 “。
对丁磊来说,产品经理的含义非常广阔。互联网应用、实体商品、游戏,他的好奇心强烈,新点子也源源不断;而这些新点子可以在网易这个王国里完全地被满足、被试验。
游戏赚钱、环境很好的时候,杭州研究院几乎就是丁磊个人兴趣的实验室。这里孵化了多个业务,云音乐、云课堂都是从这里出生,他们独立、壮大,有的甚至上市。
丁磊得到的正反馈越多,就越发肯定自己,他有时对产品经理们说,” 我觉得自己的产品能力越来越强了。”
在网易,普通员工与丁磊打交道最多的一类也是产品经理。有员工看到,在丁磊的眼里,技术员工只会跟他说能不能实现,设计的作用是具象化,跟他们讨论都不过瘾,只有产品经理能接住他的理念。
和其他已经实现了更现代化治理的公司相比,网易仍是一家创始人介入深、说了算的公司。这意味着,对技术投入程度基本取决于老板的心态。
年景好的时候,网易也有资金投在数据中台、云服务的建设上,但这个钱不好挣,也没有创造一个产品来得开心和有成就感。年景不好的时候,这都是需要被收缩和优化的项目。
网易员工私下谈论起丁磊,形容他仍是个 ” 宁波小老板 “。
一位网易前员工看到,5000 元的项目,管理层都得拿着单子亲自找丁磊签字,也得提前准备好答案以防丁老板问起细节。
这种生意人的特点,可以解释丁磊为什么从不投资网易的离职创业者。他在跟吴晓波的一次对谈中,说只相信自己的 ” 商业模式 “,只做自己懂、或者感兴趣的事情。
创始人的禀赋让网易在大环境开始变化时,提前就开始应对。2018 年后,丁磊就已经陆续开始对 ” 兴趣项目 ” 进行盘点,2022 年,整个互联网行业都在省钱,而网易赶在寒流到来之前就完成了大部分的 ” 降本增效 “。
回到技术基础设施建设的问题,一位员工抛出自己的观点:” 你如果是一个‘乡镇企业家’,会重点投入在生产线升级换代上吗?”