什锦文坊 > 数码科技 > \

生于疼痛的阿里云

原标题:生于疼痛的阿里云

拥有超过10万员工的阿里集团,其平台交易总金额已经占到了中国社会消费品零售总额的13%,创造就业超过4000万。这个庞大的数字经济体,今年即将迎来二十岁生日。

鲜为人知的是,这个数字经济体之所以能够顺利走到今天,离不开其花了一半时光所打造的业务与技术底座——那朵伴随着成长阵痛而扶摇直上的阿里云,今年也已经十周岁。

2019年3月,虎嗅专访了阿里云智能基础产品事业部总经理蒋江伟(花名小邪)、资深技术专家钟华(花名古谦)。不出意外,采访内容印证了我们此前的猜测:如果要从磅礴繁杂的阿里经济体中,找出一条读懂“昨天,今天,明天”的业务线索,阿里云恐怕是不二之选。

烟囱

“即便你仅仅访问一次淘宝的首页,所涉及的技术和系统规模都是你完全无法想象的,是淘宝2000多名顶级的工程师们的心血结晶,其中甚至包括长江学者、国家科学技术最高奖得主等众多牛人。”

——卡特《你刚才在淘宝上买了一件东西》

2008年初,淘宝的程序员撞到了墙上,心惊胆战。

那时候,淘宝在技术层面上,是一个由200多个功能模块组成的代码压缩包,体积大概有几百兆字节。其复杂程度已经“超出人类的认知负载”,没有人能完全掌握内部逻辑和关联。“改动商品相关代码,发现交易出问题了,改了论坛上的代码,结果旺旺出问题了”。

这还是“几个月就翻倍”的业务快速发展期。淘宝在峰值时的数据库连接数量已经超过5000个,数据库服务器的CPU占用率常常超过90%,且无法扩容。

实际上,早在4个月前的一次战略会上,阿里决策层已经看到问题所在。

那个会的召集人是马云。平时战略会都在西湖,那次他说找个看海的地方,思路开阔一些。但是当时秘书对宁波不熟,订错了地方,结果一群高管在一个海在哪里都看不到的屋子里,“不接地气”地吵了两天两夜。

在最后一天晚上深夜,大家历经争吵终于画出一张图。图上示意,信息流、资金流和物流将形成统一的数据智能,基本勾勒了12年后阿里现在的样子。

流淌在各个业务中的数据要做到“大一统”,项目被命名为“登月计划”。

但,月亮美好,却太遥远。眼下的现实是,淘宝底层技术基础已经危如累卵,已经是出了名的“改这里、错那里”。

要上线“淘宝旅行”和“淘宝彩票”。为了“不给主站添乱”,技术人员就另起炉灶重新做了这两个系统。哪怕有很多重复功能,比如用户、交易、查询、评价等功能。

重复建设还只是成本的问题。一个个独立的业务就是一根根独立的烟囱,都长在同一片地里,但各冒各的烟。数据大一统,无从谈起。

连业务属性最一致的两个业务——淘宝和淘宝商城(天猫的前身)都像两个独立的国家。

他们有很多共同的用户、共同的商家,但车不同轨、书不同文,载着数据的“火车”到了“国界线”,必须要通过复杂的架构手段,“找一个翻译”或者“换一个火车头”。

生于疼痛的阿里云

再加上,阿里的地里长了这么多烟囱,无数的火车头和翻译,复杂得不成样子。

建设烟囱本来就是多年来的企业IT模式:你起一个业务,底下给你弄一套系统;再起一个业务,我再给你弄一套系统。设计、生产、供应、物流、订单、库存、分销、客服……每个功能再一套系统,企业就是一片烟囱田。

这是工业流水线被发明之后,管理界的金科玉律:理顺、分配、不断优化每个封闭的业务流程,通过每个工序和业务流程的效率提高,进而提升整个企业的效率。

然而,当数字化信息取代实物,成为最重要的生产资料后,工业流水线在数字化时代的弱势便被无限放大——内部各环节之间只能是串联的,且对外部完全封闭,恰似一根根烟囱。

“你会发现转不动了,新业务不断出现,所有人都找IT部门要资源,看起来你挺牛,但其实你拖慢了所有人的节奏。”

“互联网这种速度,生死都是一瞬间。慢下来就挂了。”

虽然决策层看到问题所在,也遥远地指了一下月亮。但就像人类真的登上月球要付出沉重的代价,阿里的“登月”也谈何容易。

补天

“中国电商行业能有今天,上百万淘宝店主都应该感谢秦始皇书同文车同轨,感谢高考语文考卷上的普通话发音题。”

——马平《为了我们双11“剁手”,中国准备了2000年》

2007年底,有程序员想了个办法:将每个烟囱都必备,且逻辑最独立简单的用户信息模块拆了出来,将其独立成为单个公共模块。这一尝试后效果还不错,淘宝又将交易模块也独立了出来。

2008年10月,基于此前的成功尝试,阿里进行了一次被称为“给高速飞行的飞机换发动机”的大手术。

这个名为“五彩石”(即女娲炼石补天用的石头)的项目,其核心诉求就是要将淘宝与天猫在数据和业务层面完全打通。

当时的解法具有了后来中台的影子:

1、抽离出每个业务的共性功能,如交易、支付、会员等等,打包成“砖块”,房子千奇百怪,但砖头都是一样的。做一个新业务就变得非常容易。

2、让数据沉淀到统一的池子,为之后喂养数据智能奠定基础。

“大多数产品,产业共性70%,行业共性20%,真正和同行不一样的,恐怕只有10%”,阿里资深技术专家古谦在见过上百家各行业龙头企业后,这样总结到。

而这一块补天之石的影响,远不止于此。

2009年初,五彩石项目结束,这个一共动用了200多人的公司级大项目(此前阿里超过10人的技术项目就不小了),最终为阿里沉淀了一套中间件技术,这个词后来在技术圈普及,成为“拆烟囱”的标准。

生于疼痛的阿里云

(阿里云飞天研发团队合影)

同样在2009年,王坚率领的飞天团队,正式挂出了阿里云的牌子。

在宁波的战略会上,决策层们打算为“登月计划”找个负责人,后来找来了王坚。

王坚人称“博士”,不过在很长的时间里,博士都有一副类似“骗子”的面孔。

马云说给阿里云每年投10亿,投个10年,做不出来再说。但阿里内部论坛上讨伐的声音一浪高过一浪,花钱又不出成绩,这哪是一个商业公司该干的事情。

其实,这恰好说明阿里云的确生于疼痛,生于业务压力:

第一、“登月”要解决算力的问题,现成的IOE模式完全不适用;

第二、“五彩石”补天之后,要有与之匹配的分布式底座。

2013年,飞天单一集群能力达到5000台,成为全球第一家对外提供这一能力的公司,算力的底座宣告建成。

到2018年底,阿里云在中国市场份额已经超过2到8名总和。同时,阿里宣布组织架构调整,阿里云升级为阿里云智能,将中台能力与云全面结合。阿里云正式成为阿里经济体的技术底座,以及全集团的技术能力出口。

而阿里云智能总裁,恰是十年前“五彩石”项目的负责人,“行癫”张建锋。

生于疼痛的阿里云

今年3月21日,张建锋首次在公开场合阐述了升级之后的阿里云智能战略。至此,开端于2007年宁波海边的故事,闭环完美划上。“登月”的另一条隐线浮出水面。

阿里云此前被外界感知的,更多是算力与资源调度能力,以及自主知识产权研发。却少有人知晓,阿里云的壮大与发展,伴随着集团的每次业务阵痛与瓶颈突破,更与中台战略密不可分——

从五彩石到阿里云,这不是某种巧合,而是同一逻辑下的自然延展。可以说,中台战略与阿里云,就是互为因果,互为充要条件,缺一不可,非你不可的关系。

这不止是一朵能计算的云,更是一朵可以解决实际业务问题的云。因为,阿里云生于疼痛。而阿里集团的那次疼痛,又比绝大多数中国企业早了十年。

1000个BUG

“犯了足够多的错误,你跌倒,你站起来。所有的错误都是进账,都是很棒的收入。”

——马云演讲

“没被洪水倒灌过,你怎么能证明这个城市的下水道架构是合理的呢?”

阿里云智能基础产品事业部总经理小邪给我们讲了这样一个故事,2013年,阿里模拟出远超过双11压力的流量,这股洪水灌下去之后,淹出来1000多个BUG。

“像这种非常极端而极致的BUG,没有这么大的流量,是冲不出来的。即便招无数聪明的脑袋,也没办法解决的。”

这也是阿里不同于其他公司的地方,它具备互联网的规模、金融级的准确性、企业级的复杂程度。

在很多年前,有一个互联网圈流行的词汇,叫“鼠标加水泥”,其含义是传统商业模式与互联网的结合。这些能够做面对面生意的“重资产互联网企业”,就属于“水泥公司”,和那些只靠屏幕就能满足用户的“鼠标公司”截然不同。

而阿里早在十几年前,就是中国第一代“水泥公司”。这是其业务性质决定的,和BAT另外两家的“鼠标业务”完全不同。

比如,搜索是可以有一定模糊范围的,搜不出来几个链接也没关系,但电商不行,哪件商品搜不出来,商家都会电话投诉的。不仅内容上不能有偏差,每次交易的数字都代表着真金白银,差一分商家也是不干的。

再比如,社交行为基本是可以预见的,很难出现巨大的起伏跌宕。而电商用户就如同12306一样,面临巨大的弹性,算力放多了浪费,放少了崩溃……

而且,其它互联网企业的业务基本是比较清晰的,多是围绕着一个主流量核心再去设置支流业务。而阿里则从一开始就像个传统企业,要把一个产品或服务从生产设计、库存运输、分销推广再到客服分析全链路包含,其业务复杂度远超过同体量互联网企业。

高精准度、高复杂度以及难以预测的高并发,共同构成了阿里的技术瓶颈。这也是当业界大佬认为云计算“新瓶装旧酒”时,马云坚称“不做云计算,阿里会死”的原因。

同期的其它几家知名电商企业,依然在采购IBM的框架,甚至从Oracle请来了CTO。随后,这些企业的技术端纷纷在现实磨难中各种崩盘,而且对这种崩溃的弥补,很难得到系统性的提升。

十年后的2018,腾讯、美团、京东等企业,或多或少都放出了中台战略和TO B战略的消息,而云计算也逐渐成为了各家的当红业务线。

当然,还有更多传统企业,在近几年的市场挑战中,逐渐发现了自身原本信息系统建设的滞后性,开始求教于阿里技术团队。

这些事实无不印证着那个判断:阿里并不是多聪明或多奇怪,只是比其它企业提前很多年就遇到了挑战。而现在,大部分企业也走到了那个挑战的门口。

让天下没有难碰的运气

“我们必须承认各种不确定性,利用数据和信息消除它们,而不是采用过去那种来自顶层的设计方式去解决问题。”

——吴军《硅谷之谜》

在采访中,古谦向我们展示了一组术语:VUCA。

这组术语包含四个词,即Volatility(易变性)、Uncertainty(不确定性)、Complexity(复杂性)、Ambiguity(模糊性)。可以充分概括这个商业时代的特征。

企业商业模式的转型,已经从电气时代的30年一个生命周期,到信息化时代的10年,到互联网时代的5年,直至今天DT时代的2~3年的生命周期。

不确定性成为时代主题。生死都是一瞬间,就是这么VUCA。

商业本质从未改变:信息不对称牟利的产品或服务,加上时代机遇,也可以称为运气。而在这个不确定的VUCA时代,机遇变成一个变幻莫测的东西。告别工业时代的“看十年做十年”的战略思维,快速试错和数据智能才是VUCA时代的王道。

这也恰恰是阿里中台能力的价值,阿里的聚划算业务只需要7个人花一个半月就能开发出来,飞猪、钉钉、盒马等商业新物种频繁涌现。很多阿里内部几个人几星期做的事情,放在外部企业中,至少要几十人干半年。哪怕方向错了,从头再来,成本也要低很多。

企业能做的第二件事,就是形成数据的统一,挖掘智能的“石油”。

比如波司登连续两年利润猛増。这其中一大原因,就是利用中台策略,实时监控全国3000多家门店的库存和销售情况,进而降低库存压力和物流成本,提升商品售罄率。

这一升一降间,对于一家销售额数十亿的企业而言,只要物流成本降10%,利润很可能就会多出一两个亿。

一些咨询机构则看得更长远。比如埃森哲、毕马威、德勤纷纷来找阿里云合作,就是希望可以帮助企业数字化转型,并通过数据智能支撑商业决策。

阿里本身也是用机器做决策最多的公司,从阿里小贷,到手淘千人千面,如果没有AI能力,几百人肯定无法运营这个万亿规模平台。

前谷歌云首席科学家李飞飞曾多次说过,云是人工智能落地的最好平台。这也是40%的中国500强企业、近一半中国上市公司、80%中国科技类公司齐聚阿里云的重要原因。

结语

二十年前,在湖畔花园那间漏水的民宅里,这家企业的基因就决定了后来的故事。它的根须在中国经济社会的根须之间。受难于此,也反哺于此。

早于社会十年,阿里遇到巨大困境。也由此筑起了巨大的壁垒,来自别人所未长的见识,和不能承受的痛苦。

变身阿里云智能之后,阿里的苦,要去解决社会的苦,将自己十年来在企业运营和商业实践中总结的方法论和技术架构,打包成产品和商品,赋能整个经济社会。

二十年前,阿里在报纸上发出半个版的招聘广告,那句广告词如今已经成为它的企业文化,“If not now, When? If not me , Who?”(此时此刻,非我莫属)

疼痛本就是先行者的必然经历。世界在质疑,而你走了过去。

特别策划

显示全文

相关文章