当云计算发展到一定规模之后,技术和商业逻辑也会随之变化。而云计算企业本身,也一样需要思考在下一个技术体系或者商业体系下,自己的定位是什么,能力是什么。
“新计算”带来“新商业”的重构,“新商业”也会不断推动“新计算”的重构,这是必然发生的循环。
怎么理解算力?确切地说,怎么理解云时代的算力?算力可以比照电力,以往根据发电量大概能够判断出经济形势,算力未来也是一样。
数字化就是一百年前的电气化,算力就是一百年前的电力。发电量的背后是一台一台的发电机,算力的背后是无数的云数据中心,云计算汇聚算力的过程,类似发电厂形成的过程。
在电力应用的历史上,有一个并不太“出名”的人物——塞缪尔·英萨尔(Samuel Insull),他是爱迪生的私人秘书,后来成为通用电气的副总裁。当华尔街认为每个家庭都应该有一台发电机,但发电机的价格就像私人游艇一样的奢侈品,英萨尔却用大型蒸汽涡轮机来生产廉价的电力,实现规模经济以此克服市场成本,让电力触手可及。
发电厂解决了电力生产、汇聚和流通的问题,电力得以变成社会基础设施。从历史角度来看,作为奢侈品的电力,显然没有作为普及品的电力对社会经济的影响深远。
云计算时代,同样要解决算力生产、汇聚和流通的问题,我们正处在量变到质变的关口。
云计算改变了什么?
上一阶段的云计算主要体现在算力商业模式的变化,比如自建变成代建、租用、随需随用,这是在一种新商业关系支持下,计算能力的新型组织方式。
当云计算发展到一定规模之后,技术和商业逻辑也会随之变化。或者说,云计算发展到一定程度,整个体系就要被重构。
比如这些年来设备供应商就发现,原先批发、托管、零售的模式在商业上被重构了。而云计算企业本身,也一样需要思考在下一个技术体系或者商业体系下,自己的定位是什么,能力是什么。
“新计算”带来“新商业”的重构,“新商业”也会不断推动“新计算”的重构,这是必然发生的循环。
在看到技术创新带来商业逻辑重构之后,阿里云需要思考,是简单地靠规模优势把历史价值吃尽,还是寻求新的创新能力去创造新时代的更大价值?阿里云已经走在后者的路上。
例如自研CPU,以前如果商业平台没有规模,自研CPU是没有价值的,而随着商业平台规模化,自研CPU的使用量占比越来越高,此时云厂商有能力定义下一代的CPU、下一代GPU,甚至下一代的计算体系。这是真正令人兴奋的议题。
云计算是“规模+技术”的模型,必须对技术和规模都有足够的追求。而从历史上看,这样的企业模型才更有竞争力,比如苹果是“技术+规模”,亚马逊也是。
我认为,中国云计算现在可能面临一个最大的转折点。云计算的门槛很高,全世界的头部云计算厂商主要是海外厂商,中国还有希望,但这个希望是否可以实现,还是要客观认识很多基础问题。
比如,什么是云计算?云计算的商业模式跟技术体系的关系到底是什么?必须要“Back to Basic”,透彻地洞悉下一代的技术结构和商业模式。
什么将改变云计算?
阿里云要去理解下一代的计算,首先要清楚“计算”一词的定义。“计算”看上去包罗万象,我们可以把所有现在没有看清楚、想清楚的东西,都放到里面。从我的角度,计算创新方向理解应该有三个层次:
第一,回到传统意义的算力,云厂商集中给企业提供计算能力服务,比企业自营自建更高效、更有性价比,商业公司本身可以不关注复杂的计算能力构建,只要按需使用算力,有效解决自己的商业问题,把原来本质上的托管形式变成一种服务——这不只是商业模式的问题,同样是技术问题。
第二,“算力”本身在变化,或者说“计算能力”所针对的目标、服务的场景变了。比如自动驾驶有大规模数据处理的需求,原来的计算架构并不是最高效的方式,需要新的思路和新的技术能力。
第三,一个客户需要的算力,其中既有传统的算力,也有创新的,如何组织最有效的“计算”来解决?客户工作负载可能是无数个多种计算的总和,如果要实现很高的效率,就需要有适用的算力,把所有工作负载全部编排拆解,其成本非常高。
对此阿里云已经有一些实践。譬如CIPU的诞生,是云服务商对算力需求给予回应,能够将虚拟化损耗降到0。其实,阿里云的神龙架构和AWS的Nitro比DPU这一概念出现还要早,春江水暖鸭先知,这就是云服务商应对算力需求变化作出的改变。
更进一步,2022年6月,阿里云宣布推出CIPU(Cloud Infrastructure Processing Units,云基础设施处理器),这是为新型云数据中心设计的专用处理器,将替代CPU成为云时代IDC的处理核心,它可对计算资源进行云化加速,并可通过部署飞天云计算操作系统对算力资源进行管控。
阿里云弹性计算产品线负责人旭卿所负责的相关研发团队,是CIPU的基础,在2015年就开始技术攻关,经过多年自研迭代,神龙、弹性RDMA网络等核心技术不断深入垂直整合,演进出以CIPU为中心的全新架构形态。
在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化,并进行硬件加速,向上接入飞天云计算操作系统,将全球数百万台服务器连成一台超级计算机。而CIPU又将改变传统数据中心的形态,完成一次由内而外的体系变化。
再如智算中心,融合了多种算力,阿里云正式推出全栈智能计算解决方案“飞天智算平台”,并启动张北和乌兰察布两座超大规模智算中心。其中张北超级智算中心总建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS。
一个工作负载输送到智算中心,在飞天智算平台的分解下,CPU、GPU、XPU各行其职,并不是云服务商的算力硬件一定比其他服务商好很多,而是对工作负载的理解和构建新型算力的方式不同。
不同人对云计算有不同的理解,例如,有人来买云计算,考虑买了一百个核、买了多少存储,然后比较一下是贵了还是便宜了,这还是资源型的购买。客户真正需要的其实是一个能解决问题的服务,并不是那些数字。
Serverless(无服务器)是很重要的发展趋势,将理顺大家对云计算的认知,云计算不是“云+计算器”,也不是“云+计算机”,而是以云的方式组织符合时代需求的算力,交付的是能力,这是一个全新的逻辑。
而要做到这一点,云计算企业就必须在技术上不断创新、进步,要站在时代前面定义问题。
举例来看,AI越来越多地在商业世界中扮演重要角色,要使其发挥更大的作用,应该有新的计算能力。
中国的人工智能应用过去比较集中在视觉领域,我认为会继续发扬光大,特别是以自动驾驶为代表的领域。但自动驾驶也需要决策,三到五年之内或许有基础性的突破,云服务商需要提供新型算力,自动驾驶的算力数据量巨大、模型巨大,需要有新型的计算体系支撑。
其他领域也要用大数据做模型预测,也叫决策智能。数据量超大,意味着要有新型的网络结构,加上强算力和优化模型,现在很多模型参数已经上百万亿,云计算必须解决这些问题。
算力的未来是想象力
技术型的公司,对技术做战略性判断一定是头等大事,这考验着我们一个很朴素的能力——“定义问题的能力”。中国企业似乎最缺乏定义问题的能力,在很长一段时间,都是别人提供定义,我们负责跟随。
定义问题的能力并不简单。比如电力是直流电还是交流电,是走高端路线还是平民路线,计算机发展早期也有人说,“世界只需要五台计算机”,后来PC时代到来,其言论不攻自破,然而随着云计算时代渐进,定义问题的前提又发生了变化。
其实现在的云计算也面临着同样的问题。算力下一步演进投入会更大,会朝着软硬件结合的方向,硬件需要三五年的周期,一个芯片往往要多次流片,必须要定义好真正值得解决的问题。
大企业战略的核心,就是要防止“把问题定义错了”的风险,而在正确的问题上,做一些“有质量的浪费”都是值得的。
所以,阿里云现在开始重新定义问题,再一次用技术创新解决真实的问题,云计算的技术门槛跟规模门槛都非常高,我们要敢于再次走进无人区,这不只是勇气,而是不得不做的正确的事,规模越大,技术创新得到的回报也越大。云计算要么巨亏,要么有非常好的经济效益,没有中间路线。
算力的未来是想象力。正如一百年前,没有人想象得到电视、电冰箱、电脑,如今人们无法想象一个算力的未来,算力的极大丰富将带来我们想象得到的以及我们还想象不到的产品技术和生活工作方式——一切始于我们将如何定义算力。
文/张建锋 阿里云智能总裁、阿里巴巴达摩院院长
(推广)