
关注老石谈芯,一起探究芯片本质
微信的推送规则进行了调整
如果文章对你有用,请在文末点击“在看”,“分享”和“赞”
这样就不会错过老石的每一篇推送了
2009年,阿里内部诞生了一个野心勃勃但饱受争议的项目:飞天。项目开始之初,只有那个男人力挺:
我每年给阿里云投资10个亿,投十年,做不出来再说。
现如今,中国云计算的图景已经发生了翻天覆地的变化,甚至有些领域我们说第二,没人敢说第一。支撑阿里云大数据计算的核心引擎ODPS,也迎来了发展十五周年的历史性时刻。
前两天我专门去了趟杭州,去看了一下阿里云大数据平台在AI时代又有哪些新变化,也和很多专家学者一起探讨了这些新变化会如何帮助更多企业重塑核心竞争力。我看到,ODPS的演进并非一帆风顺的技术迭代,而是始于生存危机、成于产业实践、最终面向智能未来的企业技术变革示例。我感觉,ODPS的十五年发展,对很多技术领域都有很强的借鉴和启发意义。
它不仅很好的体现了在技术领域「唯一不变的只有变化」,而且证明了技术人能做的,就是不断拥抱变化。
源起与挑战:AI时代的数据困境
为了说清楚ODPS的十五年变革,必须先弄明白一件事:数据和AI到底是怎样的关系?
ODPS是飞天系统中最重要的数据处理引擎。它在诞生之初的使命,是为阿里构建一个构建一个横跨集团的、统一的分布式计算和数据处理平台,并支持了双十一、阿里金融等海量数据与海量并发的极端场景。
后来人工智能兴起,也由此带来了数据和AI的结合。当时,数据一直是作为AI核心资源的身份而存在。其中最有代表性的例子,就是李飞飞教授的ImageNet数据集直接带动了深度学习和神经网络的兴起。也因此,数据被称为人工智能时代的「石油」。当时人们认为,基于大量数据训练后的人工智能模型,可以直接应用在企业的实际场景,甚至直接转化成生产力。所以人们更多关注的是如何构建底层基础设施,从而更加高效地在海量数据中查找定位关键数据和信息。
这时,上云就是最直接的选择。
2016年,ODPS的技术栈面向云场景进行了重构。他们还在业内首次融合数据仓库和数据湖,在2020年完成了与阿里云存储(OSS)、分析工具(Quick BI)、开发套件(DataWorks)的深度整合,实现了大数据平台的「湖仓一体」。
几年后,深度学习逐渐被大模型和生成式AI技术取代,而这也带来了很多面向数据管理的全新挑战,首当其冲的就是数据量的爆发式增加与管理碎片化之间的矛盾。比如对于一个企业来说,他们的数据来源可能来自自身业务、日常运营、第三方采集等等。这些数据的模态可能五花八门,有的是结构化的文本类内容,但也有很多是非结构化的图片、声音、视频等内容。为了存储和使用这些数据,就要求企业拥有高质量、统一治理的海量多模态的数据资产,并具备清晰的数据血缘和严格的数据治理体系。比如,他们可能会有一个由用于商业智能的数据仓库、也会有用于存储原始数据的数据湖,还有用于AI实验的独立向量数据库。
但是,这种碎片化的数据存储和管理,就会不可避免的导致数据冗余、高昂的集成成本、数据治理混乱等一系列问题。数据在不同系统间的反复迁移,不仅消耗了大量的工程资源,也增加了数据一致性和安全性的风险,并产生了额外的存储成本,这也是所谓的“数据税”。
第二个挑战来自大模型的应用本身,即现有数据管理平台提供的工具不能匹配LLM的落地需求。通常来说,ChatGPT、DeepSeek、通义千问这些基础模型更像是还没学专业课的大学生,为了让他们走上工作岗位,往往需要借助行业和企业的专有数据做进一步的微调或再训练,但这个过程并不是点几下鼠标就能完成的。
比如,管理数据准备、向量化、模型训练和推理的监控等需要大量专业工具和技能,如果没有统一平台支持,单纯搭建一套这样的基础设施和工作流就需要大量成本。LLM本身具有不确定性,且容易产生与事实不符的“幻觉”,因此在应用于对精度要求极高的业务(如金融领域)时,必须建立严格的评估框架,也需要更高质量的数据保证安全,但如何让LLM访问和利用被锁定在传统仓库中的、有价值的结构化业务数据,在打破数据孤岛和防止数据泄露之间做抉择,也是很多企业遇到的现实问题。
第三个挑战,来自数据安全和AI治理。大模型应用往往涉及敏感数据和复杂的协同场景,例如医疗、金融领域的多方联合建模就需要在保证隐私安全前提下共享数据价值。企业需要完善的数据治理策略,包括数据权限管控、隐私保护、偏见检测以及模型结果的可解释性等,确保“数据用得其所、AI用得可信”。因此,构建“零信任”的数据安全体系和完善的MLOps流程也成为了企业顺利落地AI的基础要求。
更多人已经意识到,在一个薄弱、碎片化的数据基础上,不可能构建出强大、具有护城河的AI应用。Data和AI并非两个独立的领域,而是一个单一、集成的整体。那些将二者分开对待的平台和战略,注定会失败。
转变:从数据平台到智能基础设施
生成式AI的出现,已将数据的角色从一个“记录系统”(System of Record)转变为一个“推理系统”(System of Reasoning)。过去,数据仓库的工作是回答“上一季度的销售额是多少?”这类回顾性的问题。而现在,借助RAG和LLM,企业希望解决的问题是“为购买了产品X的十大客户起草一封邮件,邮件中需引用他们的购买历史,并根据近期的市场趋势推荐产品Y”。这要求平台必须能够统一处理结构化数据(销售历史)、非结构化数据(市场报告)以及用于语义理解的向量嵌入。
换句话说,这意味着企业数据平台的角色已经从被动的数据仓库,转变成主动的智能引擎:过去数据平台关注的是存多少、算多快,而AI时代更关注“数背后的含义”;过去数据分散、碎片化严重,而AI时代需要数据跨地域、跨领域、跨模态,构建可信数据共享的基座;过去企业只是接个模型API、跑个算子,而AI时代需要沉淀数据资产、积累特征库、复用微调模型……
这是数据平台角色的一次根本性变革,这也对数据平台的能力提出了更高的要求。
另外一个行业共识是,在几乎所有AI项目中,最大的成本和时间消耗并非模型算法本身,而是数据的准备、移动和集成的“数据税”。所以市场迫切需要一个能够将这种“税收”降至最低的解决方案,这为真正一体化的平台创造了巨大的市场机会。
可以这么说,在生成式AI的时代,一个公司AI战略的成败,基本完全取决于他们数据战略的好坏。随着GPT、通义千问、Gemini、DeepSeek这些基础模型的不断进步和强化,任何企业都可以通过API去轻松访问和利用这些强大的基础模型。所以企业真正的护城河,其实是他们自身的私有数据、以及将这些数据快速应用于大模型的能力、以及将数据+AI模型高效转化成生产力的工具。比如作为芯片工程师,我如何利用基础模型外加我自己过往的芯片设计和数据积累,从而更快更好的让AI辅助我设计出更好的芯片。
有大佬说过,大模型无法取代数据存储和计算体系的作用。换句话说,当前最具战略意义的基础设施,并非AI模型本身,而是那个能够以快速、安全且经济高效的方式,为模型准备、治理和提供这些专有数据的数据平台。
然而,这既需要平台的技术能力足够过硬,能够应对大模型时代海量数据带来的全新挑战;还需要平台在实战场景下真刀真枪的干过;而后者是很多单独做大数据平台的公司、以及各种开源方案不具备的能力,
相比之下,阿里作为ODPS的“零号客户”,需要ODPS每天都经受着数十万内部开发者运行的数百万个任务的检验和锤炼。这能确保当一个新功能被交付给公有云客户的时候,这个功能早已经在极端规模下被证明是稳定、可扩展且高效的。这也是ODPS从战火中走出来的、友商可能很难复制的强大竞争优势。

阿里云ODPS平台演进
进化:面向大模型时代的ODPS升级
那再具体看一下这次ODPS技术升级的主要内容,一句话总结,就是从云原生进化到AI原生,进一步实现数据和AI的融合。这一升级意味着ODPS不再只是数据处理引擎,而成为融合存储、调度、分析和AI能力的全栈数据底座。这既是时代发展带来的必然趋势,也是企业发展的痛点所在。他们升级的内容非常多,在今天这篇文章里我主要介绍三个和AI紧密结合的升级点,其他内容欢迎在评论区一起讨论。

面向 Data+AI 的新一代数智一体计算平台
首先是AI工具链的融合。为让数据更好地赋能AI,ODPS深度整合了机器学习开发平台和算法框架。ODPS-MaxCompute推出了自研的分布式计算框架MaxFrame,支持Pandas、XGBoost等常用Python接口,也特别增强了对多模态数据的支持和优化。开发者无需离开ODPS即可直接通过SQL调用AI能力,直接对海量数据进行处理和模型训练。MaxCompute会自动将任务切分并分布式执行,大幅降低AI算法工程师使用大数据资源的门槛。ODPS-Hologres引擎提供了面向多模态数据和RAG场景的检索增强特性,可以和基础模型一起构建企业级知识库,有效减少大模型幻觉。
第二是数据+AI的管理。当前,有越来越多的企业希望能引入AI能力,来提升数据工程的开发与运维效率。为了解决这个痛点,通过MaxCompute智能数仓,升级后的ODPS能够基于大数据和历史调优经验,进行面向数仓使用场景的智能化调优,比如作业的智能诊断、智能物化视图构建等。
第三是数据的使用。ODPS-DataWorks SQL Copilot功能,就像那些AI代码助手一样,这是个智能SQL编程助手,能帮助使用者更高效的进行数据开发。

DataWorks Copilot提供智能编程助手及AI Agent服务
通过这些升级,ODPS把竞争的焦点从「谁的引擎更快」、转移到「谁的平台能让我最快实现有价值的业务成果」,让用户更加聚焦自己核心竞争力的开发,而不是重复造轮子。这也创造了一个良性循环,即AI使数据平台变得更好用,而一个更好用的数据平台,又反过来使得构建更多的AI应用变得更加容易。这也在某种程度上代表了整个数据产业的未来演进方向。
启航:下一个十五年会怎样
ODPS的十五年发展历程,生动展示了一个为求生存而打造的内部工具(飞天),如何在企业实际应用的压力和推动下,逐渐成长为一个驱动庞大业务的工业引擎,并最终进化成一个面向未来的Data+AI一体化平台的全过程。
ODPS十五年磨一剑,当然他们未来的路肯定也不止于此。它不仅实现了“Data for AI”(以数据赋能AI),更通过“AI for Data”(以AI提升数据平台自身能力)创造了一个良性循环:AI使数据平台变得更好用,而一个更好用的数据平台,又反过来使得构建更多的AI应用变得更加容易。
尽管ODPS仍然是一个强大的数据处理引擎,但在AI时代,它的关键差异化优势已经成为能够为用户屏蔽现代AI技术栈的巨大复杂性。所有升级——Serverless、湖仓一体、向量引擎等等集成——的最终效果,是为最终用户极大地降低了架构复杂性。企业得到的不仅仅是这些独立的功能,而是一条通往构建AI应用的、被简化的路径。
这次技术进化的终局,将不仅是打造一个Data+AI的平台,而是构建真正的「企业认知基础设施」,即一个不仅能存储和处理数据、还能主动帮助企业进行推理、预测和生成的系统。
数据是AI时代的石油,但现在AI也成为了优质数据产生和使用的催化剂。他们两个原本平行发展的技术路线,现在合并成同频共振的发展轨迹。驱动这些变革的原生力量,是ODPS的不断发展,更是那些没有留下名字、但一直在背后默默付出的技术人们。
过去十五年,他们支撑起了中国云计算和大数据产业的半部发展史。但只要有他们在,有更多新鲜力量投入进来,我相信中国数据与智能融合的下半场,才刚刚开始。
(注:本文不代表老石任职单位的观点。)
老石谈芯社群组建中!扫码添加小助手进群~
