智东西8月26日报道,近日,谷歌母公司Alphabet风投部门CapitalG、英伟达正在洽谈投资以色列AI基础设施提供商VAST Data,融资金额或达到数十亿美元,或将成为以色列科技公司史上最大规模融资。融资完成,这家创企的估值将跃升至300亿美元(折合人民币约2148亿元)。
这家被谷歌、英伟达争着送钱的创企,到底什么来头?
2016年成立的VAST Data已成为众多大模型企业青睐的香饽饽,核心原因是传统数据存储架构无法满足大模型训练、推理的新需求,VAST Data面向AI时代推出了统一数据平台,将结构化和非结构化数据集成在一起,让AI处理数据能更高效、更便宜。
在创投圈,这家创企也早已站到投资人的聚光灯下,此前共拿下5轮融资,融资总额达到3.81亿美元(折合人民币约27.3亿元),彼时估值达到91亿美元(折合人民币约652亿元),其中戴尔和英伟达连续多轮注资。

▲VAST Data融资情况
VAST Data的四位创始人都在存储领域积累深厚。
CEO雷宁·哈拉克(Renen Hallak)、CTO沙查尔·芬布利特(Shachar Finblit)、营销副总裁杰夫·登沃思(Jeff Denworth)和CTO阿隆·霍列夫(Alon Horev)共同于2016年创立了这家公司。

▲VAST Data联合创始人杰夫·登沃思(Jeff Denworth)(左一)、沙查尔·芬布利特(Shachar Finblit)(中)、CEO雷宁·哈拉克(Renen Hallak)(右二)
哈拉克曾在戴尔EMC推出的全闪存企业级存储阵列XtremIO部门担任研发副总裁,从项目启动到实现超过10亿美元的营收;芬布利特和霍列夫均曾在IBM等公司任职,登沃思在先进计算和大规模可扩展的大数据和云存储方面拥有超20年的技术经验。
用一句话概括VAST Data的业务体系,就是将存储、数据库和容器化计算引擎服务统一为一个单一的、可扩展的VAST Data软件平台,并且该平台从底层架构设计之初就专为现代数据中心和云中的AI、GPU加速工具而构建。
具体来看,其能实现对电子邮件、日志、PDF文件和多媒体内容等非结构化数据的实时访问,通过将非关键数据转移到成本更低的闪存中存储,然后使用速度更快、价格更高的闪存,让GPU在模型训练过程中能够快速访问大量数据。
得益于AI相关需求的日益增长,众多大模型相关企业、其他赛道头部企业等纷纷向VAST Data抛来橄榄枝,除了开篇提到的大模型领域炙手可热的xAI、CoreWeave等,还有英伟达投资的云计算基础设施公司Lambda和阿联酋AI公司G42子公司Core42,以及NASA、美国能源部、波士顿儿童医院、旅游公司Booking Holdings等其他赛道企业,均是VAST Data的客户。

▲VAST Data部分客户名单
且与许多依赖短期合同的软件公司不同,VAST Data会与客户签订5至7年的长期合同,这使得公司的客户流失率极低,累计软件预订量已超过10亿美元(折合人民币约716亿元)。
从融资层面看,VAST Data此前累计融资金额已经超过3.81亿美元,估值为90亿美元,老虎环球、高盛等顶级投资机构,英伟达、戴尔等头部公司均在其投资人之列。值得一提的是,此次曝出参与此轮融资的是Alphabet的独立增长基金CapitalG,该基金的投资目的是盈利,而不是战略投资,这也在一定程度上说明投资者对VAST Data盈利能力的认可。
那么,VAST Data的产品到底有什么过人之处?
能够低成本高效处理数据,一直是AI发展的命门之一。
传统的数据存储依赖于分层,用低成本存储方案处理长期存储的数据,用高端方案存储更常使用的数据。
但数据管理的难点在于,传统架构下,跨全球数据中心传输PB乃至EB规模的数据已变得愈发难以处理;传统数据架构并非为满足当今AI对海量、多样化数据集和高性能随机I/O的需求而设计;当下的解决方案成本过高,在管理和激活数据时,迫使企业需要在性能、规模、弹性和成本之间做取舍。
因此需要构建为AI专门设计的数据处理架构。
VAST Data的做法是消除传统存储的分层模式,将结构化、半结构化和非结构化数据存储在一个地方加速数据检索、降低模型训练和推理成本,其最大的优势就是能让xAI、CoreWeave部署的数万块甚至数十万块GPU不会因等待存储而闲置。
他们是如何做到的?
具体来看,DASE的解耦(Disaggregated)支持将数据存储和计算资源分离,可独立灵活地扩展每个组件;共享一切(Shared-Everything)意味着数据可以在所有存储节点之间访问,同时为所有节点提供统一数据视图。
VAST Data Platform这一操作系统由诸多组件构成:
VAST DataSpace允许从边缘到云、跨越数百个地点的数据访问、交易和保护,类似于操作系统的全局资源管理器;VAST DataStore就是通用存储平台,堪比操作系统中的文件系统;VAST DataBase负责索引功能,可提供实时查询、分析数据的多项功能。VAST DataEngine则扮演着动态计算和执行层的角色,VAST InsightEngine是其内部的数据精炼工具,利用AI嵌入模型将原始非结构化数据转化为具有上下文的数据,并将其作为RAG(检索增强生成)工具。

▲VAST Data AI操作系统架构
今年下半年,VAST Data将补上数据处理AI操作系统核心服务的最后一块拼图,AI Agent部署和编排系统VAST AgentEngine。这意味着VAST Data的平台已经集成了接收数据、实时存入存储以及向寻找信息的Agent提供数据的全流程能力。
VAST Data从0开始为AI构建的系统,将存储、数据库和虚拟化计算引擎服务统一其中。这也说明,面对AI行业的新发展机遇,VAST Data已经从最初的存储公司定位,向着更广泛的应用空间扩展。
此次被曝注资的两家巨头,都与VAST Data进行了深度绑定。
首先是英伟达,今年3月,VAST Data获得英伟达认证存储资质。黄仁勋曾在GTC大会、台北国际电脑展COMPUTEX的主题演讲中提到VAST Data。他认为,AI时代数据是驱动行业的原材料,英伟达正与全球存储头部一起,构建新一代的企业基础设施,企业需要其在混合数据中心中部署和扩展AI Agent。VAST Data就是与英伟达合作的企业之一。
2024年底,黄仁勋与哈拉克一起录制了一段关于AI未来的十分钟播客,黄仁勋谈到他曾在法国巴黎的VivaTech大会上提到的实现模型持续改进的数据飞轮(data flywheel),当下扩展企业AI、从训练转向实时推理的转变,对VAST Data来说是一个绝佳的机会。他对于此前和VAST Data的合作感到非常自豪。

▲黄仁勋与哈拉克录制AI播客
去年9月,VAST Data还与英伟达合作构建了实时RAG工具InsightEngine,可以利用NIM微服务实现实时数据检索,已经在金融交易、自动驾驶、物流等领域实现了企业级应用。
其次是谷歌,今年4月,VAST Data平台已全面集成到谷歌云中,企业可以在单个高性能平台上统一AI训练、RAG管道、高通量数据处理和非结构化数据湖,这实现了跨混合环境的AI训练、RAG和推理,可以绕过公有云提供商的壁垒。
在现金流充足的情况下,外媒也认为VAST Data获得新融资或证明了其进行IPO前准备工作的进程加快,去年这家创企还聘请了全球电商平台Shopify前CFO艾米·沙佩罗(Amy Shapero)。
数据、算力等AI基础设施平台构建的重要性与日俱增,尽管英伟达、微软和谷歌等科技巨头凭借GPU、云平台占据了这一赛道的头部市场,但以VAST Data为代表的AI创企业务增长、估值飙升也证明了这不仅是一场巨头游戏。

