
|
资方为灵初智能、穹彻智能、浙江人形、智平方。
|
文|邱晓芬
编辑|苏建勋
一句话介绍
「智域基石」是一家致力于构建具身智能时代数据入口与训练输入基础设施的公司,其核心使命是将海量、杂乱的原始物理世界数据,精准编译成直接面向机器人任务成功率的高质量训练输入。
团队介绍
「智域基石」CEO杨哲轩为前PingCAP核心成员,拥有大规模分布式系统与底层架构设计的背景,也是连续创业者,负责多家公司商业化业务。
「智域基石」CTO徐良威有着腾讯、小鹏机器人的从业背景,是实战经验丰富的机器人软硬件专家,熟悉具身智能算法对于数据的需求,也有丰富硬件落地的经验。
「智域基石」COO为张计业,前华为地市总经理,曾担任具身智能公司「穹彻智能」生态负责人。
融资进展
完成数千万元天使轮融资,资方为四家机器人厂商,包括灵初智能、穹彻智能、浙江人形、智平方(拼音序)。
产品及业务
目前,「智域基石」计划在全国建立起面积超一万平方的真机数据采集工厂,工厂中机器人数量超400台、异构硬件形态超10种。
他们预计在2026年内积累超过200PB异构数据。在今年第二季度,「智域基石」将从真机数据生产,全面拓展至 Ego-Centric(第一人称视角)领域,牢牢掌控模型的后训练与预训练的数据入口,通过数据编译层,将原始数据加工成高质量语料,可直接作为模型训练输入。

△ego centric 设备的概念图
在数据生产和加工方面,「智域基石」团队将大数据行业的技术理念和架构,引入到了具身智能领域,搭建了一套打破“废料堆砌”的自动化“数据编译管线”,主要特点包括——
①数据质检环节:过往面对海量数据,其他类型公司往往采用传统抽检,导致高达95%的无效噪音混入训练集。而「智域基石」引入了分布式计算与弹性伸缩架构,对机器人采集的视觉、深度、关节位姿和力触觉等多模态数据进行全量质检,在源头直接剔除无效的“数据膨胀”。
②数据底座重构(具身智能专属的异构湖仓):真实物理世界的数据天然具有高熵、多源异构以及采样频率严重异步(如视觉30Hz与关节控制500Hz的落差)的特征,传统的简单存储极易让数据沦为无法训练的“多模态黑盒”。
为此,「智域基石」率先将成熟的数据湖仓( Data Lakehouse )架构引入并深度改造为具身智能专属底座。该架构不仅实现了对超大规模非结构化数据的统一纳管,更依托自研的数据引擎,在底层完成了视觉、深度、力触觉与关节位姿等复杂维度在毫秒级别的高精度"时空戳对齐"。
这一步直接跨越了模态间的时空错位,将混沌的物理记录彻底锚定为大模型可解析的高价值时序资产。

△数据管线示意图
③数据编译:这是最核心的“精炼”过程。不仅仅是去噪、增广与重定向,系统会将非标数据进行“技能原子化”,提取出带有明确动作意图与物理约束的“语义片段”,并为数据建立版本号与血缘追踪,确保资产可追溯。
④智能检索与组配:针对行业“按小时买数据”的价值错位,团队推出了自研的查询引擎,用类似SQL的方式,对海量物理数据中的场景、技能、动作基元进行语义化调用。
例如,当客户算法团队提出特定的训练需求时,摒弃传统的盲目海选与人工拼凑,「智域基石」的数据交付专家只需在后台输入简捷的代码指令(如:精准调取“厨房场景”中“拿杯子”任务、且特定验证成功率>95%的数据),系统即可快速响应,快速召回并组配出符合要求的结构化技能流。这种将非标需求转化为标准化系统指令的能力,极大提升了交付效率与准确度。
⑤标准化打包与弹性交付:在完成检索与组配后,系统会自动将提取的结构化片段,打包为带有版本号(如v2.4.0)、开箱即用的标准化训练数据集。
面对单次交付动辄高达数百TB的超大规模交易量级,「智域基石」构建了弹性的交付体系:既支持兼容S3等云原生架构的云端专线直连与授权调用,也支持针对极高数据安全要求的高吞吐线下物理阵列(硬盘)交付。这种灵活的资产分发模式,不仅实现了自动化交付,更彻底打通了从数据精炼厂到客户算力集群的“最后一公里”。
通过构建这套强大的自动化“数据编译管线”,「智域基石」实现了商业模式上的关键跃升:虽然前端物理世界的高保真数据采集仍需依赖专业人力与真机工厂,但在核心的数据加工与海量交付环节,系统彻底实现了与传统“人海战术”的解耦。
商业模式
为了稳步推进“数据精炼厂”的商业落地,智域基石规划了三阶段商业演进路线,逐步实现从数据生产,到数据精炼,再到行业基础设施构建的跨越:
第一阶段(2026-2027):核心目标是抢占高质量物理数据入口。对标英伟达 EgoScale 路线,自研 Ego-Centric(第一人称视角)穿戴设备以获取稀缺的预训练语料;同时联合政企与头部机器人厂商建设真机采集工厂,沉淀后训练工业数据。目前,通过为头部客户提供定制化的结构化训练输入,公司在手订单已近亿元。
第二阶段(2027-2029):随着核心管线的打磨成熟,业务将从"数据生产和精炼"转向"标准化资产订阅"。将前期沉淀的通用动作与场景,提炼为开箱即用的行业标准数据集。通过长期框架协议与场景库增量更新服务,实现单点数据资产的重复变现,大幅提升利润率并覆盖更广泛的客户群。
第三阶段(2029+):开放 API 与开发者生态,构建通用基座,全面升级为具身智能通用数据基础设施,构建数据交易市场与开发者生态,最终以共建共享的姿态,实现数据资产的规模化分发与全生态复用。
Founder思考
①具身智能数据存在核心矛盾
在「智域基石」CEO杨哲轩看来,当前具身智能赛道正面临一场隐蔽的"供给危机":行业有庞大的训练需求,也不缺乏海量的原始数据,但真正稀缺的是将混沌的物理记录,稳定、高效地"编译"为高信噪比训练输入的基础设施能力。大量未经深度结构化处理的多模态采集记录,往往沦为消耗模型算力的"数据废料"。
这一现象的底层矛盾,源于具身智能数据处理天然处于“交叉学科的空白地带”。现阶段,机器人算法团队虽然深刻理解模型对物理规律、动作约束与任务语义的精细需求,却往往受制于工程瓶颈,难以建立工业级的大规模数据流水线;而传统的AI数据标注厂商,尽管具备劳动力密集型的规模化生产经验,却由于缺乏对机器人运动学、力触觉反馈以及多模态时空对齐等底层逻辑的认知,其产出质量难以满足大模型走向真实场景的苛刻标准。
随着具身智能数据量级正迎来指数级的跃升,这种“懂算法的不懂工程量产,懂量产的不懂机器人硬件”的结构性错位,不仅推高了行业的试错成本,更成为了制约具身大模型跨越物理鸿沟的最大掣肘。
②人力密集型的数采工厂没有壁垒
要在具身智能数据业务上建立真正的商业壁垒并实现规模化盈利,单纯依靠传统的人力密集型管理优化是行不通的,必须通过技术架构重构,系统性地降低数据加工的综合成本。
「智域基石」CEO杨哲轩指出,人力成本具有天然的刚性,且随着规模扩张,管理效率必将触及上限。面对大模型日益庞大的PB级数据吞吐需求,仅靠“堆人头”的传统模式无法形成长期的核心竞争力。真正的商业解法在于,依托高度自动化的“数据管线”来实现加工流程的规模化,这是摊薄固定成本、提升边际收益的最优路径。
客观预期下,随着这套管线工程化与自动化能力的不断迭代,未来「智域基石」在核心数据加工环节的人力需求有望降低至少50%。杨哲轩认为,通过硬核的技术手段,实事求是地达成数据产能与人力投入的有效解耦,才是企业真正走向高毛利基础设施的立足之本。
③2026年是具身智能跨越商业鸿沟的关键检验节点
伴随2023年以来的投本体,投模型,投零部件的浪潮,当前具身智能落地的卡点已经形成共识:“数据是瓶颈”。杨哲轩判断,2026年,随着数据方向的创业公司如雨后春笋一般产生,具身智能领域的数据量也预计将增长数十倍以上,达到千万小时级别。
为此,今明两年正是一个关键检验节点——当数据总量的瓶颈被大幅缓解后,若大模型在真实场景中的任务成功率与泛化能力依然无法取得实质性突破,整个行业将面临严峻的信心重估与生存大考。
而跨越这一节点的关键,已不再是粗放的数据堆砌,而是如何将海量物理记录真正"编译"为高效的训练输入。智域基石将自己定义为这个"编译器"——具身智能时代的数据基础设施建造者。
封面来源|企业官方