

Elpis
该AI大模型由天云数据投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智产业AI大模型先锋企业》榜单/奖项评选。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
天云数据Elpis VR是基于高效低成本数据合成技术、可验证强化学习的领域增强、多策略偏好调优,通过全流程自动化分布式训练构建的强化学习后训练国产信创大语言模型,具备即插即用和快速微调的能力,通过强化学习融合了人类高阶知识,通过数据合成降低整体训练成本。
一、应用场景
天云数据Elpis大模型提供的是基模能力,基于基模能力,可以面向企业提供开箱即用的AI服务,还可以拓展垂直领域应用场景。天云数据数智平台应用均是基于Elpis构建:

1. RLVR:面向复杂推理能力的强化学习范式
RLVR是利用具备明确、可自动化验证的奖励信号来替代传统强化学习中对人类反馈的依赖,从而高效、规模化地提升模型的特定能力,尤其是逻辑推理、数学计算和代码生成等复杂任务。
技术要点:
自动化奖励机制:与依赖人工标注进行偏好排序的RLHF不同,RLVR将奖励函数建立在可被程序自动校验的结果之上。例如,在代码生成任务中,奖励信号直接与代码是否能通过单元测试挂钩;在数学问题上,则与最终答案是否正确相关联。这种机制摆脱了人工标注的规模与成本限制。
精准对齐目标能力:通过将模型的探索方向与“可验证”的正确结果强行绑定,RLVR能够极其精准地强化模型在特定领域的“求解”能力。模型生成的每一次输出,都会经过验证器的评判,获得正向或负向的反馈,模型则通过策略优化算法不断调整自身参数,以最大化获得正向奖励的概率。
提升推理路径的确定性:经过RLVR优化的模型,在处理同类问题时,能够更稳定、更直接地生成通往正确答案的推理路径。它不仅学会了“什么是正确答案”,更重要的是掌握了“如何稳定地得到正确答案”。这显著提升了模型在单次调用中的准确率,使其在需要高确定性输出的应用场景中表现更可靠。
规模化与效率:由于奖励的生成和验证过程是自动化的,我们可以在极大规模的问题集上对模型进行持续、高强度的迭代训练,极大地加速了模型在特定技能象限上的进化速度,这是传统依赖人工标注的优化方法难以比拟的。
2. 大模型语料数据合成:构建高质量指令微调的基石
数据质量是决定大模型能力上限的核心要素。天云数据借鉴并发展了业界前沿的数据合成实践,建立了一套成熟、可控的大规模高质量语料数据合成体系。该体系旨在通过程序化、模型化的方式,生成海量、多样且具备特定技能属性的指令微调数据,从而低成本、高效率地引导模型学会遵循指令、掌握新知识和新技能。
技术要点:
“教师-学生”模式的指令生成:我们采用一个或多个能力更强的“教师模型”,基于少量高质量的人工编写“种子指令”,通过精心设计的提示工程,驱动教师模型生成海量、多样化的新指令。这个过程并非简单的模仿,而是通过指令进化等策略,系统性地提升生成指令的复杂度、新颖性和领域覆盖度。
多维度、多视角的指令设计:为了确保合成数据的多样性和深度,我们在指令生成过程中引入了“角色”概念。通过为教师模型设定不同的角色,可以引导其从特定专业视角出发,创造出符合该领域思维方式和知识体系的指令及高质量回答,从而构建出具备专业壁垒的训练数据集。
合成数据的质量控制与过滤:并非所有合成数据都具备高价值。我们建立了一套自动化的数据过滤与清洗流水线。该流水线利用一系列指标和辅助模型,对生成的数据进行严格筛选,剔除简单、重复、有偏见或事实性错误的内容,确保最终用于模型训练的每一条数据都是高信息密度且准确的。
偏好数据与直接策略优化的结合:除了生成“指令-回答”对用于监督微调(SFT)外,我们还利用合成技术生成大量的偏好数据对。这些数据可以直接用于直接策略优化等更先进的对齐技术,让模型在没有显式奖励模型的情况下,也能高效地学习到人类的偏好,使其回答更符合用户的期望。
闭环迭代的数据生态:我们将模型在实际应用中的表现数据,以及新合成的数据,持续地反馈到数据生成和筛选流程中,形成一个数据驱动的闭环迭代系统。这使得我们的数据集能够不断进化,动态地弥补模型的短板,并快速响应新兴的知识领域和应用需求。
·天云数据
天云数据,两度荣获CAAI人工智能奖项“吴文俊人工智能科学技术奖”,首批国家级专精特新小巨人企业,北京市科学技术奖厂商,提供L5级别MaaS平台服务。
上层MaaS平台产品提供多芯多租户多集群统一运营管理、构建弹性智能体工作流服务,无缝对接业务流程和跨应用数据,支撑企业业务应用智能化重构。MaaS模型池由下层Elpis系列后训练基础模型支撑,包括多模态和严谨推理的训推一体强化学习Elpis-VR,面向具身智能的空间视觉语义的端到端Elpis-VLS及Elpis-VLA模型。
点击文末“阅读原文”链接还可查看Elpis大模型官网
★以上由天云数据投递申报的项目案例,最终将会角逐由数智猿×数据猿×上海大数据联盟联合推出的《2025中国数智产业AI大模型先锋企业》榜单/奖项。
该榜单最终将于9月8日北京举办的“2025第五届数智化转型升级发展论坛——暨AI大模型&AI Agent趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场:

