论坛直击 | 以AI Ready重新定义好数据:2025世界人工智能大会语料创新发展论坛成功举办!

世界人工智能大会 2025-07-29 17:01
资讯配图


7月27日,2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛在上海世博中心正式拉开帷幕,论坛由世界人工智能大会组委会指导,上海库帕思科技有限公司、上海市人工智能行业协会主办。上海市委常委、副市长陈杰出席论坛并致辞,中国科学院院士鄂维南等顶尖科学家、专家学者和创新创业者作主旨演讲。


资讯配图


陈杰在致辞中指出,上海将牢记总书记的嘱托,以排头兵的姿态和先行者的担当,全力打造语料基座的上海方案,为世界贡献中国智慧。上海推动人工智能产业发展,始终以生态打造为核心,全力以赴通过要素的集聚来实现更为完善、更为优良的产业发展生态。对于语料,上海市委市政府一开始就高度重视,因此组建了库帕思,要求库帕思以市场化运营的方式为行业发展赋能,为中小企业的创新突破赋能,重点突破具身智能、强推理数据集、稀缺数据集等3个专项工程。通过建立共建、共享、共同收益的机制,把高质量语料库建设好,构建多层次的语料供给体系,强化语料的标准建设,升级语料的运营平台,进一步攻关数据合成、思维链等新技术,赋能新应用,真正实现有效供给,加速推动模型迭代。


资讯配图



核心突破:构建语料数据的上海方案


论坛聚焦AI Ready的高质量语料数据,以“平台筑基、工具赋能、标准引领、生态协同”为主线,集中发布四大类核心成果。


服务能级再上台阶,重磅发布“对内对外”2套平台。对外,库帕思对标服务国家战略,按照全市整体部署,打造全国首个语料运营公共服务统一门户,按照“统一标准、统一门户、统一机制”的“1+N”运行框架,推动语料调用服务Agent化,同步完成上链。对内,库帕思发布语料工具链平台2.0,延续“采、洗、标、测、用”五位一体布局,适应模型之变,激活AI时代的数据生产力,语料工具链平台2.0版本完成403个功能模块,涵盖多模异构数据采集、智能清洗算子、智能预标注算子、评测数据集管理和标准化语料交付等核心功能,并在医疗、教育、金融、城市治理等领域投入实战,兼具云化部署和私有化部署,完成与现有国产算力适配。


资讯配图

语料运营公共服务统一门户正式启用


资讯配图

语料工具链平台2.0正式发布


标准牵引生态链接,发布13项标准和1项指南。库帕思会同行业生态合作伙伴,持续开展“一业一方法、一业一指引”,不断深化标准研制工作。此次论坛上,集中发布了10项语料团体标准,并联合信通院共同发布3项行业标准、1项高质量数据集建设指南,标准涵盖医疗、教育、金融、自动驾驶、科学智能、城市治理等多个方向,为行业发展提供了有实操价值的指导和参考,为 “好数据”确立可量化的标尺。


资讯配图

发布语料数据系列标准


持续深化语料数据人才培养,启动工程硕博士联合培养项目。上海交通大学、复旦大学、同济大学、上海大学、上海中医药大学、上海理工大学、上海师范大学和上海电力大学等高校,聚焦模数协同、数算协同等语料产品和技术领域,培育兼具学术底蕴与实战能力的复合型人才,形成学校专业教育和行业导师实践协同的“产学研铁三角”,打造语料领域产教融合新模式。


资讯配图

工程硕博士联合培养点正式揭牌


持续打响CICC大赛、语料风云榜等生态品牌。语料数据智能创意大赛(CICC)面向全社会寻找“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石。按照“项目创新性”“项目与语料主题契合度”“项目商业价值”三大维度,对200多个团队的参赛方案,进行专家专业评审,最终评选出12家获奖单位。语料风云榜,为行业遴选标杆示范,按照专业化、链接型、前瞻性三个维度,围绕“语料库质量、品牌能力、市场表现”等16项指标,最终评选出“2025语料风云榜转型典范Top 10”、“2025语料风云榜新锐势力Top 10”


资讯配图

语料数据智能创意大赛颁奖仪式


资讯配图

2025语料风云榜获奖企业



智见未来:顶尖专家共话 “数据之变”


主旨演讲环节,中国科学院院士、上海算法创新研究院学术委员会主任鄂维南带来《Data-centric AI的基础设施》,深入剖析了数据驱动AI创新应用的技术路径。鄂维南表示,未来我们必须建立高质量的“数据产线”,就像一个生产线一样,这是未来人工智能最重要的基础设施,在上面可以支撑各种各样的大模型或者Agent。如果把原始数据比作“原油”,这套基础设施则是“炼油厂”,把原油炼成了可以用的精品油,同时也要有一个比较好的存储机制,里面有一系列工具能高精度的把数据提取出来、用起来,这就是AI数据库。整套连在一起,才能把“数据产线”做好。鄂维南表示将和库帕思一起把这样的炼油厂、仓库的生产线建起来,然后在全国范围内批量的布高质量、高水平的专业数据产线。


资讯配图

中国科学院院士、上海算法创新研究院学术委员会主任鄂维南


上海库帕思科技有限公司董事长山栋明带来《拥抱以数据为中心的人工智能时代》山栋明表示人工智能的浪潮已经扑面而来,模型在发生一系列的变化,从过去的大参数、多模态模型在慢慢向小参数生产力模型、强推理慢思考模型、科学智能模型和面向物理AI的具身智能模型转变。相应的语料数据也会发生一系列变化。因此,库帕思进行了一系列的创新实践,用三个重构来表达:语料数据方法体系重构、语料技术设施体系重构、语料行业生态体系重构。坚持做好四件事:建基座、强技术、搭平台、育生态。


资讯配图

上海市信息投资股份有限公司副总裁、上海库帕思科技有限公司董事长山栋明


上海人工智能实验室青年科学家何聪辉为大家介绍《MinerU2:异构数据到AI-Ready的智能引擎》何聪辉表示,当前所有的模型都是用非常类似的公开数据集做训练,模型的同质化不可避免,如何打破僵局,他认为AI数据的价值发生了跃迁,模型将会从规模之争走向数据质量的竞赛。何聪辉介绍了MinerU 2,在原来的基础上,用更新的架构把数据解析推向了新高度,性能提升了6倍,准确性提升22%,能支持更加广泛的场景。


资讯配图

上海人工智能实验室青年科学家 何聪辉


另外,论坛直击行业一线,邀请企业家代表分享实践案例。商汤科技大装置事业群解决方案总经理代继分享《大模型研发语料工程实践》,联通数据智能有限公司副总经理宋雨伦分享《构建高质量数据集联通实践》,游族网络股份有限公司首席战略官傅焜分享《超越文本与图像:游戏多模态实时语料的价值挖掘》


资讯配图

商汤科技大装置事业群解决方案总经理  代继


资讯配图

联通数据智能有限公司副总经理 宋雨伦


资讯配图

游族网络股份有限公司首席战略官 傅焜


圆桌环节,由上海亿欧总经理缪国成主持,携手天娱科技首席数据官吴邦毅、脉策数据创始人汤舸、松应科技创始人聂凯旋、上智院主任研究员李吉羊、传播内容认知全国重点实验室学术带头人张冬明,以《什么是好数据?》为题,共话“好数据是什么、好数据在哪里、好数据需要通过怎样的机制来获得”


资讯配图


2025世界人工智能大会“语料筑基 智生时代”语料创新发展论坛,不仅是库帕思自去年3月26日公司设立之日起,历经5个“百日攻坚”后的成果汇报,更是全国语料生态合作伙伴一年一度的盛会。从信息化到智能化,从BI时代到AI时代,库帕思携手生态合作伙伴们共同全面拥抱数据之变,在方法、技术设施和生态重构中找寻机遇、赢得未来。



资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

资讯配图

点击阅读原文查看WAIC 2025精彩!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 人工智能
more
WAIC 2025 | 商汤董事长兼CEO徐立:人工智能的十年演进
梁正 宋雨鑫|从共识到行动:构建包容普惠的全球人工智能治理体系
年报|2024-2025年中国人工智能市场研究年度报告
人工智能发展与安全全体会议|WAIC 2025促进人工智能技术的安全发展与人类共享
聚焦应用场景,深化行业合作,乐聚亮相2025世界人工智能大会
论坛直击 | WAIC 2025“人工智能赋能文旅视听发展”活动成功举办
展商直击|交通银行亮相2025世界人工智能大会
论坛直击| 在这里看到数智女性的未来2025世界人工智能大会·AI女性菁英论坛在沪举办
闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
上海发力人工智能与智能芯片,最高资助5000万元
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号