
上午,在百度科技园的会议室里,5位北航人工智能学院的大三同学正围绕任务开展热烈讨论。午后,他们分头投入实战——有人调试平台,有人完善数据集建设方案,还有人整理项目日志。每周,他们都会与研发导师共同复盘进展、定位问题、规划下一步方向。
这是同学们在企业一线真实参与研发的日常,也是一次由北航人工智能学院与百度飞桨联合打造的社会课堂。同学们走出校园,在产业真实环境中,完成从理论认知到工程实践的跨越。


(人员合照)
01
社会课堂
从理论学习到业务成果
在真实场景锤炼中,同学们对大模型的构想一步步转化为可量化、可复用的技术成果。
数据构建与质检成果:围绕文档/图表理解与工具调用的冷启动需求,构建了可复用的数据生产—筛选—质检闭环。
搭建组内首个基于 RefCOCO 的端到端数据生成与筛选管线,首批产出高质量样本1.2万条;
在 ChartQA/SA-1B/RefCOCO 三类任务中累计生成约3.2万条高质量数据(整体提取率约20%);
构建复合筛选模式,开发 Gradio 可视化质检与复盘平台,显著提升质检效率;
实现数据生产与模型能力解耦,可在十亿级开源数据上持续运行与演进,为多模态工具后续迭代提供长效数据支撑。
训练与评测闭环成果:不显著增加算力成本的前提下,实现了模型收敛速度与效果的双提升。
实现动态难度采样与高质量数据过滤,使 ERNIE4.5-VL-28B-A3B 较 baseline 在三项 benchmark 分别提升4.2%、1%、1.2%;
通过样本回流训练和形成监督闭环,使 ERNIE4.5-VL-28B-A3B 在内部文档场景另外三项 benchmark 分别提升1.5%、1.2%、2.5%。

(技术导师见面会)
公司团队评价:
“同学们通过参与飞桨多模态算法团队攻坚,验证了多模态工具调用方案在框架的可行性,相关特性已纳入核心代码库;并且通过端到端实验,形成多个标准分析文档,显著降低 RL 实验成本。”
“业务成果不仅体现在指标上,更形成了一套可持续演进的闭环方案。”

(技术讨论会)
02
项目制学习
以实战锻造综合能力
本次社会课堂以大模型真实项目为牵引,将学习探索与工程实践深度融合,重点培养学生面向未来的综合素养。
科研思维:开放选题、自主设计,学生作为“共创者”全程参与任务拆解、方案设计与实验验证;
工程实践:从标注工具开发到训练 pipeline 搭建,再到评测报告撰写,全部由学生亲手完成;
协同机制:学院统一组织、校企联合保障,通过培训、技术讨论会与答辩帮助学生快速进入工作角色;
职业成长:项目结束后,开放长期实习通道并协助同学转入,实现从课堂到岗位的自然过渡。
为拓展社会课堂的培养维度,百度飞桨运营团队也提供了多元支持。
文化融入:组织参与百度安全月、部门活动等,沉浸式感受企业文化;
全程陪伴:运营导师每周沟通,中期开展1v1访谈交流,关注同学们学习、工作体验;
长期支持:推荐加入内部技术社群,提供开源项目与行业会议参与机会,拓宽成长路径。

(项目讨论)
03
多重收获
来自师生的真实声音
来自学校师生、企业一线的真实感受,是对社会课堂模式的生动注脚。
“很欣慰看到同学们不仅在社会课堂中收获了学习与成长,还为企业生产带来了切实的贡献。”
——北航人工智能学院副院长文晓
“社会课堂不仅让学生获得研发经验,更通过他们的努力反哺了业务,形成科研与产业的双向支持。”
——百度公司技术导师吕文玉
“在百度实习期间,我系统学习了强化学习相关理论,深入接触了 GRPO、DAPO 与 RLHF 等算法,并在实践中协同完成了动态难度采样策略的构建与调试,提升了训练的稳定性与可持续性。同时,我参与了训练模型工具调用 RLHF 实验的全流程,积累了大型代码库开发与问题排查的经验。在团队协作中,我与同事主动沟通、高效配合,切身感受到工程思维与自动化在提升效能方面的重要价值。这段实习不仅锻炼了我的代码与实验能力,也让我体会到从‘学术探索’到‘工业落地’的差异与联系,为今后的学习与科研积累了宝贵经验。”
——北航人工智能学院学生俞文瀚


(结营答辩)
本次社会课堂不仅取得了扎实的技术成果,更深化了科研赋能产业、产业反哺教学的新路径。未来,百度飞桨将继续携手北航人工智能学院,拓展校企协同育人的广度与深度,共同打造 AI 产教融合新范式。
■ 如有合作需求,欢迎联系
教育合作:
paddle_edu@baidu.com
开源共建:
ext_paddle_oss@baidu.com
