从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元 2025-08-26 23:00

资讯配图



  新智元报道  

编辑:LRST
【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

然而,现有LLM-SE Benchmark存在三大痛点:

这使得开发者和研究者在选择评估方法时常陷入「信息孤岛」,甚至可能被不全面的评估结果误导。

为填补这一空白,来自浙江大学、新加坡管理大学、渥太华大学等机构的团队开展了一项系统文献综述,首次全面梳理了291个用于评估大语言模型在软件工程任务中的Benchmark,并从任务覆盖、语言分布、构建方式到未来趋势进行了深入分析。

资讯配图

论文链接:https://arxiv.org/pdf/2505.08903

资讯配图

图1 综述框架总览

研究聚焦三大核心问题:

为了确保全面、系统,研究人员开展「地毯式搜索」:

数据来源:覆盖IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大数据库;


资讯配图
六大任务全覆盖
Benchmark演化脉络清晰


资讯配图

图2 Benchmark年份分布

统计显示,自2022年起Benchmark数量快速增长,2023和2024年分别新增近70个,增长势头迅猛。

资讯配图

图3 Benchmark语言分布

Python在评估Benchmark中一骑绝尘,主要用于代码生成与推荐类任务;Java、C++、C语言在质量分析与维护任务中占有重要地位;Go、PHP、Ruby等小众语言的Benchmark仍然稀缺。

资讯配图

图4 Benchmark任务分布

资讯配图

任务分布(六大类)

其中「编码辅助」任务相关Benchmark数量最多,占比超过40%,其次是质量管理类任务,占比达38%。


资讯配图
现实挑战
Benchmark还远远不够用!

研究指出,当前Benchmark建设存在五大瓶颈:



资讯配图
未来机会
Benchmark建设仍是「蓝海」


团队提出了五大改进方向:



资讯配图
总结
Benchmark是推动LLM落地的「发动机」

正如作者所言——当前LLM在软件工程中的应用正处于「黄金发展期」,但真正能驱动其走向工业落地、提升工程可信度的,是那些更真实、更多维、更动态的Benchmark体系

这项研究不仅填补了LLM软件工程评估的综述空白,也为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。

如果说模型是「马达」,Benchmark就是「方向盘」。谁能把握住它,谁就能在AI软件工程的未来之路上走得更远。

参考资料:
https://arxiv.org/pdf/2505.08903

资讯配图

资讯配图

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR
more
最新议程及嘉宾名单公布ChrisLefteri、劳尔、PeclersParis、WGSN演讲丨2025第十五届世界CMF大会
230亿美元!AT&T收购EchoStar无线频谱
从“被动应对”到“主动守护”!“女娲星座”2025年2000+景SAR数据筑牢南北方流域汛期安全网
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
arXiv0709:扩散模型如何仅用0.8%数据起飞
兼具DRAM、NAND优势!新型存储器“ULTRARAM”即将量产
【Open Car】外卖 + 杂货 没有硬件
倒计时2天,塑料圈必冲!ChinaReplas2025攻略:大会+展会+交通住宿天气,一篇搞定
行业资讯I Meta研发新型超薄激光显示器,可带来更轻、更身临其境的AR眼镜;谷歌:看好眼镜和可折叠设备这两个新兴领域
马来西亚推出 MARS1000 边缘 AI 芯片,推进集成电路设计雄心
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号