AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排行榜可能只是“虚假繁荣”的幻象。
模型是真的“会”编程,还是仅仅“背”熟了考题?为了揭开真相,由 OpenMMLab、司南评测体系、Hugging Face、ModelScope、知乎、MlNLP 、模速空间和机智流等社区发起的 AI Insight Talk 特别策划了本周四 19:30——21:30 的 Code Bench 专场直播活动!
我们荣幸地邀请到了 HF Papers 的 4 位 Code Bench 论文作者,他们将直击行业痛点,分享前沿洞见,与你一同探索如何构建更强大、更公平的代码能力评测体系!
分享嘉宾及主题介绍
No.1
CPRet:模型是“背题”还是真懂算法?揭示相似问题下的性能“通胀”
邓晗
香港中文大学 MMLab 零年级博士生,本科毕业于清华大学信息与计算科学专业,同时为上海人工智能实验室实习生,主要研究方向为大语言模型在科学领域的应用。中学及本科期间积极参与编程竞赛(如 NOI、ICPC),并获得多项奖项。
简要概述
CPRet 针对编程竞赛基准中重复或高度相似问题日益增多的问题,构建了一个全新的检索式评测基准 CPRet。它不仅提供了高质量的训练数据和测试集,还开发了专用检索模型,并首次通过分析揭示了问题相似性会显著“夸大”模型通过率,为构建更公平的编程能力评测敲响了警钟。
论文地址
Compass Hub
https://hub.opencompass.org.cn/dataset-detail/CPRet
No.2
DyCodeEval:动态“换皮”编程题,破解数据污染下的模型“高分幻觉”
陈思敏
现为哥伦比亚大学计算机科学系博士后研究员,2024 年 8 月于德克萨斯大学达拉斯分校(UTD)获得博士学位。他的研究方向聚焦于软件工程与机器学习的交叉,致力于提升机器学习系统的可信性与效率 (SE4AI),并推动机器学习在实际软件工程场景中的应用落地 (AI4SE)。为实现这一目标,他提出了涵盖机器学习全流程的系统性解决方案,协同推进模型算法(ESEC/FSE 2020、ASE 2022、CVPR 2022、ESEC/FSE 2022、ACL 2023、FSE 2024(b)、Usenix Security 2025)、系统软件栈(ISSTA 2023、IJCAI 2022)与数据集(CVPR 2023、FSE 2024(a)、ICML 2025)的创新研究。基于这些研成果,他的博士论文荣获 2024 年度 David Daniel Thesis Award。
简要概述
DyCodeEval 是一套在数据污染背景下动态评测代码大模型推理能力的新型基准套件。该方法借鉴“蜕变测试”思想,利用多智能体自动生成与原题核心逻辑相同但描述迥异的变体问题。实验证明,DyCodeEval 能有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。
论文地址
Compass Hub
https://hub.opencompass.org.cn/dataset-detail/DyCodeEval
No.3
OSS-Bench:告别静态数据集!从真实开源项目中“活捉”高难度编程任务
蒋元丞
新加坡国立大学计算机学院的博士生,由梁振凯教授和 Roland Yap 教授共同指导,研究方向为系统安全。他与 Manuel Rigger 教授合作进行模糊测试研究。在攻读博士学位之前,他于新加坡国立大学获得硕士学位,并于复旦大学获得学士学位。
简要概述
OSS-Bench 一个能够从真实世界的开源软件中自动构建大规模、实时评测任务的基准生成器。该工作通过让 LLM 直接修改 PHP、SQLite 等复杂项目的核心函数,并利用编译、测试、内存安全三大自然指标进行评估,有效避免了静态数据集的过拟合问题,并深入揭示了 LLM 在底层代码安全方面的短板。
论文地址
Compass Hub
https://hub.opencompass.org.cn/dataset-detail/OSS-Bench
No.4
UTBoost:修复“漏风”的 SWE-Bench,揪出 345 个“假通过”补丁
余博西
香港中文大学(深圳)数据科学学院的博士生,指导老师为贺品嘉教授,研究方向为 Coding Agent 和Automated Testing。他的研究方向致力于通过智能化测试来提高软件质量和软件自动化评估能力。
简要概述
UTBoost 旨在解决广泛使用的代码生成基准 SWE-Bench 测试用例不足的挑战。通过引入 LLM 驱动的测试用例生成器 UTGenerator,UTBoost 能够自动增强测试套件,从而识别出那些看似通过测试但并未真正解决问题的错误代码补丁,大幅提升了 Benchmark 的评估严谨性,并修正了 40.9% 的 SWE-Bench Lite 榜单和 24.4% 的 SWE-Bench Verified 榜单。
论文地址
Compass Hub
https://hub.opencompass.org.cn/dataset-detail/UTBoost
No.5
圆桌讨论环节
讨论主题:模型 Code 能力发展趋势
欢迎在公众号评论区留下您对本场 Code Bench 直播分享的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!
参与方式
观看直播
参与讨论
同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~
期待与您相约 7 月 3 日(周四)晚 19:30 的 AI Insight Talk:Hugging Face Papers Live Code Bench 专场,一起探索前沿科技,共享 AI 盛宴!