AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排

AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有 Benchmark(基准测试)正面临严峻挑战——数据污染、测试用例不足等问题频出,导致模型排行榜可能只是“虚假繁荣”的幻象。

模型是真的“会”编程,还是仅仅“背”熟了考题?为了揭开真相,由 OpenMMLab、司南评测体系、Hugging Face、ModelScope、知乎、MlNLP 、模速空间和机智流等社区发起的 AI Insight Talk 特别策划了本周四 19:30——21:30 的 Code Bench 专场直播活动!

我们荣幸地邀请到了 HF Papers 的 4 位 Code Bench 论文作者,他们将直击行业痛点,分享前沿洞见,与你一同探索如何构建更强大、更公平的代码能力评测体系!

分享嘉宾及主题介绍

No.1

CPRet:模型是“背题”还是真懂算法?揭示相似问题下的性能“通胀”


邓晗

香港中文大学 MMLab 零年级博士生,本科毕业于清华大学信息与计算科学专业,同时为上海人工智能实验室实习生,主要研究方向为大语言模型在科学领域的应用。中学及本科期间积极参与编程竞赛(如 NOI、ICPC),并获得多项奖项。

简要概述

CPRet 针对编程竞赛基准中重复或高度相似问题日益增多的问题,构建了一个全新的检索式评测基准 CPRet。它不仅提供了高质量的训练数据和测试集,还开发了专用检索模型,并首次通过分析揭示了问题相似性会显著“夸大”模型通过率,为构建更公平的编程能力评测敲响了警钟。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/CPRet

No.2

DyCodeEval:动态“换皮”编程题,破解数据污染下的模型“高分幻觉”


陈思敏

现为哥伦比亚大学计算机科学系博士后研究员,2024 年 8 月于德克萨斯大学达拉斯分校(UTD)获得博士学位。他的研究方向聚焦于软件工程与机器学习的交叉,致力于提升机器学习系统的可信性与效率 (SE4AI),并推动机器学习在实际软件工程场景中的应用落地 (AI4SE)。为实现这一目标,他提出了涵盖机器学习全流程的系统性解决方案,协同推进模型算法(ESEC/FSE 2020、ASE 2022、CVPR 2022、ESEC/FSE 2022、ACL 2023、FSE 2024(b)、Usenix Security 2025)、系统软件栈(ISSTA 2023、IJCAI 2022)与数据集(CVPR 2023、FSE 2024(a)、ICML 2025)的创新研究。基于这些研成果,他的博士论文荣获 2024 年度 David Daniel Thesis Award。

简要概述

DyCodeEval 是一套在数据污染背景下动态评测代码大模型推理能力的新型基准套件。该方法借鉴“蜕变测试”思想,利用多智能体自动生成与原题核心逻辑相同但描述迥异的变体问题。实验证明,DyCodeEval 能有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/DyCodeEval

No.3

OSS-Bench:告别静态数据集!从真实开源项目中“活捉”高难度编程任务


蒋元丞

新加坡国立大学计算机学院的博士生,由梁振凯教授和 Roland Yap 教授共同指导,研究方向为系统安全。他与 Manuel Rigger 教授合作进行模糊测试研究。在攻读博士学位之前,他于新加坡国立大学获得硕士学位,并于复旦大学获得学士学位。

简要概述

OSS-Bench 一个能够从真实世界的开源软件中自动构建大规模、实时评测任务的基准生成器。该工作通过让 LLM 直接修改 PHP、SQLite 等复杂项目的核心函数,并利用编译、测试、内存安全三大自然指标进行评估,有效避免了静态数据集的过拟合问题,并深入揭示了 LLM 在底层代码安全方面的短板。

论文地址

https://oss-bench.github.io/

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/OSS-Bench

No.4

UTBoost:修复“漏风”的 SWE-Bench,揪出 345 个“假通过”补丁


余博西

香港中文大学(深圳)数据科学学院的博士生,指导老师为贺品嘉教授,研究方向为 Coding Agent 和Automated Testing。他的研究方向致力于通过智能化测试来提高软件质量和软件自动化评估能力。

简要概述

UTBoost 旨在解决广泛使用的代码生成基准 SWE-Bench 测试用例不足的挑战。通过引入 LLM 驱动的测试用例生成器 UTGenerator,UTBoost 能够自动增强测试套件,从而识别出那些看似通过测试但并未真正解决问题的错误代码补丁,大幅提升了 Benchmark 的评估严谨性,并修正了 40.9% 的 SWE-Bench Lite 榜单和 24.4% 的 SWE-Bench Verified 榜单。

论文地址

Compass Hub

https://hub.opencompass.org.cn/dataset-detail/UTBoost

No.5

圆桌讨论环节

讨论主题:模型 Code 能力发展趋势

欢迎在公众号评论区留下您对本场 Code Bench 直播分享的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!

参与方式

观看直播

参与讨论

同时为了方便大家交流沟通,我们建立了相关的交流群,本期分享的大佬也在群里哦,可与大佬进行面对面沟通 ,扫码即可入群~


期待与您相约 7 月 3 日(周四)晚 19:30 的 AI Insight Talk:Hugging Face Papers Live Code Bench 专场,一起探索前沿科技,共享 AI 盛宴!

image.gif


目录
相关文章
|
25天前
|
开发框架 定位技术 API
AgentScope 与 MCP:实践、思考与展望
AgentScope 作为一款功能强大的开源多智能体开发框架,为开发者提供了智能体构建、工具使用、多智能体编排等全方位支持。
271 37
|
7天前
|
机器学习/深度学习 Kubernetes 数据处理
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
本文整理自 KubeCon China 2025(Argo Workflows:Intro、Updates and Deep Dive)
|
16天前
|
人工智能 前端开发 搜索推荐
《网页滚动的“隐形指挥官”:overscroll - behavior属性全解析》
`overscroll-behavior` 属性是现代网页设计中的关键元素,可精细控制滚动行为,优化用户体验。它包含 `auto`、`contain` 和 `none` 三个核心值,分别实现默认滚动、限制事件传播和完全禁用边界行为的功能。通过解决多层滚动干扰、移动端弹性效果等问题,该属性提升了交互流畅性与沉浸感,同时减少性能开销。在复杂页面中,合理运用此属性能让滚动操作更加智能、独立,为用户带来高效且愉悦的体验,成为打造高品质网页不可或缺的工具。
66 31
|
16天前
|
安全 druid Nacos
0 代码改造实现应用运行时数据库密码无损轮转
本文探讨了敏感数据的安全风险及降低账密泄漏风险的策略。国家颁布的《网络安全二级等保2.0标准》强调了企业数据安全的重要性。文章介绍了Nacos作为配置中心在提升数据库访问安全性方面的应用,并结合阿里云KMS、Druid连接池和Spring Cloud Alibaba社区推出的数据源动态轮转方案。该方案实现了加密配置统一托管、帐密全托管、双层权限管控等功能,将帐密切换时间从数小时优化到一秒,显著提升了安全性和效率。未来,MSE Nacos和KMS将扩展至更多组件如NoSQL、MQ等,提供一站式安全服务,助力AI时代的应用安全。
118 14
|
23天前
|
文字识别 计算机视觉 Python
我用 Python 写了一个自动裁剪答题卡区域的小工具(附代码)
本文分享了一种通过 OpenCV 自动裁剪答题卡中答题区域的方法。核心思路是利用答题区域四周的黑色角块进行定位:先通过自适应阈值增强对比度,再用 `cv2.findContours()` 找轮廓,并计算每个轮廓的“紧凑度”(面积 / 周长)筛选出接近方块的角块。最终根据四个角块的边界矩形裁剪出答题区。代码实现详细,适合初学者参考,同时提供了参数调整建议以适配不同图像条件。
83 10
|
13天前
|
安全 Java 数据库连接
让我们讲解一下 Map 集合遍历的方式
我是小假 期待与你的下一次相遇 ~
69 43
|
11天前
|
人工智能 运维 Serverless
语音生成+情感复刻,Cosyvoice2.0 极简云端部署
语音合成技术正快速发展,广泛应用于智能座舱、儿童教育等领域。CosyVoice2凭借多语言生成、零样本生成等优势,成为企业优选。然而,企业仍面临GPU算力依赖、部署运维复杂及成本高等挑战。阿里云函数计算Function AI推出Serverless化语音合成方案,支持CosyVoice2一键部署与弹性扩容,简化调试与运维流程,显著降低成本,助力企业高效落地AI语音应用。
155 18
|
2天前
|
人工智能 NoSQL Java
LangChain4j 项目概览
LangChain4j 是一个专为 Java 开发者设计的大语言模型 (LLM) 集成框架,旨在简化 Java 应用程序与各种 LLM 提供商的集成过程。该项目受到 Python 的 LangChain、Haystack、LlamaIndex 等框架的启发,为 Java 生态系统提供了强大而统一的 LLM 工具链。
57 5

热门文章

最新文章