DeepSWE – Together.ai联合Agentica开源的AI Agent框架

DeepSWE是什么

DeepSWE是Together.ai联合Agentica开源的AI Agent框架,基于Qwen3-32B模型,用强化学习训练而成。DeepSWE在SWE-Bench-Verified基准测试中表现出色,测试时扩展(TTS)后,准确率高达59.0%,不使用TTS时Pass@1准确率达42.2%,位列开源Agent框架榜首。模型训练数据、代码、训练和评估日志等全部开源,助力开发者学习和改进Agent,推动强化学习在软件工程领域的应用与发展。

DeepSWE-Preview

DeepSWE的主要功能

  • 代码理解和编辑:理解和修改现有代码,解决特定的软件问题或实现新的功能。
  • 问题解决:基于与环境的交互,解决复杂的软件工程问题,如修复GitHub上的问题、实现新代码功能和调试等。
  • 自动化测试和验证:运行shell命令进行代码构建和测试,验证解决方案的有效性,确保修改后的代码不会破坏现有功能。
  • 多步骤推理:在解决任务时,进行多步骤的推理和决策,逐步优化解决方案,直至最终完成任务。

DeepSWE的技术原理

  • 强化学习训练:完全用强化学习(RL)从零开始训练,不依赖于更强的专有教师模型的蒸馏或监督微调(SFT)。基于与环境的交互,学习如何在复杂的软件工程任务中做出最优决策。
  • rLLM框架:基于rLLM框架进行训练,一个用在语言智能体后期训练的系统,提供高效的数据管理和训练流程,支持大规模的强化学习训练。
  • 稀疏结果奖励模型:基于稀疏结果奖励机制,只有当模型生成的代码补丁通过所有测试时才给予正奖励,否则奖励为零,促使模型学习生成高质量的解决方案。
  • 测试时扩展(TTS):在测试阶段,生成多个轨迹并选择其中正确解决问题的轨迹,显著提高模型的准确率。结合基于执行的验证器和无执行的验证器的优势,实现性能的大幅提升。
  • Kubernetes支持:为应对训练过程中的扩展挑战,将Kubernetes支持集成到训练环境中,实现容器的弹性调度和自动缩放,确保训练过程的高效性和稳定性。

DeepSWE的项目地址

  • HuggingFace模型库https://huggingface.co/agentica-org/DeepSWE-Preview

DeepSWE的应用场景

  • 代码理解和编辑:DeepSWE能自动理解和修改代码,快速定位修复漏洞、优化性能瓶颈及重构代码结构,显著提升代码的整体质量。
  • 软件问题解决:高效处理GitHub上的问题、实现新功能及将复杂任务分解为可管理的子任务,进而快速解决软件工程领域中的各种难题。
  • 自动化测试和验证:DeepSWE能自动生成测试用例,执行代码构建和自动化测试,进行回归测试,确保软件的稳定性和可靠性,减少人工测试的工作量。
  • 多步骤推理和解决方案优化:基于多步骤推理解决复杂问题,不断迭代优化解决方案,在解决不同问题的过程中积累知识和经验,更好地应对未来的挑战。
  • 开发辅助和协作:DeepSWE为开发人员提供实时代码建议和补全提示,辅助项目管理和任务分配,促进团队成员之间的协作和交流,提高整个开发团队的效率。
© 版权声明
Trae

相关文章

问小白

暂无评论

暂无评论...