OpenCSG - AI在线

超越Devin，姚班带队OpenCSG创造大模型编程新世界纪录

来自中国大模型初创公司OpenCSG推出的StarShip CodeGen Agent，以23.67%的成绩刷新了普林斯顿SWEBench(大模型真实独立编程评测)排行榜，取得了全球第二名的成绩，同时创造了非GPT-4o基模的最高纪录（SOTA）。SWEBench评测高度贴近真实编程场景，难度极高，不仅要求模型能理解需求、协调多个函数/类甚至文件的变更，还要求模型与执行环境交互，处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中，行业中最先进的GPT4和Devin，也仅能解决1.74%