Upwork

OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。 这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。 测试结果显示,表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%,在项目管理决策方面达到44.9%。
  • 1