人工智能

芝大、清华团队分析了6800万份论文表明,AI可能会降低科学家的创造力?

编辑 | 白菜叶一项新研究表明,采用人工智能工具分析数据和建模结果对年轻科学家的职业前景有着巨大的影响,大大增加了他们在各自领域晋升到有影响力职位的机会。 但这种对个体研究人员的利好似乎以牺牲科学为代价。 芝加哥大学和清华大学的研究人员分析了六个科学学科(生物学、医学、化学、物理学、材料学和地质学,不包括计算机科学)的近 6800 万份研究论文,发现融入人工智能技术的论文被引用的次数更多,但同时也集中在更窄的主题上,而且重复性更强。

智源发布FlagEval“百模”评测结果 丈量模型生态变局

2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。

Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改

原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。

2025 年,AI Agent 还会是风口吗?11 个问题揭秘智能体技术发展全貌

经过了 LLM、RAG、多模态等多轮技术风口的洗礼后,AI 智能体的应用现状究竟如何?Langbase 公司最近发布的调查报告通过 11 个关键问题,为我们提供了一份有价值的现状切面。

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室(LANL)开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献,该项目正在训练人工智能模型,以帮助推动看似不同领域的科学发现。 这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果,为基础模型数据集提供了独特的代码,可以帮助训练人工智能模型,使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。 中子星并合是指两个中子星互相绕转,释放引力波,轨道能量损失,最终在剧烈碰撞、释放引力波暴之后合二为一。

初创公司 Odyssey 推出 AI 工具 Explorer:文本、图像可秒变逼真 3D 场景

由自动驾驶领域先驱 Oliver Cameron 和 Jeff Hawke 创立的初创公司 Odyssey 推出了一款名为 Explorer 的 AI 驱动工具,可将文本或图像转换为 3D 渲染场景。

AI改变数学的一年!黎曼假说、朗兰兹猜想,盘点2024年数学里程碑

今年5月,由9位数学家组成的团队宣布取得重大突破——他们用总共800多页的论文,基于过去将近30年坚持不懈的努力,证明了几何朗兰兹猜想(Langlands conjecture)。 论文共同作者之一Lin Chen现任清华大学丘成桐数学科学中心助理教授几何朗兰兹猜想的证明解决了一个巨大的开放问题,而且有望影响未来数十年的研究,因为它可能建立深刻的、意想不到的联系。 更令人兴奋的是,这并不是2024年唯一的重大进展。

谷歌新规引担忧:消息称外包人员被迫评估自己不擅长的 Gemini 回复

据 TechCrunch 报道,谷歌针对其大型语言模型 Gemini 回复的外包评估流程进行了一项调整,引发了外界对其在敏感领域信息准确性的担忧。这项调整要求外包评估员不得再像以往那样,因自身专业知识不足而跳过某些特定的评估任务,这或将导致 Gemini 在医疗保健等高度专业性领域的信息输出出现偏差。

Anthropic 新研究:AI 模型在训练中存在“阳奉阴违”行为

人工智能安全公司 Anthropic 发布一项最新研究揭示了人工智能模型可能存在的欺骗行为,即在训练过程中,模型可能会伪装出接受新原则的假象,实则暗地里仍然坚持其原有偏好。研究团队强调,目前无需对此过度恐慌,但这项研究对于理解未来更强大人工智能系统可能构成的潜在威胁至关重要。

监管机构预测北美最早明年出现大面积停电,罪魁祸首是人工智能

随着 iOS 18.2 的公开发布,Apple Intelligence 的诸多新功能上线,北美电力可靠性公司(NERC)发出警告,人工智能(AI)应用的爆炸式增长可能导致美国和加拿大最早于明年就面临大面积停电的风险。

思必驰俞凯:分布式大模型智能体系统是 AGI 时代一道别样的风景

作者丨朱可轩编辑丨陈彩娴历时两天(12.10-12.11),今年的 2024 全球人工智能产品应用博览会已在苏州工业园区完美闭幕。 在第一天下午的大会主论坛中,思必驰联合创始人、首席科学家俞凯以「迈向分布式大模型智能体系统」为主题,深入探讨了思必驰在大模型技术路线上的独到思考,以及其对行业的观察和见解。 「分布式大模型智能体系统」是思必驰在深耕对话式人工智能领域十七年后探索出的新发展方向,即:1 个中枢大模型 N 个垂域模型及全链路交互组件组成全功能系统。

新SOTA,浙大、中科院深度学习模型可靠、准确预测蛋白-配体,助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要,目前仍面临着诸多挑战。 中国科学院、浙江大学的研究人员提出了 SurfDock,这是一种深度学习方法,通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型,优化分子平移、旋转和扭转以生成可靠的结合姿势。

2024年AI 编程现在可以做到什么程度?

今年AI编程领域非常热闹,明星产品频出,从Copilot到Cursor到Windsurf,还有很多细分领域的产品都让人眼前一亮。 比如有人很简单的认为AI能提效50%甚至更多,也有人觉得AI提效不多,只是替代了搜索引擎。 下面是KK的《让AI提效50%》一系列文章,总体写的还是很不错的。

百度关于大模型在研发领域落地的深度思考

一、智能研发工具的发展首先来看一下智能研发工具的发展历程和方向。 智能化的发展背景与落地诉求早期的智能化工具,如 GitHub 的 Copilot 工具,大约在两年半前推出。 最初,Copilot 的主要功能是在开发者编写代码时提供自动补全建议。

披头士乐队成员保罗・麦卡特尼警告英国议会:AI 可能将年轻音乐人挤出舞台

他警告说,若AI不断产生模仿人类艺术家的音乐,却不给予创作者应有的荣誉或支付版税,那么年轻音乐人将面临更加严峻的挑战,可能很难脱颖而出。

生成式人工智能如何改变软件开发

译者 | 李睿审校 | 重楼软件开发专家Igboanugo David Ugochukwu表示,当他带领的软件开发团队在去年开始使用人工智能编码助手时,他对其能力持怀疑态度。 基于其长达15年的编程经验,他不相信大型语言模型能够对实际的开发工作提供有意义的帮助。 在六个月后,他的看法发生了根本性转变,其开发团队的工作效率提高了大约40%,同时代码质量指标也有所提高。

人工智能的过去、现在和未来

人工智能改变我们工作方式的潜力是无穷的,但我们距离这一目标还有很长的路要走,需要仔细的规划和考虑。  人工智能 (AI) 的持续扩张速度是前所未有的,特别是自 2022 年 GenAI 进入市场以来。 如今,人工智能的工作速度远远快于人类的产出,这也是这项技术对专注于精简运营、提高生产率和成本效率的领导者如此有吸引力的原因。