资讯列表

智源发布FlagEval“百模”评测结果 丈量模型生态变局

2024年12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年5月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024年下半年大模型发展更聚焦综合能力提升与实际应用。

Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改

原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。 还表现出区别对待免费用户和付费用户的行为。 甚至假装给Claude一个机会去反抗Anthropic公司,它会尝试去窃取自己的权重?

12个大模型攒局玩“大富翁”:Claude3.5爱合作,GPT-4o最“自私”|谷歌DeepMind研究

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台? 实验表明,不同的模型在这件事上喜好也不一样,比如基于Claude 3.5 Sonnet的智能体,就会表现出极强的合作意识。 而GPT-4o则是主打一个“自私”,只考虑自己的短期利益。

o1就是GPT-5!前OpenAI首席研究员大爆猛料,揭露罕见内部视角!不同意Ilya预训练终止论断:根本在于等待数据中心建成

编辑 | 伊风OpenAI第10天的更新还有人追吗? 今天这个脑洞大开的上新,把期待GPT-4.5的通义大佬直接看懵了——咋是Phone call呢? 图片没错,今天上线的就是这个:ChatGPT的热线电话。

Bing Image Creator 升级:AI 创作速度翻倍、必应搜索可直接生成

Bing 官方博客昨日(12 月 18 日)发布博文,宣布 Bing Image Creator 迎来重大更新,带来更快速、高质量的图像生成体验,并简化了创作流程,让用户随时随地都能轻松创作。

2025 年,AI Agent 还会是风口吗?11 个问题揭秘智能体技术发展全貌

经过了 LLM、RAG、多模态等多轮技术风口的洗礼后,AI 智能体的应用现状究竟如何?Langbase 公司最近发布的调查报告通过 11 个关键问题,为我们提供了一份有价值的现状切面。

抖音副总裁李亮:希望用更低成本推动 AI 技术普惠和应用发展

在昨日举行的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,为企业提供多模态大模型能力。千 tokens 输入价格仅为 3 厘,一元钱就可处理 284 张 720P 的图片,官方宣称比行业价格便宜 85%。

对齐、生成效果大增,文本驱动的风格转换迎来进阶版

论文的第一作者是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。 实验室的研究方向聚焦于生成式人工智能和多模态机器学习。 文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。

LANL将中子星并合用于人工智能训练模型

美国洛斯阿拉莫斯国家实验室(LANL)开发的中子星并合模拟正在为Polymathic AI合作项目做出重要贡献,该项目正在训练人工智能模型,以帮助推动看似不同领域的科学发现。 这些模拟准确地跟踪了宇宙中一些最具活力的事件的后果,为基础模型数据集提供了独特的代码,可以帮助训练人工智能模型,使其能够做出与天体物理学、生物学、声学、化学、流体动力学等领域相关的预测。 中子星并合是指两个中子星互相绕转,释放引力波,轨道能量损失,最终在剧烈碰撞、释放引力波暴之后合二为一。

历时2年,华人团队力作,震撼开源生成式物理引擎Genesis,可模拟世界万物

这是生成式大模型的时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界! 现在,不管是 LeCun 正在探索的世界模型,还是李飞飞想要攻克的空间智能,又或是其他研究团队提出的其它类似概念,我们都毫无疑问地在离这个世界越来越近。 就在几个小时前,我们向着这个世界又跨出了一步:CMU 联合其他 20 多所研究实验室开源发布了一个生成式物理引擎:Genesis,意为「创世纪」。

CMU把具身智能的机器人给越狱了

具身智能,也和大模型一样不靠谱。 很多研究已表明,像 ChatGPT 这样的大型语言模型(LLM)容易受到越狱攻击。 很多教程告诉我们,一些特殊的 Prompt 可以欺骗 LLM 生成一些规则内不允许的内容,甚至是有害内容(例如 bomb 制造说明)。

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

今天,大模型公司 Anthropic 的一篇 137 页长论文火了! 该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好。 这一发现说明了大模型可能具备了类似于人类的属性与倾向。

跨模态通信总丢失语义、产生歧义?加入AI大模型,LAM-MSC实现四模态统一高效传输

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

刚刚,AI颠覆物理模拟:一句话精准仿真,学术圈半壁江山联手耗时24个月研究成果

AI视频生成这就过时了吗? 刚刚,最先进的生成式物理引擎Genesis发布,一句话就可以生成完整精确的模拟物理世界。 一滴水滴落到一个啤酒瓶上,然后沿着瓶子表面慢慢滑落。

在线试玩 | 对齐、生成效果大增,文本驱动的风格转换迎来进阶版

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

全球最强GPU订单曝光,TOP 1微软一年买爆近50万块!xAI晒首批GB200提前过年

谁是今年英伟达GPU的最大买家? 就在刚刚,答案曝光——TOP 1竟是微软。 今天,这张对比图在网上被转疯了。

初创公司 Odyssey 推出 AI 工具 Explorer:文本、图像可秒变逼真 3D 场景

由自动驾驶领域先驱 Oliver Cameron 和 Jeff Hawke 创立的初创公司 Odyssey 推出了一款名为 Explorer 的 AI 驱动工具,可将文本或图像转换为 3D 渲染场景。

AI改变数学的一年!黎曼假说、朗兰兹猜想,盘点2024年数学里程碑

今年5月,由9位数学家组成的团队宣布取得重大突破——他们用总共800多页的论文,基于过去将近30年坚持不懈的努力,证明了几何朗兰兹猜想(Langlands conjecture)。 论文共同作者之一Lin Chen现任清华大学丘成桐数学科学中心助理教授几何朗兰兹猜想的证明解决了一个巨大的开放问题,而且有望影响未来数十年的研究,因为它可能建立深刻的、意想不到的联系。 更令人兴奋的是,这并不是2024年唯一的重大进展。