数据

AI能传递气味了!能定制个性化气味,谷歌前研究员新技术

继视觉和听觉之后,AI已经进化到拥有嗅觉了? ? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。

智源发布FlagEval「百模」评测结果,丈量模型生态变局

2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B

虽然语言和图像语言建模进展迅速,但视频多模态大模型(LMM)却难以望其项背。 近日,Meta和斯坦福大学的团队联手,从评估基准、模型设计到开源模型, 做出了全方位的探索,创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性,发现了驱动LMM性能的关键因素,开源了Apollo模型。 值得注意的是,Apollo-3B超越了几乎所有的7B模型,而Apollo-7B变体则是7B模型中目前最佳的。

突发!GPT论文一作Alec Radford离职,前两代GPT作者全部离开OpenAI

OpenAI又跑了一名大神! The Information消息,初代GPT论文第一作者Alec Radford也要离开OpenAI,转向独立研究。 据了解, Alec于2016年加入OpenAI,从初代GPT到GPT-4o的论文中全都有他的名字,其中前两代还是第一作者。

突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。

腾讯版Sora开源后,被提速8倍!官方点赞并预告:下月上新图生视频

提速8倍! 速度更快、效果更好的混元视频模型——FastHunyuan来了! 新模型仅用1分钟就能生成5秒长的视频,比之前提速8倍,步骤也从50步减少到了6步,甚至画面细节也更逼真了。

更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘

具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构Bridge Diffusion Model来了。 与Dreambooth模型结合,它生成的穿中式婚礼礼服的歪国明星长这样。

万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!

写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。

人工智能的过去、现在和未来

人工智能改变我们工作方式的潜力是无穷的,但我们距离这一目标还有很长的路要走,需要仔细的规划和考虑。  人工智能 (AI) 的持续扩张速度是前所未有的,特别是自 2022 年 GenAI 进入市场以来。 如今,人工智能的工作速度远远快于人类的产出,这也是这项技术对专注于精简运营、提高生产率和成本效率的领导者如此有吸引力的原因。

张璇、周光敏团队在随机退役条件下基于生成式学习的电池健康状态评估与可持续回收研究中取得新进展

编辑丨ScienceAI随着电动汽车市场的快速发展,动力电池需求量激增,但其设计寿命有限,退役潮已经到来。 如何高效、经济、环保地处理这些退役电池,成为亟待解决的挑战。 梯次利用和回收利用被视为关键途径,而准确评估退役电池健康状态(SOH)则是实现这一目标的基础。

清华本科生获NeurIPS Math-AI 杰出论文奖:REBASE算法让小模型实现推理大突破

刚刚由清华大学本科生伍垟圳为一作的论文《推理Scaling Laws:面向语言模型问题求解的计算最优推理实证分析》在顶级AI学术会议NeurIPS 2024 Math-AI上荣获杰出论文奖(Outstanding Paper Award)。 这项研究不仅刷新了人们对推理阶段计算优化的理解,还为如何在有限计算资源下实现更高效的大语言模型(LLM)推理提供了全新的思路论文亮点:推理阶段的计算优化新突破1. 小模型也能打败大模型:重新定义推理阶段的效率论文系统性地研究了不同模型大小和推理策略在固定计算预算下的表现,发现小模型(如Llemma-7B)在结合高级推理算法后,能够实现比大模型(如Llemma-34B)更优的成本性能平衡。

Bengio参与的首个《AI安全指数报告》出炉,最高分仅C、国内一家公司上榜

图片安全话题,在人工智能(AI)行业一向备受关注。 尤其是诸如 GPT-4 这样的大语言模型(LLM)出现后,有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」,包括马斯克在内的数千人纷纷起身支持,联名签署了一封公开信。 这封公开信便来自生命未来研究所(Future of Life Institute),该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立,是最早关注人工智能安全问题的机构之一,其使命为 “引导变革性技术造福生活,避免极端的大规模风险”。

NeurIPS神仙打架:李飞飞180页PPT谈视觉智能,Bengio同OpenAI员工吵架,何恺明谈AI宿命论

李飞飞最新采访来了,继续延伸她在NeurIPS有关视觉智能的话题。 她表示,解决空间智能问题是迈向全面智能化的基础和关键一步。 不过从现场传出的NeurIPS演讲PPT中竟然有写:AI将取代人类?

再也不怕显存爆炸了!高效重建「几何精准」的大规模复杂三维场景,中科院提出CityGaussianV2

三维场景重建旨在基于围绕目标场景拍摄的一组图像恢复出场景的三维结构,其核心追求是精准的几何结构以及逼真的图像渲染。 随着近两年的发展,3D Gaussian Splatting(3DGS)因其训练和渲染效率上的优势逐渐成为该领域的主流算法。 这一技术使用一组离散的高斯椭球来表示场景,并使用高度优化的光栅器进行渲染。

扩散模型=流匹配?谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗? 从表面上看,这两种方法似乎各有侧重:扩散模型专注于通过迭代的方式逐步去除噪声,将数据还原成清晰的样本。 而流匹配则侧重于构建可逆变换系统,目标是学习如何将简单的基础分布精确地映射到真实数据分布。

反转!Claude 3.5超大杯没有训练失败,最新爆料:内部自留,用于合成数据和RL训练

传闻反转了,Claude 3.5 Opus没有训练失败。 只是Anthropic训练好了,暗中压住不公开。 semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模。

一周发明GAN!时间检验奖得主分享背后故事:每件发明都不是最后的发明

引用超85000次的经典论文GAN获NeurIPS2024时间检验奖后,它的起源和背后故事也被抛了出来。 要从Yoshua Bengio实验室的一次头脑风暴说起。 Bengio召集实验室成员,提出了一个富有挑战性的设想:训练一个确定性的生成网络g,该网络仅在输入z中包含随机噪声。