资讯列表

连葫芦娃都数不明白,解说英雄联盟的GPT-4V面临幻觉挑战

让大模型同时理解图像和文字可能比想象中要难。在被称为「AI 春晚」的 OpenAI 首届开发者大会拉开帷幕后,很多人的朋友圈都被这家公司发布的新产品刷了屏,比如不需要写代码就能定制应用的 GPTs、能解说球赛甚至「英雄联盟」游戏的 GPT-4 视觉 API 等等。不过,在大家纷纷夸赞这些产品有多好用的时候,也有人发现了弱点,指出像 GPT-4V 这样强大的多模态模型其实还存在很大的幻觉,在基本的视觉能力上也还存在缺陷,比如分不清「松糕和吉娃娃」、「泰迪犬和炸鸡」等相似图像。GPT-4V 分不清松糕和吉娃娃。图源:X

GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页

大型多模态模型会做数学题吗?在微软最新发布的 MathVista 基准上,即使是当前最强的 GPT-4V 也会有「挫败感」。微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖 112 页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如 GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。报告还深入分析了 GPT-4V 在自我验证、自洽性和多轮对话能力的研究潜力。论文地址:: 数据集:::。除了传统的纯文字

全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。Transformer 已经成功应用于自然语言处理、计算机视觉和时间序列预测等领域的各种学习任务。虽然取得了成功,但这些模型仍面临着严重的可扩展性限制,原因是对其注意力层的精确计算导致了二次(在序列长度上)运行时和内存复杂性。这对将 Transformer 模型扩展到更长的上下文长度带来了根本性的挑战。业界已经探索了各种方法来解决二次时间注意力层的

破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推

随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生之初,被视为天然具备的能力,但随着相关研究的深入,现实远非如此。传统的 Transformer 架构在训练长度之外无一例外表现出糟糕的推理性能。研究人员逐渐意识到这一缺陷可能与位置编码(position encoding)有关,由此展开了绝对位置编码到相对位置编码的过渡,并产生了一系列相关的优化工作,其中较为代表性的,例如:旋转位置编码(RoPE)(Su et al.,

MIT 开发​深度化学模型的神经尺度策略,发现「神经尺度」定律

编辑 | 绿萝在数据可用性和计算方面,大规模使得自然语言处理和计算机视觉等深度学习关键应用领域取得了重要突破。越来越多的证据表明,规模可能是科学深度学习的关键因素,但物理先验在科学领域的重要性使得规模化的策略和收益变得不确定。近日,来自 MIT 的研究团队通过将模型和数据集大小改变多个数量级来研究大型化学模型中的神经尺度(neural-scaling)行为,研究具有超过 10 亿个参数的模型,并在多达 1000 万个数据点的数据集上进行预训练。研究考虑用于生成化学的大型语言模型和用于机器学习原子间势的图神经网络。研

低成本快速定制大模型,这次我们来深度探讨下RAG 和向量数据库

当今人工智能领域,最受关注的毋庸置疑是大模型。然而,高昂的训练成本、漫长的训练时间等都成为了制约大多数企业入局大模型的关键瓶颈。这种背景下,向量数据库凭借其独特的优势,成为解决低成本快速定制大模型问题的关键所在。向量数据库是一种专门用于存储和处理高维向量数据的技术。它采用高效的索引和查询算法,实现了海量数据的快速检索和分析。如此优秀的性能之外,向量数据库还可以为特定领域和任务提供定制化的解决方案。科技巨头诸如腾讯、阿里等公司纷纷布局向量数据库研发,力求在大模型领域实现突破。大量中小型公司也借助向量数据库的能力快速进

Runway新功能「运动笔刷」再次惊艳AI圈:随手一涂,图片就动起来了

网友:我都不敢想象一年后的视频技术会有多先进。一段五十秒的预告视频,再次让 AI 圈沸腾了。昨日 Runway 宣布,即将在视频生成工具 Gen-2 中上线「Motion Brush」(运动笔刷)功能,一种可控制生成内容移动的新方法。这次的玩法,甚至不需要输入文字,只要有手就够了。任选一张图片,画笔涂抹到哪里,哪里就立刻动起来:不管是水流、云彩、火焰、烟雾还是人物,都能高度还原其动态。这就是传说中的「点石成金」吗?网友看完表示:我都不敢想象一年后的视频技术会有多先进……毕竟在 2023 年初,从文本生成视频还是一件

斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习

我们知道,ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的,存在难以处理的优化难题。本文中,斯坦福大学等研究机构的团队探索用「对比偏好学习」替换掉「强化学习」,在速度和性能上都有不俗的表现。在模型与人类意图对齐方面,根据人类反馈的强化学习(RLHF)已经成为一大流行范式。通常来说,RLHF 算法的工作过程分为两个阶段:一、使用人类偏好学习一个奖励函数;二、通过使用强化学习优化所学习的奖励来对齐模型。RLHF 范式假定人类偏好的分布遵照奖励,但近期有研究认为情况并非如此,人类

GPT-4比你更会问问题:让大模型自主复述,打破与人类对话的壁垒

在最新的人工智能领域动态中,人工生成的提示(prompt)质量对大语言模型(LLM)的响应精度有着决定性影响。OpenAI 提出的建议指出,精确、详细且具体的问题对于这些大语言模型的表现至关重要。然而,普通用户是否能够确保他们的问题对于 LLM 来说足够清晰明了?值得注意的是,人类在某些情境下的自然理解能力与机器的解读存在明显差异。例如,“偶数月” 这一概念,在人类看来很明显指的是二月,四月等月份,而 GPT-4 却可能将其误解为天数为偶数的月份。这不仅揭示了人工智能在理解日常语境上的局限性,也促使我们反思如何更有

顶配MacBook Pro 16上的M3 Max是什么水平?有人花56000元进行了评测

能取代酷睿 i9 和 RTX 显卡吗?10 月 31 日,苹果在「史上最短发布会」上发布了新一代笔记本电脑和 Mac,与之而来的还有新一代 M3 芯片。新一代芯片第一次使用领先的 3 纳米制程工艺,加入了动态缓存、硬件光追、网格着色等新技术,号称可以打英特尔的处理器加独立显卡,只用一半功耗就能达到 M1 芯片的相同算力。这一切使得 Apple Silicon M 系列芯片达到了新的高度。在英特尔不断提升制程工艺,高通即将入局 PC 领域的现在,苹果芯片是否仍具有竞争力在正式发布后不久,有关 M3 系列芯片的评测也陆

英伟达特供版芯片将上市:性能最高不到H100的20%

国内芯片未来能否实现替代?10 月 17 日,美国商务部放出最严对华出口管制规定,H800 等 AI 加速器成为制裁的焦点。因为制裁涉及显卡功率和算力的限制,继 H100 之后,英伟达专为符合要求设计的定制芯片也因此受限。新的禁令已在 10 月 23 日生效。有经销商表示,在 A800 和 H800 GPU 无法进口后,英伟达为国内市场专门开发了一款新服务器芯片和两款新 GPU,英伟达将在未来几天内向国内制造商交付三款新芯片。继 A800 和 H800 GPU 之后,英伟达开发了 HGX H20 以及 GPU L2

谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置

AGI 该如何划分,谷歌 DeepMind 给出了标准。我们到底该如何定义 AGI(通用人工智能)?如果你要求 100 位 AI 专家进行解答,你可能会得到 100 个相关但不同的定义。现阶段,AGI 是 AI 研究中一个重要且存在争议的概念,有研究者认为 AGI 已经出现在最新一代大语言模型(LLM)中;还有一些人预测人工智能将在大约十年内超越人类,甚至断言当前的 LLM 就是 AGI。深入理解 AGI 的概念很重要,因为它映射了人工智能所要达到的目标、对事物的预测以及带来的风险。我们该如何划分 AGI 等级呢?

通用异常检测新曙光:华科大等揭秘GPT-4V的全方位异常检测表现

异常检测任务旨在识别明显偏离正常数据分布的异常值,在工业检验、医学诊断、视频监控和欺诈检测等多个领域都发挥了重要作用。传统的异常检测方法主要依赖于描述正常数据分布以进行正异常样本的区分。然而,对于实际的应用而言,异常检测也需要理解数据的高层语义,从而深入理解 “什么是异常”。要实现更准确且智能的异常检测,我们需要关注以下关键步骤:1. 理解多样数据类型和类别不同领域的数据集包含各种数据类型和类别,如图像、视频、点云、时间序列等。每种数据类型可能需要不同的异常检测方法,每个物体类别可能对应不同的正常标准,因此深入理解

Luma AI推出神器Genie!通过文本生成高精度3D模型,免费使用!

大家好,这里是和你们一起探索 AI 的花生~ 之前为大家推荐过一个 AI 神器 Meshy,可以通过文本生成一个完整的 3D 模型,今天要说的 Genie 也是一个 3D 模型生成工具,但生成的模型更精致逼真,还可以修改表面材质。Genie 目前正免费开放测试,我们一起看看来如何使用~ 相关推荐:一、Genie 简介 Genie 是一个可以通过文本生成 3D 模型的 AI 神器,由 Luma AI 推出,一经发布就受到了很多关注,因为它的 3D 模型处理速度极快,可以生成多种风格,精度上比也目前其他工具都更好,还支

实战案例!如何快速通过Stable Diffusion生成角色固定姿势?

本文主要分为两部分:软件篇(如何搭建 Stable Diffusion 环境) 实战篇(如何完成一张立绘)软件部分会为大家推荐一些 B 站优秀的 UP 主的教程,讲解的十分详细。 本文会先带大家了解模型、VAE 和 LORA 这三个概念。而实战部分会以出草图 - 大量 AI 出图 - 局部修改(AI 迭代)- 再次修改,这样一个过程。 AI角色相关干货:一、软件篇 前期需要准备:Stable Diffusion 本地包、Stable Diffusion 模型、VAE 和 LORA。 1. Stable Diffus

Character.AI 上线GroupChat,让1800万个机器人加入人类群聊

机器之能报道编辑:吴昕三人行,必有我师(现在包括 AI)。这种组队方式为互动和迸发创造力开辟了新的可能性。在 Character.AI 位于加州帕洛阿尔托的人工智能总部,员工们一开始似乎在努力工作,目不转睛地盯着电脑显示器。但他们中的许多人不是在编程,而是全神贯注地和同事以及 character.AI 的 AI 聊天机器人群聊。周三, Character.AI 推出了一项新的群聊功能(Group Chat): 每月支付 9.99 美元,就能和平台上 1800 万个聊天机器人(比如,拿破仑、马斯克、托尼·斯塔克或者居

MIT学者讲述生成式 AI 的故事,它会越来越了解你,你也不得不了解它

作者 | Adam Zewe快速浏览一下资讯类网站就会发现,如今生成人工智能似乎变得无处不在。事实上,其中一些新闻资讯可能是由生成式人工智能帮忙撰写的,例如 OpenAI 的 ChatGPT。但当人们说「生成式人工智能」时,他们真正的意思是什么?在过去几年生成式人工智能热潮之前,当人们谈论人工智能时,通常他们谈论的是可以学习根据数据进行预测的机器学习模型。例如,使用数百万个示例对此类模型进行训练,以预测特定 X 射线是否显示肿瘤迹象,或者特定借款人是否可能拖欠贷款。生成式人工智能可以被认为是一种机器学习模型,经过训

多伦多大学团队使用AlphaFold获得对蛋白质结构的新见解

编辑 | 萝卜皮AlphaFold 蛋白质结构数据库包含数百万种蛋白质的预测结构。对于大多数含有本质无序区域 (IDR) 的人类蛋白质,这些区域不采用稳定的结构,通常认为这些区域具有较低的 AlphaFold2 置信度分数,反映了低置信度的结构预测。多伦多大学(University of Toronto)的研究团队表明 AlphaFold2 为近 15% 的人类 IDR 分配了可信结构。通过与已知条件折叠(即在结合或其他特定条件下)的 IDR 子集的实验 NMR 数据进行比较,研究人员发现 AlphaFold2 通