资讯列表

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现!最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。InstantID 凭借着高质量的图像生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是,Insta

刚刚,字节版GPTs「扣子」上线了

大玩家终于正式下场。在持续一年的大模型热潮之后,「智能体」成为了科技公司们新的押注方向之一。近日,字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot,且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。链接:,除了可以创建自己的 Chatbot,Coze 官方还提供了 Bots 商店和插件。如以下按照热度精选的 Bots,包含娱乐、创意、学习等各类产品,甚至我们注意到还有「马歇尔音箱粉丝」这个选项。机器之心挑选了一些已有的 Bot 试了试,看看上手

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

Eagle 7B 可将推理成本降低 10-100 倍。在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。与大模型相比,小模型具有很多优点,比如对算力的要求低、可在端侧运行等。近日,又有一个新的语言模型出现了,即 7.52B 参数 Eagle 7B,来自开源非盈利组织 RWKV,其具有以下特点:基于 RWKV-v5 架构构

最强开源多模态生成模型MM-Interleaved:首创特征同步器

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,

登 Nature 子刊,滑铁卢大学团队评论「量子计算机+大语言模型」当下与未来

编辑 | X模拟当今量子计算设备的一个关键挑战,是学习和编码量子比特之间发生的复杂关联的能力。基于机器学习语言模型的新兴技术已经显示出学习量子态的独特能力。近日,加拿大滑铁卢大学的研究人员在《Nature Computational Science》发表题为《Language models for quantum simulation》 的 Perspective 文章,强调了语言模型在构建量子计算机方面所做出的贡献,并讨论了它们在量子优势竞争中的未来角色。论文链接:,最近许多设备都声称具有量子优势。经典计算能力的

聚类精度超96%,机器学习新算法可实现更高脑机接口性能

编辑 | 萝卜皮使用多个电极记录神经元活动已被广泛用于了解大脑的功能机制。增加电极数量使科学家能够解码更多种类的功能。然而,由于硬件资源有限和不可避免的热组织损伤,处理大量多通道电生理数据仍然具有挑战性。在这里,韩国大邱庆北科学技术院(DGIST,Daegu Gyeongbuk Institute of Science & Technology)的研究团队提出了基于机器学习(ML)的高频神经元尖峰从二次采样的低频信号重建。受到图像处理中高频恢复和超分辨率之间等效性的启发,研究人员将 Transformer ML 模

Mistral-Medium意外泄露?冲上榜单的这个神秘模型让AI社区讨论爆了

「我现在 100% 确信 Miqu 与 Perplexity Labs 上的 Mistral-Medium 是同一个模型。」近日,一则关于「Mistral-Medium 模型泄露」的消息引起了大家的关注。泄露传闻与一个名为「Miqu」的新模型有关,在评估语言模型情商的基准 EQ-Bench(EQ-Bench 与 MMLU 的相关性约为 0.97、与 Arena Elo 的相关性约为 0.94)上, Miqu 直接吊打了除 GPT-4 之外的所有大模型,而且它的得分与 Mistral-Medium 非常接近:图源::

陶哲轩上新项目:Lean中证明素数定理,研究蓝图都建好了

借助 Lean,陶哲轩又开始了新的项目。「由 Alex Kontorovich 和我领导的一个新的 Lean 形式化项目刚刚正式宣布,该项目旨在形式化素数定理(prime number theorem,PNT)的证明,以及伴随而来的复分析和解析数论的支持机制,并计划给出进一步的结果如 Chebotarev 密度定理。」著名数学家陶哲轩在个人博客中写道。素数定理是数学中的一个重要定理,描述了素数在自然数中的分布规律,该定理在数论中是一个比较重要的研究方向。形式化证明本质上是一种计算机程序,但与 C 或 Pytho

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路

多模态LLM多到看不过来?先看这26个SOTA模型吧

多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布了一份综述报告,全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程,而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑研究或使用 MM-LLM,不妨考

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无法满足目前机器人对复杂操控任务的需求,呼吁新的操控基准(Functional Manipulation Benchmark)出现。概述机器人操控面临两个主要挑战:机器人如何智能地处理复杂的接触动力学以及如何应对环境和物体的多样性。针对这些挑战,机器人学习技术被视为关键的解决手段。因此,该领域需要一个全面易得的框架,提供有挑战性的实际任务、高质量数据、易于复制的设置,集合了基线

金出武雄和他的中国学生们,计算机视觉五十载风云

突破性的成就对金出武雄来说并不新鲜。 自上世纪八十年代以来,金出武雄(Takeo Kanade)一直是卡内基梅隆大学的基础。 他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM),只要是与计算机视觉技术的相关项目,总能看到金出武雄的名字。

如何用Midjourney轻松搞定微信红包封面设计?案例来了!

在这篇文章中,我们将深入探讨如何利用 Midjourney 来设计微信红包,让你的红包更具个性和吸引力。通过学习和应用这一技术,你将能够轻松地为自己的红包设计出独特的封面,让你的红包在众多传统红包中脱颖而出,成为一道亮丽的风景线。同时,我们还将分享一些实用的技巧和建议,帮助你更好地运用 Midjourney 进行设计,让你的设计之路更加顺畅。让我们一起踏上这场充满创意与惊喜的设计之旅,探索 AI 技术与设计领域的无限可能。 更多红包教程:在这个快速发展的数字化时代,人工智能技术已经渗透到了我们生活的方方面面,成为了

Stable Diffusion ComfyUI 基础教程(八):如何使用 Controlnet

一、前言 终于到了最激动人心的时刻,我们使用 Stable Diffusion 最重要的就是他的可控性,其中 Controlnet(控制网络)的作用居功至伟,它可以引入更多的条件来让我们出图更加可控。 往期回顾:在最开始之前我们需要安装 Controlnet 预处理器插件以及下载 Controlnet 模型: ①Controlnet 预处理器插件:插件地址: 如果安装后,运行 ComfyUI 显示无法导入插件 请运行“ComfyUI\custom_nodes\comfyui_controlnet_aux”目录下的

讯飞星火V3.5正式发布,基于全国产算力平台“飞星一号”训练

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里,讯飞星火基于“飞星一号”,启动了对标GPT-4的更大参数规模的大模型训练,带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能

这款国产免费编程工具火了!清华博士团队开发,响应延迟短、准确率高

在过去一年中,随着大模型技术的广泛应用,我们已经见证了 AI 如何深刻地改变着我们的工作方式。在程序编写领域,AI 的介入同样将为程序员们带来前所未有的便利。近日,非十科技推出了一款基于自研代码大模型打造的 AI 代码助手 ——Fitten Code,它可以帮助程序员更迅捷、更准确、更高质量地完成编码任务,大幅提升编码效率,并且向用户免费开放使用!产品官网地址: Code 自上次发布以来迅速走红。开发团队日以继夜地工作,带来了功能、性能和速度上的重大升级。此外,还增加了对更多编辑器的支持,为开发者们提供了全新的福利

大模型时代,南大周志华埋头做学件,最新论文上线

机器学习在众多领域取得巨大成功,海量的优质机器学习模型被不断开发。但同时,普通用户想要得到适合自己任务的模型并不容易,更不用说从头开始构建新模型了。南京大学周志华教授提出的「学件」范式通过模型 规约的思路构建学件市场(现称学件基座系统),让用户根据需求从中统一地选择和部署模型。如今学件范式迎来了首个开源的基础平台 —— 北冥坞(Beimingwu)。在经典的机器学习范式中,为一项新任务从头训练高性能的模型需要大量的高质量数据、专家经验和计算资源,无疑耗时耗力且成本高昂。此外,复用已有的模型也存在很多问题,比如很