资讯列表
CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?
苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来,GPT-3、OPT 和 PaLM 等大型语言模型(LLM)在广泛的 NLP 任务中表现出了强大的性能。不过,这些能力伴随着大量计算和内存推理需求,毕竟大型语言模型可能包含数千亿甚至万亿参数,使得高效加载和运行变得有挑战性,尤其是在资源有限的设备上。当前标准的应对方案是将整个模型加载到 DRAM 中进行推理,然而这种做法严重限制了可以运行的最大模型尺寸。举个例子,70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数,这超
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址: 体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
Meta的视频合成新框架又给了我们一点小小的震撼。就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有高变异性—
Midjourney V6迎来大升级:网友惊呼生成效果太逼真
和 DALL-E 3 等图像生成模型相比,谁的效果会更好呢?你真的会被 Midjourney V6 alpha 版本测试的生成效果震撼到。输入提示:「电影镜头,一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边,她穿着深蓝和乳白色千鸟格外套,戴着黑色针织帽。午夜,他们走在街道中央,被路灯柔和的橙色光芒照亮。」图源:,v 5.2 的生成效果肉眼可见的差距,人物脸部细节刻画的不是很细致,衣服纹理、褶皱表现的很少:Midjourney V6 生成雨中的马斯克:图源::图源:
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?
这就是2024年的新趋势吗?近日,一项名为 AppAgent 的创新技术引起了广泛关注。简单来说,AppAgent 的智能代理能力可以用于操作任何 App,它在 50 个复杂手机任务上展示了强大的能力。AppAgent 幕后团队来自腾讯,相关技术论文也已经公布。论文地址::,这项技术通过引入一种基于大型语言模型(LLMs)的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操作,直接与手机应
arXiv大升级,论文网页版本直接看
很快就将扩展到所有论文。今年 10 月,著名预印版论文平台 arXiv 宣布获得 1000 万元捐款,现在版本大升级来了。本周四,arXiv 宣布了一项更新,正式加入论文 HTML 版本。消息一出,立刻引来了学界的欢呼,有人发现 arXiv 也已经准备好了暗黑模式:arXiv 是计算机科学、物理学、数学、生物学等学术领域常用论文预印本网站,创立于 1991 年。一直以来,arXiv 上论文的显示方式都以 pdf 格式为主,用户通常需要「下载 PDF(Download PDF)」来查看论文内容。现在,arXiv 宣布
AAAI 2024 | 测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如:测试数据流应当是时变分布(而非传统领域适应中的固定分布)测试数据流可能存在局部类别相关性(而非完全独立同分布采样)测试数据流在较长时间里仍表现全局类别不平衡近日,华南理工、A*STAR 和港中大(深圳)团队通过大量实验证明,这些真实场景下的测试数据流会对现有方法带来巨大挑战。该团队认为,最先进方法的失败首先是由于
2024年怎么过?这是Sam Altman希望你早些知道的事
机器之能报道编辑:吴昕这个家伙正在塑造世界,如果他学到了什么,我们应该注意。「日子很长,但几十年很短。」Sam Altman 九年前写下这篇箴言体博客时,不知是否预感过自己会成为那个领导 AI 革命的人。2023 年行将结束之际,他时隔多年重拾箴言体,发布了一篇题为《那些我希望有人告诉我的(事)》的博客,将过去一年所学凝结在了十七条短句中。(下文黑体部分,对黑体部分的解读来自编辑。)过去一年激动又疯狂。Altman 领导的 OpenAI 推出了一个世人真正喜欢并从中受益的 AI 工具,世界也开始认真对待 AI 。从
Nature|从1.07亿个分子中发现新抗菌化合物,MIT团队开发用于抗生素发现的DL方法
编辑 | 萝卜皮当前,迫切需要发现新结构类别的抗生素来解决持续存在的抗生素耐药性危机。深度学习方法有助于探索化学空间;这些通常使用黑盒模型并且不提供化学见解。麻省理工学院(MIT)的研究人员开发了一种用于抗生素发现的深度学习方法,并表明它可以从大型化学库中识别出潜在的抗生素。研究人员用该方法从药物再利用中心(包含约 6,000 个分子)中发现了 halicin 和 abaucin,并从 ZINC15 库中的约 1.07 亿个分子中发现了新的抗菌化合物。图示:Yann LeCun 转发了这项研究的 Twitter 报
医渡科技发布自研医疗大模型,多个医疗任务场景评测表现超越GPT
2023年12月21日,由医渡科技主办、华为技术有限公司(以下简称“华为”)协办的“2023医疗智能大会”在京举行。大会以“智绘医疗,创见未来”为主题,深入探讨了人工智能等新技术为医疗行业带来的机遇与变革。会上,医渡科技自主研发的医疗垂域大模型正式发布,这是国内首个面向医疗垂直领域多场景的专业大语言模型,医渡科技医疗场景解决方案也随之迎来全面升级。与此同时,医渡科技与华为在会上签署深化合作协议,并联合推出智慧医疗解决方案,加速推动医疗健康行业的智能化转型。医渡科技CEO、联合创始人徐济铭表示,与以往AI浪潮不同,此
成立仅半年,Mistral估值暴涨七倍,开源重塑AI战局
机器之能报道编辑:Sia烧钱的闭源,逆袭的开源。当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在 Mistral AI 最新一轮融资中达到高潮。七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元,估值从 2.6 亿美元狂飙到 20 亿美元,涨了七倍多。同时,公司也低调发布了大模型 Mixtral 8X7B。Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (
GPT-4驱动的机器人化学家登Nature,自主设计反应并执行复杂实验
编辑 | X基于 Transformer 的大语言模型(LLM)在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说,人工智能方法并不那么容易理解。近日,卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基于 GPT-4 的智能 Agent(以下简称 Coscientist),用一个简单的语言提示就可以执行整个实验过程。能够自主设计、规划和执行复杂的科学实验。Coscientist 可以设计、编码和执行多种反应,在湿实验中
“数智说”工业智能化论坛成功举办
为了进一步汇聚起推进新型工业化的强大合力,推动数字蝶变行动落地见效,12 月 16 日,数智上海 2023 峰会“数智说”工业智能化论坛在上海市杨浦区举办,邀请高校知名专家学者、高端制造业企业和科技企业代表,共享工业数智化丰富经验成果与未来趋势洞见。活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技有限公司承办。上海市经济和信息化委员会软
”数智说”算力新基建论坛圆满举办
作为助推数字经济发展的“重要底座”,我国算力基础设施建设近年来正不断跑出建设“加速度”,为千行百业的数字化转型提供着坚实的算力支撑。12 月 16 日,数智上海 2023 峰会“数智说”算力新基建论坛在上海杨浦顺利举办。相关政府主管部门领导,智算服务供应商、运营商、云计算服务商、AI 芯片企业代表以及上海市算力网络协会代表齐聚一堂,共论产业发展新趋势、新格局。本次活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进
开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验,让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启,但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足,大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初,OpenAI 发布
做大模型时代的最佳云底座,百度智能云打出三套「组合拳」
不破不立,重构云计算这件事,百度智能云公布了最新进展。
4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。 这个推理引擎速度有多快?在单个 NVIDIA RTX 4090 GPU 上运行 LLM ,PowerInfer 的平均 token 生成速率为 13.20 tokens/s,峰值为