资讯列表

口型几乎完美、还能卡点,霉霉说地道中文的视频火了,背后AI工具原来是它

这么看来,AI 配音真的可以「以假乱真、真假难辨」。这两天,美国女歌星霉霉(泰勒・斯威夫特)一则说中文的短视频在各社交平台火了起来。有的播放量已经达到了 600 多万。在视频里,霉霉操着一口流利、地道的中文,神情自若,几乎没有早期译制片女主角的那种腔调,口型也能对得上。                                                  图源:微博 @会火还没有看过视频的小伙伴们,我们先来一睹为快。                            视频作者:johnhuu 教英语

你的GPU能跑Llama 2等大模型吗?用这个开源项目上手测一测

你的 GPU 内存够用吗?这有一个项目,可以提前帮你查看。在算力为王的时代,你的 GPU 可以顺畅的运行大模型(LLM)吗?对于这一问题,很多人都难以给出确切的回答,不知该如何计算 GPU 内存。因为查看 GPU 可以处理哪些 LLM 并不像查看模型大小那么容易,在推理期间(KV 缓存)模型会占用大量内存,例如,llama-2-7b 的序列长度为 1000,需要 1GB 的额外内存。不仅如此,模型在训练期间,KV 缓存、激活和量化都会占用大量内存。我们不禁要问,能不能提前了解上述内存的占用情况。近几日,GitHub

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来,大型多模态模型 (LMM) 引起了研究界越来越多的兴趣,许多工作致力于构建多模态 GPT-4。 近日,GPT-4V (ision) 由于出色的多模态感知和推理能力得到了大家格外的关注。然而,尽管 GPT-4V 具

陶哲轩上手Copilot:不可思议,它能从定理名字猜出我想要的方向

尝鲜 GPT-4 之后,陶哲轩又用上了 Github Copilot。这一次,他的试用场景是学习 Lean 语言并利用其形式化数学定理。对于大模型来说,形式化的定理证明也算一种挑战。形式化证明本质上是一种计算机程序,但与 C 或 Python 中的传统程序不同,证明的正确性可以用证明助手(比如 Lean 语言)来验证。定理证明是代码生成的一种特殊形式,在评估上非常严格,没有让模型产生幻觉的空间。而陶哲轩提到的定理,来自 10 月 9 日的一篇论文:论文中的这个证明只有不到一页,但陶哲轩的形式化证明使用了 200

AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述

AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型,而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。然而,与简单的静态图像相比,视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程,因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在

数学逻辑和计算机程序代码之间的深层联系:互为镜像

数学证明=计算机程序?什么是柯里-霍华德对应?一些科学发现被赋予了重要的意义,因为揭示了一些新的东西,比如 DNA 的双螺旋结构或黑洞的存在。但是,揭示出的这些东西还具有更深远的意义,因为它们表明:两个之前看起来大不一样的老旧概念事实上却是一样的。比如詹姆斯・克拉克・麦克斯韦发现的方程组表明,电与磁是同一个现象的两个不同方面,而广义相对论则把引力和弯曲的时空联系到了一起。柯里 - 霍华德对应(Curry-Howard correspondence)也是一样,并且它关联的不仅仅是一个领域中的两个不同概念,而是两个完整

ChatGPT与DALL·E 3之间的行业「黑话」被人发现了

原来,礼貌和强调(emphasis)在大型语言模型(LLMs)的沟通中也发挥着意想不到的作用。上个月底,OpenAI 发布了最新图像生成器 DALL・E 3,除了炸裂的生成效果外,最大看点是其与 ChatGPT 的集成。DALL・E 3 构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。这样一来,用户无需在 prompt 上花费太多时间。随着用户不断测试 DALL・E 3 应用程序的功能,有人开始注意到一些非常有趣的 bug,显示出了 DALL・E 3 与 ChatGPT 之间共享

解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区

过去十年间,AI 技术经历了巨大的飞跃,无论是在自然语言处理、图像识别,还是在更多的创新领域,AI 的影响已无所不在。伴随着研究数量的爆炸性增长,学术界和工业界同样面临着一些挑战,其中就包括「论文复现」和「跨学科协作」的难题。特别是当我们来到了大模型时代,面对动辄百亿参数量的模型研究,开源、复现、协作变得更加重要,但难度却更上一层楼。论文复现,首先是评判一项成果价值的重要参考因素。同时,在快速发展的 AI 领域,确保研究的可复现性将更好地推动知识的积累和技术的普及,也是维护学术诚信和促进持续创新的关键所在。面对这些

清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light

清华大学朱文武教授团队自 2020 年发布智图库(AutoGL)以来,在图自动机器学习的可解释性和可泛化能力等方面取得新进展,特别关注于图 Transformer、图分布外泛化(OOD)、图自监督学习等方面,发表图神经架构搜索评测基准,并在中国新一代开源创新服务平台 GitLink 上发布首个轻量智图库(AutoGL-light)。智图库回顾图(graph)是描述数据间关系的一般抽象,广泛存在于不同的研究领域中并有许多重要应用,例如社交网络分析、推荐系统、交通预测等互联网应用,新药物发现、新材料制备等科学应用(AI

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升

IBM 再度发力。随着 AI 系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM 和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM 还测试了在相变存储器中执行神经网络计算,以避免重复访问 RAM。现在,IBM 又推出了另一种方法。该公司的新型 NorthPole 处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行方

有了GPT-4之后,机器人把转笔、盘核桃都学会了

GPT-4 和强化学习强强联合,机器人的未来将是什么样子?在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。这个机器人名叫 Eureka,是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和强化学习的研究成果:用 GPT-4 来完善奖励函数,用强化学习来训练机器人控制器。借助 GPT-4 写代码的能力,Eureka

聚焦计算赋能创新,第三届智能计算创新论坛成功举行

新型计算方法的最新发展状况如何?能够帮助实现智能计算系统的先进技术是怎样的?如何利用智能方法辅助计算系统设计、调度和理论研究?怎样推动智能计算软硬件平台在科学研究、产业创新和社会发展中得到更广泛的应用?10月19日-20日,由之江实验室与Science/AAAS共同主办第三届智能计算创新论坛顺利举行,美国国家工程院院士、摩根大通人工智能研究负责人Manuela Veloso,中国科学院院士、之江实验室计算材料首席科学家张统一,清华大学类脑计算研究中心主任施路平教授,英国帝国理工学院教授Björn W.Schulle

评论能力强于GPT-4,上交开源13B评估大模型Auto-J

随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了公众对技术可靠性的担忧。为此,上海交通大学生成式人工智能实验室迅速响应,推出了一款全新的价值对齐评估工具:Auto-J,旨在为行业和公众提供更加透明、准确的模型价值对齐评估。论文地址:::,该项目开源了大量资源,包括:Auto-J 的 130 亿参数模型(使用方法,训

智加科技多项成果亮相ITS World Congress 两款智能重卡计划量产

2023年10月16日-20日,第29届智能交通世界大会(ITS World Congress)在苏州国际博览中心成功举办。智能交通世界大会被誉为智能交通领域的“奥运会”,是智能交通领域最具影响力的综合性国际会议,也是智能交通业界规格最高、规模最大、范围最广的成果展示与技术交流平台。智加科技携自动驾驶技术多项应用成果精彩亮相在第29届智能交通世界大会。与两大头部重卡主机厂达成合作 两款智能重卡计划量产智加科技宣布联合江淮汽车专为快递快运市场打造的智能重卡K7 ,将于10月底量产交付于中通快运,在双十一快递快运运营中

​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

大模型家族来了一个专门解决数学问题的「新成员」——Llemma。如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。不过如果想要在某一领域(如医学、金融或科学)内最大限度地提高性能,那么特定领域的语言模型可能会以给定的计算成本提供更优越的能力,或以更低的计算成本提供给定的能力水平。普林斯顿大学、 EleutherAI 等的研究者为解决数学问题训练了一个特定领域的语言模型

如何使用ChatGPT定制各种实用小工具?我总结了6个!

ChatGPT 的能力让人难以想象,限制 ChatGPT 能力的只会是使用者的想象力。 在日常使用中,我通过 ChatGPT 定制了很多实用小工具。以前需要借助其他产品完成的需求,现在通过 ChatGPT 就可以完成,而且效果很好。 之前我分享了如何使用 ChatGPT 做定制化模型:一、翻译工具 在以前日常工作生活中,需要翻译时,我都是通过搜索使用百度/谷歌翻译。 对于句子的翻译,机器翻译往往不够精准,有一股机译的味道。而 ChatGPT 具备强大的语言能力,在翻译这一点上质量更高。 如下图,当我输入英文,则 C

科学家使用外推ML方法加速发现新型催化剂

编辑 | 萝卜皮设计新型催化剂是解决许多能源和环境挑战的关键。尽管包括机器学习 (ML) 在内的数据科学方法有望加速催化剂的开发,通过机器学习方法很少发现真正新颖的催化剂,因为它最大的局限性是假设无法推断和识别特殊材料。北海道大学(Hokkaido University)的研究人员展示了一种外推机器学习方法来开发新型多元素反向水煤气变换催化剂。使用 45 个催化剂作为初始数据点,并执行闭环发现系统的44个循环(ML预测 实验),研究人员对总共 300 种催化剂进行了实验测试,并鉴定出 100 多种催化剂,这些催化剂

中国科大团队开发用于原子系统对外部场响应的通用机器学习模型

编辑 | 萝卜皮机器学习的原子间相互作用势使得封闭系统的高效、准确的分子模拟成为可能。然而,可以极大地改变化学结构或反应性的外部场,很少被包含在当前的机器学习模型中。中国科学技术大学的研究人员提出了一种通用场诱导递归嵌入原子神经网络(field-induced recursively embedded atom neural network,FIREANN)模型,该模型将伪场矢量依赖特征整合到原子描述符中,以表示具有严格旋转等变性的系统-场相互作用。这种「一体式」方法将偶极矩和极化率等各种响应特性与单个模型中的场相