资讯列表
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理模拟能力,以及扩散模型的文生图能力,旨在大幅提升视频合成的质量。项目链接:::,GPT4Motion 使用 GPT-4 基于用户输入的文本 pr
谷歌:LLM找不到推理错误,但能纠正它
LLM 找不到推理错误,但却能纠正错误!今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)任务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理任务上,LLM 的表现仍然欠佳。那么,LLM 能否判断出自己的推理存在错误?最近,剑桥大学和 Google Research 联合开展的一项研究发现:LLM 找不到推理错误,但却能使用该研究提出的回溯(backtracking)方法纠正错误。论文地址::,有人提出异议,比如在 Hacker News 上,有人评论这篇论
第四波!2023年11月精选实用设计工具合集
大家好,这是 2023 年 11 月的第 4 波干货合集!这次的合集专门推荐了3个值得收藏的设计和艺术相关的网站,你可以在其中了解最新的艺术和设计作品,全球顶尖艺术院校的学生的毕业项目,以及最专业的艺术知识,另外的 3 个 AI 相关的工具也同样非常有趣,有基于 GPT 的 工具合集,也有可以帮你开发 iOS 应用的 AI 服务,还有基于歌词生成歌曲的 AI 工具。
当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:
1、内容超全的当代线上艺术档案馆
是一个内容极为丰富的、内里界
效率暴涨!5 款设计师必备的 Stable Diffusion WebUI 模型(四)
大家好,这里是和你们一起探索 AI 绘画的花生~
今天继续为大家推荐 5 款优质的设计类 Stable Diffusion WebUI 模型 ,包含春节插画、3D 电商场景、中式花草元素、商业扁平插画等。
上期回顾:一、CJillustration 春节插画
这是一个专门为春节炼制的 SDXL 大模型,是近几年国内比较流行的商业插画的风格。内容主要为家庭聚会和宴席,同时有灯笼、中式建筑等背景装饰,整体效果不错。下载链接: (附件有资源包)
推荐设置:启用高清修复可以优化人物面部;使用 ComfyUI 或者 Foo
比「让我们一步一步思考」这句咒语还管用,提示工程正在被改进
大语言模型可以通过元提示执行自动提示工程,但由于缺乏足够的指导以引导大语言模型中的复杂推理能力,它们的潜力可能没有完全发挥。那么该如何指导大语言模型进行自动提示工程?大型语言模型(LLM)已经是许多自然语言处理任务的强大工具,只要能给出正确的提示。然而,由于模型的敏感性,找到最优提示通常需要进行大量手动尝试和试错努力。此外,一旦将初始提示部署到生产环境中,可能会出现意想不到的边缘情况,需要更多轮的手动调整来进一步完善提示。这些挑战催生了自动提示工程的新兴研究领域。在这一领域内,一个显著的方法涉及利用 LLM 自身的
网络规模、训练学习速度提升,清华团队在大规模光电智能计算方向取得进展
编辑 | 紫罗随着大模型等人工智能技术的突破与发展,算法复杂度剧增,对传统计算芯片带来了算力和功耗的双重挑战。近年来,以光计算为基础、通过光电融合的方式构建光电神经网络的计算处理方法已经成为国际热点研究问题,有望实现计算性能的颠覆性提升。然而,光电神经网络的前向数学模型由对光场的精准物理建模得到,计算复杂度高、参数冗余度大;其学习机制沿用人工神经网络常用的梯度下降算法,面向大规模光电神经网络时优化速度慢、资源消耗高、收敛效果差。因此,现有学习架构仅能支撑小规模光电神经网络的训练,其网络容量和特征捕获能力不足以有效处
国内首个企业知识大模型发布,中关村科金提供可负担大模型服务
11月23日,在由中关村科金与中国信息通信研究院人工智能研究中心、人工智能关键技术和应用评测工业和信息化部重点实验室联合主办的“重构未来 产业智能跃迁”2023大模型产业前沿论坛上,中关村科金正式发布了国内首个企业知识大模型、AgentGraph应用开发平台,以及“超级员工”系列AIGC应用,为企业提供开箱即用、系统无缝衔接、成本可负担的专属领域大模型服务。站在大模型重构未来的新起点上,中关村科金将从底层模型到上层应用,对现有产品进行全面大模型改造和升级。国内首个!企业知识大模型助力业务价值创新增长中关村科金技术副
材质界的ImageNet,大规模6维材质实拍数据库OpenSVBRDF发布|SIGGRAPH Asia
在计算图形学领域,材质外观刻画了真实物体与光线之间的复杂物理交互,通常可表达为随空间位置变化的双向反射分布函数(Spatially-Varying Bidirectional Reflectance Distribution Function,缩写为 SVBRDF)。它是视觉计算中不可或缺的组成部分,在文化遗产、电子商务、电子游戏和视觉特效等领域中有着广泛的应用。在过去的二十年里,特别是深度学习流行后,学术界与工业界对高精度、多样化数字材质外观的需求不断增加。但由于技术上的挑战,采集大型数据库仍然十分困难,目前公开
全网大讨论:引爆OpenAI全员乱斗的Q*到底是什么?
强大到能威胁人类,所以不得不把自家 CEO 开了?本周三,OpenAI 的「宫斗」随着山姆・奥特曼回归 CEO 大位而告于段落,不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道,是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼的。最近几天,互联网上有关 Q* 的讨论前所未有的热闹。据 The Information 本周四报道,由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术突破,使得他们能够构建一个名为 Q*(音同 Q star)的新模型。Q
人类考92分的题,GPT-4只能考15分:测试一升级,大模型全都现原形了
AutoGPT 的得分也凉凉。GPT-4 自诞生以来一直是位「优等生」,在各种考试(基准)中都能得高分。但现在,它在一份新的测试中只拿到了 15 分,而人类能拿 92。这套名叫「GAIA」的测试题由来自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的团队制作,提出了一些需要一系列基本能力才能解决的问题,如推理、多模态处理、网页浏览和一般工具使用能力。这些问题对人类来说非常简单,但对大多数高级 AI 来说却极具挑战性。如果里面的问题都能解决,通关的模型将成为 AI 研究的重要
外媒:英伟达特供芯片H20推迟至明年一季度发布
AI 芯片发货再次出现了问题。英伟达最新的特供芯片,跳票了。本周五,路透社援引两位知情人士的消息称,英伟达已告知中国客户,将推迟其为遵守美国出口规则而设计的新型人工智能芯片的推出时间,直至明年第一季度。消息人士称,此次推迟发布的芯片是 H20,即最近专门为中国市场设计的三款芯片中性能最强的一款。意外的跳票可能会使英伟达在对抗本土竞争对手时,保持市场份额的努力再次受到影响。两周前,有关英伟达特供芯片的消息引起了人们的注意。据多家媒体报道,在 A800 和 H800 GPU 无法进口后,这家 AI 芯片巨头专门开发了一
小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器
我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learning)。这种上下文学习现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的性能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。那么,常规大小的模型是否具备这种能力呢?为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。目前,在实际应用场景中,场景文本识别面临着多种挑战:不同的场
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
AI 生成的视频终于能动了。最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。首先,作为最早探索视频生成领域的领头羊之一,Runway 升级了其 Gen-2 模型,带来了电影级别的高清晰度,令人瞩目,并称视频生成的一致性得到了重大改进。但是,这种一致性的提升似乎是以牺牲视频动态性为代价的。从 Gen-2 的官方宣传视频中可以看出,尽管集合了多个短片段,但每个片段的动态性相对较弱,难以捕捉到人物、动物或物体的清晰动作和运动。近期,Meta 也发布了视频生成模型 Emu Vide
留给谷歌的时间不多了:18年老员工辞职炮轰领导层
屠龙者终成恶龙?在互联网公司中,谷歌毫无疑问是成功者和方向的引领者,它所作出的诸多创新 —— 不论是技术上的还是管理方式上的,经常会是整个科技领域津津乐道的话题。以至于这让我们经常忽略到,谷歌已经是一个拥有十四万员工,成立 25 年的大公司了。最近,在谷歌待过 18 年后辞职的资深员工 Ian Hickson 发出了一篇博客,在 Hacker News 上引起了人们的广泛关注。有评论写道:当你是个新来者、颠覆者时,重点就是要与众不同;而一旦你获得了市场主导的地位,一切就不再是原来的样子了…… 这里最令人忍俊不禁的是
OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线
赶紧学习起来吧!OpenAI 的风波暂时告一段落,员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型(LLM)的 30 分钟入门讲座,但该讲座当时没录制。因此,他基于这场讲座重新录制了一个长达 1 小时的视频,希望让更多人看到和学习。视频的主题为《大型语言模型入门》,涵盖了 LLM 的推理、训练、微调以及新出现的 LLM 操作系统和 LLM 安全。视频主打「非技术性」,偏科普,所以更加容易理解。
Meta对Transformer架构下手了:新注意力机制更懂推理
作者表示,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的事实,但它们有时仍然容易犯一些简单的错误,表现出较弱的推理能力。举个例子,LLM 可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」,即模型与输入保持一致。有没有方法来缓解这类问题呢?有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决,但这些无法从根本上解决问题。近日 Meta 研究者在论文《System 2 Attentio
能总结经验、持续进化,上交把智能体优化参数的成本打下来了
大模型的出现引发了智能体设计的革命性变革,在 ChatGPT 及其插件系统问世后,对大模型智能体的设计和开发吸引了极大的关注。帮助完成预订、下单等任务,协助编写文案,自主从网络上搜索最新的知识与新闻等等,这种通用、强大的智能助理,让大模型强大的语义理解、推理能力将之变成了可能。 OpenAI 首届开发者大会上,Sam Altman 展示了 ChatGPT 作为智能助理的可能性。为了提升大模型智能体交互的性能和可靠性,目前学界已经提出了多种基于不同提示语技