规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
性能优于规模更大的模型。多模态进修面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要拉拢不同来源的旌旗灯号。然而,这些模态具有不同的特性,很难通过单一模型来拉拢。例如,视频和文本具有不同的采样率。最近,来自 Google DeepMind 的钻研团队将多模态模型解耦成多个独立的、专门的自返回模型,根据各种模态的特性来处置惩罚输出。具体来说,该钻研提出了多模态模型 Miraso…- 6
- 0
单个A100生成3D图象只需30秒,这是Adobe让文本、图象都动起来的新格式
3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用鉴于 transformer 的 3D 大型重修模型来对多视图聚集从事去噪,并提出了一种新颖的 3D 生成格式 DMV3D,兑现了新的 SOTA 结果。2D 聚集模型极大地简化了图象内容的创作流程,2D 设计行业也因此发生了变革。近来,聚集模型已扩展到 3D 创作领域,减少了应用程序(如 VR…- 15
- 0
GPT-4+物理引擎加持分散模型,生成视频传神、连贯、合理
分散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体静止视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理仿照能力,以及分散模型的…- 5
- 0
「GPT-4只是在收缩数据」,马毅团队造出白盒Transformer,可解释的大模型要来了吗?
AGI 到底离我们还有多远?在 ChatGPT 引发的新一轮 AI 爆发之后,一部分研究者指出,大语言模型具备通过观察进行因果归纳的能力,但缺乏自己主动推理新的因果场景的能力。相比于持乐观预测的观点,这意味着 AGI 仍然是一个复杂而遥远的目的。一直以来,AI 社区内有一种观点:神经收集的进修过程可能就只是对数据集的收缩。近日,伯克利和香港大学的马毅教授领导的一个研究团队给出了自己的最新研究结果:…- 6
- 0
比「让我们一步一步思考」这句咒语还管用,提醒工程正在被改进
大言语模型可以通过元提醒执行主动提醒工程,但由于缺乏足够的指示以引导大言语模型中的复杂推理能力,它们的潜力可能没有完全发挥。那么该如何指示大言语模型举行主动提醒工程?大型言语模型(LLM)已经是许多自然言语处理任意的强大工具,只要能给出正确的提醒。然而,由于模型的敏感性,找到最优提醒通常需要举行大量手动尝试和试错努力。此外,一旦将初始提醒部署到生产环境中,可能会出现意想不到的边缘情况,需要更多轮的…- 7
- 0
人类考92分的题,GPT-4只能考15分:尝试一升级,大模型全都现原形了
AutoGPT 的得分也凉凉。GPT-4 自诞生以来一直是位「优等生」,在各种考试(基准)中都能得高分。但现在,它在一份新的尝试中只拿到了 15 分,而人类能拿 92。这套名叫「GAIA」的尝试题由来自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的团队制作,提出了一些必要一系列基本才智才能解决的课题,如推理、多模态处理、网页扫瞄和一般对象运用才智。这些课…- 7
- 0
小模型如何举行上下文进修?字节跳动 & 华东师大联合提出自进化文本辨别器
我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中进修,这种方式被称为「上下文进修」(In-context Learning)。这种上下文进修现象目前只能在大模型上观察到。比如 GPT-4、Llama 等大模型在非常多的领域中都表现出了杰出的本能,但还是有很多场景受限于资源或者实时性要求较高,无法使用大模型。那么,惯例大小的模型是否具备这种才能呢?为了探索小模型的上下文进修才…- 7
- 0
Meta对Transformer架构下手了:新注意力体制更懂推理
作者表示,这种全新注意力体制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的现实,但它们有时仍然容易犯一些简单的错误,表现出较弱的推理能力。举个例子,LLM 可能会因不相干的上下文或者输出提醒中固有的偏好或意见做出错误的判断。后一种情况表现出的课题被叫做「曲意逢迎」,即模型与输出保持一致。有没有要领来缓解这类课题呢?有些学者试图通过添加更多监督训练数…- 5
- 0
能总结履历、持续退化,上交把智能体优化参数的成本打下来了
大模型的出现引发了智能体计划的革命性变革,在 ChatGPT 及其插件系统问世后,对大模型智能体的计划和开发吸引了极大的关注。帮助完成预订、下单等使命,协助编写文案,自主从网络上搜索最新的知识与新闻等等,这种通用、强大的智能助理,让大模型强大的语义理解、推理才智将之变成了可能。 OpenAI 首届开发者大会上,Sam Altman 展示…- 5
- 0
PyTorch团队重写「分割一切」模型,比原始实现快8倍
我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在,生成式 AI 发展迅猛。但很多时候,我们又不得不面临一个难题:如何加快生成式 AI 的训练、推理等,尤其是在应用 PyTorch 的情况下。本文 PyTorch 团队的研究者为我们提供了一个解决方案。文章重点介绍了如何应用纯原生 PyTorch 加速生成式 AI 模型,此外,文章还介绍…- 5
- 0
用深度催眠引导LLM「逃狱」,香港浸会大学初探可信大语言模型
尽管大语言模型 LLM (Large Language Model) 在各种应用中取得了巨大成功,但它也容易受到一些 Prompt 的引导,从而越过模型内置的安全防护供给一些危险 / 违法内容,即 Jailbreak。深入了解这类 Jailbreak 的原理,加强相关研究,可反向促进人们对大模型安全性防护的重视,完善大模型的防御机制。 分歧于以往采用搜索优化或计算成本较高的推断方法来生成可 Jai…- 17
- 0
奖学金18万/年,香港科技大学(广州)数据迷信与分解方向招收全奖博士生
关于香港科技大学(广州)香港科技大学(广州)与香港科技大学在 “港科大一体,双校互补” 的框架下开展合作,地位平等,在学术规范、师资水平、课程质量等方面保持一致,实现资源共享、优势互补,共同助力国家与粤港澳大湾区发展。作为 HKUST 2.0 的重要组成部分,香港科技大学(广州)采用全新的、融会学科的学术架构,以 “枢纽”(Hub)和 “学域”(Thrust)取代传统学迷信术架构的 “学院” 和 …- 74
- 0
GPT-4V在主动驾驭上应用前景如何?面向真实场景的全面测评来了
GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研讨人员开始探索 GPT-4V 的实际应用潜力。最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对主动驾驭场景对 GPT-4V 的才智从事了难度递增的尝试,从…- 7
- 0
googleBard「破防」,用自然语言破解,提醒注入引起数据泄漏风险
操控 Bard 的秘密:运用一种叫提醒注入(Prompt Injection)的技术,黑客可以只使用自然语言破解人工智能系统。大型语言模型在生成文本时非常依赖提醒词。这种打击技术对于通过提醒词学习模型而言可谓是「以彼之矛,攻己之盾」,是最强长项,同时也是难以防范的软肋。提醒词分为系统指令和用户给出的指令,在自然语言中,这两者难以区分。如果用户有意在输入提醒词时,模仿系统指令,那么模型可能在对话里透…- 8
- 0
真正实现一步文生图,googleUFOGen极速采样,生成高质量图像
最近一年来,以 Stable Diffusion 为代表的一系列文生图分散模型彻底改变了视觉创作领域。数不清的用户通过分散模型产生的图片提升生产力。但是,分散模型的生成速度是一个老生常谈的问题。因为降噪模型依赖于多步降噪来逐渐将初始的高斯噪音变为图片,因此需求对网络多次计算,导致生成速度很慢。这导致大规模的文生图分散模型对一些注重实时性,互动性的使用非常不友好。随着一系列技术的提出,从分散模型中采…- 4
- 0
用AI大模型「改造」QQ浏览器搜刮,腾讯独家揭秘
1:引言自从搜刮引擎问世以来,信息检索算法历经多次技术更迭,其演进的历程可大致归纳为四个技术代际:1.0 文本索引 -2.0 超链分析 -3.0 机器学习 -4.0 深度学习。2022 年底,ChatGPT 成为全球技术焦点,其具备的多轮对话、推理和对长文本的理解能力,解决了以往搜刮引擎所无法有效解决的难题。然而,由于 GPT 目前还面临着许多挑战,例如大模型幻觉问题、高额的千次搜刮成本、变现模式…- 3
- 0
13B模型全方位碾压GPT-4?这背后有什么猫腻
你的尝试集信息在训练扩散泄漏了吗?一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项尝试还遵循了 OpenAI 的数据去污格式,更关键的是没有发现数据传染的证据。如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型功能都比较高。这背后到底有何猫腻?原来是数据传染了,即尝试集信息在训练扩散遭到泄漏,而且这种传染还不易被检测到…- 2
- 0
玩转围棋、国际象棋、扑克,DeepMind推出通用进修算法SoG
2016 年 3 月,一场机器人与围棋世界冠军、职业九段棋手李世石展开的围棋人机大战受到全球的高度关注。我们知道,最后的结果是 DeepMind 的机器人 AlphaGo 以 4 比 1 的总比分获胜。这是人工智能畛域一个里程碑性的事件,也让「博弈」成为一个热门的 AI 研究方向。AlphaGo 之后,DeepMind 又推出了赢得国际象棋的 AlphaZero、击败《星际争霸 II》的 Alph…- 2
- 0
GPT、Llama等大模型存在「恶化咒骂」,这个bug该如何缓解?
我们是否正在掉入中等智能陷阱?一个关于大言语模型 “恶化咒骂” 的分析与缓解方法。来自中国人民大学的钻研者将 Llama 等因果言语模型所遭遇的 “恶化咒骂” 归咎于 next-token prediction causal language model 的本质缺陷,并发现 GLM 选择的自回归填空的训练方法对这种 “恶化咒骂” 显示出更强的鲁棒性。通过将双向注意力机制引入 Llama 模型进行微…- 10
- 0
解决LLaMA、BERT等部署难题:首个4-bit浮点量化LLM来了
这篇文章给出了大模型 FP 量化的解决方案。大语言模型 (LLM) 压缩一直备受关注,后训练量化(Post-training Quantization) 是其中一种常用算法,但是现有 PTQ 方法大多数都是 integer 量化,且当比特数低于 8 时,量化后模型的准确率会下降非常多。想较于 Integer (INT) 量化,Floating Point (FP) 量化能更好的表示长尾分布,因而越…- 7
- 0
哼两句就能变歌曲,还有国宝歌手帮你演绎,音乐 Dall·E 2 时刻来了
机器之能报道编辑:Sia一个模型 两个性能=仅从文本提醒就能生成令人着迷的音乐和歌声。你是否有过这样的感受,脑海不时冒出各种旋律,却因对乐器一窍不通,无法将这些创意释放出来?今天 ,YouTube 和 Google DeepMind 强强联合推出的新服务能让你的创意和音乐实现无缝转化。在 Google DeepMind 提供的最复杂的 AI 音乐生成系统 Lyria 帮助下,YouTube 正在测…- 6
- 0
及时文生图速度提升5-10倍,清华LCM/LCM-LoRA爆火,浏览超百万、下载超20万
生成式模型进入「及时」时代?文生图、图生图已经不是什么新鲜事。但在使用这些工具的历程中,我们发现它们通常运行缓慢,导致我们要等一段时间才能拿到生成结果。但最近,一种名叫「LCM」的模型改变了这种情况,它甚至能做到及时的连续生图。 图源: 的全称是 Latent Consistency Models(潜伏一致性模型),由清华大学交叉信息研究…- 27
- 0
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
差不多已经掌握语言威力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《试过 GPT-4V 后,微软写了个 166 页的测评报告,业内人士:高级用户必读》。近日,微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起,打造出了更强大的 MM-Vid,其不仅具备其它 LMM 的基本威力,还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们…- 6
- 0
Agent4Rec来了!大模型智能体构成引荐零碎摹拟器,摹拟实在用户交互举动
一直以来,引荐零碎领域面临模型线上线下效果差距大的痛点问题,昂贵的线上 A/B 尝试成本使得广大研究人员望而却步,也造成学术界的引荐零碎研究与工业界的实际应用间的巨大割裂。随着大谈话模型展现出类人的逻辑推理和理解能力,鉴于大谈话模型的智能体(Agent)能否摹拟实在用户的交互举动,从而构建一个可靠的虚拟引荐 A/B 尝试场景,以帮助引荐研究的应用落地,是一个急迫、重要且极具经济价值的问题。为了回答…- 24
- 0
工程
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!