资讯列表
大模型一定就比小模型好?谷歌的这项研究说不一定
在这个大模型不断创造新成就的时代,我们通常对机器学习模型有一个直观认知:越大越好。但事实果真如此吗?近日,Google Research 一个团队基于隐扩散模型(LDM)进行了大量实验研究,得出了一个结论:更大并不总是更好(Bigger is not Always Better),尤其是在预算有限时。论文标题:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models论文地址: 近段时间,隐扩散模型和广义上的扩散模型取得的成
CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾
古尔曼:苹果正自研设备端大型语言模型,赋能 AI 功能
感谢据彭博社记者马克・古尔曼 (Mark Gurman) 报道,苹果公司正在研发一种运行于设备端的大型语言模型 (LLM) ,旨在提升即将发布的生成式 AI 功能的响应速度和隐私保护能力。古尔曼在其“Power On”通讯中提到,苹果的这个 LLM 将成为该公司未来生成式人工智能功能的基础。与现今大多数云端人工智能服务不同的是,所有迹象都表明该模型将完全运行于用户设备之上。由于运行于设备端,苹果的 AI 工具在某些情况下可能会逊于直接运行于云端的竞品。不过,古尔曼指出,苹果可以通过授权使用谷歌等其他 AI 服务提供
AI 将帕金森病药物设计提速十倍,可识别阻止该病症特征蛋白聚集小分子
据英国剑桥大学官网,该校研究人员通过人工智能技术大幅加快了帕金森病治疗方法的开发进程。研究人员设计并使用了一种基于 AI 的策略,从而来识别阻止 α-突触核蛋白(IT之家注:帕金森病的特征蛋白)聚集的小分子。这也是寻找帕金森病潜在治疗方法的一条途径。该团队通过机器学习技术,快速筛选了一个包含数百万个条目的化学库,以识别与淀粉样蛋白聚集体结合并阻止其增殖的小分子,最终确定了 5 种高度有效的化合物供进一步研究。凭借人工智能“借力”,初始筛查过程现已被加快了 10 倍,成本也缩减至原本的千分之一,使研发出帕金森病潜在疗
海外写作平台 Medium 5 月起禁止发布完全由 AI 生成的付费类文章
据海外知名写作平台 Medium 官方新闻稿,从 5 月 1 日起,该平台将禁止发布完全由 AI 生成的付费文章内容。Medium 平台声称,自家是“供人类讲故事的平台”,而不是给“AI 写作机器竞技大擂台”,虽然 AI 能够帮助某些人更清晰地写作,或者辅助创作者以自己生疏的第二语言撰写内容,但全然由 AI 撰写的内容并不可取,从 2024 年 5 月 1 日起,禁止用户发布任何由 AI 生成的付费内容。IT之家注意到,如果相关作者在 5 月 1 日以后继续发布由 AI 生成的付费内容,用户有权进行举报,相关作者将
微软推出 VASA-1 AI 框架,可即时生成 512x512 40FPS 逼真对口型人像视频
据微软官方新闻稿,微软今天公布了一项图生视频的 VASA-1 框架,该 AI 框架只需使用一张真人肖像照片和一段个人语音音频,就能够生成精确逼真的对口型视频(生成念稿子的视频),据称在表情和头部动作方面特别自然。IT之家获悉,目前业界相关许多研究都集中在对口型上,而面部动态行为及头部运动情况通常被忽视,因此生成的面部也会显得僵硬、缺乏说服力且存在恐怖谷现象。而微软的 VASA-1 框架克服了以往面部生成技术的限制,研究人员利用了扩散 Transformer 模型,在整体面部动态和头部运动方面进行训练,该模型将所有可
GPT-4 化身黑客搞破坏,成功率 87%!OpenAI 要求保密提示词,网友复现 ing
91 行代码、1056 个 token,GPT-4 化身黑客搞破坏!测试成功率达 87%,单次成本仅 8.8 美元 (折合人民币约 63 元)。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架,研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后,学会利用漏洞攻击,而其它模型成功率为 0。研究人员表示,OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了,有人还搞起了复现。这是怎么一回
与真人无异!Heygen 5.0数字人又来炸圈了
是的,如今不仅是搬砖人,数字人也加入了“内卷”的行列,就问你怕不怕。从上世纪 90 年代至今,数字人一直在默默发展,而近年来,随着 5G、AI 等技术的进步以及算力平台的迭代,数字人领域取得了显著的成果。
一觉醒来,Heygen 5.0 的最新升级再次让人发狂,他们推出了一款名为 Avatar in Motion 1.0 的新功能,与之前只能坐着或站着口播,做几个重复简单动作讲述的数字人相比,现在的版本可以让数字人动起来了,走动式口播和演示几乎已经与真人无异了,看不出来是数字人了。当视频在手机上无法加载,可前往PC
爆肝整理!如何用AIGC轻松搞定春季运营海报设计?
AIGC 无疑是 24 年设计师热门话题之王,那么如何协助设计师高效的完成创作。从最近直播的人数来看,看的出来大家很喜欢之前我做的海报解析案例,今天依旧给大家带来一波运营长图设计解析。
随着大模型不断的优化,MJ 生成「可控性」越来越高,我们也应该学会用 AI 应用转换成精细化视觉表达,让创意高质量落地。MJ 仿佛一个庞大的资料库,对于我这个设计裁缝来说内心狂喜!
step1:前期对画面的创意构想
step2:将风格关键词和参考图喂给 MJ,得到满意的创意元素
step3:用 ps 把元素局部调优,产出更贴近预期的
蔚来开启国内最大规模城区智能驾驶应用
2024年4月20日,以"全域全量"为主题的蔚来智能驾驶发布会在北京举行。发布会上,蔚来宣布全域领航辅助NOP 城区功能,将于4月30日起,面向蔚来Banyan·榕智能系统用户进行全量推送。这标志着全国用户规模最大、验证可用范围最广、验证可用道路里程最长的智能驾驶系统即将服务用户。在发布全域领航辅助NOP 的同时,蔚来还宣布推出“智驾分”体系,并设立智能驾驶安全性与可用性衡量标准。蔚来智能驾驶的目标是,到2025年智驾使用时长占比达80%,10倍安全于人驾,真正推动实现“解放精力、减少事故”的智能驾驶终极愿景。最强
高通与 Meta 宣布合作,优化 Llama 3 大语言模型在智能手机等终端运行
Meta 公司昨日宣布推出下一代大语言模型 Llama 3,共有 80 亿和 700 亿参数两种版本,号称是最强大的开源大语言模型。与此同时,高通宣布支持 Meta Llama 3 在骁龙终端上运行。据介绍,双方将优化 Meta Llama 3 大语言模型(LLM)直接在智能手机、PC、VR / AR 头显和汽车等终端上的执行。开发者将能够访问高通 AI Hub 中的资源和工具,以实现在骁龙平台上优化运行 Llama 3,从而缩短产品上市时间并充分发挥终端侧 AI 的优势,包括出色的响应能力、增强的隐私性和可靠性,
中国代表性AR力量:Rokid AR Lite空间计算套装发布,软硬件全面升级
下一代消费电子 Rokid AR Lite,中国空间计算踏上差异化领先之路
谷歌整合 Research 和 DeepMind 资源,全力发展 AI
谷歌成立“Platforms & Devices”部门,整合统筹安卓软件和 Pixel 硬件资源之后,近日再次宣布重组旗下的 AI 部门,抽调 DeepMind 和 Google Research 团队组建新部门,集中力量研发、商用 AI。IT之家援引新闻稿内容,谷歌计划整合 DeepMind、Google Research 等团队资源,简化开发流程,集中资源开发性能更强、规模更大的 AI 模型。消息称在整合之后 DeepMind 团队主要负责构建 AI 模型,而 Google Research 则将重点转向基础计
4300字干货!如何使用AI发挥用户体验的最大价值?
“ 技术的发展使得 AI 能从多模态的信息中越来越精确地洞察用户行为,这给用户体验设计带来了更多的可能性,作为一名 AI 时代的用户体验设计师,如何利用 AI 发挥用户体验的最大价值,是我们需要探讨的一个重要课题。”一、AI在设计领域的应用现状
随着人工智能技术的飞速进步,我们见证了 ChatGPT、midjourney 这样的大型模型和图像生成工具的崛起,它们极大地提升了设计师的工作效率,使得设计师们能够更高效地实现创意,并且为视觉创作提供了前所未有的可能性。在设计领域,AI 有着非常显著和直观的应用价值,它主要
售价78.9万元起,极氪009光辉开启纯电四座超豪华MPV时代
今日,极氪汽车家族再添新成员,极氪智能科技正式发布四座超豪华旗舰MPV车型极氪009光辉,官方零售价为78.9万元起。即日起,用户可通过极氪App、极氪官网、极氪小程序、全国各大城市的极氪门店等官方渠道进行预定,并将于5月19日,正式开启全国交付。限时购车权益:从2024年4月19日至2024年5月31日(含),支付50,000元定金的极氪009光辉新车首任非营运车主,可终身享受「安心护航计划」,包括但不限于车辆全生命周期的免费保养,雨刮片、制动片、制动盘等免费更换,以及无限次维保取送车(细则详见公告)。极氪新车首
浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力
去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。 如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而国内,大模型公司开始考虑商业化,落地应用成为国内大模型的主旋律。 但在这个过程中,当大模型走进应用,如何更好地落地,已然成为一众AI领域厂商关注的焦点所在。
下接万卡集群、上连AI原生应用,操作系统的进化超出你的想象
从此,操作系统被赋予了新的内核,也让应用开发体验迎来前所未有的新变化。大模型发展至今,还能带给开发者哪些惊喜呢? 在 4 月 16 日举办的 2024 百度 Create AI 开发者大会上,百度智能云扔下一颗「重磅炸弹」,重新定义了计算机的核心系统软件 —— 操作系统。 会上,百度集团执行副总裁、百度智能云事业群总裁沈抖宣布正式发布新一代智能计算操作系统 —— 万源。在大模型技术不断推动云服务向 AI 靠拢的当下,这成为了百度跳出传统云计算、革新 AI 原生应用开发体验的一大举措。
CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。来自香港科技大学,清华大学的研究者提出了「GenN2N」,一个统一的生成式 NeRF-to-NeRF 转换框架,适用于各种 NeRF 转换任务,例如文字驱动的 NeRF 编辑、着色、超分