资讯列表
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
苹果最新的 AI 工具可以使用文本描述为图像制作动画。现阶段,大模型惊人的创新能力持续影响着创意领域,尤其是以 Sora 为代表的视频生成技术,更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时,或许苹果的这项研究也值得大家关注一下。在一篇名为 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
智能本质、对齐、Gemini、超人类AI和多模态、AGI……在这场干货满满的访谈中,Demis Hassabis可谓「知无不言、言无不尽」。「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。在长达一个小时的节目中,Hassabis 分享了自己对智能本质、强化学习、规模扩展和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
近期,清华大学和哈尔滨工业大学联合发布了一篇论文:把大模型压缩到 1.0073 个比特时,仍然能使其保持约 83% 的性能!自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。
Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。 可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。 面对 Sora 着实优异的视频生成效果,短时间内 AIGC 行业内掀起一轮又一轮讨论,一方面,没人想到 OpenAI 的动作如此之快,令人激动兴奋的同时也来不及招架,另一方面,也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊,并声称会迎来行业洗牌。
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。 UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出
马斯克起诉OpenAI:他们做出了AGI还授权给微软,这是对创始协议赤裸裸的背叛
AGI 做出来了吗?创始协议在哪儿?马斯克起诉 OpenAI 的诉讼文件疑点满满。在刚刚过去的一天,「沉湎于戏剧性冲突」的马斯克又做了一件新鲜事:他起诉了自己参与创立的 OpenAI。在诉讼文件中,他指控 OpenAI 不计后果地开发人类级别的人工智能,并将其移交给微软。马斯克的诉讼针对的是 OpenAI 及其两名高管 —— 首席执行官 Sam Altman 和总裁 Greg Brockman,他们两人与马斯克合作,于 2015 年创立了这家公司。诉讼称,这两人违反了与马斯克最初达成的「创始协议」,该协议承诺公司将
2万多亿美元,英伟达市值创新高,华尔街排第三
这么看来,老黄的身家又涨了。英伟达,现在已是「地球上最重要的一支股票」了。据路透社消息, 在戴尔发布乐观报告后,英伟达股市价值在周五收盘首次超过 2 万亿美元。重新点燃了华尔街由人工智能驱动的涨势。英伟达股价在戴尔发布乐观预测后上涨了 4%。戴尔公司在周四晚些时候指出,英伟达针对人工智能优化的服务器订单激增。由于自身销售的高端服务器采用了英伟达的处理器,戴尔股价一度飙升 38%,创下历史新高,收盘时涨幅为 32%。周五的涨势使得英伟达市值达到 2.06 万亿美元,使其成为仅次于微软和苹果的华尔街第三大价值公司,微软
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
有人表示:「等待已久的 AI 图像创建功能终于迎来了图层!」尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑软件和工作流程都是基于层的,严重依赖透明或分层元素来组合和创建内容。来自斯坦福大学的研究者提出了一种「latent transparency(潜在透明度)」方法,使得经过大规模预训练的潜在扩散模型能够生成透
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式
效率翻倍!6 款不容错过的免费 AI 神器
大家好,这里是你们一起探索 AI 的花生~
好久没有做效率神器推荐了,最近接连看到了好几个非常有意思 AI 小工具,今天正好整理一下推荐给大家~
相关推荐:一、Catjourney
网址直达:
Catjourney 是由 @歸藏 和 @ LysonOber 联合开发的一个提示词网站,专门收录高质量的 AI 绘画提示词,可以一键复制并用于 Midjourney、Dall·E 3 的出图;最近还新增了 Catjourney Weekly 版块,后续会在里面更新一些 Midjourney 的基础使用技巧。整个网站设计得
如何用AIGC制作MV视频?全流程教程来了!
春节利用AIGC工具制作了一首嘻哈《恭喜发福》MV。这首歌很喜庆鬼畜,满满画面感。
(歌手:孙旭/讲究制噪/DJ Baker/西略CRAT)当视频在手机上无法加载,可前往PC查看。接下来给大家拆解一下整个设计流程。
更多AI视频神器:2024年,注定是AIGC发展的重要一年!
从去年12月从Runway、Pika到前几天OpenAI发布劲爆更新Sora模型!AI视频直接生成60s,短短三个月 AI视频开始爆发式增长。
美图AI局部重绘技术大揭秘!想怎么改,就怎么改!美图局部重绘让你随心所欲
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不下。在带来欢笑和热度的背后,也代表人们在时刻关注着AI究竟能不能真正帮助他们解决实际问题,优化使用体验。但可以预见的是,随着AIGC技术的快速发展,正在加速推动AI应用场景落地,我们也将迎来一场全新的生产力变革。近日,美图公司旗下WHEE等产品上线AI扩图及AI改图功能,只需简单的提示性输入,用户就可以任意修改图像、移除画面元素、扩充画面,凭借便捷的操作与惊艳的效果,
“国家队”评测30个大模型数学能力,九章、文心、星火位列前三
去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类
这下火了,半个硅谷科技圈都投了它
机器之能报道编辑:SIA几小时前,人形机器人公司 Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到更惊人的 26 亿美元。一眼望去,感觉半个硅谷科技圈的腕儿都投了它:微软、英特尔、OpenAI Startup Fund(也投了 1X )、Amazon Industrial Innovation Fund (也投了 Digit )、英伟达、贝索斯、“木头姐”的方舟投资、Parkway Venture Capital、Align Ventures 等。自 2023 年 1 月退出隐身模式以来,F
“国家队”入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资
近日,杭州联汇科技股份有限公司(以下简称 “联汇科技”)宣布完成新一轮数亿元战略融资,投资方由中国移动产业链发展基金中移和创投资、前海方舟(前海母基金管理机构)旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。领投方中国移动产业链发展基金中移和创投资是贯彻落实中央企业现代产业链链长工作要求,由中国移动与北京市政府、上海市政府发起成立,服务于数字经济、移动信息现代产业链发展、战略新兴产业等国家战略。据悉,本轮融资将主要用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展,扩大其在运营商、能源电力、媒
白宫发文,呼吁开发者放弃C、C++:Rust被「钦点」内存安全
近年来,C、C 编程语言成了美国官方的「眼中钉」,而内存安全的 Rust 等语言摇身一变成了「新宠」。近日,在一份 19 页的报告《回归基础构件:通往安全软件之路》中,白宫国家网络主任办公室(ONCD)呼吁开发者使用「内存安全的编程语言」,比如 Rust 语言。报告指出,从一开始就选择内存安全的编程语言,是以安全设计方式开发软件的重要途径。此外,ONCD 表示,报告中的建议是与包括科技公司、学术界和其他机构合作制定的,并收集了包括惠普、埃森哲和 Palantir 在内等多家科技公司支持报告的意见。报告地址:,这
微软37页论文逆向工程Sora,得到了哪些结论?
一篇论文回顾 Sora 文生视频技术的背景、技术和应用。追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向?Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。在最近的一篇文章中,微软研究院和理海大学的研究者根据已发表的技术报告和逆向工程,首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限和未来机遇。论文标题:Sora: A Review on Background, Technology, Limit