资讯列表
国内视频生成爆发前夕,我们组织了一场核心玩家都参与的分享交流会
近几个月来,视频生成领域陆续发布了新技术、新模型和新工具,AI 生成的视频效果也得到了肉眼可见的提升和颠覆。很多人认为,人工智能领域接下来公认的主战场,毋庸置疑是视频生成技术。图 1:2023 年 AI 视频工具概览 图片来源: Pika 1.0 全面开放、Runway 发布的 Gen-2 开始商业化探索、Meta、Moonvalley 和 Stability AI 等公司陆续发布了 AI 视频工具等,视频生成在整个 AI 领域掀起了讨论热潮。与此同时,当我们把视线聚焦在国内的 AI 视频生成领域上,同样也看到了
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。进入现今的大模型 (LLM) 时代,又有研究者发现了左右互搏的精妙用法!近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种新方法 SPIN(Self-Play Fine-Tuning),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。顾全全教授表示:「授之以鱼不如授之以渔:通过
大模型正在重构机器人,谷歌Deepmind这样定义具身智能的未来
过去一年中,连连取得突破的大模型正在重塑机器人研究领域。在最先进的大模型成为具身机器人感知世界的「大脑」之后,机器人的进化速度取得了远超想象的进步。7 月,谷歌 DeepMind 宣布推出 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。只需要向对话一样下达命令,它就能在一堆图片中辨认出霉霉,送给她一罐「快乐水」。甚至能主动思考,完成了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。在 RT-2 之后,谷歌 DeepMind 又提出了 Q-Transformer,机器人界也有
Stable Diffusion ComfyUI 基础教程(六):图片放大与细节修复
往期回顾:补充:
①在开始之前推荐一个插件,ComfyUI-Manager(ComfyUI 管理器),下载地址:
②安装方式除了可以使用我们第一节课上讲的 “git 拉取”外( 不要使用压缩包解压安装),还可以把“install-manager-for-portable-version.bat”文件放入"ComfyUI_windows_portable"目录双击安装(“install-manager-for-portable-version.bat”文件我会放在这节课的文件链接里面);③安装好之后会在右侧菜单上显
AIGC大厂实战!如何用 Stable Diffusion 制作超级符号海报?
前言
品牌符号宣传海报作为品牌运营很重要的曝光手段,随着 AI 技术的不断发展,已经逐渐替代传统设计方法,质量和效率的提升使它成为热门的超级符号延展设计方式,今天我们就来了解下这套设计方法论,解析利用 AI 生图制作超级符号海报的方式。
更多AIGC实战案例:一、SD 品牌运营实例:抖音 天猫 文字
我们可以看到各大设计网站展示的用 AI 制作的符号海报,有文字、图形等,它们大多设计样式丰富,成矩阵展示,画面精致度很高,充满想象力,并且耗时特别少,产量很丰富,那么这样的海报是怎么生成制作的呢?下面带来一步步的解析。
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新的大规模 RRSIS 数据集(RRSIS-D),其中涵盖了多种空间分辨率的图像和具有尺度和角度多样性的分割目标(已公开!)。同时还提出了多尺度交互模块和旋转卷积(已开源!),以处理遥感图像的复杂性。实验证明,RMSIN 方法在 RRSIS 任务上表现优于当前最先进的方
ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题
在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的成绩,达到国际领先水平。ICASSP峰会上的音频挑战赛由国际音频顶级会议 ICASSP 和微软联合发起,旨在激发各研究构在音频效果与音质提升上的研究,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百
OpenBayes贝式计算携手机器之心推动AI开发者社区的创新与发展
点击阅读原文,立即获得由OpenBayes贝式计算提供的 NVIDIA RTX 4090、A6000、RTX 3090 等算力支持,在机器之心开启你的专属 SOTA!模型社区模型实测频道!~OpenBayes贝式计算作为中国领先的人工智能及高性能计算服务提供商,将作为机器之心SOTA!模型社区2023 – 2024年度技术合作伙伴之一,共同为中国开发者社区提供强大且丰富的存储与算力支持。此次合作旨在促进开发者利用最新的技术实现他们的创意与梦想,通过开箱即用的在线服务,打造更符合个人及业务需求的大模型应用实例。本次合
准确率68.7%、召回率49.6%,牛津、EPFL等团队开发基于Transformer架构的WES数据体细胞和种系CNV调用程序
编辑 | 萝卜皮拷贝数变异(CNV)与多种遗传性疾病的病因有很大关联。利用全外显子组测序(WES)数据准确检测 CNV 一直是临床上长期追求的目标。尽管最近性能有所提高,但这是不可能的,因为算法大多精度低,专家策划的黄金标准调用集的召回率甚至更低。牛津大学(Oxford University)、瑞士洛桑联邦理工学院(EPFL)以及土耳其毕尔肯大学(Bilkent University)提出了一个基于深度学习的 WES 数据体细胞和种系 CNV 调用程序,名为 ECOLE。基于 Transformer 架构的变体,该
确保实验室安全,港中大徐曜论述AI驱动的高通量自动化实验平台的重要性
作者 | 徐曜编辑 | S2023年,全球高校化学实验室安全事故频繁发生,这一现象凸显了教育领域对实验室安全的重视已迫在眉睫。从4月10日浙江一高校动物房的火灾事件,到8月17日台湾一大学化工系实验室的爆炸,再到11月30日河北一高校药学院的药化实验室火灾,虽然这些事故没有直接导致人员伤亡,但对实验动物和科研设施造成了重大损害。这些案例提醒我们,加强高校实验室的安全管理和风险预防工作是不容忽视的。图1:高校实验室安全问题依旧严峻。为应对这一挑战,市场上涌现出了一系列创新产品和技术。这些技术旨在通过高通量、模块化流体
Nature子刊 | 通过视频去噪扩散模型进行非线性机械超材料逆向设计
编辑 | 绿萝复杂材料特性的逆向设计,在解决软机器人、生物医学植入物和织工程等方面具有巨大潜力。尽管机器学习模型提供了此类逆映射,但它们通常仅限于线性目标属性。近日,苏黎世联邦理工学院(ETH Zurich)的研究人员为了定制非线性响应,证明了在周期性随机 cellular 结构的全场数据上训练的视频扩散生成模型,可以成功地预测和调整它们在大应变状态下的非线性变形和应力响应,包括屈曲和接触。成功的关键是打破直接学习从属性到设计的映射的常见策略,并将框架扩展为内在估计预期变形路径和全场内应力分布,这与有限元模拟非常一
2023小米百万美金大奖出炉:澎湃OS、车身一体化压铸技术获奖
第五届技术大奖,这次又有全新的方向。
快速筛选海量数据,即时做出明智决策,MIT、普林斯顿&卡内基梅隆大学团队利用LLM进行聚变研究
编辑 | X可控核聚变能具有安全、清洁、燃料丰富等优点,是解决人类未来能源问题的主要选择之一。也许最有前途的核聚变装置是托卡马克(Tokamak)。尽管前景光明,但在人类和经济型托卡马克发电厂之间仍然存在重要的悬而未决的问题。自核聚变研究开始以来,科学家们已经发表了数千份有关该主题的文件——论文、会议记录,甚至是世界各地聚变反应堆先前实验的书面日志。这样的信息源泉可能需要用一辈子的时间来阅读,甚至需要更长的时间来理解。然而,在圣地亚哥 DIII-D 国家聚变设施进行的实际聚变实验中,研究人员在两次试验之间只有大约
大模型加持的「全科AI家教」正式上岗,一场解放家长的教育革命在路上了
让大模型给孩子当全科家教,靠谱吗?辅导孩子功课,是每一位家长注定要经历的「修行」。「为什么一道题讲几遍还是不会做?」「我是本科学历,本来以为能够自己在家辅导孩子,没成想才初一课程就碰了钉子。」相信大家对这些话的语境一定很熟悉。在打工一整天之后,再拖着疲惫的身躯亲自辅导作业,让很多家长真实地感到头疼。再加上,随着孩子年级的升高,课程中的知识点越来越丰富,家长辅导孩子功课也越来越吃力。有些简单的题目,家长们还可以指点一二,但谈到「全科辅导」,很多家长对知识的理解也并不充分,未必能很好地为孩子答疑解惑。其实,面对这个难题
马斯克也逃不过「科目三」,阿里这个应用都要把外国人馋哭了
阿里开年整新活了。最近,不少社交平台都被一种名为「科目三」的舞蹈视频刷屏了,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一舞蹈动作遭全网模仿。对于有点舞蹈功底的人来说,学会「科目三」并不是一件很难的事,但对于四肢不是很协调的小伙伴而言,这可真是有点难度了。为了让广大网友学会这个舞蹈,还有人出了保姆级分解教程,声称几分钟速成大摇子。其实,对于想要跳舞的你来说,根本不用真人出镜,一张照片就能化身舞蹈达人。不信,你看,一位小姐姐正在你面前大秀舞技视频链接:,不,不,不!眼见不一定为真,其实这是根据照片生成的,而且只需一
室温超导有续集?中国团队再次证明LK-99可能存在迈斯纳效应,论文刚刚上传
铜取代铅磷灰石可能在室温下存在迈斯纳效应。一篇室温超导论文,再次掀起了互联网的小小波动。在最新的一篇论文中,作者们再次证明了室温下铜取代铅磷灰石(LK-99)中可能存在迈斯纳效应。论文链接:,用铜取代的铅磷灰石在 25 Oe 的磁场下观察到抗磁性直流磁化,在零场冷却和场冷却测量之间存在明显的分歧,在 200 Oe 下变为顺磁性。在冷却过程中发现了玻璃记忆效应。超导体的典型磁滞回线在 250 K 以下被检测到,同时磁场的前后扫描不对称。我们的实验表明,在室温下,这种材料可能存在迈斯纳效应。鉴于还没有仪器能测到理论严格
李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了
即使遮挡,也能渲染出高保真的 3D 人体。AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄像头视角,这些方法仍能从新的视角准确地渲染人体。不过,大多数现有的方法在渲染人体时都是针对较为理想的实验场景进行设计的。在这些场景中,障碍物几乎不存在,人的各个身体部分在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实
让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。随着具身智能(Embodied AI)时代的来临,我们期待智能体能主动与环境进行交互。在这个过程中,让机器人融入人类生活环境、与人类进行交互(Human Robot Interacti