资讯列表
研究没思路的看过来,这是可信机器学习的1000个创新idea
1. 先讲一个故事大概在 4-5 年前的时候,我还是卡内基梅隆大学(CMU)的 phd。身处在名校光环的照耀下,再加上顶级导师的加持,我对于科研和创新一向有极高的标准。我们决定要花时间的东西,一定不能是简单的东西。而且有很长一段时间,我一直以为大部分人都是这样想的。直到有一次,在开会的时候我看到一个女孩在展示一个 poster,内容大概就是把 LSTM 用在基因表达(gene expression)上的预测效果比上个时代的 SVM 之类的效果要好。这实在是没有什么意外的,毕竟当时大家已经知道了,RNN 家族(就比如
Keras 3.0正式发布:可用于TensorFlow、JAX和PyTorch
经过 5 个月的更新迭代,Keras 3.0 终于来了。「大新闻:我们刚刚发布了 Keras 3.0 版本!」Keras 之父 François Chollet 在 X 上激动的表示。「现在你可以在 JAX、TensorFlow 以及 PyTorch 框架上运行 Keras……」对于这一更新,Keras 官方表示,这一版本足足花了他们 5 个月的时间进行公测才完成。Keras 3.0 是对 Keras 的完全重写,你可以在 JAX、TensorFlow 或 PyTorch 之上运行 Keras 工作流,新版本还具有
训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解
北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。论文地址: 地址: 地址: 地址: 图 1 Chat-UniVi 在图片
可能是最强AI绘图插件!如何在PS中使用Stable Diffusion?
「天空一声巨响,川子闪亮登场!」,大家好,我是言川,在经过两个月的学习和沉淀(拖更)之后,我回归写文章这件有趣的事情上来了。老规矩,先说下本篇文章是个什么玩意儿,咳咳~各位设计总监们,玩过 PS 吧(应该说是 Photoshop)。各位 AI 大神们,听说过并且玩过 SD 吧(Stable Diffusion)。这两款都是独立且庞大的设计软件,并且经过今年 AI 浪潮的洗礼,我们似乎在设计中好像很难完全无视掉 SD 这款强大且可控性极强的 AI 软件。
而在设计师的工作中,PS 也基本是设计师必用的软件之一,但是
600万辆的「丰收」:比亚迪做对什么了
作者 / 华卫11月24日,比亚迪第600万辆新能源汽车在郑州工厂完成下线。今年8月,比亚迪才宣布完成第500万辆新能源汽车下线。两次下线捷报之间,只相隔了短短三个多月时间。从2008年入局新能源汽车,到完成100万辆新能源汽车下线,用时13年;从100万辆到300万辆,用时一年半;而从300万辆到如今的第600万辆下线,仅花费12个月的时间。不断走高的销量速度和规模,印证了比亚迪在国内和海外市场的双「丰收」。要说这背后的功臣,莫过于比亚迪在各个细分市场打造的爆款车型。此外,就得细数为其赢得人心的一系列智能化技术了
2023“欧贝杯”工业品供应链数据智能创新大赛正式开启!
2023第二届欧贝杯工业品供应链数据智能创新大赛为促进工业品 B2B 电商产业生态建设,推进大语言模型与实体经济深度 融合,在成功举办 2022 第一届欧贝杯的基础上,欧冶工业品股份有限公司 与上海市电子商务行业协会在上海市经济与信息化委员会的指导下,共同主办 2023 第二届《“欧贝杯”工业品供应链数据智能创新大赛》。本次大赛面向全国各大高校,聚焦工业品供应链场景下垂类大模型的创新应用设计,探索 AI 多模态赋能工业经济的数智路径,致力于推动工业链、产业链、价值链的重塑再造。 赛题场景一:投标文件智能理解与生成在
简化版Transformer来了,网友:年度论文
从大模型的根源开始优化。Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种简单方法是将多个相同的 Transformer 「块」(block)依次堆叠起来,但每个「块」都比较复杂,由许多不同的组件组成,需要以特定的排列组合才能实现良好的性能。自从 2017 年 Transformer 架构诞生以来,研究者们基于其推出了大量衍生研究,但几乎没有改动过 Transformer 「块」。那么问题来了,标准 Transformer 块是否可以简化?在最
ChatGPT提示词新玩法「make it more」,文生图效果翻倍
一个非常好用的 ChatGPT 提示词技巧。ChatGPT 想来大家都不陌生了,但如何用好它却没有想象中的那么容易。尤其是在文生图任务中,提示上的一些技巧非常有用。想要生成一张符合预期的图像,需要在输入提示词上「取巧」。近日,网络上流行起了 ChatGPT 的「make it more」文生图玩法,一时之间网友纷纷效仿试玩,看起来效果不错。下面这位推友展示了生成「辣面」,然后在提示中渐进地要求增加辣度,前后效果对比一目了然。 来源:@venturet
规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B
性能优于规模更大的模型。多模态学习面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要组合不同来源的信号。然而,这些模态具有不同的特征,很难通过单一模型来组合。例如,视频和文本具有不同的采样率。最近,来自 Google DeepMind 的研究团队将多模态模型解耦成多个独立的、专门的自回归模型,根据各种模态的特征来处理输入。具体来说,该研究提出了多模态模型 Mirasol3B。Mirasol3B 由时间同步模态(音频和视频)自回归组件,以及用于上下文模态的自回归组件组成。这些模态不一定在时间上对
Nature | 通过功能优先、人工智能引导的生成模型 Chroma 重塑蛋白质设计
编辑 | 萝卜皮三十亿年的进化已经产生了极其多样化的蛋白质分子,但蛋白质的全部潜力可能要大得多。挖掘这种潜力对于计算和实验来说都是一个挑战,因为可能存在的蛋白质分子的空间,比那些可能具有功能的空间大得多。美国 Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以进行调节以引导生成过程实现所需的特性和功能。为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,这是一种分子系统的有效神经架构,它能够
BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素分割模型
编辑 | ScienceAI上周,北京智源人工智能研究院(BAAI)、北京大学和香港中文大学的研究团队开源了 SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同,SegVol 是第一个能够同时支持 box,point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作为一个便捷的通用分割工具,研究人员将 SegVol 代码和模型开源到 GitHub:BAAI-DCAI/SegVol,欢迎大家使用。目前开源的模型权重文件包括(1)使用 96k CTs 预训练 2
胡渊鸣全新创业项目Meshy曝光:一句话生成3D游戏资产,仅需一分钟
机器之能报道编辑:吴昕它会是3D AIGC领域的Midjourney 吗?游戏、电影和 XR 行业对 3D 模型的需求正在激增。尤其是当苹果 Vision Pro、Quest 3 等硬件出货量达到一定量级时,市场对 3D 内容需求可能会出现井喷。遗憾的是目前市场供应侧,专业创作者还困顿于漫长的创作时间,而摩拳擦掌的业余玩家依旧游离在复杂的创作工具之外。随着生成 AI 技术的兴起,如何打造一款全新的 3D 内容生成工具,加速制作流程,弥合市场供需之间的巨大落差,正成为一些技术大神们关注的方向。Meshy 就是这样
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪,并提出了一种新颖的 3D 生成方法 DMV3D,实现了新的 SOTA 结果。2D 扩散模型极大地简化了图像内容的创作流程,2D 设计行业也因此发生了变革。近来,扩散模型已扩展到 3D 创作领域,减少了应用程序(如 VR、AR、机器人技术和游戏等)中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型,生成具有评分蒸馏采样(SDS)损
GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理
扩散模型的出现推动了文本生成视频技术的发展,但这类方法的计算成本通常不菲,并且往往难以制作连贯的物体运动视频。为了解决这些问题,来自中国科学院深圳先进技术研究院、中国科学院大学和 VIVO AI Lab 的研究者联合提出了一个无需训练的文本生成视频新框架 ——GPT4Motion。GPT4Motion 结合了 GPT 等大型语言模型的规划能力、Blender 软件提供的物理模拟能力,以及扩散模型的文生图能力,旨在大幅提升视频合成的质量。项目链接:::,GPT4Motion 使用 GPT-4 基于用户输入的文本 pr
谷歌:LLM找不到推理错误,但能纠正它
LLM 找不到推理错误,但却能纠正错误!今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)任务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理任务上,LLM 的表现仍然欠佳。那么,LLM 能否判断出自己的推理存在错误?最近,剑桥大学和 Google Research 联合开展的一项研究发现:LLM 找不到推理错误,但却能使用该研究提出的回溯(backtracking)方法纠正错误。论文地址::,有人提出异议,比如在 Hacker News 上,有人评论这篇论
第四波!2023年11月精选实用设计工具合集
大家好,这是 2023 年 11 月的第 4 波干货合集!这次的合集专门推荐了3个值得收藏的设计和艺术相关的网站,你可以在其中了解最新的艺术和设计作品,全球顶尖艺术院校的学生的毕业项目,以及最专业的艺术知识,另外的 3 个 AI 相关的工具也同样非常有趣,有基于 GPT 的 工具合集,也有可以帮你开发 iOS 应用的 AI 服务,还有基于歌词生成歌曲的 AI 工具。
当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:
1、内容超全的当代线上艺术档案馆
是一个内容极为丰富的、内里界
效率暴涨!5 款设计师必备的 Stable Diffusion WebUI 模型(四)
大家好,这里是和你们一起探索 AI 绘画的花生~
今天继续为大家推荐 5 款优质的设计类 Stable Diffusion WebUI 模型 ,包含春节插画、3D 电商场景、中式花草元素、商业扁平插画等。
上期回顾:一、CJillustration 春节插画
这是一个专门为春节炼制的 SDXL 大模型,是近几年国内比较流行的商业插画的风格。内容主要为家庭聚会和宴席,同时有灯笼、中式建筑等背景装饰,整体效果不错。下载链接: (附件有资源包)
推荐设置:启用高清修复可以优化人物面部;使用 ComfyUI 或者 Foo