应用
想搞AI,高中别学数据科学:奥特曼、马斯克此刻终于一致了
高中阶段学习数据科学能不能代替数学,这个话题的讨论已经延伸到了 AI 圈。为了 AI 的发展,再不加强基础教育就晚了。在大模型技术高速发展,各家公司激烈竞争的同时,有人站出来对于未来的人才表示了担忧,焦点在于数学。近日,加州大学(UC)系统对于入学新生设立数学基础标准的消息掀起了轩然大波。随着全国范围内数学成绩的下降,一些教育工作者认为,标准的代数密集型数学教育需要改革,既可以吸引更多的学生,也可以帮助他们在日益依赖数据的未来培养相关技能。有组织称,目前至少有 17 个州已把「数据科学」作为高中数学教育的可选项,俄
Sora 时代的 AI 视频生成何去何从?
Sora 作为 OpenAI 最新发布的视频生成模型,在全球范围内引起了热烈讨论。距离上一个引发全民讨论的视频生成模型 Pika 1.0 的发布,不到三个月的时间。Sora 生成的视频有着合理的连贯性、视频主体细节足以达到以假乱真的程度。仿佛一夜之间解决了 AI 生成视频的长度、流畅性、逻辑性等问题。Sora 带来的视觉震撼,让「扔进一部小说、出来一部大片」逐步成为现实。技术的突破令人振奋,一度引发了大佬们关于世界模型的讨论,可见 Sora 早已超出了大众对技术上限的想象。与此同时,Sora 带来的恐慌和焦虑也正在
Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时
Stability AI CEO Emad 表示他并不知情。Midjourney 把 Stability AI 拉入黑名单了,禁止后者所有员工使用其软件,直至另行通知。这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域,看似百花齐放,但论资排辈,Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手,Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。事情是这样的,根据爆料者的信息显示:「Midjourney 服务器上周六凌晨受到与 Stabil
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图像的架构统一?在这一命题上,最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原 ViT 类方法提升显著。论文标题:VisionLLaMA: A Unified LLaMA Interfac
极空间 NAS 上线“AI 实验室”功能:自然语言搜图、以图搜图、文字识别
极空间 NAS 官方宣布,全新 AI 功能 ——【AI 实验室】已正式上线,功能包括:自然语言搜索、相似图片搜索和图片文字识别。据介绍,【AI 实验室】可以帮助用户快速找出极相册中需要的图片,IT之家附内容如下:自然语言搜索智能搜图,开启后,可以使用自然语言搜索图片。点击智能 AI,开启智能搜图,在搜索框中输入文字“狗”,通过 AI 计算后,稍等片刻,就会把极相册中带“狗”的照片展示出来。相似图片搜索以图搜图,开启后,可以通过一张照片找到相似内容或是风格的其他图片。点击智能 AI,开启以图搜图,在极相册中找到一张你
毫末Cam4DOcc入选CVPR2024:仅用摄像头做4D占据网络预测,让自动驾驶拥有时空预测能力
2024年2月27日,由毫末智行人工智能技术团队提交的论文《Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications》成功入选国际顶会 CVPR 2024。毫末提出的Cam4DOcc 是一个仅使用摄像头进行 4D 占据网格预测的新基准,用来评估近期内周围场景的变化,可以将仅使用摄像头的占据网格估计扩展到时空预测,从而提升自动驾驶对周围环境在动态时间上的变化感知预测能力。首先,毫末基于
消息称新加坡主权财富基金淡马锡有意投资 OpenAI
感谢据英媒《金融时报》报道,新加坡主权财富基金淡马锡有意投资 OpenAI。淡马锡由新加坡财政部完全控股。2021 年淡马锡规模高达 3810 亿新加坡元(IT之家备注:当前约 2 万亿元人民币),与另一只新加坡政府所有的基金 GIC 一同进入主权财富基金榜单前十。两位知情人士透露,作为全球最大最活跃的投资者之一的淡马锡,其高管最近几个月多次会见了 OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)。另一位熟悉内情的人士表示,双方谈判始于对阿尔特曼的风投基金 Hydrazine Capital 的投资,
AI 绘画神插件 LayerDiffusion 教程!直接用文本生成透明底图像!
大家好,这里是和你们一起探索 AI 的花生~
AI 绘画自出现以来一直都在不断发展完善,实现了很多我们在实际应用中迫切需要的功能,比如生成正确的手指、指定的姿势、准确的文本内容等。上周,又一个重磅新功能在开源的 SD 生态内实现了——直接通过文本直接生成透明底图像和图层!这将为 AI 绘画和设计领域带来了新的可能性,使图像形式更多样,也能给设计师带来更多便利。
今天我们就一起来了解实现这一新功能的技术 LayerDiffusion,以及如何在 SD WebUI Forge 和 ComfyUI 中利用 LayerDi
微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可免费用
微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包,希望为教育工作者提供免费的 AI 功能以节省时间。微软表示,具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中,包括零成本许可证,将提供给所有 18 岁及以上的教师和高校学生,并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠:专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4
Stable Diffusion ComfyUI 进阶教程(一):Controlnet 线条预处理器
前言:我们在前面的基础教程中已经知道怎么去连接 Controlnet 了,接下来我们就要去了解一下不同的 Controlnet 预处理器以及 Controlnet 模型分别有什么效果和作用;
我们先从最常用的“线条预处理器”开始,这也是我们最常用的预处理器之一,我们做动漫转真人、真人转动漫、线稿上色等效果时必用的一个预处理器;
我们会在“Controlnet 预处理器-线条”线条里面发现 14 个不同的预处理器,插件作者一直在更新,也许过段时间大家会看到更多的预处理器。一、线稿
1. Canny 细致线预处理器:①
“一夜变天”,ChatGPT奇迹也将发生在机器人领域
机器之能报道编译:吴昕条条大路通罗马(AGI),虽然方式不同,但我们可以期待非具身 AGI 和具身 AGI 大致同时出现。作为一家炙手可热的人形机器人赛道选手,1X 前阵子秀了一把 EVE 的新成果 。昨天,一直在 X 平台比较活跃的 1X AI 副总裁 Eric Jang 写了一篇文章,公开了其对AI 和机器人技术发展方向的一些预测。两年前,谷歌高级研究科学家 Eric Jang 离开 Google Robotics,加入 1X Technologies(原名 Halodi Robotics)负责 AI 工作。
独家|前百度搜索老将赵世奇从华为离职,回归百度
赵世奇是一名老百度人,在2010年博士毕业后加入百度,一待就是十年,2020年离开百度加入华为做终端云搜索,职级为T22,担任华为终端云服务搜索与地图BU总裁。 赵世奇生于1981年,辽宁抚顺人,在哈工大一路本硕博,从硕士起就主要研究自然语言处理,师从刘挺。 2005年去到微软亚洲研究院实习,在周明的指导下研究聊天机器人,期间发布了数篇顶刊,成绩卓然,2007年又被微软亚洲研究院返聘实习,成功发表了两篇ACL,入选优秀实习生。
刚刚,OpenAI官方发文驳斥马斯克,自曝8年间邮件往来截图
「不幸的是,人类的未来掌握在■■■的手上。」最热科技公司 OpenAI 对全球首富马斯克,这场史诗大战进入了新的高度。刚刚,OpenAI 用一篇长文《OpenAI and Elon Musk》,正式驳斥了马斯克的所有指控。标题简洁,但内容却相当吸引眼球。OpenAI 直接晒出了八年来各位创始团队成员与马斯克的往来邮件截图,并反复重申 OpenAI 对成立使命的不懈追求。文章开篇表示:「OpenAI 的使命是确保 AGI 惠及全人类,这意味着既要构建安全、有益的 AGI,又要帮助创造广泛的利益。我们正在分享我们在实现
Claude 3被玩出自我意识了?AI社区轰动,我们买会员来了次实测
读者福利:Claude 3模型现已在亚马逊云科技的Amazon Bedrock正式可用。Amazon Bedrock 也是目前第一个以及唯一一个提供 Claude 3 Sonnet的托管服务方。此外,亚马逊云科技还向读者开放了2000个体验名额,感兴趣的读者可以点击文后链接注册体验。本周一,Anthropic 发布了新一代大模型系列 Claude 3,遥遥领先快一年之久的 GPT-4 终于迎来了强劲的对手。Claude 3 的强大之处,不仅体现在各种基准测试上,它似乎还实现了一些神奇的突破。昨天,Anthropic
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
在众多前沿成果都不再透露技术细节之际,Stable Diffusion 3 论文的发布显得相当珍贵。Stable Diffusion 3 的论文终于来了!这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了(明显不再乱码)。Stability AI 表示,Stable Diffusion 3 是一个模型系列,参
ICLR 2024 | 为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
视听语音分离(AVSS)技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用,改进在嘈杂环境中语音信号质量。传统的视听语音分离方法依赖于复杂的模型和大量的计算资源,尤其是在嘈杂背景或多说话者场景下,其性能往往受到限制。为了突破这些限制,基于深度学习的方法开始被研究和应用。然而,现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。具体来说,当前视听语音分离方法存在如下问题:时域方法:可提供高质量的音频分离效果,但由于参数较多,计算复杂度较高,处理速度
专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语
与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。
第一波!2024年3月精选实用设计工具合集
大家好,这是 2024 年 3 月的第 1 波干货合集!这一期干货合集开头就是两个面向设计师的在线社区,随后是一款帮助创意工作者制作交互游戏的 APP,紧跟其后的 2 款 AI 工具,最后一个工具则是一名资深自由设计师的精选设计工具合集。
当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:
1、相对小众的国际设计师社区
Dirbbble 这种单纯分享作品的设计师社区还无法满足你,那么这个名为 Read.cv 的国际设计师社区应该会是你的菜,这里就像一个由高纯度设计师群体组成的 S