应用
万字干货!Sora 如何如何转化为实际生产力?
2 月 16 日凌晨(北京时间)正月初七,在没有任何消息和预兆下,Open AI 突然发布了首个文生视频大模型——Sora,借此Sora正式对外曝光,AI视频领域也迎来了前所未有的关注度,并且在极短时间内震惊业界,并持续破圈。
如今虽然距离 Sora 发布已有 1 个月的时间,但各方对 Sora 大模型的讨论仍在持续,主流业界也对 Sora 基本达成了共识。Sora 到底为什么能够震惊业界?是真的遥遥领先,还是在过度神话?以及我们如何将 Sora 落地应用于实际项目?本篇文章将带你一一了解!引言
Sora 的技术文
Canalys 预估 2025 年 AI PC 占全球 PC 出货量的 40%
感谢根据市场调查机构 Canalys 近日发布的最新报告,2024 年标志着传统 PC 向 AI PC 的重大转变,预估今年全球 AI PC 出货量 4800 万台,占 PC 出货总量的 18%。该机构预估 2025 年全球 AI PC 出货量超过 1 亿台,占 PC 出货总量的 40%;到 2028 年,全球 AI PC 出货量 2.05 亿台,2024 年至 2028 年期间的复合年增长率将达到 44%。AI PC 最大的亮点就是集成了神经处理单元(NPU)等专用的人工智能加速器,将释放出生产力、个性化和能效方
Stable Diffusion ComfyUI 进阶教程(二):Controlnet 面部与姿态预处理器
这节课我们继续去学习 Controlnet 预处理器中的面部与姿态预处理器,这也是我们在使用 Controlnet 时最常用的一种控制方式之一,使用姿态能让我们生成的图像与输入的面部与姿态数据保持一致性。一、DW 姿态预处理器①介绍:从图像中提取手部、身体、面部姿态信息并生成骨架图;
②检测手部、身体、面部:这不用说了吧,关掉就不会生成此部位骨架图,开启就会生成此部位骨架图;
③BBox 检测:边界框检测器,用于检测图像中的对象并标识其位置(比如用来框选空姐在图中的位置);
④姿态预估:姿态预估模型,通过此模型提取
「创新落地,生态共赢」,2024澜舟科技大模型技术和产品发布会圆满举办
2024 年将是大模型落地元年。
定位产业AIGC化加速器 “云阙AI”大模型垂直应用正式发布
2024年3月17日,由北京师范大学新闻传播学院、北京师范大学新媒体传播研究中心、出版业用户行为大数据分析与应用重点实验室主办,上海云阙智能科技有限公司(云阙智能)协办的 “京师大模型传播应用系统第二期发布暨大模型垂直应用论坛”成功召开。在此次论坛中,云阙智能正式发布了其创新自主研发的大模型垂直应用——“云阙AI”。该平台具备多模态、跨媒体、全场景的AIGC内容营销能力,旨在赋能企业和超级个体在数字化和智能化转型过程中实现战略升级,并提供综合全面的AIGC专业培训、技术工具及营销解决方案。目前,“云阙AI”已成功实
月之暗面“自卷”,Kimi智能助手官宣支持200万字无损上下文
“lossless long context is everything”,杨植麟不止一次表达过这一观点,而月之暗面的最新动作也表明团队对这一观点的坚定信仰。 3月18日,AI大模型初创企业——月之暗面宣布在大模型长上下文窗口技术上取得新的突破,Kimi 智能助手已支持200万字超长无损上下文,并于即日起开启产品“内测”,用户可到 Kimi 智能助手网页版 kimi.ai 首页申请体验。 而这距离去年10月,Kimi 智能助手正式推出,最高可支持20万汉字无损上下文输入,才过去不到半年时间。
微软 Win11 Dev / Canary 渠道测试新特性:右键菜单新增 Copilot 按钮,支持文本总结
感谢博主 PhantomOcean 北京时间今日凌晨在 X(推特)上公布了自己的最新发现:微软 Windows 11 的 Dev 和 Canary 渠道正在测试为右键菜单引入 Copilot 按钮,用户可以通过该按钮来完成文本总结等功能。从功能方面来看,该按钮有望支持对各种各样的文档、表格或 PPT、PDF 文件进行总结,另一个子菜单则显示“发送给 Copilot”,预计为图片识别等类型功能。早在今年 1 月初,该爆料者就曾在 Windows 11 Canary Build 26020 和 Windows 11 D
姚期智等数十名中外专家签署北京 AI 安全国际共识:禁止 AI 自行复制
据腾讯科技报道,包括图灵奖得主约书亚・本吉奥、杰弗里・辛顿、姚期智等在内的数十位的中外专家日前在北京联合签署了由智源研究院发起的《北京 AI 安全国际共识》,涉及人工智能“风险红线”和“路线”两大块,其中“风险红线”包含“自主复制、改进”“权力寻求”“协助不良行为者”和“欺骗”四个部分。IT之家整理四部分内容大致如下:人工智能的“自主复制、改进”:强调人在该过程的作用,要求任何人工智能系统都不应在人类没有明确批准和协助的情况下复制或改进自身,包括制作自身的精确副本、创造具有相似或更高能力的新人工智能系统。“权力寻求
仿“萤火虫”通信无人机:无惧电磁压制,被干扰下也能协同飞行!
夜幕低垂,无数勇敢追爱的萤火虫以不同的节奏和频率发出“闪光”,用一种只有它们之间才能理解的方式传达着信息。如果无人机集群也以这种形式进行交流,会产生怎样的效果?图1中国电信人工智能研究院TeleChat生成的萤火虫场景近日,中国电信李学龙联合西北工业大学光电与智能研究院在仿“萤火虫”通信无人机方面的研究取得进展:通过模仿萤火虫的交流方式,利用光通信和智能信息处理等技术,实现了电磁干扰下的无人机间的信息传递。视频地址:,在科幻电影和实战中屡屡出现。然而,无人机集群有一个致命的弱点,其主要依靠无线电通信,电磁特征明显,
智加科技亮相中国电动汽车百人会论坛,以创新技术构建商用车新质生产力
2024年3月15日至17日,中国电动汽车百人会论坛(2024)在北京钓鱼台国宾馆召开。智加科技总经理容力博士受邀参与百人会成立十周年理事会特别会议并于“商用车低碳化与智能化的目标与路径”论坛进行主旨演讲。容力博士指出,商用车自动驾驶作为颠覆式创新技术,是新质生产力的重要课题。自动驾驶重卡在物流行业的引入使用,会影响运力结构及产业结构,甚至颠覆运输业态。国务院近期印发了以旧换新方案,提出淘汰老旧升级重卡高能耗限制标准,也为重卡自动驾驶的商业化落地指明了方向。干线物流是万亿级规模的巨大市场,通过自动驾驶技术的应用推动
被奔驰看上的“人”
机器之能报道编辑:吴昕别人秀“大脑”,我们有的是“肌肉”,还有美妙的成本价格。继 Figure 01、优必选、Digit 之后,人形机器人 Apollo 成为第四个进入知名车厂试点的“打工人”。上周五,人形机器人公司、NASA 合作伙伴 Apptronik 宣布已与梅赛德斯·奔驰(以下简称奔驰)达成一项商业协议,试点将身高 1.7 米、体重 140 多斤的双足机器人 Apollo 用于制造业。奔驰也成为继宝马、蔚来汽车之后最新尝试人形机器人的汽车公司。据英国《金融时报》报道,奔驰已经开始在位于匈牙利的一家工厂试用数
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。 近期,我们邀请了上海大学的方昱春教授,这位在计算机视觉和手语研究领域深耕多年的资深专家,与我们分享了她如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。 方教授的研究重点在于利用计算机视觉技术(CV)探索手语识别,特别是通过深度学习方法来求解这一复杂而神奇的自然语言交流形式。
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。先睹为快,我们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。
马斯克开源Grok-1:3140亿参数迄今最大,权重架构全开放,磁力下载
开源社区有福了。说到做到,马斯克承诺的开源版大模型 Grok 终于来了!今天凌晨,马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家(MoE)模型「Grok-1」,以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。 封面图根据 Grok 提示使用 Midjourney 生成的:神经网络的 3D 插图,具有透明节点和发光连接,以不同粗细和颜色的连接线展示不同的权重。这个时候,马斯克当然不会忘了嘲讽 OpenAI 一番,「我们想了解更多 OpenAI
ICLR 2024 | 无需训练,Fast-DetectGPT让文本检测速度提升340倍
Fast-DetectGPT 同时做到了高准确率、高速度、低成本、通用,扫清了实际应用的障碍!大语言模型如 ChatGPT 和 GPT-4 在各个领域对人们的生产和生活带来便利,但其误用也引发了关于虚假新闻、恶意产品评论和剽窃等问题的担忧。本文提出了一种新的文本检测方法 ——Fast-DetectGPT,无需训练,直接使用开源小语言模型检测各种大语言模型生成的文本内容。Fast-DetectGPT 将检测速度提高了 340 倍,将检测准确率相对提升了 75%,成为新的 SOTA。在广泛使用的 ChatGPT 和 G
首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」
从编码、编译到调试、验证,AI 智能体能做的事情更多了。这周三,Cognition AI 团队发布的首个 AI 软件工程师 Devin 引爆了 AI 社区,引发了人们对程序员这个职业未来前景的热议。在对 Devin 的评估中,团队使用了 SWE-bench。这是一个由 GitHub 问题和拉取请求组成的软件工程系统的自动化基准测试。他们认为 SWE-bench 是一个不错的选择,它确定性地评估(通过单元测试)系统解决现实世界代码库问题的能力,并与 HumanEval 等仅限于独立功能的基准测试不同。从结果来看,在
苹果为杀入AI领域低调收购,iOS 18要有大动作
苹果一直是人工智能公司的最大买家,甚至超过了微软和谷歌。在 AI 领域百花齐放的当下,作为全球顶尖的科技公司苹果,似乎掀起的水花不是很大。苹果在 AI 领域的布局到底是什么,或许苹果 CEO 蒂姆・库克的一句话可以为我们答疑解惑。此前在 2024 苹果股东大会上,库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。如此种种,苹果向外界传达了加注 GenAI 的决心,很多人开始感叹苹果在生成式 AI 领域终于不再低调了。显然,苹果
一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了
近期,具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01,机器人的交互性、通用性越来越强。如果未来机器人成为人们日常生活的助手,你期待它们能够完成哪些任务?泡一杯热气腾腾的手冲咖啡,整理桌面,甚至帮你精心安排一场浪漫的约会,这些任务,只需一句指令,清华的具身智能新框架「CoPa」都能完成。CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清华叉院高阳教授机器人研究团队最新提出的具