应用
中国信通院何宝宏:到 2026 年,生成式 AI 计算市场规模将突破百亿美元
据贝壳财经报道,中国国际服务贸易交易会今天在北京举行。中国信息通信研究院云计算与大数据研究所所长何宝宏出席 2024 通用人工智能算力论坛并以“智算产业新发展”进行演讲。何宝宏认为,2018 年至 2023 年,全球算力市场平稳增长,但智算赛道爆发。据清华大学全球产业研究院测算,生成式 AI 计算和其他 AI 计算市场将达成如下规模:将在 2024 年分别达到约 54.66 亿美元(AI在线备注:当前约 389.44 亿元人民币)和约 231.52 美元(当前约 1650 元人民币),将在 2025 年分别达到约
厉害了!Adobe新出Firefly视频模型,2分钟速成高清大片
在 Sora 加入 Adobe 全家桶数月后,Adobe 终于推出了自己的视频生成模型。随着大家对新鲜、短视频内容的需求不断增长,编辑、电影制作人和内容创作者被要求在更短的时间内创作出更好的作品。如今,编辑不仅要剪辑图片,还要进行色彩校正、动画渲染、音频混合等,这些内容大大增加了工作时间。刚刚,Adobe 宣布推出 Firefly 视频模型。Adobe 旨在利用 AI 强大的功能帮助视频内容创作者扩展他们的创意,在客户要求的时间内提供高质量的成果。在官方博客中,Adobe 进行了一系列 Demo 展示,从提示到成片
AI 能「看懂」你的唇语,悄悄话不再安全
小心悄悄话被 AI 听见!(嘘)最近国外一款可以读唇语的 AI 软件火了!具体效果如下:红毯上布莱克・莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但 AI 可以。乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松破解。看完后网友们开始纷纷评论,大开脑洞:求“联名”型网友:快把它和 Siri 结合一下吧!这样我就不用像小傻子一样对着电脑大喊了!测评型网友:我想用它试试“座机画质”的视频!担心安全型网友:我有点害怕,我想戴口罩了。(呜呜)实测 Readtheirlips 效果如何量子位整理了一些视频,
谢尔盖布林:谷歌不敢用Transformer,作者全跑路了,现在我每天都在写代码
坐拥世界最大的搜索业务,谷歌一直独步于硅谷。搜索所带来的丰厚广告收入,让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里・(Larry Page)可以退居二线,安心享受生活。 1997 年 9 月 15 日,谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。直到 2022 年底,ChatGPT 火遍全球,原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来,我们似乎习惯了这家科技巨头作为「追赶者」出现。从去年开始,就有媒体爆料,称谢
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
近日,在 2024 Inclusion・外滩大会 “超越平面思维,图计算让 AI 洞悉复杂世界” 见解论坛上,蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作,并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。梁磊介绍,专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索,显著提升了垂直领域决策的精准性和逻辑严谨性;通过信息检索可补全知识图谱的稀疏性和知识覆盖的不足,同时充分利用大语言模型的理解和生成能力降低领域知识图谱的构造门槛。KAG 框架在垂
检索总结能力超博士后,首个大模型科研智能体PaperQA2开源了
这是 AI 智能体在大部分科学研究中超越人类的第一个案例,或许会彻底改变人类与科学文献互动的方式。最近一段时间,有关 AI 科学家的研究越来越多。大语言模型(LLM)有望帮助科学家检索、综合和总结文献,提升人们的工作效率,但在研究工作中使用仍然有很多限制。对于科研来说,事实性至关重要,而大模型会产生幻觉,有时会自信地陈述没有任何现有来源或证据的信息。另外,科学需要极其注重细节,而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。最后,目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献,而是局限于摘要
Mistral首个多模态模型Pixtral 12B来了!还是直接放出24GB磁力链接
训练完就直接上模型。我们都知道,Mistral 团队向来「人狠话不多」。昨天下午,他们又又又丢出了一个不带任何注解的磁力链接。解析一下这个链接,可以看到大小共 23.64 GB,其中包含 4 个文件,其中最大的文件是一个封装的多模态大模型。动作快的非官方 Mistral 社区已经将该模型上传到了 Hugging Face。磁力链接:magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910Hugging Fac
谷歌 NotebookLM 新增 Audio Overview 功能:生成 2 位 AI 主播,围绕用户文档展开播客式交流
科技媒体 maginative 昨日(9 月 11 日)报道,谷歌公司升级旗下笔记应用 NotebookLM,新增 Audio Overview 功能,可以围绕着用户上传的文档,生成两位 AI 主持人,并通过播客方式展开讨论。NotebookLM 简介NotebookLM 基于谷歌 Gemini 1.5 Pro AI 模型,是一款个性化人工智能研究助手。用户可以上传 Google Docs、Google Slides、PDF 文件以及网页 URL 地址,该应用能够研究这些文档内容,为用户提供更有洞察力的回答。Aud
Andrej Karpathy:自动驾驶已经实现AGI,汽车其实就是机器人
自己称赞自己千句,不如别人称赞你一句。 例如马斯克在播客、推特上经常自称特斯拉的自动驾驶和机器人“天下第一”,但这样的话看多了,难免也有些审美疲劳。 不过,前几天,Andrej Karpathy在No Priors播客中现身,透露了特斯拉在Optimus人形机器人和自动驾驶领域的一些鲜为人知的进展。
帕萨特发布会语音助手翻车 ,知情人士爆料:PPT多切了一页
9月11号消息,上汽大众正式推出了帕萨特 380TSI 家族,共计五款车型。然而在发布会上发生了一段意外插曲。帕萨特 Pro 在演示其搭载的智能AI语音系统时翻车,出现了问题和回答对不上的情况。据有关知情人士透露,该演示内容为提前录制,但高管在现场打乱了提问顺序,操作人员一时跟不上节奏,ppt多切了一页,事先准备好的语音没有及时同步,从而导致“翻车”。
夸克发布全新 CueMe 智能对话助手,支持上千种体裁、2 万字长文
今日,夸克发布全新智能对话助手 CueMe,用户现可通过 cueme.cn 或夸克 App 使用。AI在线从官方获悉,CueMe 是基于夸克大模型自主研发,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长可生成 2 万字的内容。夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,并且还在持续扩展中。此外,CueMe 还支持文风定制,用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。据夸克官方
清华系人形机器人公司「加速进化」获亿元融资;AI 数字人赛道最大笔投资披露;GPT-4o 实时音频项目负责人离职创业丨AI情报局
今日融资快报人形机器人研发公司,加速进化完成亿元Pre-A系列轮融资加速进化致力于研发更富有行动能力的人形机器人本体和易于开发的运控开发平台。 已构建出全自研构型的人形机器人原型——采用力控关节,双足设计,希望研发出“最可靠、最稳定、能完成很多复杂动作、精度足够高”的人形机器人。 本轮融资由彼岸时代、民银国际、中关村科学城及iCANX基金共同出资,老股东英诺天使跟投,资金将主要用于通用本体打造、提升软件开发能力。
讲座预约 | AI4S 的前世今生:大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live
尽管人工智能驱动科学研究(AI4S)是最近几年才逐步火热的一个话题,但在某些科研领域如生物信息学,早在上个世纪90年代,随着人类基因组计划的实施,生物信息学迎来了一个“数据大爆炸”的时代,从那时起,生物信息学领域研究者就开始尝试使用人工智能技术来助力科研工作,直至今天。 在过去几年中,大模型技术作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。 在生物信息学、材料科学、药物发现等领域,大模型技术正在发挥着越来越重要的作用。
Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小
感谢科技媒体 TechCrunch 昨日(9 月 11 日)报道,法国 AI 初创公司 Mistral 发布 Pixtral 12B,是该公司首款能够同时处理图像和文本的多模态 AI 大语音模型。Pixtral 12B 模型拥有 120 亿参数,大小约为 24GB,参数大致对应于模型的解题能力,拥有更多参数的模型通常比参数较少的模型表现更优。Pixtral 12B 模型基于文本模型 Nemo 12B 构建,能够回答关于任意数量、任意尺寸图像的问题。与 Anthropic 的 Claude 系列和 OpenAI 的
AI出图被说油腻没特色?这个 Midjourney Niji 参数帮你一招解决!
大家好我是花生~
前不久才为大家介绍了 Midjourney --p (personalize 个性化)参数的神奇用法,没想到前两天 niji 6 模型也开始支持 --p 参数了,我简单测试了一下感觉非常不错,它不仅能让图像风格更加多样独特,连构图、细节质感也比原来好了不少,下面一起看看如何使用它吧~
了解 v6.1 的 --p 个性化参数的用法:一、Niji 6 的 --p 个性化参数
熟悉 Midjourney 的小伙伴应该都非常喜欢 Niji 模型,相比标准的 v6.0/v6.1,最新的 niji 6 在生成
第二波!2024年9月精选实用设计工具合集
大家好,这是 2024 年 9 月的第 2 波干货合集!
今天推荐的在线工具和合集类的网站比较多,其中有 AI 工具合集网站,也有免费素材网站,有网页设计灵感网站,也有最近比较少出现的免费插画素材合集网站,基本上足以覆盖绝大多数设计项目能用到的工具和资源类型。另外,AI 工具也同样存在,其中之一是 AI 抠图工具,另外一个则相当强大,是基于对话式AI的前端UI界面生成平台,对于很多前端能力比较差,但是又想做点工具啥的同学而言,这个平台可以帮助大家一步登天搞定代码生成!
当然,在继续阅读下去之前,记得看看往期干货中有
摩根士丹利策略师迈克・威尔逊:美股投资者对 AI 主题的追捧“过头了”
AI 热潮曾在今年早些时候推动标普 500 指数创下新高,但如今却显现出“退潮”迹象,因此股市若要重拾上涨势头,便需要新的“催化剂”。北京时间今晚,据彭博社报道,摩根士丹利首席美股策略师迈克・威尔逊表示,尽管 AI 可能会随着时间的推移彻底改变生产力,但那些试图因为 AI 的短期潜力而推高股价的做法就显得“太急切”了。迈克・威尔逊补充说,这种情形已经反映在芯片股的挣扎中,不仅是身为“代表性企业”的英伟达的近期波动,费城半导体指数本月也下跌了 8.5%。“AI 的光环已稍显减弱之势,我们对整个 AI 主题的追逐有点过