资讯列表
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
大约 1 个月前,马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE 大模型。 从参数量来看,Grok-1 超越了 70B 的 LLaMA 2,是当前开源模型中最大的一个,被调侃为「庞然大物」。 然而,有研究人员测试却发现,参数规模量如此巨大的 Grok-1 ,效果竟然只与 Mistral AI 的 8x7B MoE 模型相当。
极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。从国际顶流 GPT-4 128K、Claude 200K 到国内「当红炸子鸡」支持 200 万字上下文的 Kimi Chat,大语言模型(LLM)在长上下文技术上不约而同地卷起来了。当全
百度发布“全球首个 AI 原生操作系统”DuerOS X,用于小度音箱等
感谢在今日举行的 Create 2024 百度 AI 开发者大会上,小度科技宣布推出“全球首个 AI 原生操作系统”DuerOS X。据介绍,该系统基于百度文心大模型进行了全面升级,在多模态感知和拟人化呈现方面有了“重要突破”。通过 DuerOS X,小度的人机交互体验将实现“质的飞跃”,为用户提供更加自然、智能的交互方式。DuerOS 是百度在 2017 年推出的首个对话式人工智能操作系统,目前用于小度智能音箱等产品,已经迭代到 7.0 版本,DuerOS X 将迎来更多 AI 功能升级。DuerOS X 融合百
刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源
Mini-Gemini 堪比 GPT4 DALLE3 王炸组合。更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型 Mini-Gemini 堪称绝绝子,相当于开源社区的 GPT4 DALLE3 的王炸组合!Github 地址: 地址: ::: 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比 Google Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型、到数据
多篇顶会一作却申博失败?斯坦福博士生亲述:AI领域太卷
「尽管我在顶级 ML 会议上发表了多篇一作论文,为开源项目做出了贡献,也在业界产生了影响,但我仍在为进入博士课程而苦苦挣扎。我被顶尖大学拒之门外,感到迷茫和疲惫。」「我开始怀疑自己,怀疑如果没有合适的人脉或家庭背景,光有强大的研究背景是否还不够。我正在考虑放弃攻读博士学位以及从事有价值研究的梦想。」在刚刚过去的周末,关于「AI 博士申请条件卷上天」的帖子成为了 Reddit 社区讨论的焦点。这个帖子的作者在 EMNLP、NeurIPS、ACM、ACL 等顶级会议和研讨会上以第一作者发表了多篇研究论文,也被公司评为过
陶哲轩力荐、亲自把关:AI for Math照这个清单学就对了
在 AI for Math 领域,如果你一直找不到合适的资源,这份清单或许会有帮助。刚刚,著名数学家陶哲轩的个人博客又更新了,这次他们整理了一份有用的资源列表,该资源专注于 AI for Math,专为那些希望进入数学 AI 领域的人提供帮助。这份清单发起时间最早可追溯到去年,发起机构由美国国家科学院、工程院和医学院组织的研讨会「人工智能辅助数学推理」提出,陶哲轩担任研讨会主持人。目前,网址资源已经公开。网址:,这是一个初步的资源列表,最初由 UIUC 教授 Talia Ringer 整理,供那些希望进入 AI 数
「音乐界Sora」Udio来了:前DeepMind员工创业,比Suno可定制性更强
我们已经看到,AI 已经能够理解和生成文本、图像、视频,尽管各个产品目前能达到的准确性和审美水准还不相同。自带曲谱的音乐生成似乎是 AI 要征服的下一座山峰,而这场竞争正在白热化。近日,音乐生成领域再次迎来新玩家「Udio」。与前段时间大火的 Suno V3 相似,Udio 仅通过一些人工输入的文本提示(包括用户提供的歌词),就可以创建高保真音乐音频。但它拥有比 Suno 更多的自定义能力,风格涵盖乡村音乐、理发店四重唱(Barbershop)、德国流行乐(German pop)、古典音乐、硬摇滚、嘻哈、演唱曲调等
一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法
以神经网络为基础的深度学习技术已经在诸多应用领域取得了有效成果。在实践中,网络架构可以显著影响学习效率,一个好的神经网络架构能够融入问题的先验知识,稳定网络训练,提高计算效率。目前,经典的网络架构设计方法包括人工设计、神经网络架构搜索(NAS)[1]、以及基于优化的网络设计方法 [2]。人工设计的网络架构如 ResNet 等;神经网络架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳网络结构;基于优化的设计方法中的一种主流范式是算法展开(algorithm unrolling),该方法通常在有显式目标函数的情况
百度李彦宏称开源 AI 模型会越来越落后
感谢百度创始人、董事长兼 CEO 李彦宏今日在 Create 2024 百度 AI 开发者大会上表示,开源模型会越来越落后。李彦宏介绍,因为基础模型文心 4.0 可以根据需要,兼顾效果、响应速度、推理成本等各种考虑,剪裁出适合各种场景的更小尺寸模型,并且支持精调和 post pretrain。这样通过降维剪裁出来的模型,比直接用开源模型调出来的模型,同等尺寸下,效果明显更好;同等效果下,成本明显更低,“所以开源模型会越来越落后”。李彦宏还发布了文心大模型 4.0 的工具版,文心大模型的算法训练效率号称提升到了原来的
百度李彦宏:文心一言用户数突破 2 亿,API 日均调用量突破 2 亿
百度创始人、董事长兼首席执行官李彦宏在 Create 2024 百度 AI 开发者大会上透露,文心一言从去年 3 月 16 日发布,到今天是一年零一个月的时间,用户数突破了 2 亿,API 日均调用量也突破了 2 亿,服务客户数达到了 8.5 万,利用千帆平台开发的 AI 原生应用数超过了 19 万。李彦宏还表示,今天,你不会写代码,也可以做出一些应用,不用编程,也可以做出一个智能手机,AI 正在掀起一场创造的活力。“未来的应用开发就会像拍短视频一样简单,人人都是开发者。”李彦宏表示。据IT之家了解,百度在去年 8
睿蓝汽车与科大讯飞签署战略合作协议,星火大模型上车
感谢4 月 15 日,睿蓝汽车与科大讯飞战略合作签约仪式在科大讯飞总部安徽合肥举行。据介绍,本次战略合作协议,双方将从智能座舱、智能音效、数字营销等多个板块展开全面深入合作。此次与睿蓝汽车展开合作,也将为睿蓝品牌十五万级车型带来全新的数智 AI 升级。睿蓝 7 汽车已上线飞鱼智能音频管理系统,支持 50 吋巨幕 AR-HUD 和星火专属调音,还可根据个人喜好自由调节 ESE 声浪模式。接下来,睿蓝汽车旗下睿蓝 7、睿蓝 9 等代表车型,将全面搭载科大讯飞星火大模型,AI 不仅可以通过用户情绪感知,进行个性化推荐和共
AI神器Udio详细拆解教程!一键生成高质量歌曲,效果不输 Suno
大家好,这里是和你们一起探索 AI 的花生~
前不久为大家介绍了一款 AI 歌曲生成神器 Suno V3,如今不到一个月的时间就又出现了一款新的工具 Udio,它也支持通过文本生成高质量的的歌曲,并且在某些方面的表现比 Suno 还要好。今天就为大家详细介绍一下 Udio 的特点及用法~
相关推荐:一、Udio 简介
网址直达:
Udio 是最新推出的一款 AI 音乐创作工具,支持通过文本生成高质量的歌曲或纯音乐。在 Suno V3 风头正盛的时候,Uido 仅凭一个内测用户放出来的音乐片段就立刻在网上引起了广泛
英国着手起草 AI 法规,确保其发展处于可控状态
根据彭博社报道,英国目前正在起草 AI 监管草案,进一步加强对 GPT-4 等 AI 模型的监管力度,确保 AI 发展处于可控状态,不会对人类造成潜在危害。英国科学、创新和技术部(DSIT)目前已经开始起草相关的法案,最早可能会在 2024 年年底前发布,或者于 2025 年年初在法国举行的人工智能会议上公布。IT之家从报道中获悉,英国此前对待 AI 一直采取谨慎的态度,英国首相苏纳克(Rishi Sunak)在去年举行的首届世界领导人人工智能峰会上表示,各国不应“急于监管”人工智能。不过英国文化、媒体与体育部的官
Adobe Premiere Pro 引入全新 AI 功能,文本转视频、添加 / 删除视频对象等
Adobe 今日宣布将为其专业视频编辑软件 Premiere Pro 加入一系列由生成式人工智能驱动的强大功能,这些新功能将帮助视频剪辑师们更高效地完成工作。得益于全新的人工智能功能“生成扩展”,Premiere Pro 将能够为视频片段添加额外的帧,方便剪辑师们对场景进行恰当的时长调整并加入平滑的转场效果,例如延长某个场景的画面。此外,通过智能选取和跟踪工具,用户还可以轻松添加或移除视频中的物体。Adobe 表示,视频剪辑师们可以利用这一功能移除不需要的元素,例如画面中的杂物,或是为演员更换虚拟服装,甚至还能为场
大厂实战案例!京东物流AI问答助手体验设计完整复盘
随着技术的不断成熟,AI 越来越多的被运用到各种项目中。AI 在项目中主要有两大作用,一是作为技术支撑,在产品实现功能时借助 AI 技术提供预测数据、推荐数据,从而帮助企业预测/预警风险发生,提前实现调度工作,减少重复劳动,帮助企业实现降本增收。另一个则是用户通过键盘或者语音输入,对系统发出指令,AI 通过对语言识别去回答用户问题,这类主要用于客服或者知识问答,利用 AI 技术减少人工成本,减少重复劳动力,同时能将知识类文档进行收口,形成企业知识库。本文主要围绕设计师如何利用 AI 技术赋能物流行业。一、人机对话发
轻松搞定!AI视频+微动效生成神器 PixVerse 生成秘籍
AI 在当下对于视频&微动效的处理能力如何?是否已经达到了可以商用的程度?曾经试过一些 AI 视频工具但是体验不好,应该如何操作?不会 AE、C4D 但是我想做个动态效果怎么弄?接下来将对此进行详细解答。
一、为什么要AI做视频 & 动效
1. 省时间
通过 AI 可以快速完成视频&动效设计,仅需要几分钟的时间就能完成传统需要拍摄或渲染等几个小时才能完成的工作,在短时间内提供有效的解决方案。
2. 高质量
拍摄高质量镜头画面时,传统需要使用高清摄像设备,并且需要利用补光灯确保视频画面明亮而均匀,避免出现强烈的阴影区
大模型首次接入天文望远镜:“星语 3.0”发布,基于阿里通义千问
4 月 14 日,中国科学院国家天文台人工智能工作组发布新一代天文大模型 ——“星语 3.0”。“星语 3.0”基于阿里云通义千问开源模型打造,目前已成功接入国家天文台兴隆观测站望远镜阵列 —— Mini“司天”。据介绍,随着望远镜数量的不断增加,如何控制大型望远镜阵列已成为当今天文界共同面临的挑战。以往天文观测主要依赖观测助手和科研人员的配合。科研人员往往需要根据观测所在地气象情况修改观测计划,在观测室等待数据返回并实时分析数据,再根据结果修改观测计划。重要观测目标的每个环节都需要人工参与,效率低且难以同时控制多
从AIGC到AGI,为什么我们需要更多的“技术信仰派”?
整理 | 伊风采访 | 张晓楠嘉宾 | 巴川、朱雷、肖然作为AIGC应用落地元年,2024开年就抛给我们一些不太好回答的问题:在以探索AGI为长期目标时,我们该坚守技术信仰吗?除了复制国外GPT-4、Sora这样的成功案例,我们该如何寻求更大发展和突破?即便算力问题得以解决,算法的难题如何跨越?国内企业为什么大都部署多个大模型?为什么并非所有企业都该拥抱AIGC?前不久51CTO全新直播栏目《AIGC实战派》有幸邀请到竞技世界首席数据科学家巴川,元语智能联合创始人兼COO、SuperCLUE社区发起人朱雷以及Tho