AI资讯列表 - AI在线

顶尖AI研究者，中国贡献26%：全球人才智库报告出炉

建设大学 AI 专业，大力投入产业发展，现在成效已逐渐显现。2019 年，《麻省理工科技评论》报道了一份关于中国人工智能人才库增长速度的报告。报告的主要发现非常有趣：在过去十年中，来自中国的人工智能精英学者数量翻了 10 倍，但留在中国工作的人相对较少。本周，这份报告背后的智库发布了一份最新分析报告，显示了全球人工智能人才的构成自此之后发生了怎样的变化——在这个关键时期，人工智能产业发生了重大转变，成为最热门的技术领域。人工智能 (AI) 已经席卷了世界。大型语言模型和机器学习方法的突破，以及算力硬件的惊人改进，让

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

扩散模型凭借其在图像生成方面的出色表现，开启了生成式模型的新纪元。诸如 Stable Diffusion，DALLE，Imagen，SORA 等大模型如雨后春笋般涌现，进一步丰富了生成式 AI 的应用前景。然而，当前的扩散模型在理论上并非完美，鲜有研究关注到采样时间端点处未定义的奇点问题。此外，奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。为了解决这一难题，微信视觉团队与中山大学合作，联手探究了扩散模型中的奇点问题，并提出了一个即插即用的方法，有效解决了初始时刻的采样问题。该方法成功解决了

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天

微软亚研院新作：让大模型一口气调用数百万个 API

近年来，人工智能发展迅速，尤其是像 ChatGPT 这样的基础大模型，在对话、上下文理解和代码生成等方面表现出色，能够为多种任务提供解决方案。但在特定领域任务上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对特定任务的 AI 模型和系统表现良好，但它们往往不易与基础大模型集成。为了解决这些重要问题，TaskMatrix.AI 破茧而出、应运而生，这是由微软（Microsoft）设计发布的新型 AI 生态系统。其核心技术近期在《科学》合作期刊 Intelligent Computi

今年，中国AI大模型产业发展看这些

现在的人工智能，已不是「可以用」，而是「非常好用」了。上个星期，谷歌与李世石一次久违的对话，唤起了人们的回忆：仔细想来，自 2016 年 AlphaGo 在围棋上打败人类起已过去八年。如今人工智能技术的发展却丝毫没有减速，正在给我们创造更大的震撼。生成式 AI 技术从引领技术爆发的 GPT-4 开始，已经席卷了各个领域。不论是自动写文章，还是生成图片和视频，大模型等技术正随着 Copilot、AI 手机等产品逐步落地。在可见的未来，向我们招手的还有具身智能 —— 通过软硬件结合，机器人正在变得更聪明，即将代替我们的

46秒AI生成真人视频爆火，遭在线打假「换口型、声音」

是炒作还是真正的 AI 视频能力进化？AI 生成视频已经发展到这个程度了吗？前段时间，英国王室凯特王妃的 P 图事件，再次将人们的注意力吸引到了图像或视频造假上来。随着 AI 伪造工具的「进化」，以假乱真、无中生有的内容也随之不断出现。今天，一段宣称完全由 AI 生成的不到 50 秒的视频在社交圈疯传，在「视频是否真由 AI 生成」这一点上，网友更是在评论区吵翻了天。我们先来看这段视频。显然，如果没有提前被告知它由 AI 生成，我们大概率就会认为它就是真实视频。上传者表示，音频和视频都是 AI 生成的，它们出自一款

两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

广阔的战场，风暴兵在奔跑…… prompt：Wide shot of battlefield, stormtroopers running...这段长达 1200 帧的 2 分钟视频来自一个文生视频（text-to-video）模型，尽管 AI 生成的痕迹依然浓重，但我们必须承认，其中的人物和场景具有相当不错的一致性。这是如何办到的呢？要知道，虽然近些年文生视频技术的生成质量和文本对齐质量都已经相当出色，但大多数现有方法都聚焦于生成短视频（通常是 16 或 24

详解Latte：去年底上线的全球首个开源文生视频DiT

随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。然而，由于视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成领域却是一个挑战，来自上海人工智能实验室的研究团队联合其他机构通过大规模的实验回答了这个问题。早在去年 11 月，该团队就已经开源了一款与 Sora 技术相似的自研模型：Latte。作为全球首个开源文生视频 DiT，Latte 受到了广泛关注，并且模型设计被众多开源框架

Copilot 回答直接罗列盗版网站链接，网友调侃：微软引流 Edge 浏览器的“隐藏福利”

网友近日在 Reddit 社区发帖，表示微软旗下的 Copilot 固然不会推广盗版内容，但对于用户的提问可谓是“知无不言”，会直接告诉你盗版软件网站。网友在 Reddit 发帖《微软 Bing 真的是“太好用”了，就是不知道还能持续多久》，根据截图显示，用户只需要在 Bing 中搜索“pirate proxy”，Copilot 能够帮你罗列各种盗版网站链接。IT之家附上截图如下：国外科技媒体 Windows Report 实测，发现使用 Firefox 浏览器访问 Bing，无法生效；但是在 Edge 浏览器中却

微软新 AI 专利获批：帮老板追踪、评估你的工作表现

根据美国商标和专利局（USPTO）公示的清单，微软获得了一项关于人工智能的专利，主要基于员工对文档的处理，帮助老板评估员工的工作表现。微软在专利中概述了一套 AI 系统，收集员工在指定时间内对文档的活动数据，洞察员工修改、删除、添加等操作情况，从而判断员工在工作中是否“摸鱼”，或者努力工作。这项技术的主要目标是确定哪个人对文档（尤其是 OneDrive 等应用程序中的共享文档）的贡献最大，但并不局限于此。微软在该专利中表示，现有技术无法准确描述员工和文档之间的关系，因此无法区分哪些员工只是做了少量编辑，哪些员工对文

通义千问首次落地天玑9300移动平台！阿里云携手MediaTek探索端侧AI智能体

3月28日，阿里云与知名半导体公司MediaTek联合宣布，通义千问18亿、40亿参数大模型已成功部署进天玑9300移动平台，可离线流畅运行即时且精准的多轮AI对话应用，连续推理功耗增量不到3W，实现手机AI体验的大幅提升。这是通义大模型首次完成芯片级的软硬适配，仅依靠终端算力便能拥有极佳的推理性能及功耗表现，标志着Model-on-Chip的探索正式从验证走向商业化落地新阶段。端侧AI是大模型落地的极具潜力的场景之一。利用终端算力进行AI推理，可大幅降低推理成本、保证数据安全并提升AI响应速度，让大模型可以更好地

阿里云 x 联发科，天玑 9300 等手机芯片适配端侧通义千问大模型

感谢联发科宣布已成功在天玑 9300 等旗舰芯片上部署通义千问大模型，首次实现大模型在手机芯片端深度适配。通义千问在离线情况下运行多轮 AI 对话。阿里云方面表示，将和联发科深度合作，向全球手机厂商提供端侧大模型解决方案。IT之家注意到，通义千问目前已开源 18 亿、70 亿、140 亿、720 亿参数等大语言模型，以及视觉理解、音频理解多模态大模型。阿里云在去年 10 月还发布了通义千问 2.0，模型参数达到千亿级别。联发科自己也在研发大语言模型，曾推出开源的 MR Breeze-7B 模型，擅长处理繁体中文和英

Viggle 超全使用教程！AI 终于能准确控制人物姿势了！

大家好，这里是和你们一起探索 AI 的花生~ 今天为大家推荐一款新的 AI 视频制作工具 Viggle，它可以通过文本或视频生成带有指定动作的角色，从而提升 AI 视频中人物行为的可控性，今天就为大家详细介绍一下它的特点与用法~ Viggle AI 官网：（服务托管在 Discord 中） Viggle 在上线之后很快就引起了关注，因为它解决了 AI 视频生成中一个非常重要的问题——如何准确控制角色的肢体动作。之前我们了解的一些 AI 视频工具，基本都是通过文本或者图像来生成视频，是对画面整体添加动态，很难准确

视觉盛宴！7位顶级艺术家最新 Sora 作品震撼发布！

昨天早上 Open AI 终于放出最新的七部 Sora 视频作品，基于最近有测试名额的世界顶级艺术家创作生成。七部 AI 短片，加上配音和旁白，效果真的很惊艳！相比 2 月 Sora 发布的 48 个视频，果然艺术家创作者会让视频变成故事，更打动人。至此在 2 月 16 日 Sora 发布后，同一天 Open AI 在 Tiktok 上开了账号每天会发布内部制作的 Sora 视频。目前已经发布 65 个视频作品，吸引 270.3K 位粉丝。接下来让我们一起看看这七部作品吧。一、shy kids – “Air He

号称全球最强开源 AI 模型，DBRX 登场：1320 亿参数，语言理解、编程能力等均超 GPT-3.5

初创公司 Databricks 近日发布公告，推出了开源 AI 模型 DBRX，声称是迄今为止全球最强大的开源大型语言模型，比 Meta 的 Llama 2 更为强大。DBRX 采用 transformer 架构，包含 1320 亿参数，共 16 个专家网络组成，每次推理使用其中的 4 个专家网络，激活 360 亿参数。Databricks 在公司博客文章中介绍，在语言理解、编程、数学和逻辑方面，对比 Meta 公司的 Llama 2-70B、法国 Mistral AI 公司的 Mixtral 以及马斯克旗下 xA

将大模型能力融入 7 大产品，百度智能云交出「企业大模型应用成绩单」

大模型应用爆发元年，企业如何先卷一步？

马斯克：人形机器人成本不到汽车的一半

感谢特斯拉 CEO 埃隆・马斯克周二表示，制造人形机器人 Optimus 的成本仅为特斯拉电动汽车的一半。马斯克在社交平台表示，“人形机器人虽然单位质量的复杂程度更高，但最终的制造成本我认为仍然会低于特斯拉汽车的一半。”马斯克的这番话是对 ARK Invest 的自动驾驶和机器人技术研究主管 Sam Korus 的回应，Korus 认为，与汽车相比，阻碍人形机器人大规模量产的因素主要在于软件能力，而非制造本身。在另一条回复中，马斯克告诉一位用户，Optimus 最初的售价将在 2.5 万美元至 3 万美元（IT之家

谁将替代 Transformer？

Transformer 由于其处理局部和长程依赖关系的能力以及可并行化训练的特点，一经问世，逐步取代了过去的 RNN（循环神经网络）与 CNN（卷积神经网络），成为 NLP（自然语言处理）前沿研究的标准范式。今天主流的 AI 模型和产品——OpenAI 的ChatGPT、谷歌的 Bard、Anthropic 的 Claude，Midjourney、Sora到国内智谱 AI 的 ChatGLM 大模型、百川智能的 Baichuan 大模型、Kimi chat 等等——都是基于Transformer 架构。 Transformer 已然代表了当今人工智能技术无可争议的黄金标准，其主导地位至今无人能撼动。