AI资讯列表 - AI在线

首批类Sora模型出现，色拉布上线Snap Video，效果优于Pika、不输Gen-2

文生视频这个战场，入局的玩家越来越多了。这次是阅后即焚 SnapChat 背后的公司。最近，OpenAI 视频生成模型 Sora 的爆火，给基于 Transformer 的扩散模型重新带来了一波热度，比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT（Diffusion Transformer）。当然，随着视频生成这波 AI 趋势的继续演进，类似架构的模型会越来越多。就在昨天，开发出 SnapChat 图片分享软件的 Snap 公司、特伦托大学等机构联合发布了

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而，它们的能力缺乏细致且偏应用级的评测，可信度和因果推理能力的对比也尚存空白。近日，上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 G

英特尔宣布成立全新独立运营的FPGA公司：Altera

今天，英特尔宣布成立全新独立运营的 FPGA 公司 ——Altera。在上午举行的 FPGA Vision 线上研讨会期间，首席执行官 Sandra Rivera 和首席运营官 Shannon Poulin 进行了分享，展示其在超过 550 亿美元的市场中保持领先性的战略规划，强调将通过打造集成 AI 功能的 FPGA 等举措，进一步丰富公司的产品组合，同时亦表明将持续助力客户应对不断增加的挑战。会上，Altera 也作为新公司的品牌正式对外公布。Altera 首席执行官 Sandra Rivera 表示，“现阶段

Stability AI联合Morph AI共同发布一体式AI视频创作工具，助力技术的落地与应用

2024年2月28日，Stability AI在其官方社交账号上宣布与领先的text-to-video公司Morph AI达成合作，双方基于各自的模型优势，共同推出了一款all-in-one（一体式AI视频创作）的制作工具——MorphStudio。该工具将颠覆传统视频制作流程，具备了让创作者能够在一个界面中完成生成、剪辑和后期等的便捷功能，支持创作者调用AI模型选择每一个镜头并达到最佳效果。较传统视频制作流程而言，该工具能够极大的帮助创作者缩短创作时间，降低创作成本。与此同时，在双方的创作者社区中，每一个创作者都

全球首个隐私计算一体机国际标准发布，中国企业主导

近日，IEEE 标准协会（IEEE-SA）正式发布并推行了由我国企业主导的全球首个隐私计算一体机国际标准《隐私计算一体机技术要求》（IEEE 3156-2023）。IEEE-SA是权威国际标准制定机构，该标准的成功发布意味着中国的隐私计算技术与应用探索受到国际高度认可，可为全球提供参考方案。（图：IEEE标准协会官网发布“隐私计算一体机技术要求”国际标准）隐私计算一体机作为隐私计算产业落地的重要技术探索，通过软硬件结合方式构建从硬件、固件、操作系统到应用软件的一站式隐私保护计算解决方案，提供了开箱即用、安全可证、隐

5天完成6个月实验量，加速催化研究，「自动驾驶」催化实验室Fast-Cat登Nature子刊

编辑 | 紫罗「自动驾驶实验室」是未来？今年 1 月底，荷兰阿姆斯特丹大学开发自主化学合成 AI 机器人「RoboChem」。一周内，可以优化大约 10~20 个分子的合成。这需要博士生几个月的时间。还有去年 DeepMind 团队开发的自主实验室 A-Lab，17 天自主合成 41 种新化合物。卡内基梅隆大学的 Coscientist，自主设计、规划和执行复杂的科学实验......现在，来自美国北卡罗来纳州立大学和全球特种材料公司伊士曼化学公司（Eastman Chemical Company）合作，开发了一个「

钉钉启动数智校园标杆校计划，联合小冰提供校长数字人

草长莺飞，春意盎然，又是一年开学季。新学期伊始，钉钉启动了“钉钉数智校园标杆校计划”，致力于为学校提供更安全高效的数智化沟通方式，助力学校迈向教育数智化新时代。即日起，在钉钉搜索关键词“钉钉数智校园”，即可报名参加该计划。为更好地让标杆校体验最新AI应用带来的技术变革，钉钉联合小冰公司为标杆校提供校长数字人权益。目前，小冰公司已为杭州市学军小学教育集团总校长张军林、上海市宝山区教育局数字办常务副主任张云峰等教育管理者定制了数字人，辅助拓展教育教学场景，实现分身有术，打造高质量、有温度的人工智能教育生态。依托小冰框架

70 亿参数训练，从DNA、RNA、蛋白质到全基因组，生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列，这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合，可以实现生物基础模型，加速复杂分子相互作用的机械理解和生成设计。斯坦福大学（Stanford University）和 Arc Institute 的研究人员开发了 Evo，这是一种基因组基础模型，可进行多模态和多尺度学习，能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构，该团队将 Evo 扩展到 70 亿参数，单核苷酸字节分辨率的上下文长度为 131

海报素材不用愁！10 组高质量数字专题 Midjourney 提示词

大家好，这里是和你们一起探索 AI 绘画的花生~ 之前为大家系统讲解了如何在 Midjourney 中生成一套完整的数字，今天继续为大家推荐 10 组不同风格材质的数字主题 Midjourney 提示词，生成的图片可以当做海报主视觉或者装饰元素使用~ 上期回顾：一、油漆材质 Number 6, composed of colored paint, dynamic splash, floating on pure white background, minimalist, 3D rendering --v 6.0 数

拿下微软合作、旗舰模型对标GPT-4，认识一下「欧洲版 OpenAI」

机器之能报道编辑：SiaMistral 目前法国科技界的骄傲和喜悦，也是开源力量的代表。它的初期成功要归功于能巧妙地将AI技术与政治结合起来。问题是Mistral能否将这种诱人的技术与政治混合优势转化为实实在在的利润。这家法国 AI 初创的崛起就像西北风一样轻快，这也是它名字 Mistral 的由来。Mistral 翻译过来是密史脱拉风，法国南部罗纳河谷一带特有的强风，干寒强烈，持续时间长。据说，梵高和高更的决裂也与普罗旺斯刮起的密史脱拉风有关。Mistral位于巴黎的办公室，它们也是法国目前最有前途的大模型初创公

基于神经网络的偏微分方程求解器新突破：北大&字节研究成果入选Nature子刊

近年来，基于神经网络的偏微分方程求解器在各领域均得到了广泛关注。其中，量子变分蒙特卡洛方法（NNVMC）在量子化学领域异军突起，对于一系列问题的解决展现出超越传统方法的精确度 [1, 2, 3, 4]。北京大学与字节跳动研究部门 ByteDance Research 联合开发的计算框架 Forward Laplacian 创新地利用 Laplace 算子前向传播计算，为 NNVMC 领域提供了十倍的加速，从而大幅降低计算成本，达成该领域多项 State of the Art，同时也助力该领域向更多的科学难题发起冲击

让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

有了阿里的 EMO，AI 生成或真实的图像「动起来说话或唱歌」变得更容易了。最近，以 OpenAI Sora 为代表的文生视频模型又火了起来。而除了文本生成视频之外，以人为中心的视频合成也一直是研究的焦点，比如专注于说话人头部（Talking Head）的视频生成，它的目标是根据用户提供的音频片段来生成面部表情。从技术上来看，生成表情需要捕获说话人微妙和多样化的面部动作，由此对此类视频合成任务提出了重大挑战。传统方法通常会对最终的视频输出施加限制，以简化任务。比如，一些方法使用 3D 模型来限制面部关键点，另一些

微软、国科大开启1Bit时代：大模型转三进制，速度快4倍能耗降至1/41

革命性的提升来了。把大模型的权重统统改成三元表示，速度和效率的提升让人害怕。今天凌晨，由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型，实现效果让人只想说两个字：震惊。如果该论文的方法可以广泛使用，这可能是生成式 AI 的新时代。对此，已经有人在畅想 1-bit 大模型的适用场景，看起来很适合物联网，这在以前是不可想象的。人们还发现，这个提升速度不是线性的 —— 而是，模型越大，这么做带来的提升就越大。还有这种好事？看起来英伟达要掂量掂量了。近年来，大语言模型（L

LLaMa 3或将推迟到7月发布，剑指GPT-4，从Gemini吸取教训

LLaMa 3 正寻找安全与可用性的新平衡点。过去的图像生成模型常被人们诟病人物主要以「白人」为主，而谷歌 Gemini 正在因为它的矫枉过正而深陷翻车风波。它「过度谨慎」的文生图结果会与历史事实出现极大偏差，让用户们瞠目结舌。谷歌表示，该模型变得比开发者预期的更加谨慎。这不仅体现在生成图片的问题上，还体现在常常将一些提示认作敏感提示，从而拒绝回答。在此事不断发酵时，这项安全与可用性如何平衡的难题也给 Meta 提出了巨大挑战。LLaMA 2 是开源领域的「强中手」，更是 Meta 的招牌模型，一经发布即改变了大模

想训练类Sora模型吗？尤洋团队OpenDiT实现80%加速

作为 2024 开年王炸，Sora 的出现树立了一个全新的追赶目标，每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。根据 OpenAI 披露的技术报告，Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式，并通过 Transformer 和扩散模型结合，展现了卓越的扩展（scale）特性。在报告公布后，Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合著的论文《Scalable Diffusion Models with Transform

ICLR 2024 Spotlight｜厦门大学、Intel、大疆联合出品，从网络视频中学习零样本图像匹配大模型

图像匹配是计算机视觉的一项基础任务，其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering) 等的基础和前置步骤，其精确度和效率对于后续处理十分重要。传统算法（SIFT）在面临长基线或极端天气等复杂场景时，其匹配的准确度和密度往往有限。为了解决这些问题，近年来，基于深度学习的匹配模型逐渐流行。然而，由于缺乏大规模且多样化的具有真值标签的训练数据，目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分别训练室内和室外两个模型。这

2024国际自动驾驶挑战赛正式开始

新赛题：七大赛道，赛题新颖，全方位覆盖相关领域最新最热话题，充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金：总奖金池超过12万美金，单赛道最高奖金可达2.7万美金。据不完全统计，奖金额度在CVPR 2024百个论坛中最高。重原创：加强基础研究探索，坚持四个面向。以原创性与科学研究价值作为主要衡量指标，并不单靠成绩排名。采取原创方案加性能指标两者结合的方式进行综合排序。2024年3月1号，2024国际自动驾驶挑战赛正式启动。本次挑战赛由上海人工智能实验室主办，并联合多家国内外机构共同举办。多位国内外知名专

火山引擎弹性容器实例：从节点中心转型 Serverless 化架构的利器

在 Kubernetes 和容器化技术愈发成熟的今日，越来越多企业开始将业务应用迁移到云上，采用云原生架构支持业务高速稳定地发展。而随着云计算向开发流程纵深发展，Serverless 架构的成熟让云原生技术进入全新阶段——Serverless 把公有云弹性伸缩、免运维、快速接入等特性发挥到了极致，极大降低了用户的使用成本，让用户和企业只需要专注于其业务逻辑，实现真正意义上的敏捷开发。为了更好帮助企业业务应用真正践行 Serverless 化的新型云原生思想，火山引擎云原生团队正在从理念、系统设计、架构设计等多方面推