AI资讯列表 - AI在线

超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

在大模型落地应用的过程中，端侧 AI 是非常重要的一个方向。近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社区的极大关注，模型一夜下载量超 2k。20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行，在准确性和延迟方面超越了 GPT-4，并将上下文长度减少了 95%。此外，Octopus v2 比 Llama7B RAG 方案快 36 倍。不少网友感叹：设备端 AI 智能体的时代到来了！论文：Octopus v2: On-device language mod

谷歌DeepMind发布Gecko：专攻检索，与大7倍模型相抗衡

Gecko 是一种通用的文本嵌入模型，可用于训练包括文档检索、语义相似度和分类等各种任务。文本嵌入模型在自然语言处理中扮演着重要角色，为各种文本相关任务提供了强大的语义表示和计算能力。在语义表示上，文本嵌入模型将文本转换为高维向量空间中的向量表示，其中语义上相似的文本在向量空间中距离较近，从而捕捉了文本的语义信息，这种表示有助于计算机更好地理解和处理自然语言；在文本相似度计算上，基于文本嵌入的向量表示，可以轻松地计算文本之间的相似度，从而支持各种应用，如信息检索、问答系统和推荐系统；在信息检索上，文本嵌入模型可以用

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。然而，近期很多工作发现 GPT-4V 在很多基本能力上却意外的出现短板。例如，在微软一篇长达 166 页的技术报告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中，作者发现，对于一个不太复杂的图像中的苹果数量，GPT-4V 竟然怎么数也数不对。然而，学术界和工业界尚不清楚导致这些问题的底

二次元专用超分AI模型APISR：在线可用，入选CVPR

《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是很多人童年回忆的一部分，它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候，我们会突然有重温这些童年回忆的冲动，但我们却可能会略带遗憾地发现这些童年回忆的分辨率非常低，根本无法在客厅的 4K 大屏电视上创造出良好的视觉体验，以至于可能阻碍我们与在高分辨率数字世界中成长的孩子分享这些童年回忆。针对这样的困扰（以及潜在的市场），一种做法是由动画公司制作重制版，但这项任务的人力和资金成本都不低。而随着多模态人工智能的性能日益强大，采用基于 AI 的

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但

“看起来不像手机”，Altman和Jony Ive的AI硬件公司拟融资10亿美元

机器之能报道编辑：SiaJony Ive 和 Sam Altman 的 AI 设备初创公司正在与 Emerson Collective 和 Thrive Capital 进行融资谈判。Ive 希望筹集高达 10 亿美元的资金。据 The Information 独家消息，由前苹果设计师 Jony Ive 和 OpenAI CEO Sam Altman 创立的神秘 AI 硬件公司目前已经开始与一些最知名的风险投资公司进行融资谈判。The Information执行主编表示，它看起来不像手机据一位参与该过程的人士和另一

美国与欧盟计划借助 AI 寻找半导体生产中“永久化学品”PFAS 替代品

感谢据美国白宫官网，美国-欧盟贸易和科技委员会在近日的联合声明中表示计划借助 AI 寻找半导体生产中“永久化学品”PFAS 的替代品。这份声明是在该委员会于 4 月 4~5 日举办的第六次部长级会议上公布的。声明宣称：我们计划继续努力寻找在芯片中使用全氟和多氟物质（PFAS）的替代品的研究合作机会。例如，我们计划探索使用 AI 能力和数字孪生来加速发现合适的材料，以取代半导体制造中的 PFAS。PFAS 类有机物包含由完全氟化的碳原子组成的碳原子链。由于碳氟键的高强度，PFAS 具有化学惰性，难以同其他物质反应，故

金山办公 WPS 365 宣布 4 月 9 日全新发布：“一站式 AI 办公”

感谢金山办公生产力大会官宣 4 月 9 日 15 点举行，宣称“WPS 365 全新发布”。官方海报写有“一站式 AI 办公生产力即刻起飞”，暗示 WPS 365 将迎来更多 AI 功能升级。2023 年 4 月，金山办公面向政企客户发布了数字办公品牌 WPS 365，该服务提供一系列内容创作应用和办公协作工具，涵盖了内容创作、沟通创作、数字资产管理、开放生态四大版块，包含 WPS Office、文档中心、金山协作、金山会议、邮件、日历等通用办公套件。IT之家查询 WPS 365 官网获悉，该服务的体验版免费使用，

消息称马斯克的 XAI 人工智能公司寻求 30 亿美元融资，估值达 180 亿美元

感谢据华尔街日报援引知情人士消息，埃隆・马斯克 (Elon Musk) 旗下的人工智能创业公司 xAI 正与投资者洽谈融资事宜。此次融资规模达到 30 亿美元（IT之家备注：当前约 217.2 亿元人民币），这将使 XAI 的估值达到 180 亿美元（当前约 1303.2 亿元人民币）。报道称，考虑参与 xAI 融资的投资方包括风投公司 Gigafund 和投资人 Steve Jurvetson。Gigafund 由曾联合创办 PayPal 的 Stephen Oskoui 和 Luke Nosek 于 2017

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

DomoAI 6大新功能详解！可自动扣除背景，支持人物一键跳舞

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了一款 AI 视频工具 DomoAI，它能一键将真人视频转为多种不同的风格，比如动漫、3D 卡通、像素、中式水墨等。过去一段时间内，DomoAI 又连续推出了很多新功能，不仅风格更多样、转绘质量进一步提升，还新增了和 Viggle 一样的角色动态功能，今天我们就一起来看一下这些新功能的用法~ 相关推荐：一、DomoAI 新网站官方网站： DomoAI 用法详解：视频一键转风格！详解 AI 视频神器 DomoAI 用法 DomoAI 虽然目前依旧将视频生

拒绝白人与亚洲人同框，Meta图像生成器的「歧视」，被人挖出来了

AI 生成工具的偏见何时休？在人工智能构筑的世界中，AI 有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型而言，由于训练数据的影响会不可避免地存在性别偏见、种族刻板印象，等等。当然，这种偏见或倾向性在图像生成工具中同样存在。今年 2 月，谷歌 Gemini 被曝出拒绝在图像中描绘白人，生成大量违背基本事实（性别、种族、宗教等）的图片。马斯克也被系统过分矫正了。近日，外媒 The Verge 的一篇文章指出，Meta 的 AI 图像生成器无法准确生

苹果终止电车项目后大裁员，押注家用机器人，这会是Next Big Thing吗？

新的出路，苹果能让我们耳目一新吗？苹果公司压力山大，何以见得？苹果公司的电动汽车项目在今年二月份取消了，他们还决定放弃为 Apple Watch 自主生产下一代屏幕的尝试。这两个项目都因成本超支和上市延迟而受阻。此外，混合现实眼镜还需要多年时间才能成为苹果主要的盈利点。在这样的情况下，苹果面临着巨大的收入压力。图源：彭博社电动汽车项目的一些剩余员工将被转移到苹果公司的生成式 AI 项目。其他人将有 90 天时间在公司内部找到其他角色的重新分配，否则就

Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

AniPortrait 模型是开源的，可以自由畅玩。「小破站鬼畜区的新质生产力工具。」近日，腾讯开源发布的一个新项目在推上获得了如此评价。这个项目是 AniPortrait，其可基于音频和一张参考图像生成高质量动画人像。话不说多，我们先看看可能会被律师函警告的 demo：动漫图像也能轻松开口说话：该项目刚上线几天，就已经收获了广泛好评：GitHub Star 数已经突破 2800。下面我们来看看 AniPortrait 的创新之处。论文标题：AniPortrait: Audio-Driven Synthesis o

ICLR 2024 | 联邦学习后门攻击的模型关键层

联邦学习使多个参与方可以在数据隐私得到保护的情况下训练机器学习模型。但是由于服务器无法监控参与者在本地进行的训练过程，参与者可以篡改本地训练模型，从而对联邦学习的全局模型构成安全序隐患，如后门攻击。本文重点关注如何在有防御保护的训练框架下，对联邦学习发起后门攻击。本文发现后门攻击的植入与部分神经网络层的相关性更高，并将这些层称为后门攻击关键层。基于后门关键层的发现，本文提出通过攻击后门关键层绕过防御算法检测，从而可以控制少量的参与者进行高效的后门攻击。论文题目：Backdoor Federated Learning

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共 600 多位学生报名，第一堂课的现场座无虚席：从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

如何用AIGC加速设计？来看京东3C数码年货节设计复盘（上）

3CDesign 设计团队服务于京东零售 3C 数码范围内的设计项目。重点关注京东 6.18、京东 11.11、京东电器营销品类相关全案项目设计、通讯、电脑数码、配件业务、京东电竞等。团队会针对用户体验、营销、交互、品牌、研究、前端代码设计等层面服务 3C 数码事业群。从创意到商业化价值的转化，再从数据理性分析并驱动，最终形成商业设计赋能于业务帮助业务增长。同时团队是个关注设计商业化、设计价值领域的所有项目的创新设计。一、项目背景 1. 背景介绍 2024 京东 3C 数码年货节项目，旨在通过富有创意的场景化布局为

AI无人商店背后，是上千个印度人通过摄像头看美国人买西蓝花？

AI无人商店，背后疑似是1000印度人看摄像头：大厂的「拿货即走」没有走通？人们常说，有多少智能，就有多少人工。但是，亚马逊的这个项目，人工含量似乎有点高。这个项目名叫「Just Walk Out」。就像它的名字所暗示的，你可以走进亚马逊的无人购物商店里，选好东西，然后直接走出去，无需排队等待结账。因为，通过与计算机视觉和深度学习算法相结合，Just Walk Out 技术能够准确识别你拿取的商品，并完成结算，整个过程非常省心，听起来也很智能。但是，事实可能并非如此。据外媒 The Information 报道，「