AI资讯列表 - AI在线

大模型竟然能玩手机了，还能用软件修图：「AppAgent」会成为2024年的新趋势吗？

这就是2024年的新趋势吗？近日，一项名为 AppAgent 的创新技术引起了广泛关注。简单来说，AppAgent 的智能代理能力可以用于操作任何 App，它在 50 个复杂手机任务上展示了强大的能力。AppAgent 幕后团队来自腾讯，相关技术论文也已经公布。论文地址：：，这项技术通过引入一种基于大型语言模型（LLMs）的多模态智能代理（Agent）框架，赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同，AppAgent 不依赖于系统后端访问，而是通过模拟人类的点击和滑动等操作，直接与手机应

arXiv大升级，论文网页版本直接看

很快就将扩展到所有论文。今年 10 月，著名预印版论文平台 arXiv 宣布获得 1000 万元捐款，现在版本大升级来了。本周四，arXiv 宣布了一项更新，正式加入论文 HTML 版本。消息一出，立刻引来了学界的欢呼，有人发现 arXiv 也已经准备好了暗黑模式：arXiv 是计算机科学、物理学、数学、生物学等学术领域常用论文预印本网站，创立于 1991 年。一直以来，arXiv 上论文的显示方式都以 pdf 格式为主，用户通常需要「下载 PDF（Download PDF）」来查看论文内容。现在，arXiv 宣布

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

测试时领域适应（Test-Time Adaptation）的目的是使源域模型适应推理阶段的测试数据，在适应未知的图像损坏领域取得了出色的效果。然而，当前许多方法都缺乏对真实世界场景中测试数据流的考虑，例如：测试数据流应当是时变分布（而非传统领域适应中的固定分布）测试数据流可能存在局部类别相关性（而非完全独立同分布采样）测试数据流在较长时间里仍表现全局类别不平衡近日，华南理工、A*STAR 和港中大（深圳）团队通过大量实验证明，这些真实场景下的测试数据流会对现有方法带来巨大挑战。该团队认为，最先进方法的失败首先是由于

2024年怎么过？这是Sam Altman希望你早些知道的事

机器之能报道编辑：吴昕这个家伙正在塑造世界，如果他学到了什么，我们应该注意。「日子很长，但几十年很短。」Sam Altman 九年前写下这篇箴言体博客时，不知是否预感过自己会成为那个领导 AI 革命的人。2023 年行将结束之际，他时隔多年重拾箴言体，发布了一篇题为《那些我希望有人告诉我的（事）》的博客，将过去一年所学凝结在了十七条短句中。（下文黑体部分，对黑体部分的解读来自编辑。）过去一年激动又疯狂。Altman 领导的 OpenAI 推出了一个世人真正喜欢并从中受益的 AI 工具，世界也开始认真对待 AI 。从

Nature|从1.07亿个分子中发现新抗菌化合物，MIT团队开发用于抗生素发现的DL方法

编辑 | 萝卜皮当前，迫切需要发现新结构类别的抗生素来解决持续存在的抗生素耐药性危机。深度学习方法有助于探索化学空间；这些通常使用黑盒模型并且不提供化学见解。麻省理工学院（MIT）的研究人员开发了一种用于抗生素发现的深度学习方法，并表明它可以从大型化学库中识别出潜在的抗生素。研究人员用该方法从药物再利用中心（包含约 6,000 个分子）中发现了 halicin 和 abaucin，并从 ZINC15 库中的约 1.07 亿个分子中发现了新的抗菌化合物。图示：Yann LeCun 转发了这项研究的 Twitter 报

医渡科技发布自研医疗大模型，多个医疗任务场景评测表现超越GPT

2023年12月21日，由医渡科技主办、华为技术有限公司（以下简称“华为”）协办的“2023医疗智能大会”在京举行。大会以“智绘医疗，创见未来”为主题，深入探讨了人工智能等新技术为医疗行业带来的机遇与变革。会上，医渡科技自主研发的医疗垂域大模型正式发布，这是国内首个面向医疗垂直领域多场景的专业大语言模型，医渡科技医疗场景解决方案也随之迎来全面升级。与此同时，医渡科技与华为在会上签署深化合作协议，并联合推出智慧医疗解决方案，加速推动医疗健康行业的智能化转型。医渡科技CEO、联合创始人徐济铭表示，与以往AI浪潮不同，此

成立仅半年，Mistral估值暴涨七倍，开源重塑AI战局

机器之能报道编辑：Sia烧钱的闭源，逆袭的开源。当 LLaMA 被泄露出去、任何人都可以下载时，开源的命运齿轮已经开始转动，并在 Mistral AI 最新一轮融资中达到高潮。七个月前，来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月，这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元，估值从 2.6 亿美元狂飙到 20 亿美元，涨了七倍多。同时，公司也低调发布了大模型 Mixtral 8X7B。Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (

GPT-4驱动的机器人化学家登Nature，自主设计反应并执行复杂实验

编辑 | X基于 Transformer 的大语言模型（LLM）在自然语言处理、生物、化学和计算机编程等各个领域取得了重大进展。但对于在实验室工作的研究人员或那些不熟悉计算机代码的人来说，人工智能方法并不那么容易理解。近日，卡内基梅隆大学的研究团队找到了如何让人工智能系统自学化学的方法。提出了一种基于 GPT-4 的智能 Agent（以下简称 Coscientist），用一个简单的语言提示就可以执行整个实验过程。能够自主设计、规划和执行复杂的科学实验。Coscientist 可以设计、编码和执行多种反应，在湿实验中

“数智说”工业智能化论坛成功举办

为了进一步汇聚起推进新型工业化的强大合力，推动数字蝶变行动落地见效，12 月 16 日，数智上海 2023 峰会“数智说”工业智能化论坛在上海市杨浦区举办，邀请高校知名专家学者、高端制造业企业和科技企业代表，共享工业数智化丰富经验成果与未来趋势洞见。活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办，中国联合网络通信有限公司上海市分公司联合主办，机器之心（上海）科技有限公司承办。上海市经济和信息化委员会软

”数智说”算力新基建论坛圆满举办

作为助推数字经济发展的“重要底座”，我国算力基础设施建设近年来正不断跑出建设“加速度”，为千行百业的数字化转型提供着坚实的算力支撑。12 月 16 日，数智上海 2023 峰会“数智说”算力新基建论坛在上海杨浦顺利举办。相关政府主管部门领导，智算服务供应商、运营商、云计算服务商、AI 芯片企业代表以及上海市算力网络协会代表齐聚一堂，共论产业发展新趋势、新格局。本次活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进

开创全新通用3D大模型，VAST将3D生成带入「秒级」时代

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业，普遍依赖专业人员手动操作，生产周期短则几天，多则以月为单位，单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验，让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启，但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足，大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初，OpenAI 发布

做大模型时代的最佳云底座，百度智能云打出三套「组合拳」

不破不立，重构云计算这件事，百度智能云公布了最新进展。

4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了

PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。 PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。这个推理引擎速度有多快？在单个 NVIDIA RTX 4090 GPU 上运行 LLM ，PowerInfer 的平均 token 生成速率为 13.20 tokens/s，峰值为

谷歌Gemini技术报告出炉，作者多达900余人

从此以后，Google Scholar 数据该出问题了。备受期待的谷歌 Gemini 技术报告完整版，今天终于出炉了。两周前，人们兴奋于谷歌提出的「原生多模态大模型」Gemini，其宣称超越 GPT-4 的强大性能，以及对于图像、视频等领域的理解能力让人们似乎看到了未来。不过由于谷歌演示的 demo 涉嫌夸大效果，Gemini 又很快陷入了争议。但作为生成式 AI 领域最近的重要进展，人们对于 Gemini 的期待越来越高，有团队很快进行研究发了测试论文。今天发布的 64 页技术报告，或许可以为我们的许多疑惑进行更

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

「能不能把这张图里的产品，都放到另一张图的桌子上？」面对这样的要求，设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单，想要做到无缝接入，贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里，它们根据你的指令自动摆好姿势、站位的「魔法」呢？来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品，只需要一张照片，就能被传送到另一张图片的世界中。论文链接：：，想让这只柯基按照涂鸦的姿势，在墙角站卧坐躺，没有问题。让哆啦 A

只需一张图片、一句动作指令，Animate124轻松生成3D视频

Animate124，轻松将单张图片变成 3D 视频。近一年来，DreamFusion 引领了一个新潮流，即 3D 静态物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步，逐渐融入单视角图像，进而发展到整合多种控制信号。与此相较，3D 动态场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试基于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。然而，现

阿里云首创PilotScope新技术，为AI4DB应用提速

12月20日，数据库国际顶会VLDB2024公布新一批论文，阿里云新技术PilotScope成功入围，该平台技术可实现AI算法在数据库的“一键部署”，极大降低数据库中AI算法的应用门槛，为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。图说：数据库顶会VLDB2024数据库是事关国计民生的基础软件技术，数据库技术的更新影响着数字时代的千行百业，其中一个前沿领域即是数据库智能化（AI4DB，AI for Database）。现在的数据库系统非常复杂，对稳定性要求极高，即便将单一AI算

“数智说”金融科技与数实融合论坛成功举办

为了进一步加强现代金融机构和金融基础设施建设，推动金融更好地服务实体经济和科技创新，12 月 16 日，数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表，共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办，中国联合网络通信有限公司上海市分公司联合主办，机器之心（上海）科技