AI资讯列表 - AI在线

将图像自动文本化，图像描述质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。张鉴殊：武汉大学本科三年级学生，目前在

寒武纪1号诞生：谢赛宁Yann LeCun团队发布最强开源多模态LLM

就像动物有了眼睛，谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。古往今来，许多哲学家都探究过这个问题：理解语言的含义是否需要以感官为基础？尽管哲学家们看法不一，但有一点却不言而喻：坚实有效的感官定基（grounding）至少能带来助益。比如科学家们普遍相信，寒武纪大爆发期间视觉的出现是早期动物演化的关键一步；这不仅能帮助动物更好地找寻食物和躲避捕食者，而且还有助于动物自身的进化。事实上，人类（以及几乎所有动物）的大多数知识都是通过与物理交互的感官体验获取的，比如

阿里玉伯创业AI原生在线办公，首轮估值过亿；StabilityAI4亿美元债务一笔勾销；Perplexity获新投资丨AI情报局

融资快报Stability AI 获前 Facebook 总裁主导的 8000 万美元投资，并豁免 4 亿美元的债务：由前 Facebook 总裁 Sean Parker 领衔的投资者群体接管这家在商业与运营受阻的 AI 独角兽。新一轮投资的投资者包括 Greycroft、O’Shaughnessy Ventures 和生物技术投资者 Robert Nelsen，老股东Coatue、Lightspeed 以及 Ashton Kutcher 的Sound Ventures 也承诺投资。此外，包括前 Google CEO Eric Schmidt 以及伦敦 Stability AI 早期支持者在内的投资者群体已经与供应商达成协议，豁免 Stability AI 欠下的 1 亿美元债务，同时免除公司未来 3 亿美元的义务，这些债务主要用于云计算服务提供商。

携手云帆，探索无界: 2024 WAIC 云帆奖颁奖典礼暨人工智能青年先锋论坛全日程公布

ChatGPT 的飞速迭代，亦或是 Sora 的惊艳出场，AI 技术的革新不断突破人类的想象。由此引发科学范式、技术创新、软硬件升级、产业变迁等超常化演进，正实现着链式突破，全球涌现出新一轮科技革命与产业变革热潮。我们正处于一个新征程的起点，哪些前沿研究将定义未来十年的 AI 发展？如何推动人工智能技术实现进一步的重大突破？谁又是引领这些变革的关键人物？为了表彰敢于探索、勇于创新的 AI 青年先锋，为 AGI 时代汇聚智慧明星，同时也为了充分发挥 WAIC 云帆奖平台优势，加强海内外人工智能领域交流与合作。在世界人

准确率达0.96，从序列中预测蛋白-配体互作的物理化学约束图神经网络

编辑 | 萝卜皮在药物研发中，确定小分子配体对蛋白质的结合亲和力和功能效应至关重要。目前的计算方法可以预测这些蛋白质-配体相互作用特性，但如果没有高分辨率的蛋白质结构，通常会失去准确性，并且无法预测功能效应。莫纳什大学（Monash University）和格里菲斯大学（Griffith University）的研究人员开发了 PSICHIC（PhySIcoCHemICal graph neural network），这是一个结合物理化学约束的框架，可直接从序列数据解码相互作用指纹（fingerprints）。这使

清华AIR等提出ESM-AA，首个从氨基酸到原子尺度的蛋白质语言模型

来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在蛋白质语言建模领域取得了重要进展，提供了一套整合多尺度信息的统一建模方案。它是首个能同时处理氨基酸信息和原子信息的蛋白质预训练语言模型。模型的出色性能展示了多尺度统一建模在克服现有局限和解锁新能力方面的巨大潜力。作为基座模型，ESM-AA 获得了多位学者的关注与广泛讨论（截图见下方），被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型，为研究不同生物结构间的相互作

首个类 Sora 开源复现方案，Open Sora 可在英伟达 RTX 3090 显卡上 AI 生成视频：最高 4 秒 240P

作为全球首个类 Sora（OpenAI 的文本生成视频模型）开源复现方案，Open-Sora 可以在英伟达 RTX 3090 GPU 上基于文本生成视频，最高可以生成 240P 分辨率、时长最长 4 秒的视频。处理 AI 任务的 GPU 云服务提供商 Backprop 展示了基于 Open-Sora V1.2 的 AI 环境，展示 4 个基于提示词生成的视频。Backprop 表示：“在 RTX 3090 GPU 上，用户可以生成最高 240p、时长 4 秒的视频，生成 2 秒视频大约需要 30 秒，4 秒视频大约

Meta 发布基于 Code Llama 的 LLM 编译器：优化代码大小、反汇编

感谢Meta 官方在 X 平台宣布推出 LLM 编译器，这是一个基于 Meta Code Llama 构建的模型家族，具有额外的代码优化和编译器功能。这些模型可以模拟编译器，预测代码大小的最佳传递，并可反汇编代码，可以针对新的优化和编译器任务进行微调。Meta 在 HuggingFace 上公开了 LLM 编译器的 7B 和 13B 模型，采用宽松的许可协议，允许用于研究和商业用途。IT之家附链接：，LLM 在各种软件工程和编码任务中展示其能力，然而在代码和编译器优化领域的应用仍然未被充分探索。为了解决这一问题，M

加码“智慧办公”，荣耀宣布与字节豆包大模型达成合作

据火山引擎官方公众号 27 日消息，荣耀与字节豆包大模型现已达成合作，豆包大模型家族中的语音识别、角色扮演等多款模型将助力荣耀构建移动办公领域垂直模型落地应用的基础能力。据介绍，豆包大模型将为荣耀手机用户提供基于文档理解的互动问答、按照指定格式一键生成会议纪要，以及包括工作总结、演讲稿、会议议程、广告文案、现代诗等在内的多类型、多体裁、多风格智能辅助创作。具体来看，以撰写企业全员活动邀请函这一场景为例，豆包大模型可以提供活动信息、撰写要求，并生成邀请函框架及具体内容，用户也可以通过自然语言对话来对成文进行后续的多次

200 亿估值之后，中国大模型公司还能拿谁的钱？

「200 亿」成为高风险投资代名词的直接原因，是无论美元基金（如红杉、IDG）或人民币基金（如启明、君联），其背后的 LP 主力背景里都有地方政府与国资，后者的投资喜好是风险厌恶。「200亿是不是一个坎」成为投资者与创业者都要思考的共同问题。目前，中国只有两家公司（智谱 AI 与月之暗面）在以估值约 30 亿美元、200 亿人民币进行新一轮融资。

比尔・盖茨喊话环保人士：不要“过分担心”AI 用电问题

据《金融时报》北京时间今日报道，针对当前 AI 系统导致能源消耗加快的问题，比尔・盖茨发起了“辩护”，他认为 AI 技术最终将会“抵消”其耗电量。比尔・盖茨在伦敦演讲时向环保人士和政府发起呼吁，不要“过分担心”运行新一代 AI 系统所需的巨大电力，因为微软等大型科技公司竞相投资数百亿美元建设大型新数据中心。他表示，数据中心将导致全球用电量增加 2-6%。而在今年 5 月，微软承认自 2020 年以来，其温室气体排放量增加了近三分之一，很大程度上是由于建设数据中心导致的。但与此同时，科技公司将在寻求新的能源来源时为清

计算机视觉华人史：权龙与他的学生们

作者 | 赖文昕编辑 | 陈彩娴「简单，是终极的复杂。」群星闪耀时1988 年的冬天，一辆火车从法国出发、开往卢森堡。火车上有一行四人，来自法国南锡，他们精神焕发，兴高采烈地讨论着即将开始的旅程。

为癌症患者提供治疗方案，软银与美国医疗 IT 企业 TempusAI 成立合资公司

软银集团当地时间 27 日发布新闻稿，宣布与人工智能和精准医疗领域企业 Tempus AI 成立合资公司“SB TEMPUS Corp.”。各方将分别向合资企业投资 150 亿日元（IT之家备注：当前约 6.81 亿元人民币），公司 8 月开始运营，目的是在日本提供精准医疗服务，并通过整合日美医院拥有的图像和临床数据提供适合患者的治疗方案。据介绍，合资公司将利用 Tempus 拥有的美国 770 万个癌症患者数据，结合从日本骨干医院收集的数据，最快在年内推出服务。为了帮助尽可能多的癌症患者，双方将与癌症基因组医学医

科大讯飞发布星火智能批阅机：基于星火大模型，准确率 99%

科大讯飞昨日举办讯飞星火 V4.0 发布会，发布了讯飞星火大模型 V4.0，同时升级了星火教育大模型。讯飞表示，本次升级提升了大模型底座能力和多模态能力，面向教育复杂场景的图文识别效果进一步提升，号称“比 GPT-4o 更好”，复杂的手写公式可以高精度地识别出来。基于星火教育大模型，讯飞发布了星火智能批阅机，通过批改自动分析全班学习情况，给出每个孩子学习路径的规划，实现软硬件一体化。通过自动化识别，星火智能批阅机试题解析的准确率大于 99%，学生可以随便涂抹，自由排版不限格式。原来 90 分钟的作业批改时间可以变成

90/270 亿参数，谷歌发布 Gemma 2 开源 AI 模型：性能力压同级、单 A100 / H100 GPU 可运行

感谢谷歌公司昨日发布新闻稿，面向全球研究人员和开发人员发布 Gemma 2 大语言模型，共有 90 亿参数（9B）和 270 亿参数（27B）两种大小。Gemma 2 大语言模型相比较第一代，推理性能更高、效率更高，并在安全性方面取得了重大进步。谷歌在新闻稿中表示，Gemma 2-27B 模型的性能媲美两倍规模的主流模型，而且只需要一片英伟达 H100 ensor Core GPU 或 TPU 主机就能实现这种性能，从而大大降低了部署成本。Gemma 2-9B 模型优于 Llama 3 8B 和其他类似规模的开源模

OpenAI 与《时代》达成合作协议：可用其杂志内容训练 ChatGPT

感谢当地时间周四，《时代》杂志与 OpenAI 宣布，两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。通过此次合作，OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容，以增强其产品并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为协议的一部分，《时代》杂志将可以使用 OpenAI 的技术，为其受众开发新产品。据IT之家此前报道，去年 12 月，OpenAI 首席执行官阿尔特曼被《时代

开源 AI 大模型“洗牌”：阿里通义千问 Qwen2-72B 成“王者”，傲视 Meta Llama-3、微软 Phi-3 等群雄

感谢Hugging Face 联合创始人兼首席执行 Clem Delangue 于 6 月 26 日在 X 平台发布推文，表示阿里云开源的通义千问（Qwen）指令微调模型 Qwen2-72B 在开源模型排行榜上荣登榜首。Hugging Face 公布了全新的开源大语言模型排行榜，通过 300 片英伟达 H100 GPU，重新运行 MMLU-pro 等标准评估目前主流的大语言模型，并在其要点介绍中称 Qwen2-72B 为“王者”，并表示中国的诸多开源模型在榜单上有一席之位。他表示，为了提供全新的开源大模型排行榜，使

专给 ChatGPT“找茬”，OpenAI 训练 CriticGPT 模型以检索输出内容错误

感谢当地时间 27 日，OpenAI 宣布基于 GPT-4 训练了一个名为 CriticGPT 的模型，用于查找 ChatGPT 聊天机器人输出内容中的错误。它可以撰写评论，强调 ChatGPT 生成答案中不准确的地方。据介绍，CriticGPT 旨在协助人类 AI 训练员完成工作 —— 使用一种名为“从人类反馈中强化学习（IT之家注：Reinforcement Learning from Human Feedback，RLHF）”的技术来训练、改进 GPT-4 的回答。然而随着 ChatGPT 的准确性日益提升，