基础模型

先进的基础模型将如何扩展AI的功能以及对2025年的其他预测

为何要读非Sam Altman和非AI博士的AI预测?其实，早期风投每天与比我们聪明得多的人打交道，这些人在AI可能性的最前沿工作，这让我们得以一窥未来的某种面貌。在我30多年的技术生涯中，我从未见过一项技术——尤其是基础模型及其周边技术的进步——能在如此多的方面产生如此迅速且巨大的影响，它重塑了我对团队构建方式和公司创造价值方式的预期。我们尝试限制AI我喜欢Mustafa Suleyman提出的AI数字物种推论，因为它恰当地框定了限制AI的问题。

12/31/2024 7:00:00 AM

Martina

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

最近，YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型，来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。图片Youtube热烈讨论那么，这到底是怎么回事呢？让我们一起来看看吧。

11/12/2024 1:10:49 PM

新智元

超 1.2 万人参加 CVPR 2024，谷歌研究院获得最佳论文

作者：赖文昕马蕊蕾编辑：陈彩娴北京时间今天凌晨，美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 2 篇论文获得了这份全球最重要的计算机视觉领域的大奖，团队成员分别来自谷歌研究院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。本周（6.17-6.21），第四十一届国际计算机视觉与模式识别会议（CVPR）在美国西雅图拉开帷幕。

6/20/2024 2:40:00 PM

赖文昕

CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前依然缺乏一个强大的基础模型。为了解决这个问题，来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE，一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪，并

3/21/2024 2:32:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型