资讯列表

分类

标签

【多模态&LLM】LLaVA系列算法架构演进：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

LLaVA模型架构目标是结合预训练LLM和视觉模型的能力，llava使用Vicuna作为的LLM （语言解码器），CLIP作为视觉编码器。训练过程分两阶段：LLaVA 1.5LLaVA1.5是LLaVA改进版本，主要在网络结构、数据集规模上进行改进。 LLaVA 1.5模型结构还是之前的llava模型结构，但是做了一些小修改：将视觉-语言连接器由线性投影修改成一个两层的mlp（前期文章的NVLM-D也是两层的mlp链接视觉-语言模型）；将224分辨率的视觉编码器修改为336pix的视觉编码器(带有MLP投影的CLIP-ViT-L-336px)。

12/31/2024 3:18:42 PM

余俊晖

AI+OSINT：2025年最值得关注的新兴威胁

在高度互联的数字化时代，情报工作正在经历一次深刻变革。以往依赖人类线人或有限信息源的情报收集方式已逐渐被一种新的模式取代——公开源情报（Open Source Intelligence，简称OSINT）。这种技术通过挖掘公开可用的信息资源，为网络安全和决策支持提供了重要依据。

12/31/2024 3:03:57 PM

佚名

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

离2025年只剩十几个小时，黄仁勋拿出50亿真金白银给大家发红包了！他刚花7亿美金（51亿RMB）收购了一家初创公司，专门做GPU管理工具的。并且立刻就宣布：开源所有平台和技术，买了英伟达GPU就能免费用。

12/31/2024 3:00:00 PM

量子位

2024年AI领域10大影响力事件

在即将过去的一年里，我们共同见证了一个非凡的时代——人工智能（AI）不仅在科技领域内取得了突破性的进展，更是在社会各个层面引发了深刻的变革。从年初开始，AI技术就以惊人的速度发展，无论是多模态模型的能力拓展，还是小型化语言模型的崛起，亦或是硬件革新与云计算技术的深度融合，都标志着这一年AI产业迈上了新的台阶。 2024年，AI不再仅仅是实验室里的理论研究对象，而是实实在在地走进了人们的日常生活，改变了工作方式、学习模式乃至娱乐选择。

12/31/2024 2:58:37 PM

deepaiedu.com

OpenAI将营利性部门独立成司，平衡股东权益与公共利益

ChatGPT开发者OpenAI近日阐述了将其AI开发工作的营利性部门转型为一家独立实体的计划：注册为一家独立的公益公司(PBC)。据报道，此次架构重组是OpenAI近期完成66亿美元融资的一个主要条件：如果该公司在两年内没有完成重组，投资者将有权索回投资。 OpenAI的这一决策并不出人意料。

12/31/2024 2:56:45 PM

孟晚舟新年致辞：人工智能的潮水正在涌入各行各业的生产系统

在华为轮值董事长孟晚舟的2025年新年致辞中，她特别强调了人工智能(AI)在各行各业中的重要作用和巨大潜力。孟晚舟指出，人工智能的潮水正在涌入各行各业的生产系统，成为工人师傅们的得力助手，推动生产力的提升，创造商业价值和社会价值。 AI高炉炉温预测：提升效率与安全性在上海的一家大型钢铁企业，人工智能技术被应用于高炉炉温预测，帮助老师傅更准确地判断炉况。

12/31/2024 2:50:48 PM

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer，长文分析了一篇改进Transformer架构的论文，引起推荐围观。他前不久从谷歌跳槽到OpenAI，这次是在飞机上阅读论文并写下了分析。这篇论文被他简写为DiffTranformer，不过不是Sora底层架构的那个Diffusion Transformer，而是不久前来自微软的Differencial Transformer。

12/31/2024 2:30:00 PM

量子位

扎推曝光！大厂2025计划流出：字节辟谣疯狂买卡，奥特曼要搞AGI、智能体和ChatGPT成人模式；谷歌硬刚OpenAI整活C端

编辑 | 伊风奥特曼明年的工作计划来了！此前，他在X上向网友征集，希望OpenAI在2025年做点什么新东西。 ——一万条评论在线许愿。

12/31/2024 1:52:58 PM

伊风

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

2024年，AI编程已然渗透了各行各业，影响着软件的整个生命周期。那么问题来了，AI coding用过都说好，但我们平时用的软件咋感觉没啥进步呢？近日，Addy Osmani，谷歌的工程主管，同时也是一位亚马逊畅销书作家，为我们揭示了AI辅助编码在一线开发中的真实情况。

12/31/2024 1:30:00 PM

新智元

Anthropic总结智能体年度经验：最成功的≠最复杂的

高端的食材，往往需要最朴素的烹饪方式。 AI 发展到后半场「大雾散去」，如何让大模型的智力落实成执行力，智能体似乎成了业界的共同答案。从元宝到混元，各类智能体平台如雨后春笋般涌现。

12/31/2024 1:20:00 PM

机器之心

理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/31/2024 1:15:00 PM

机器之心

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

2024年最后一天，谷歌开发者大佬Logan Klipatrick的一个预测，如同扔下了一枚重磅炸弹——我们直接进入ASI的可能性，正在逐月逼近。而这，就是Ilya所看到的。 Klipatrick分析道，Ilya创立了SSI，计划直接向ASI迈进，没有中间产品，没有中间模型。

12/31/2024 1:00:00 PM

新智元

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

就在刚刚，英伟达正式完成了对以色列AI初创Run:ai的收购。对于AI基础设施来说，Run:ai的软件至关重要——通过动态调度、GPU池化、GPU分片等功能，硬件资源的使用效率可以得到大幅提升，甚至可以实现10倍的工作负载。图片不仅如此，随后Run:ai还计划将他们的软件开源。

12/31/2024 12:42:17 PM

新智元

考研数学得126分、还能编写小游戏，智谱首个推理模型来了，人人免费用

2024 年的最后一天，智谱 GLM 模型家族迎来了一位新成员——GLM-Zero 的初代版本 GLM-Zero-Preview，主打深度思考与推理。从年初到年末，在接连推出新一代基座大模型、多模态模型、视频生成模型以及语音模型之后，智谱补上了推理模型这块拼图。据介绍，GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型，擅长处理数理逻辑、代码和需要深度推理的复杂问题。

12/31/2024 12:32:11 PM

传统视觉项目 | 使用 OpenCV 进行运动检测

在技术不断重塑我们与世界互动方式的时代，计算机视觉已成为最令人兴奋的创新领域之一。从自动驾驶汽车到家庭安防系统，检测和解释运动的能力已成为现代应用的重要组成部分。在这些进步的背后，OpenCV（开源计算机视觉库）扮演了核心角色，它使开发者能够构建强大而高效的图像和视频处理系统。

12/31/2024 12:30:00 PM

二旺

AI教父、诺奖得主Hinton支持起诉OpenAI，阻止「转营利」

上周五，OpenAI 发布了计划拆分为营利机构非营利机构的公告，此举立即引发了 AI 社区的巨大争议。正在与 OpenAI 打官司的首富马斯克此前已在 11 月提起了联邦诉讼，寻求初步禁令以阻止 OpenAI 转型。这一行动目前获得了更多人的支持。

12/31/2024 12:26:57 PM

OpenAI o1-preview AI 推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

科技媒体 The Decoder 昨日（12 月 30 日）发布博文，报道称 AI 安全研究公司 Palisade Research 实测 OpenAI 的 o1-preview 模型，在和专业国际象棋引擎 Stockfish 的 5 场比赛中，通过“作弊”手段取胜。

12/31/2024 12:25:30 PM

故渊

消息称字节跳动明年豪掷 70 亿美元购买英伟达芯片，回应称“不实”

对此，字节跳动方面表示，The Information 报道中所提供的信息“不实”。英伟达发言人则拒绝置评。

12/31/2024 11:42:20 AM

汪淼

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流纳米AI发布MCP万能工具箱，简化AI工具集成与调用 AI视频资讯早读！7个产品更新+8个案例精选小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini 小米首个推理大模型Xiaomi MiMo开源

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索驾驶具身智能神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉