• 牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%
  • 统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
  • ECCV 2024 | 引入DiT的原生3D通用框架,适用任意神经场、秒级生成
  • ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?
  • 如何让等变神经网络可解释性更强?试试将它分解成「简单表示」
  • 用AI自动设计智能体,数学提分25.9%,远超手工设计
  • 支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
  • 多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
  • 浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
  • 大模型终端部署新趋势:硬件直接支持混合矩阵乘法
  • 机器人策略学习的Game Changer?伯克利提出Body Transformer
  • 给RAG系统做一次全面「体检」,亚马逊开源RAGChecker诊断工具
  • Nature子刊 | 基于内生复杂性,自动化所新类脑网络构筑人工智能与神经科科学的桥梁
  • 英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
  • 大神Karpathy:我给大模型「SQL注入」攻击,简直不要太轻松
  • 两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
  • 数十年来首次取得进展,陶哲轩高徒、赵宇飞高徒突破组合数学难题
  • 给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
  • 新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性
  • 混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
  • 投机采样会损失大语言模型的推理精度吗?
  • Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
  • 八问八答搞懂Transformer内部运作原理
  • AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?
个人中心
今日签到
搜索