LLaVA

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。
工程
- 975
- 0
机器之心12月7日
WAIC上，高通这一波生成式AI创新，让我们看到了未来
做最有挑战的事：把生成式 AI 送到每个人手上。没想到，生成式 AI 爆发后，产业格局的变化居然这么快。一个月前，微软向全世界介绍了专为 AI 设计的「Copilot PC」，AI PC 这个新品类突然有了标准款。这是迄今为止速度最快、最智能化的 Windows 个人电脑。凭借搭载的新型芯片，它能够实现超过 40 TOPS（每秒万亿次操作）AI 算力、电池续航时间长达一整天，而且无缝接入了世界最先…
应用
- 4
- 0
机器之心7月8日
赶超Gemini Pro，提升推理、OCR才能的LLaVA-1.6太强了
去年 4 月，威斯康星大学麦迪逊分校、微软研讨院和哥伦比亚大学研讨者共同发布了 LLaVA（Large Language and Vision Assistant）。尽管 LLaVA 是用一个小的多模态指令数据集训练的，却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月，LLaVA-1.5 重磅发布，通过对原始 LLaVA 的简单修改，在 11 个基准上刷新了 SOTA。现在，研讨团…
应用
- 40
- 0
机器之心2月1日
通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与
仅靠视觉（像素）模型能走多远？UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题，并揭示了大型视觉模型（LVM）在多种 CV 工作上的应用潜力。最近一段时间以来，GPT 和 LLaMA 等大型言语模型 (LLM) 已经风靡全球。另一个关注度同样很高的问题是，如果想要构建大型视觉模型 (LVM) ，我们需要的是什么？ LLaVA 等视觉言语模型所提供的思路很有趣，也值得探索，但根据动物界的规律，…
理论
- 3
- 0
机器之心23年12月4日