视觉 - AI在线

OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony

本文经AIGC Studio公众号授权转载，转载请联系出处。在人工智能领域，赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前，视觉文字领域的大模型研究主要聚焦于单模态生成任务。

突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架

本文经3D视觉之心公众号授权转载，转载请联系出处。 UWB大规模实时工业定位超宽带（UWB）是一种短距离、节能的无线电通信技术，主要用于精确的定位检测和相对距离测量。例如，Apple 的 AirTags 和 Android 的 SmartTags 等设备因其能够精确追踪家用物品而越来越受欢迎。

计算机视觉开发者必备：十大顶尖工具深度解析

在科技日新月异的今天，计算机视觉领域正以前所未有的速度发展，其应用已经渗透到医疗健康、自动驾驶、安全监控以及零售等多个行业。对于计算机视觉开发者而言，掌握一系列高效、强大的工具是提升技能、加速项目开发的关键。本文将深入介绍十款无论是初学者还是高级用户都应熟练掌握的计算机视觉开发工具，帮助开发者在这一领域取得更大的突破。

计算机视觉项目实战：提升简历，精进技能

在计算机视觉领域，实践是检验理论、提升技能的试金石。无论是初学者还是希望进一步提升自己的专业人士，通过参与实际项目都是至关重要的。本文将引导您探索一系列计算机视觉项目，这些项目按照难度分类，旨在帮助您构建并展示您的专业技能。

多榜单SOTA！SplatAD：首个实现Lidar & 视觉重建大一统框架，仿真闭环再下一城~

写在前面&笔者的个人理解在实际部署之前，大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。与成本高昂、耗时且受物理约束限制的实际测试不同，模拟可以快速、低成本地探索多种场景，有助于优化自动驾驶车辆的安全性、舒适性和效率。

极智嘉发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案，在设备内完成所有深度计算

极智嘉（Geek ）昨日（11 月 4 日）宣布，携手英特尔发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案。 ▲ 纯视觉机器人在仓储场景的实际应用AI在线获悉，极智嘉成立于 2015 年，公司总部位于北京。极智嘉纯视觉机器人方案包含 M600 和 MP1000R 两款产品，将在 11 月 5~8 日首次亮相 2024 CeMAT 亚洲物流展极智嘉展台。

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

视觉定位（Visual Grounding）旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研究大致可以分为三类：两阶段方法、单阶段方法和基于Transformer的方法。

AI 让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

AI 解放碳基生物双手，甚至能让你的手机自己玩自己！你没听错 —— 这其实就是移动任务自动化。在 AI 飞速发展下，这逐渐成为一个新兴的热门研究领域。

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。

端侧最强开源 AI 模型 Llama 3.2 登场：可在手机运行，从 1B 纯文本到 90B 多模态，挑战 OpenAI 4o mini

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。AI在线附

MAIA 新系统亮相：洞悉 AI 模型内在机制，审查其安全性

麻省理工学院计算机科学与人工智能实验室的研究人员开发了一种名为“MAIA”的多模式自动化可解释性代理系统，该系统可以使用视觉语言模型来自动执行各种神经网络可解释性任务。麻省理工学院（MIT）计算机科学与人工智能实验室（CSAIL）最新研发了名为 MAIA 系统，可以使用视觉语言模型来自动执行各种神经网络可解释性任务。MAIA 的全称是 Multimodal Automated Interpretability Agent，直译过来为“多模态自动可解释性代理”，主要利用视觉语言模型，自动执行各种神经网络可解释性任务，

成立仅四个月，“AI 教母”李飞飞的 World Labs 估值突破十亿美元

被誉为“AI 教母”的知名计算机科学家李飞飞 ciq 创立了一家名为 World Labs 的初创企业。据《金融时报》报道，这家公司成立仅四个月，估值便已突破十亿美元。据路透社五月报道，World Labs 的目标是赋予 AI 类似人类处理视觉数据的能力，从而实现更高级的推理，目前仍处于探索阶段。据AI在线了解，李飞飞因其对计算机视觉的贡献而闻名，计算机视觉是 AI 的一个分支，致力于帮助机器理解和解释视觉信息。她还领导了 ImageNet 的开发，这是一个广泛使用的视觉数据库，用于视觉物体识别研究。李飞飞曾于 2

2024智源大会议程公开丨生成模型

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。北京智源大会倒计时：11 天生成模型论坛丨6月15日下午生成式建模是人工智能的基础范式之一，是迈向通用人工智能的重要一环。随着生成式建模方法的快速发展和模型规模的急速增长，以自回归模型、扩散概率模型为代表的生成式人工智能（如GPT系列、Sora、Stable Diffusion

李飞飞揭秘创业方向“空间智能”：视觉化为洞察，看见成为理解，理解导致行动

斯坦福李飞飞创业后，首次揭秘新概念“空间智能”。这不仅是她的创业方向，也是指引她的“北极星”，被她认为是“解决人工智能难题的关键拼图”。视觉化为洞察；看见成为理解；理解导致行动。李飞飞最新 15 分钟 TED 演讲完整公开，从数亿年前生命进化的起源开始，到人类如何不满足于自然赋予而发展人工智能，到下一步如何构建空间智能。而 9 年前，正是在同一个舞台上，李飞飞向世界介绍了刚诞生不久的 ImageNet—— 这一轮深度学习爆发的起点之一。她本人也向网友自我安利：如果把两个视频都看了，你就能对过去 10 年的计算机视觉

颜水成挂帅，昆仑万维2050全球研究院联合NUS、NTU发布Vitron，奠定通用视觉多模态大模型终极形态

近日，由颜水成教授带队，昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。这是一款重磅的通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。Vitron作为一个统一

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头，这是人工智能和计算机视觉令人难以置信的十年！」知名 AI 科学家李飞飞的计算机视觉「神课」CS231n，又一次开课了。总共 600 多位学生报名，第一堂课的现场座无虚席：从 2015 年到如今，CS231n 已经走到九个年头，也成为了一代计算机视觉专业学生心中的「必修课」：虽然课程代码不变，但可以猜到，2024 年的课程相比 2021 年版本的课程有不少新增内容，这还要归因于视觉生成技术三年来的巨大飞跃。在今年初的国际消费类电子产品展览

教授何恺明在MIT的第一堂课

700 座的大教室，相比去年增加一倍容量，仍然座无虚席：这就是麻省理工学院（MIT）计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授，每人负责一部分课程：课程信息：，能选上这课的学生太幸运了，每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说，其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明（Kaiming He）在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。据参与现场的同

人工智能顶会AAAI 2024放榜！联汇科技赵天成博士团队两篇论文入选

近日，第38届国际顶级人工智能学术会议AAAI（Association for the Advancement of Artificial Intelligence）正式发布了2024年会议的录用通知，联汇科技赵天成博士团队两篇论文入选。AAAI 是由国际人工智能促进协会主办的年会，是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一，也是中国计算机学会（CCF）推荐的 A 类国际学术会议。据了解，本届AAAI会议共有12100篇投稿（主赛道），打破历史纪录，经过全面而严格的审查程序，共有2342篇论文