轨迹

重新思考轨迹预测 | 复旦提出PIFM：如何将规划引入预测？

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面 && 笔者理解传统的自动驾驶主要可以分为感知、预测、规控三个大的部分，其中预测模块承担着十分重要的角色，为下游规划路径提供重要的信息。然而，现实世界驾驶环境的复杂性，其中包括多个动态智能体（如车辆和行人）之间的相互作用，给预测造成了不小的挑战。

11/5/2024 9:41:27 AM

Yunhao Liu等

“神笔马良版 Sora”，阿里团队推出视频 AI 生成框架 Tora：画圈操控物体运动轨迹

阿里团队最新推出了 AI 视频生成框架 Tora，同时集成了文本、视觉和轨迹条件用于生成视频，是基于轨迹导向的扩散变换器（DiT）技术。Tora 由一个轨迹提取器（TE）、一个时空 DiT 和一个运动引导融合器（MGF）组成：TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中，以生成遵循轨迹的连贯视频。Tora 无缝契合 DiT 设计，支持制作最长 204 帧、720P 分辨率的视频，可以精确控制不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在

8/6/2024 10:08:40 AM

故渊

几何深度学习揭示微观运动的时空特征

编辑 | 白菜叶生命系统中动力学过程的表征为其机械解释和与生物功能的联系提供了重要线索。由于显微镜技术的最新进展，现在可以在生理条件下以多个时空尺度常规记录细胞、细胞器和单个分子的运动。然而，在拥挤和复杂的环境中发生的动态自动分析仍然落后于微观图像序列的获取。在这里，哥德堡大学的研究人员提出了一个基于几何深度学习的框架，可以在各种生物学相关场景中实现对动力学特性的准确估计。这种深度学习方法依赖于由基于注意力的组件增强的图形神经网络。通过使用几何先验处理对象特征，网络能够执行多项任务，从将坐标链接到轨迹到推断局部和全

2/23/2023 5:53:00 PM

ScienceAI

ICLR 2022 | 操作3D铰接物体的视觉操作轨迹学习

本文是 ICLR 2022入选论文《VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects》的解读。该论文由北京大学前沿计算研究中心董豪课题组与斯坦福大学、腾讯人工智能实验室合作完成。文章提出了一种新型的物体功能可操作性表示，设计了一个通过交互进行感知学习的框架以学习这个表示，并在多样的物体上完成操作任务。

7/18/2022 5:05:00 PM

北京大学前沿计算研究中心

RoLAP 实验室｜基于凸凸凸的工业臂柔性规划系统

大界成立的RoLAP实验室（RoboticPlus Laboratory for Autonomy and Perception），由中科院博士后、加州理工物理学博士、大界首席科学家周诚喆领衔，聚集了一批专业的硕博团队，致力于研究工业机器人在智能制造场景下的视觉感知（眼）、运动规划（手）、场景理解（大脑）的协同闭环系统。本文将基于RoLAP实验室的研究成果，为各位读者深度解析机械臂运动规划的关键技术。一. 背景介绍随着科学技术的发展，机器人技术正在被广泛应用到各种结构化的场景，比如3C消费电子和汽车工厂等标准化制造

6/17/2022 2:39:00 PM

新闻助手

JUST技术：提升基于GPS轨迹的路网推测精确度

路网数据对于城市中的很多应用，比如车载导航和线路优化等，都非常重要。传统的道路数据采集方法依赖于采集车，消耗大量的人力物力。随着GPS设备的普及，海量轨迹数据在城市里产生，使我们能够用轨迹数据去生成路网。这个问题在近十年中已经有了广泛的研究，但是其中很多方法的精确度（precision）并不高，特别是上下道路，平行道路等地方。由于轨迹数据在城市内并不是均匀分布的，对于那些车辆频繁通行的地方，我们有没有办法进一步提高这些区域路网推测的精确度呢？

4/7/2021 10:54:00 AM

京东科技开发者

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练