资讯列表

分类

标签

六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

写在前面 & 笔者的个人理解近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。

12/20/2024 9:39:05 AM

Zhijian Huang等

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成，对于自动驾驶技术而言，同样非常重要。比如，生成高质量、长时间且可控的高质量街景视频，可以满足开发自动驾驶应用的数据缺口。现在，香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋：推出MagicDriveDiT，重新定义自动驾驶视频生成的标准。

12/20/2024 9:30:00 AM

量子位

不会代码的独立开发者，除了学Cursor，还该会些什么？

“十多年前有本书叫《人人都是产品经理》，但现在可能才真正到了「人人都是产品经理」的时刻。 ”苹果商店付费榜Top1，这是一个不会代码的独立开发者用Cursor开发App的最佳战绩。背后独立开发者用1.5个小时，开发并上架了包括「小猫补光灯」在内的2款iOS App，这个初代版本最高冲到了苹果商店“摄影与录像分类”免费排行榜前20。

12/20/2024 9:15:00 AM

量子位

计算机视觉开发者必备：十大顶尖工具深度解析

在科技日新月异的今天，计算机视觉领域正以前所未有的速度发展，其应用已经渗透到医疗健康、自动驾驶、安全监控以及零售等多个行业。对于计算机视觉开发者而言，掌握一系列高效、强大的工具是提升技能、加速项目开发的关键。本文将深入介绍十款无论是初学者还是高级用户都应熟练掌握的计算机视觉开发工具，帮助开发者在这一领域取得更大的突破。

12/20/2024 9:14:31 AM

AGI

金山办公将在武汉打造 AI 及鸿蒙研发总部

2017 年，金山办公首次牵手光谷，目前已有 2000 余人的研发团队，成为该公司全国最大研发中心。2020 年，金山办公再次重仓光谷，建设面积 120 亩的武汉总部研发基地，目前已达到预交付投产标准，2025 年 1 月启动入驻。

12/20/2024 9:04:00 AM

汪淼

Mac版ChatGPT接入大量应用，但终极大招在明天

今天是 ChatGPT 产品发布会第11天。现场的 OpenAI 产品负责人 Kevin Wheel 和他两位同事为我们揭晓 ChatGPT 在MAC端的最新进展，主要涉及编程和写作1. ChatGPT 桌面版的诞生Kevin 一上来就提到，过去半年，OpenAI 对桌面端应用下了大功夫。

12/20/2024 9:00:00 AM

AI寒武纪

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

提速8倍！速度更快、效果更好的混元视频模型——FastHunyuan来了！新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。

12/20/2024 9:00:00 AM

量子位

AI 搜索引擎 Perplexity 完成最新一轮融资，估值从今年 4 月 10 亿美元升至 90 亿美元

这一融资反映了投资者对将生成式 AI 融入在线搜索的高度热情。成立于2022年的 Perplexity，通过提供更多实时信息，与其他 AI 聊天机器人形成区别。

12/20/2024 8:41:08 AM

清源

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

在大型语言模型（LLM）引领的革命浪潮中，搜索与大模型的紧密结合已成为推动知识进步的关键要素。作为开源搜索引擎排名第一的 Elasticsearch（ES），结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索，使搜索变得更准、更全、更智能。腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化，并在海量规模的云业务中接受考验。

12/20/2024 8:13:06 AM

黄国航

AI时代下，大厂设计师的工作模式有哪些变化？

往期AI干货：. 零基础也能快速做海报！ AI设计神器Recraft入门使用指南Recraft，这款集成了 AI 绘画、矢量图生成和设计工具的应用平台，是一款强大的 AI 图像生成与编辑工具。

12/20/2024 8:11:47 AM

小普

推进可解释性自然语言生成（NLG）：技术、挑战和应用

译者 | 晶颜审校 | 重楼结合XAI技术可以帮助开发人员改进模型，发现偏差，并确保可靠和公平的NLG应用程序。自然语言生成（NLG）是从会话代理到内容创建等应用程序的核心。尽管取得了进步，但NLG系统经常像“黑匣子”一样运行，让开发人员和用户对其决策过程摸不着头脑。

12/20/2024 8:07:45 AM

晶颜

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

OpenAI直播第11天，ChatGPT与Mac应用深度集成了——此次带来编程和写作两方面的更新。再加上今天直播的OpenAI员工一开头就大谈特谈AI自动执行任务，有网友表示这也许是为即将推出的智能体做铺垫。至于今天有哪些更新，话不多说，我们直接一睹为快。

12/20/2024 8:05:00 AM

Meta AI的COCONUT：无需语言即可思考的 AI 方法

译者 | 涂承烨审校 | 重楼当研究人员首次发现大型语言模型（LLMS）可以通过思维链提示一步一步地“思考”时，这是一个突破性的时刻！我们终于可以窥视这些黑盒子的推理过程了。但如果我告诉你，让人工智能模型用自然语言思考可能会阻碍它们的发展呢？

12/20/2024 8:00:00 AM

涂承烨

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

谷歌版o1来了！在奥特曼“双十二”倒数第二天——他们发布Gemini 2.0 Flash Thinking，顾名思义，以闪电般的速度解决复杂问题并展示其思考过程的实验模型。从姐夫哥展示出的Demo来看，它能在几秒钟之内解决一个物理问题，并且给出思考过程。

12/20/2024 8:00:00 AM

谷歌首个通用推理模型登场：揭秘 AI 推理“黑匣子”，登顶 Arena LLM 排行榜

谷歌 AI Studio 平台昨日（12 月 19 日）发布实验性的“Gemini 2.0 Flash Thinking”模型，主打“清晰展现思考过程”，是谷歌第一个通用推理模型。

12/20/2024 7:58:12 AM

故渊

OpenAI ChatGPT 变身桌面助手：支持 Xcode、Notion 等 30+ 应用，AGI 彩蛋曝光

“12 days of OpenAI”活动进入倒数第 2 天，OpenAI 公司主要演示了桌面版 ChatGPT 的功能改进，强调 ChatGPT 正从聊天机器人向 AI 智能体工具进化，让其在桌面环境中高效执行任务并实现无缝协作。

12/20/2024 7:29:19 AM

故渊

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

豆包的“眼睛”升级了，现在让它看一眼APP截图，就能直接给你生成代码！话不多说，我们直接给它上一个难度。例如我们先随机截取一张网站的图片：再来到火山方舟的大模型广场，pick一下最新的Doubao-vision-pro-32k版本：（PS：该模型也可以在豆包APP中体验）然后把刚才的截图“喂”给豆包，并附上一句简单的Prompt：帮我写代码，克隆这个APP。

12/20/2024 7:10:00 AM

腾讯版Sora开源后，被提速八倍！官方点赞并预告：下月上新图生视频

12/20/2024 7:00:00 AM

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Ollama 支持全线的 Qwen 3 模型纳米AI发布MCP万能工具箱，简化AI工具集成与调用 AI视频资讯早读！7个产品更新+8个案例精选 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集训练应用大型语言模型科技亚马逊 DeepMind 特斯拉智能体