AI资讯列表 - AI在线

腾讯混元宣布大语言模型和3D模型正式开源

腾讯混元大模型正在加快开源步伐。 11月5日，腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。本次开源是腾讯混元继文生图模型后持续开放的一大举措。

全球最大变压器生产商日立能源警告称行业“不堪重负”，AI 数据中心需求激增

据英国金融时报 11 月 3 日报道，全球最大的变压器生产商“日立能源（Hitachi Energy）”警告称，其行业“不堪重负”，无法满足对电网设备的爆炸式需求，这可能导致重要基础设施项目的延误。日立能源 CEO Andreas Schierenbeck 表示，因为用于生成式 AI 的数据中心的需求不断增长，导致供应紧张，变压器制造商将很难迅速提高产量，以满足电网升级的需求。日立能源是日本市值第三大上市公司 —— 日立集团的核心部门。

RAG 2.0性能提升：优化索引与召回机制的策略与实践

一、RAG1.0 的痛点和解决方向1. RAG 架构模式对于上图所示的 RAG 架构模式，大家应该都比较熟悉。 RAG 的标准流程包括四个阶段，即抽取（Extraction）、索引（Indexing）、检索（Retrieval）和生成（Generation）。

ChatGPT AI 搜索还不是“谷歌杀手”：关键字搜索不靠谱

11 月 5 日消息，OpenAI 上周正式发布了备受瞩目的搜索产品 ChatGPT Search，向谷歌发起了直接挑战。这一时刻的到来，其实早已在业界的预料之中，因此谷歌在今年早些时候便将人工智能生成的答案融入其核心产品之中，但在此过程中却出现了一些令人尴尬的“幻觉”。这个失误让不少人认为，OpenAI 的搜索引擎将会成为真正的“谷歌杀手”。

IDC：2023 年中国工业机器人厂商出海收入合计约 95.8 亿元

国际数据公司（IDC）发布《中国机器人出海市场分析，2024：扬帆出海，破浪前行》，报告重点关注了中国工业机器人、商用服务机器人的出海进展。 AI在线附主要数据如下：中国工业机器人出海市场情况2023 年，中国工业机器人厂商的出海收入合计约 95.8 亿元人民币，主要市场区域在亚太、欧洲、北美等地区，这些区域市场贡献了中国工业机器人厂商境外收入的 90%。 ▲ 图源 IDC，下同协作机器人（指能够与人类在共同工作空间进行互动和协同作业的机器人）是中国机器人厂商出海的新兴热门领域。

OpenAI离不开微软，但Anthropic正在成为新宠

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）不久前，OpenAI 和 Microsoft 似乎是不可战胜的。然而，现在，他们的竞争对手正在迎头赶上。巨头支持方面，Anthropic 的 Claude 模型一点都不弱，甚至隐隐有了超越ChatGPT的趋势。

从谷歌、微软、百度，到Perplexity、Kimi、秘塔，大模型真的“搭”上了搜索的快车吗？

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）回到一年前， Perplexity 可能没想到自己押宝的这条赛道如今挤满了人。毕竟，直到今年 4 月，这家 AI 搜索的领头羊才刚刚迈入 10 亿美元俱乐部。然而就在上周，谷歌和 OpenAI 前后脚发布了新的 AI 搜索功能，大有打擂台的硝烟味。

腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

腾讯混元今日开源了 Hunyuan3D-1.0 大模型，官方称这是首个同时支持文生和图生的 3D 开源大模型。 ▲ 文生模型▲ 图生模型模型采用两阶段生成方法，官方表示在保证质量和可控的基础上，10 秒即可生成 3D 资产：第一阶段，团队采用了一种多视角扩散模型，轻量版模型能够在大约 4 秒内生成多视角图像。这些多视角图像从不同的视角捕捉了 3D 资产的丰富的纹理和几何先验，将任务从单视角重建松弛到多视角重建第二阶段，团队引入了一种前馈重建模型，利用上一阶段生成的多视角图像。

实测国内首个AI播客！有点意思，但NotebookLM还是大爷

AI好好用报道编辑：杨文谷歌NotebookLM 这座高峰仍不可逾越。一个月前，谷歌推出了一款免费强大的工具 ——NotebookLM 。其中最出圈的一个功能就是音频概览，俗称 AI 播客。

超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法，名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本，无需任何中间设备。传统的手写文字识别技术主要依赖于光学字符识别 (OCR)，但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路，通过模仿人类学习阅读的过程，即通过不断地重写文本，来学习整个单词的外观和含义。

OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现，但短期社会影响不大

OpenAI CEO 萨姆・阿尔特曼（Sam Altman）一直对通用人工智能（AGI）充满热情，并表示公司正在积极追求这一雄心勃勃的目标。在最近的一次 Reddit AMA 中，阿尔特曼声称，使用现有的硬件就有可能实现 AGI。虽然他没有明确说明具体需要什么，但此前他曾表示，实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。

手搓AI大模型应用获25万用户，果断辞职创业，结果收入不如摆摊

创业中最危险的一句话：「我以后会赚钱」。我开发的 AI 应用有 25 万用户，我感觉要起飞了，于是辞掉工作，准备大干一番。结果没想到开局即巅峰，突然就完蛋了。

AI 赋能好莱坞：《此心安处》通过实时 AI 换脸技术让演员“逆生长”

索尼影业出品的《此心安处》（Here）上周末大规模公映，该片由罗伯特・泽米吉斯执导，耗资 5000 万美元（AI在线备注：当前约 3.55 亿元人民币）。值得一提的是，该片利用了实时生成式 AI 面部变换技术，让汤姆・汉克斯和罗宾・怀特两位演员跨越了 60 年的年龄跨度，是好莱坞首部围绕人工智能视觉特效打造的长篇电影之一。该片改编自 2014 年的同名漫画小说，主要场景设定在新泽西州的一个客厅，跨越多个时间段。

极智嘉发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案，在设备内完成所有深度计算

极智嘉（Geek ）昨日（11 月 4 日）宣布，携手英特尔发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案。 ▲ 纯视觉机器人在仓储场景的实际应用AI在线获悉，极智嘉成立于 2015 年，公司总部位于北京。极智嘉纯视觉机器人方案包含 M600 和 MP1000R 两款产品，将在 11 月 5~8 日首次亮相 2024 CeMAT 亚洲物流展极智嘉展台。

AI Agent智能代理如何快速变现

AI Agent，即人工智能代理，是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于大语言模型，能够通过独立思考、调用工具来逐步完成给定目标的计算机程序。 AI Agent的核心在于其自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进。

用 PyTorch 构建神经网络的 12 个实战案例

用PyTorch构建神经网络是机器学习领域中非常热门的话题。 PyTorch因其易用性和灵活性而受到广大开发者的喜爱。本文将通过12个实战案例，带你从零开始构建神经网络，逐步掌握PyTorch的核心概念和高级技巧。

腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

腾讯今日宣布推出 Hunyuan-Large 大模型，官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 3890 亿总参数（389B）和 520 亿激活参数（52B）。腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册，详细介绍了模型能力和训练与推理的操作。

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

视觉定位（Visual Grounding）旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研究大致可以分为三类：两阶段方法、单阶段方法和基于Transformer的方法。

资讯列表

腾讯混元宣布大语言模型和3D模型正式开源 ​