大模型

RAG（五）BGE-M3，最流行的开源text embedding模型

项目地址： embedding？ Text Embedding 是一种将文本数据映射到高维向量空间的技术，这些向量能够捕捉文本的语义信息。通过将文本嵌入到向量空间中，我们可以利用向量之间的距离或相似性来衡量文本之间的语义相关性。

3/21/2025 7:00:00 AM

Glodma

支持大模型百花齐放，推进全面智能化战略：华为中国合作伙伴大会2025召开

华为正计划今年在计算产业伙伴中将重点发展 IT 类伙伴，包括构建计算经销商伙伴体系，并新增大模型一体机伙伴，计划今年发展十几家大模型伙伴。

3/20/2025 5:17:00 PM

新闻助手

上海浦东聚焦人形机器人与大模型技术，力图打造创新产业园区

近日，上海浦东新区召开了一场市政府新闻发布会，副区长李慧在会上表示，浦东将全面发力，聚焦人形机器人、大模型以及生物制造等前沿科技领域，致力于构建一批具有特色的产业园区地标。这一举措不仅展现了浦东在全球投资环境中的战略眼光，也为未来的科技创新奠定了坚实的基础。李慧指出，浦东将加强与企业的沟通，了解市场需求，以强化各类要素的支持。

3/20/2025 4:53:00 PM

AI在线

阶跃星辰 Step-Video-TI2V 图生视频模型开源：运动幅度和镜头运动可控

今年 2 月阶跃星辰开源了两款 Step 系列多模态大模型 ——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，今天阶跃星辰继续开源图生视频模型 ——Step-Video-TI2V，一款基于 30B 参数 Step-Video-T2V 训练的图生视频模型，支持生成 102 帧、5 秒、540P 分辨率的视频，具备运动幅度可控和镜头运动可控两大核心特点，同时天生具备一定的特效生成能力。

3/20/2025 3:19:58 PM

远洋

准确率达88%，从随机性走到确定性，AI驱动的小鼠胚胎模型发育预测

编辑丨&干细胞来源的胚胎模型的最新进展改变了发育生物学，提供了对胚胎发生的见解，而不受自然胚胎的限制。然而，模型开发的多变性对研究标准化来说并不算容易。德国埃尔斯鲁厄理工学院与美国加州理工学院的科研人员在面对这个问题时，选择使用深度学习来提高选择干细胞衍生胚胎模型的可重复性。

3/19/2025 2:08:00 PM

ScienceAI

智源开源多模态向量模型BGE-VL，助力多模态检索！

智源研究院开源了多模态向量模型BGE-VL，助力主要多模态检索任务达到SOTA。论文地址：：：：现有的多模态检索模型大多基于预训练的视觉-语言模型，这些模型主要通过文本-图像匹配任务进行预训练，对于其他常见的多模态任务（如组合图像检索和多模态文档检索）表现不足。为了增强模型的多任务能力，研究者们开始采用指令微调的方法，但高质量的指令微调数据稀缺且难以大规模获取。

3/19/2025 9:30:00 AM

Glodma

总有人问，出海怎么用 DeepSeek 满血版（别问了，上答案）

有好几个小伙伴问我，他们出海业务，该怎么用DeepSeek满血版，今天直接告诉你答案：毫无疑问，AWS Bedrock是不二的选择。出海DeepSeek云平台的选择，主要需要考虑这么几个因素：是不是大平台?对平台上大模型的接入，是严格，还是放水?是不是战略上支持DeepSeek？有没有上下游配套基础设施？

3/19/2025 9:00:00 AM

架构师之路

AI 狂飙倒计时！李开复预言：2025年，开源大模型将掀起商业巨浪！

AI的战鼓已经擂响，冲锋号即将吹响!科技圈大佬李开复近日发出重磅预言:2025年，绝非平平无奇，而是AI应用迎来井喷式爆发的元年，更是大模型商业化战场上的“生死大考”!机遇与挑战并存，一场关乎AI未来格局的变革风暴，正在酝酿之中。李开复的这番豪言壮语，并非空穴来风，而是基于他对行业趋势的深刻洞察。他以DeepSeek的横空出世为例，激动地表示，这不仅仅是中国AI力量的一次惊艳亮相，更在全球范围内奏响了开源的最强音!DeepSeek的出现，仿佛一盏指路明灯，让人们清晰地看到，开源，必将成为大模型领域的终极答案!图源备注：图片由AI生成，图片授权服务商Midjourney未来的AI世界，将不再是技术参数的冰冷比拼，而是谁能更好地拥抱开源，将开源模型转化为驱动商业增长的引擎。

3/18/2025 3:35:00 PM

AI在线

金山办公申请青丘大模型商标，布局科学仪器与网站服务领域

近日，北京金山办公软件股份有限公司（以下简称 “金山办公”）向国家知识产权局提交了「青丘大模型」商标的注册申请，涵盖科学仪器和网站服务的相关领域。这一商标申请目前正在审查当中。金山办公的注册资本约为4.6亿人民币，主要业务包括办公软件的开发、销售及计算机系统集成等。

3/18/2025 11:11:00 AM

AI在线

阿里QwQ-32B大模型成功上线国家超算互联网平台，助力Chatbot服务

近日，国家超算互联网平台宣布了一项重要更新:阿里 QwQ-32B 推理大模型正式集成至其 Chatbot 可视化对话服务与 API 在线调用服务。这一进展意味着用户可以通过平台体验到更加智能和多样化的对话服务，涵盖学术研究、代码生成和日常咨询等多个场景。据了解，QwQ-32B 模型是由阿里 Qwen 团队开发的，基于 Qwen2.5-32B 及强化学习技术构建。

3/18/2025 10:38:00 AM

AI在线

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

大模型持续震惊科学家！以往一小时才能完成的代码，现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。

3/18/2025 9:19:26 AM

量子位

突发！百川智能两位联合创始人出走，一位正在走离职手续

出品 | 51CTO技术栈（微信号：blog51cto）刚刚收到消息，大模型六小虎之一的百川智能高层出现了很大的变动——两位联合创始人被媒体曝出了离职创业的消息。其中，联合创始人焦可已经离职，另一位联合创始人陈炜鹏也将离职，目前还在走内部流程。另据知情人士称，焦可和陈炜鹏两人都已经分别开始AI领域的创业。

3/17/2025 3:59:19 PM

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning （LIFT），通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路，不再专注于无限扩充上下文窗口，而是将长文本知识内化到模型参数中，类似于人类将工作记忆转化为长期记忆的过程。目前大模型处理长文本面临两大主要挑战:传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大模型难以理解散落在长文本各处的长程依赖关系现有的解决方案如RAG和长上下文适配各有局限:RAG依赖准确的检索，容易引入噪声导致幻觉长上下文适配的推理复杂度高，上下文窗口仍然有限LIFT的技术创新LIFT框架包含三个关键组件:动态高效的长输入训练通过分段的语言建模将长文本切分为有重叠的片段避免因过长上下文造成的推理复杂度提升和长程依赖丢失训练复杂度对长文本长度呈线性增长平衡模型能力的门控记忆适配器设计专门的Gated Memory Adapter架构动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解允许模型根据查询自动调节使用多少LIFT记忆的内容辅助任务训练通过预训练LLM基于长文本自动生成问答类辅助任务补偿模型在切段训练中可能损失的能力帮助模型学会应用长文本中的信息回答问题实验结果LIFT在多个长上下文基准测试上取得显著提升:LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升消融实验表明，Gated Memory架构相比使用PiSSA微调的原模型，在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。

3/17/2025 3:59:00 PM

AI在线

钉钉推出AI客服助理可自动接入企业官网、公众号等平台

2025年3月17日，钉钉宣布推出一项重磅AI能力——AI客服助理，该功能可自动接入企业官网、公众号等平台，直接服务消费者和企业客户。这一创新举措一经推出便受到企业客户的广泛欢迎，目前已有包括云深处科技、Rokid（乐奇）、瑞德林、艾为电子、精准学等在内的700多家企业接入使用。钉钉AI客服助理通过多轮对话能够精准理解用户的真实需求，并有效回复复杂问题，如“产品参数对比”等深度咨询内容。

3/17/2025 1:54:00 PM

AI在线

一次排查 Cursor Bug 的经历

相信很多同学日常编码已经用上了Cursor。最近，我在用Cursor过程中遇到了「注册的MCP服务不调用」的问题。经过一顿排查，最终确定是Cursro自身bug导致。

3/17/2025 10:01:07 AM

卡颂

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果

全面评估大模型电商领域能力，首个聚焦电商基础概念的可扩展问答基准来了！ ChineseEcomQA，来自淘天集团。此前，大模型常因生成事实性错误信息而受限，而传统基准又难以兼顾电商任务的多样性与领域特殊性。

3/17/2025 8:48:00 AM

量子位

北京新增34款已完成登记的生成式AI服务，小米AI搜索、Monica在列

网信北京发布了最新北京市生成式人工智能服务已登记信息公告，公称，根据《生成式人工智能服务管理暂行办法》及有关规定，对于通过API接口或其他方式直接调用已备案大模型能力的生成式人工智能应用或功能，采用登记管理方式，允许上线提供服务。截至3月14日，我市新增34款已完成登记的生成式人工智能服务，累计已完成46款生成式人工智能服务登记。其中，小米AI搜索、小米AI写作、Monica等产品在列。

3/14/2025 2:20:00 PM

AI在线

炸裂官宣！大佬亲自站台，AWS 全力支持 DeepSeek！

月11日凌晨，AWS宣布在AWS Bedrock推出全托管的DeepSeek-R1模型，成为首个提供DeepSeek-R1全托管的海外云厂商。与此同时，DeepSeek也成为是首个登陆Amazon Bedrock的国产大模型。 Amazon CEO Andy .

3/14/2025 10:43:27 AM

架构师之路

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！全日程揭晓！ICLR 2025论文分享会我们北京见 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot 字节跳动神器推荐 LLaMA 具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

大模型

RAG（五）BGE-M3，最流行的开源text embedding模型

支持大模型百花齐放，推进全面智能化战略：华为中国合作伙伴大会2025召开

上海浦东聚焦人形机器人与大模型技术，力图打造创新产业园区

阶跃星辰 Step-Video-TI2V 图生视频模型开源：运动幅度和镜头运动可控

准确率达88%，从随机性走到确定性，AI驱动的小鼠胚胎模型发育预测

智源开源多模态向量模型BGE-VL，助力多模态检索！

总有人问，出海怎么用 DeepSeek 满血版（别问了，上答案）

AI 狂飙倒计时！李开复预言：2025年，开源大模型将掀起商业巨浪！

金山办公申请青丘大模型商标，布局科学仪器与网站服务领域

阿里QwQ-32B大模型成功上线国家超算互联网平台，助力Chatbot服务

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

突发！百川智能两位联合创始人出走，一位正在走离职手续

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

钉钉推出AI客服助理 可自动接入企业官网、公众号等平台

一次排查 Cursor Bug 的经历

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强丨首个中文电商问答基准评估结果

北京新增34款已完成登记的生成式AI服务，小米AI搜索、Monica在列

炸裂官宣！大佬亲自站台，AWS 全力支持 DeepSeek！

钉钉推出AI客服助理可自动接入企业官网、公众号等平台