开源

五个基于 LLM 的开源爬虫项目

由于互联网在技术、内容、渠道等方面越来越多样化，并且不断在演变。传统的爬虫大多时候都要根据网页进行定制开发。这种道高一尺魔高一丈的循环，意味着要把有限精力投入到无限的变化中，难以动态响应互联网的变化。

11/27/2024 4:17:00 PM

zone7

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

开源绝对是AI如今发展迅猛的助推剂，而其中的一股重要力量就是来自MetaMeta在人工智能开源界可谓是硕果颇丰，从大模型LLama到图像分割模型Segment Anything，覆盖了各种模态、各种场景，甚至在AI以外的学科，如医学等科学研究进展也都从Meta的开源模型中受益。最近，Meta发布了一系列新的开源工作，还对已有的开源工作进行了升级迭代，包括 SAM 2.1、句子表征的细化等，开源社区将再迎来一场狂欢！ Segment Anything Model 2.1SAM2模型开源以来，总下载量已经超过70万次，在线可用的演示程序也已帮助用户在图像和视频数据中分割了数十万个物体，并且在跨学科（包括医学图像、气象学等研究）中产生了巨大的影响。

11/27/2024 3:20:00 PM

新智元

炸裂！Anthropic 重磅开源「模型上下文协议」MCP，LLM 应用要变天, AGI真的近了

各位大佬，激动人心的时刻到啦！ Anthropic 开源了一个革命性的新协议——MCP（模型上下文协议），有望彻底解决 LLM 应用连接数据难的痛点！它的目标是让前沿模型生成更好、更相关的响应。

11/26/2024 11:58:26 AM

AI寒武纪

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

在纯文本大模型取得进展的同时，其他模态数据，如语音与文本结合的语言模型（SpeechLMs）也成为了一个热门的研究领域，但现有的模型要么在仅包含语音的数据上进行训练，要么是关注特定任务，如文本转语音（TTS）、自动语音识别（ASR）或翻译，在其他模态数据和任务上的泛化能力十分有限。在大型语言模型（LLM）性能不断提升的情况下，一个常用的方法是先用ASR模型将语音转录成文本，然后用文本模型来生成新的文本，最后再用TTS模型将文本转换成语音，这种流程的一个显著缺陷就是语音表达性不佳，语言模型无法建模并生成富有表现力的语音数据。最近，Meta开源了一个基础多模态语言模型Spirit LM，基于一个70亿参数的预训练文本语言模型，交错使用文本和语音数据进行训练，使模型能够自由地混合文本和语音，在任一模态中生成语言内容。

11/22/2024 2:27:00 PM

新智元

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。新模型具体如何推理，直接上实例，比如问题是：减去所有的小亮球和紫色物体，剩下多少个物体？

11/19/2024 3:00:00 PM

量子位

AlphaFold3级性能、开源、可商用，MIT团队推出生物分子预测模型Boltz-1

图示：来自测试集的靶标上的 Boltz-1 的示例预测。（来源：论文）编辑 | 萝卜皮2024 年 11 月 18 日，麻省理工学院（MIT）的研究人员宣布推出 Boltz-1，这是一个开源模型，旨在准确模拟复杂的生物分子相互作用。 Boltz-1 是第一个完全商业化的开源模型，在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

11/19/2024 11:59:00 AM

ScienceAI

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

继稚晖君之后，国内又一家头部机器人公司玩起了开源！宇树科技，开源Unitree G1机器人操作数据集，包括数据采集、学习算法、数据集和模型，并表示将持续更新。更令网友意外的是，宇树基于抱抱脸LeRobot开源框架训练并测试。

11/13/2024 3:40:00 PM

量子位

阿里通义千问开源 Qwen2.5-Coder 全系列模型，号称代码能力追平 GPT-4o

阿里通义千问此前开源了 1.5B、7B 两个尺寸，本次开源带来 0.5B、3B、14B、32B 四个尺寸，覆盖了主流的六个模型尺寸。

11/12/2024 4:04:01 PM

沛霖（实习）

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

AlphaFold3源码终于开放了！六个月前，AlphaFold3横空出世震撼了整个学术界。 AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

11/12/2024 1:30:00 PM

新智元

微软推出 Magentic-One：多 AI 智能体协同完成复杂任务

微软本月发布 Magentic-One 系统，通过协调多个专用 AI 智能体，高效处理复杂工作流程。

11/7/2024 12:11:24 PM

故渊

腾讯混元宣布大语言模型和3D模型正式开源

腾讯混元大模型正在加快开源步伐。 11月5日，腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。本次开源是腾讯混元继文生图模型后持续开放的一大举措。

11/6/2024 9:47:00 AM

全球首个开源 AI 标准发布，微软、谷歌、亚马逊、Meta、英特尔、三星等巨头制定

在本月底的 2024 年 ALL THINGS OPEN 大会上，开源组织 Open Source Initiative（OSI）正式发布开源人工智能定义（OSAID）1.0 版本，标志着全球首个开源 AI 标准的诞生。 OSI 成立于 1998 年，是一个全球性的非营利组织，旨在定义和“管理”所有开源事物。 OSAID 标准由超过 25 个组织共同设计，包括微软、谷歌、亚马逊、Meta、英特尔、三星、Mozilla 基金会、Linux 基金会、Apache 软件基金会等，该标准可以帮助验证一个 AI 系统是否可以被视为开源 AI。

10/30/2024 5:12:34 PM

汪淼

阿里达摩院开源 CoI-Agent：一键生成科研 idea 的 AI 研究助手

阿里巴巴达摩院本月开源了一款名为 CoI-Agent 的 AI 工具，旨在帮助科研人员自动生成科研想法。这款工具通过输入特定的论文主题，能够迅速生成相关的科研 idea，从而节省科研人员的时间，提高工作效率。只需输入一个主题，CoI-Agent 就能生成一系列相关的关键词、研究问题和研究方法。

10/25/2024 11:00:56 AM

汪淼

“稚晖君”创业项目，智元机器人宣布灵犀 X1 面向全球开源

智元机器人今日宣布“灵犀 X1”面向全球正式开源，软硬件全套图纸和代码水灵灵地上线到 GitHub 啦，开发指南上线至智元机器人官网。智元机器人官方称，作为业内首家全栈开源人形机器人图纸和代码的公司，此次开源将毫无保留地提供“一站式”软硬件技术资源，总资料大小超过 1.2GB。在整机结构硬件方面，开源内容包含详尽的整机结构图纸、硬件框图和物料清单（BOM）、装机说明。

10/24/2024 6:07:26 PM

浩渺

智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线“智谱清言”App。据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。

10/14/2024 11:13:47 AM

清源

首个开源 AI 候选版定义稿发布：四大要求，训练数据上有妥协

如何定义开源人工智能（AI）？开源倡议组织（OSI）经过 2 年的努力，于昨日（10 月 9 日）发布了首个开源 AI 定义候选版本。首个候选版本主要澄清开源 AI 领域的各种争议，规定一个 AI 系统 / 模型需要具备以下 4 种基础自由要求，才能视为开源，AI在线附上相关要求如下：在未获许可的情况下，他人可出于任何目的使用该系统。可以深入研究系统的运行原理出于任何目的修改系统。与他人共享，无论是否修改。OSI 在训练数据方面选择妥协，要求提供“关于用于训练系统的数据的足够详细信息”，而非完整数据集。此举旨在平衡

10/10/2024 10:07:46 AM

故渊

Lumigator 评估框架登场：Mozilla 赋能开发者 AI 旅程，助其选择最佳模型

Mozilla 昨日（10 月 3 日）发布博文，推出了 Lumigator 新框架，主要帮助开发者为其项目挑选合适的 AI 大语言模型（LLM）。Mozilla 想要解决的问题Mozilla 公司在博文中表示，相比较 AI 大语言模型的繁荣，相关的评估工具尚未跟上发展的步伐，由于没有清晰的统一方法来比较模型，让开发者和企业难以做出明智的选择。Mozilla Lumigator 框架Mozilla 在博文中表示 Lumigator 主要有以下特点：透明和高效的模型选择：Lumigator 的目标是使模型选择过程变得

10/4/2024 1:16:16 PM

故渊

重磅！TeleAI 完成首个全国产化万卡万参大模型训练

近日，中国电信人工智能研究院（TeleAI）成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型（万卡万参），并正式对外开源首个基于全国产化万卡集群和国产深度学习框架训练的千亿参数大模型——星辰语义大模型 TeleChat2-115B。这是由中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领团队完成的又一项里程碑式的重要科研成果，标志着国产大模型训练真正实现全国产化替代，正式进入全国产自主创新、安全可控的新阶段。TeleChat2-115B 基于中国电信自研的天翼云“息壤

9/29/2024 4:42:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

开源