理论

几个开发大模型应用常用的 Python 库

一、应用层开发1. FastAPIFastAPI是构建API的优选。 顾名思义,它快速、简单,并能与Pydantic完美集成,实现无缝数据验证。

你要跳舞么?复旦&微软提出StableAnimator:可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载,转载请联系出处。 由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。

图像超分辨新SOTA!南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目

南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术,可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。 该方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图。 一旦训练完成,这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程,从而生成理想的高分辨率结果。

解决文生图质量和美学问题,字节跳动提出VMix:多维度美学控制方法,一键提升图像美学

本文经AIGC Studio公众号授权转载,转载请联系出处。 为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。 论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

中科院北大等揭示「蒸馏真相」:除Claude豆包Gemini,其他很多模型都「蒸」过头

模型蒸馏是一种将知识从大型语言模型(LLMs)转移到较小模型的技术,旨在创建资源高效且性能卓越的模型。 然而,过度蒸馏可能会导致同质化,降低模型之间的多样性,并削弱它们稳健处理复杂或新任务的能力。 这些限制凸显了系统地量化蒸馏过程及其影响的必要性。

刚刚,特朗普与奥特曼惊天启动星际之门!4年狂砸5000亿美金,孙正义任董事长

AI曼哈顿计划正式开启,ASI真的不远了! 刚刚,特朗普正式官宣「星际之门计划」,要在未来4年内砸5000亿美金,重塑美国在AI界领导地位。 这项计划将由OpenAI、软银、甲骨文牵头,首期先部署1000亿美元。

Meta公布BLT新架构:告别token,拥抱patch

译者 | 核子可乐审校 | 重楼Meta发布的BLT架构为大模型扩展找到又一条出路,也开启了用patch方法取代token的全新可能性。 开篇先提问:我们为什么非得把文本拆分成token? 直接用原始字节怎么就不行?

如何避免交叉验证中的数据泄露?

大家好,我是小寒在机器学习中,交叉验证(Cross-Validation)是一种常用的模型评估技术,目的是通过将数据集分割为多个子集,反复训练和验证模型,以便更好地估计模型的性能。 然而,在交叉验证过程中,数据泄露(Data Leakage) 是一个非常严重的问题,它会导致模型的评估结果过于乐观,进而使得模型在实际应用中表现不佳。 什么是数据泄露数据泄露是指在模型训练过程中,模型不恰当地接触到了与验证集或测试集相关的信息,导致模型的训练过程中“提前知道”了本应该不在训练数据中的信息。

看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

编辑丨&自我监督学习 SSL 是一个概念,即数据及其固有的成对关系足以学习有意义的数据表示。 监督学习依赖于成对的观察值和标签 ,而 SSL 仅依赖于输入和样本间关系 。 SSL 已成为一种强大的方法,用于从庞大、未标记的数据集中提取有意义的表示,从而改变计算机视觉和自然语言处理。

奥特曼在OpenAI「经济蓝图」画下的大饼,能否撼动美AI政策?盘点美国AI大厂的政策站队,硅谷即将上演“权力的游戏”

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 15页的经济蓝图刷爆了整个AI圈! ,给美国AI画了好一张大饼啊! 比较诱人的点包括:发展AI需要大搞基建,将拉动经济带来大量就业:“人工智能所带来的经济机会又是如此诱人,不容放弃。

选择/杂交/突变,DeepMind将自然选择引入LLM思维,实现心智进化

今天是个好日子,DeepSeek 与 Kimi 都更新了最新版的推理模型,吸引了广泛关注。 与此同时,谷歌 DeepMind、加州大学圣地亚哥分校、阿尔伯塔大学的一篇新的研究论文也吸引了不少眼球,并直接冲上了 Hugging Face 每日论文榜第一(1 月 20 日)。 这篇论文题为《Evolving Deeper LLM Thinking》,可译为「进化式更深度 LLM 思维」,其中提出了一种进化搜索策略,可用于 scaling LLM 的推理时计算(inference time compute)。

谷歌押注多模态AI,BigQuery湖仓一体是核心支柱

根据多家调研机构的预测,未来几年,全球多模态AI市场的年增长率将超过35%,而谷歌正在积极布局,以期在这一蓬勃发展的市场中占据领先地位。 谷歌云计算部门最近宣称,将文本、图像、视频、音频和其他非结构化数据与生成式人工智能(GenAI)处理相结合的多模态AI,将成为2025年五大人工智能趋势之一。 BigQuery湖仓一体引领谷歌多模态AI战略谷歌负责数据、分析和人工智能战略的产品主管Yasmeen Ahmad表示,BigQuery数据仓库是谷歌多模态AI战略的核心支柱,公司正致力于将其重塑为能够整合并分析多样化数据类型的湖仓一体(Data Llakehouse)。

数据中心维护的未来发展

人工智能(AI)和高性能计算(HPC)加快了采用新的冷却和电源技术的步伐,加剧了数据中心维护中的资源可用性挑战,特别是规模和容量。 随着技术和操作需求的发展,传统的基于间隔的预防性维护方法可以得到改进,以进一步降低昂贵的设备停机风险。 人工智能与机器学习算法的发展为帮助数据中心的维护计划变得具有预测性奠定了基础。

2025年的十大网络安全预测

人工智能在2025年仍将是一个热门话题,但不要错过其他趋势,包括初始访问代理的增长、首席信息安全官(vCISO)的崛起、技术合理化等等。 每年这个时候,行业专家和分析师都会关注明年的网络安全趋势、预测和挑战。 专家预测,到2024年,生成式人工智能(GenAI)和大型语言模型将会增加,勒索软件攻击和第三方供应链挑战也将持续。

特朗普一上台,拜登AI禁令被秒撤!硅谷科技「壕客」齐聚就职典礼现场

特朗普上任,美国科技巨头「春天到了」! 在特朗普第二次就职典礼上,扎克伯格、贝索斯、皮查伊和马斯克坐在显要席位上,据报道比特朗普的内阁成员还要靠前。 而苹果CEO库克位置相对靠后,与欧洲首富、印度首富等坐一起。

AI盈利难、机器人泡沫多!马库斯25年AI预测,隔空喊话马斯克

去年,马库斯对于AI趋势的预测几乎全部正确,但完全没想到OpenAI可以估值到1500亿美元。 在本月2日,马库斯发表了对2025年的25个AI预测,涵盖AGI、GenAI、自动驾驶、人形机器人、智能体等多个方向。 马斯克(Elon Musk),曾预测2025年底的AI能力:「我们就会拥有比任何人都聪明的AI」。

AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型

最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——只用10%数据,训练2小时,就能打造出最强AI智能体! 在经典游戏Pong中,Genius智能体多次达到完美的20分,一举超越了苦练数天的其他AI,和顶尖的人类玩家。 更让人惊掉下巴的是,它的规模只有SOTA模型IRIS的4%(缩小了96%),直接在搭载M1芯片的MacBook上就能跑。

人大清华提出自主搜索版「Search-o1」!解决知识困境,大幅提升推理模型可靠性

自OpenAI发布o1以来,如何复现并改进o1就成为了LLM研究的焦点。 尽管以OpenAI-o1、Qwen-QwQ和DeepSeek-R1为代表的推理模型,其推理能力已然震惊四座,但由于在长链推理过程中仍然面临着「知识不足」的问题,导致这些模型在推理过程还包含着一些不确定性和潜在错误。 类似于OpenAI-o1在处理复杂问题时,每次推理过程中平均会遇到超过30个不确定术语实例,如「或许」和「可能」。