资讯列表

分类

标签

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器，还有4o图像生成全面测评基准

GPT-4o图像生成架构被“破解”了！最近一阵，“万物皆可吉卜力”让GPT-4o的图像生成功能一炮而红，人们随之好奇：4o图像生成的架构底层逻辑到底是什么？ GPT-4o究竟强在哪？

4/9/2025 9:08:34 AM

知识图谱驱动！港大LightRAG终结企业碎片化检索，效率飙升200%

1、前言当前的检索增强生成（RAG）技术在实际应用中面临若干挑战。传统的RAG采用基于向量的扁平化数据表示，难以有效建模实体之间的复杂语义关系，导致在处理复杂领域知识时检索精度不足。此外，传统RAG在多实体关联推理中容易出现逻辑断层，且全量更新机制使得知识库的维护成本随数据规模指数增长。

4/9/2025 9:00:00 AM

后端小肥肠

三个LLM顶一个OpenAI？2亿条性能记录加持，路由n个「小」模型逆袭

当前大模型研究面临三大困境：算力垄断（顶尖成果集中于大厂）、成本壁垒（单次训练成本高，可能需要数千GPU小时）以及技术路径单一化（过度依赖单一模型的规模扩展）。为突破这些限制，路由LLM（Routing LLM）范式应运而生——通过智能调度实现多个开源小模型的协同增效，以「组合创新」替代「规模竞赛」。代码：: ： level的MoE（Mixture-of-Experts），传统MoE通过在模型内部扩展专家网络（如稀疏激活的FFN层）提升性能，而路由LLM将完整LLM视为独立「专家」，通过预训练Router动态分配任务输入。

4/9/2025 9:00:00 AM

新智元

当 C# 遇上 ChatGPT：自动生成高质量单元测试代码实践

在软件开发的漫长旅程中，单元测试是确保代码质量的关键防线。传统上，开发人员需要耗费大量时间和精力手动编写单元测试代码，这不仅考验开发者对业务逻辑的理解，还要求熟悉各种测试框架和技巧。随着人工智能技术的飞速发展，ChatGPT等大型语言模型的出现为这一繁琐工作带来了新的解决方案。

4/9/2025 8:55:00 AM

conan

Git诞生20周年！大佬Linus十天写出的项目，彻底变革全球软件开发

转眼间Git诞生20周年了！为了给Git庆生，如今鲜少公开露面的Linus罕见接受采访，更多幕后故事被更进一步展开。 2005年4月7日，Linux之父Linus Torvalds，提交了Git的首个版本。

4/9/2025 8:50:00 AM

量子位

三星进军 AI 机器人领域，Ballie 本周公开亮相

Ballie 是一款深度集成 SmartThings 平台的 AI 伴侣机器人，配备摄像头和迷你投影仪，能够在家中跟随用户，它不仅能够提供天气预报、播放电影、展示三星健康数据，还能协助管理购物清单、控制智能家居设备等。

4/9/2025 8:39:48 AM

故渊

一文彻底搞懂 MCP：AI 大模型的标准化工具箱

MCP 最近在 AI 领域引发了广泛关注，特别是在海外各大社区中，大家热烈讨论，热度相当高。我打开了 Google Trends[1]，这是一个专门用于查看全球热点趋势的网站。图片输入关键词后，可以查看其热度变化。

4/9/2025 8:25:20 AM

程序员NEO

使用人工智能幻觉评估图像真实感

译者 | 朱先忠审校 | 重楼引言最近，俄罗斯的一项新研究提出了通过一种非常规方法来检测不切实际的人工智能生成的图像。这种方法的主要思想是：不是通过提高大型视觉语言模型（LVLM）的准确性，而是通过有意利用它们产生幻觉的倾向。这种新方法使用LVLM提取有关图像的多个“原子事实”，然后应用自然语言推理（NLI）系统地衡量这些陈述之间的矛盾，从而有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。

4/9/2025 8:23:49 AM

朱先忠

Ollama与vLLM部署对比：哪个更合适？

Ollama：简单易用的LLM部署工具 Ollama以其简洁的安装和易于使用的特性而闻名。其官方文档清晰易懂，即使是新手也能快速上手。 Ollama支持多种LLM模型，并提供便捷的命令行界面进行管理和运行。

4/9/2025 8:20:00 AM

耗子

如何使用生成式人工智能工具简化应用程序迁移

译者 | 李睿审校 | 重楼将遗留代码和应用程序迁移到现代系统面临风险并且耗时费力，然而这一过程通常是不可避免的。本文将阐述利用生成式人工智能工具简化应用程序迁移的一些有效策略。一项研究表明，在财富5000强公司使用的软件中，多达70%的软件都是在20年前开发的。

4/9/2025 8:14:03 AM

李睿

入门级开发人员过度依赖AI的风险

每当ChatGPT等工具出现故障时，软件开发人员离开办公桌、休息片刻或沮丧地靠在椅背上，都不足为奇。对于技术领域的许多专业人士而言，AI辅助的编码工具已成为一种便利。甚至像2025年3月24日发生的短暂故障，也可能使开发工作陷入停滞。

4/9/2025 8:10:00 AM

Andrada Fiscutean

深度干货：DeepSeek+Dify强强联合，打造企业专属私有化AI知识库

在数字化转型的浪潮中，人工智能正以前所未有的速度渗透到企业运营的各个环节。尤其对于算力需求旺盛的企业，例如那些关注Nvidia GPU、A800、H100等高性能计算资源的公司，以及积极探索AI Agent（如AutoGen、Devin AI）和低代码平台潜力的组织，如何安全、高效地利用AI提升内部知识管理和对外服务能力，成为其保持竞争力的关键。本文将深入探讨如何通过DeepSeek强大的语言模型，结合Dify便捷的AI应用开发平台，构建一个私有化部署的企业知识库，为企业带来更智能、更安全、更高效的知识管理体验。

4/9/2025 8:00:46 AM

康焕新

AI图片泛滥怎么管？OpenAI计划给AI图像添加水印

随着生成式人工智能的高速发展，AI图像正以前所未有的速度在网络上传播。从AI创作“宫崎骏风格”动画图，到仿真度极高的商品广告照、新闻配图，普通用户只需输入一句话，便可秒产专业级画面。这种“视觉洪流”的背后，是OpenAI等技术巨头不断推陈出新的图像生成模型——其中最先进的，莫过于不久前发布的ChatGPT-4o内嵌的ImageGen。

4/9/2025 8:00:00 AM

机器人、智能设备的边缘AI即将问世

Souped up工业机器人和智能设备将彻底改变我们在边缘侧使用AI的方式，并加深我们对云和数据中心的理解。人形机器人、智能设备和自动驾驶经常被引为边缘侧利润丰厚的商业应用场景。但边缘侧AI计算将把AI从数据中心和云中的集中式服务器中解放出来，部署到制造工厂、手术室以及整个市政中心，实时处理数据，更接近物联网设备、传感器和智能系统。

4/9/2025 8:00:00 AM

Paula Rooney

深度测评！Midjourney V7 硬刚 GPT-4o：谁才能笑到最后？

大家好，我是言川。 Midjourney 在近期终于迎来了新的图像模型的发布，这是自V6模型以来长达一年多的时间首次重大更新（Midjourney V6 模型于2023年12月21日发布）。最新发布的模型也是大家期待已久的 V7 模型，但注意，这个模型是 V7 Alpha 版本，Alpha 表示的是测试版本。

4/9/2025 7:47:18 AM

言川Artie

超多模版！如何用AI快速批量制作设计感卡片？

嗨大家好啊！今天原本正在写最近比较火的 Claude3.7 制作信息卡片海报的过程，写着写着发现 DeepSeek V3 更新了，做信息卡片也很强！这里我没有测评两个之间的差距，只是挑选了两个工具做的一些我觉得效果不错的图片展示。

4/9/2025 7:37:04 AM

阿真Irene

CEO们认为AI可以比董事会成员制定更好的商业计划

一些AI专家并不像CEO那样，对这项技术能为他们的业务提供战略见解抱有信心，但其他人表示，AI正朝着这个方向迈进。绝大多数CEO认为，AI已经发展得足够先进，可以开始接手C级高管和董事会成员所承担的一些职责。在接受AI平台提供商Dataiku调查的CEO中，有94%的人认为，智能体可以提供与人类董事会成员相似或更好的商业决策建议。

4/9/2025 7:30:00 AM

Grant Gross

微软 Win11 Copilot 应用新功能：文件搜索与视觉助手开启测试

微软在50周年纪念活动上宣布Windows 11 Copilot新增文件搜索和视觉助手功能，现已向Windows Insider用户开放测试。文件搜索支持多格式文档内容查询，视觉助手可分析应用窗口内容并提供语音指导。#微软# #Windows11#

4/9/2025 7:23:48 AM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练