文本

告别低质信息图！清华、微软联手打造BizGen，一键生成专业级幻灯片和海报，让你的内容瞬间高大上！

还在为制作信息图和幻灯片绞尽脑汁，对着屏幕抓耳挠腮吗?还在被那些文字模糊、排版混乱的“高科技”生成工具气得想摔电脑吗?别担心，你的救星来了!清华大学、微软研究院等顶尖机构联手推出了一款名为BizGen的秘密武器，它就像一位技艺高超的设计大师，能够根据你提供的文章内容，瞬间变幻出专业水准的信息图和幻灯片，让你的工作效率直接起飞!你可能会疑惑，市面上不是已经有很多文本转图像的工具了吗?没错，但它们大多只能处理一些简单的句子，对于需要承载大量信息的文章级内容，就显得力不从心，生成的图片往往文字不清、布局错乱，简直是“车祸现场”。你辛辛苦苦写了一篇长文，想用一张精美的信息图来概括重点，结果生成出来的东西连基本的文字都认不全，这难道不是一场噩梦吗?BizGen正是为了解决这个痛点而生的。它瞄准了信息密度极高的商业内容，比如需要清晰呈现大量数据和复杂逻辑的信息图和幻灯片。

3/27/2025 4:57:00 PM

AI在线

播客平台 Podcastle 推出AI文本转语音模型：提供 450 种语音

在快速发展的播客领域，Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过450种不同的 AI 语音，还向开发者开放了 API 接口，以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示，公司一直希望能开发一个文本转语音模型，但由于过去高昂的训练成本和数据需求，这一愿望一直未能实现。

3/4/2025 11:19:00 AM

AI在线

华科字节推出 Liquid：重新定义多模态模型的生成与理解

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。

3/4/2025 9:41:00 AM

AI在线

阿里云百炼上线百万长文本模型Qwen2.5 -Turbo，百万tokens仅需0.3元

11月20日消息，最新的Qwen2.5-Turbo已在阿里云百炼上线，该模型支持100万超长上下文，相当于100万个英文单词或150万个汉字，在多个长文本评测集上的性能表现超越GPT-4。即日起，所有用户可在阿里云百炼调用Qwen2.5-Turbo API，百万tokens仅需0.3元。全新的Qwen2.5-Turbo在1M长度的超长文本检索（Passkey Retrieval）任务中的准确率可达到100%，在长文本评测集RULER上获得93.1分，超越GPT-4；在LV-Eval、LongBench-Chat等更加接近真实场景的长文本任务中，Qwen2.5-Turbo在多数维度超越了GPT-4o-mini；此外，在MMU、LiveBench等短文本基准上Qwen2.5-Turbo的表现也非常优秀，在大部分任务上的表现显著超越之前上下文长度为1M tokens的开源模型。

11/20/2024 4:51:00 PM

新闻助手

超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法，名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本，无需任何中间设备。传统的手写文字识别技术主要依赖于光学字符识别 (OCR)，但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路，通过模仿人类学习阅读的过程，即通过不断地重写文本，来学习整个单词的外观和含义。

11/5/2024 6:13:58 PM

远洋

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。如果在没有适当安全措施的情况下部署，它们会产生滥用风险（左图）。我们提出了潜在保护方法（右图），这是一种旨在阻止恶意输入提示的安全方法。

11/5/2024 10:48:00 AM

新闻助手

谷歌 DeepMind 开源 SynthID Text 工具，可辨别 AI 生成的文字

谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具，供开发者和企业免费使用。谷歌在 2023 年 8 月推出了 SynthID 工具，该工具具备创建 AI 内容水印（声明该作品由 AI 打造）和识别 AI 生成内容的能力。它可以在不损害原始内容的前提下，将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中，同时也能扫描这些内容已有的数字水印，以辨识它们是否由 AI 生成，不过本次谷歌开源的仅为针对文本生成的 SynthID Text。

10/27/2024 3:00:06 PM

漾仔

RTX 4090 笔记本 0.37 秒直出大片：英伟达联手 MIT 清华祭出 Sana 架构，速度秒杀 FLUX

一台 4090 笔记本，秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构，得益于核心架构创新，具备了惊人的图像生成速度，而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本，仅需 0.37 秒，直接吐出 1024×1024 像素图片。

10/17/2024 11:35:00 PM

问舟

端侧最强开源 AI 模型 Llama 3.2 登场：可在手机运行，从 1B 纯文本到 90B 多模态，挑战 OpenAI 4o mini

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。AI在线附

9/26/2024 7:01:35 AM

故渊

英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

科技媒体 marktechpost 昨日（9 月 20 日）发布博文，报道了英伟达（Nvidia）最新发布的论文，介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型（MLLM）多模态大型语言模型（MLLM）所创建的 AI 系统，能够无缝解读文本和视觉数据等，弥合自然语言理解和视觉理解之间的差距，让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景，改进人工智能整合和处理不同数据源的方式，帮助 AI 朝着更复杂的应用方向发展。

9/21/2024 11:53:13 AM

故渊

古农文垂直领域大语言模型“齐民”发布，基于我国大量农业古籍文本训练

综合新华社、中国网消息，由农业农村部农业大数据重点实验室、中国农业科学院农业信息研究所联合湖北省图书馆、华中农业大学图书馆、郑州师范学院传播学院、中华书局古联（北京）数字传媒科技有限公司等单位开发的古农文垂直领域大语言模型“齐民”今天在北京发布。AI在线从报道中获悉，中国具备历史悠久的农业文明和耕读文化，孕育了众多的农学家、产生了大量的古农书，古农书是中国传统农业精髓的重要载体，也是我国文化遗产的重要组成部分。“齐民”古农文大语言模型基于我国古代大量农业古籍文本训练，从农业古籍中汲取智慧，深入挖掘古代农业技术、农耕

9/20/2024 9:57:57 PM

清源

刚刚，GPT-4o关键人物离职创业！曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人，刚刚宣布离职创业了。今年 5 月份，OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频，以一种非常自然的形式和人类语音对话，延迟低到与人类在对话中的响应时间相似。而且，它允许用户随时打断，并能感知和回应用户的情绪。因此，该模型发布后，很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前，他是 OpenAI 音频 AGI 研究负责人，也是 OpenAI 最早提出

9/12/2024 6:55:00 PM

机器之心

元象推出国内首个基于物理的3D动作生成模型MotionGen

www.MotionGen.cn 一句话生成复杂3D动作，效果惊艳！测试期可申请免费试用。3D内容制作领域，生成逼真的角色动作生成是一个持续挑战，传统方法依赖大量的手K制作，或昂贵动作捕捉设备，效率低、成本高、难以生成一般运动任务或适应复杂场景和交互。元象XVERSE推出国内首个基于物理的3D动作生成模型MotionGen，创新性融合大模型、物理仿真和强化学习等前沿算法，让用户输入简单文本指令，就能快速生成逼真、流畅、复杂的3D动作，效果惊艳，标志着中国3D AIGC领域的重大突破。现在起，零经验创作者也能轻松上手

8/28/2024 3:41:00 PM

新闻助手

Meta 研发新方法：整合语言和扩散 AI 模型，降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法，可以结合语言模型和图像生成模型，将其整合到统一的 AI 系统中。AI在线援引团队介绍，Transfusion 结合了语言模型在处理文本等离散数据方面的优势，以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说，目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词，然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似，它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

8/24/2024 6:57:06 AM

故渊

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。今天，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。AI在线附示例如下：Text to Speech Avatar 具有以下功能：将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自

8/23/2024 7:29:09 AM

汪淼

Exists 发布新 AI 平台：零编程经验者也可制作高质量 3D 游戏

AI 初创公司 Exists 于 8 月 15 日发布新闻稿，介绍最新上线的生成式 AI 平台，没有任何编程经验的用户通过文本输入，就能创建高质量的 3D 游戏。该公司创始人兼首席执行官约塔姆・赫特林格博士（Dr. Yotam Hechtlinger）表示：我们的目标是像文本、图像、视频和音频创作一样，让生成式 AI 在游戏领域带来范式转变。根据官方公布的宣传视频，整个游戏 AI 工具易于上手，在生成后用户还能指令调整细节。不过这款 AI 目前也有局限性，人脸建模看起来有点不自然，这一点可以在 0:43 分钟体现

8/17/2024 8:04:47 AM

故渊

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。▲ Q

8/13/2024 12:07:20 PM

沛霖（实习）

科大讯飞宣布讯飞智文2.0全新版本正式上线

8月12日，科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版基于讯飞星火V4.0 大模型底座，引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组，大幅提升编辑自由度和样式多样性。新增的实时联网搜索和长文本解析功能，增强了内容的时效性和深度。同时，AI Word和AI读写功能，助力用户高效阅读和撰写文档，进行知识管理，进一步丰富了AI在文档创作领域的应用。据悉，讯飞智文自2023年11月上线以来，生成文档数已超千万。

8/12/2024 10:49:00 AM

新闻助手

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 50组多风格提示词，全面测评Midjourney V7生图效果！模态编码器|CLIP详细解读 PandasAI：当数据分析遇上自然语言处理

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science AI设计 3D Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI Copilot 人形机器人神器推荐具身智能 LLaMA 大语言模型字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构