文本

阿里云百炼上线百万长文本模型Qwen2.5 -Turbo,百万tokens仅需0.3元

11月20日消息,最新的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。 即日起,所有用户可在阿里云百炼调用Qwen2.5-Turbo API,百万tokens仅需0.3元。 全新的Qwen2.5-Turbo在1M长度的超长文本检索(Passkey Retrieval)任务中的准确率可达到100%,在长文本评测集RULER上获得93.1分,超越GPT-4;在LV-Eval、LongBench-Chat等更加接近真实场景的长文本任务中,Qwen2.5-Turbo在多数维度超越了GPT-4o-mini;此外,在MMU、LiveBench等短文本基准上Qwen2.5-Turbo的表现也非常优秀,在大部分任务上的表现显著超越之前上下文长度为1M tokens的开源模型。

超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法,名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本,无需任何中间设备。 传统的手写文字识别技术主要依赖于光学字符识别 (OCR),但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路,通过模仿人类学习阅读的过程,即通过不断地重写文本,来学习整个单词的外观和含义。

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。 如果在没有适当安全措施的情况下部署,它们会产生滥用风险(左图)。 我们提出了潜在保护方法(右图),这是一种旨在阻止恶意输入提示的安全方法。

谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字

谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。 谷歌在 2023 年 8 月推出了 SynthID 工具,该工具具备创建 AI 内容水印(声明该作品由 AI 打造)和识别 AI 生成内容的能力。 它可以在不损害原始内容的前提下,将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中,同时也能扫描这些内容已有的数字水印,以辨识它们是否由 AI 生成,不过本次谷歌开源的仅为针对文本生成的 SynthID Text。

RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX

一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。

端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini

Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B),以及轻量级纯文本模型(1B 和 3B),此外提供预训练和指令微调(instruction-tuned)版本。AI在线附

英伟达 NVLM 1.0 引领多模态 AI 变革:媲美 GPT-4o,不牺牲性能平衡文本和图像处理难题

科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型(MLLM)多模态大型语言模型(MLLM)所创建的 AI 系统,能够无缝解读文本和视觉数据等,弥合自然语言理解和视觉理解之间的差距,让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语言处理和计算机视觉等领域拥有广阔应用前景,改进人工智能整合和处理不同数据源的方式,帮助 AI 朝着更复杂的应用方向发展。

古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练

综合新华社、中国网消息,由农业农村部农业大数据重点实验室、中国农业科学院农业信息研究所联合湖北省图书馆、华中农业大学图书馆、郑州师范学院传播学院、中华书局古联(北京)数字传媒科技有限公司等单位开发的古农文垂直领域大语言模型“齐民”今天在北京发布。AI在线从报道中获悉,中国具备历史悠久的农业文明和耕读文化,孕育了众多的农学家、产生了大量的古农书,古农书是中国传统农业精髓的重要载体,也是我国文化遗产的重要组成部分。“齐民”古农文大语言模型基于我国古代大量农业古籍文本训练,从农业古籍中汲取智慧,深入挖掘古代农业技术、农耕

刚刚,GPT-4o关键人物离职创业!曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人,刚刚宣布离职创业了。今年 5 月份,OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频,以一种非常自然的形式和人类语音对话,延迟低到与人类在对话中的响应时间相似。而且,它允许用户随时打断,并能感知和回应用户的情绪。因此,该模型发布后,很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前,他是 OpenAI 音频 AGI 研究负责人,也是 OpenAI 最早提出

元象推出国内首个基于物理的3D动作生成模型MotionGen

www.MotionGen.cn 一句话生成复杂3D动作,效果惊艳!测试期可申请免费试用。3D内容制作领域,生成逼真的角色动作生成是一个持续挑战,传统方法依赖大量的手K制作,或昂贵动作捕捉设备,效率低、成本高、难以生成一般运动任务或适应复杂场景和交互。元象XVERSE推出国内首个基于物理的3D动作生成模型MotionGen,创新性融合大模型、物理仿真和强化学习等前沿算法,让用户输入简单文本指令,就能快速生成逼真、流畅、复杂的3D动作,效果惊艳,标志着中国3D AIGC领域的重大突破。现在起,零经验创作者也能轻松上手

Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像

Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion

微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。今天,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。AI在线附示例如下:Text to Speech Avatar 具有以下功能:将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自

Exists 发布新 AI 平台:零编程经验者也可制作高质量 3D 游戏

AI 初创公司 Exists 于 8 月 15 日发布新闻稿,介绍最新上线的生成式 AI 平台,没有任何编程经验的用户通过文本输入,就能创建高质量的 3D 游戏。 该公司创始人兼首席执行官约塔姆・赫特林格博士(Dr. Yotam Hechtlinger)表示:我们的目标是像文本、图像、视频和音频创作一样,让生成式 AI 在游戏领域带来范式转变。根据官方公布的宣传视频,整个游戏 AI 工具易于上手,在生成后用户还能指令调整细节。不过这款 AI 目前也有局限性,人脸建模看起来有点不自然,这一点可以在 0:43 分钟体现

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。▲ Q

科大讯飞宣布讯飞智文2.0全新版本正式上线

8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版基于讯飞星火V4.0 大模型底座,引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组,大幅提升编辑自由度和样式多样性。新增的实时联网搜索和长文本解析功能,增强了内容的时效性和深度。同时,AI Word和AI读写功能,助力用户高效阅读和撰写文档,进行知识管理,进一步丰富了AI在文档创作领域的应用。据悉,讯飞智文自2023年11月上线以来,生成文档数已超千万。

科大讯飞智文 2.0 版本发布:内置 AI PPT 编排创作引擎,基于星火大模型

AI在线从讯飞开放平台获悉,讯飞智文 2.0 版本今天正式发布,带来 PPT 文本生成大模型、AI PPT 编排创作引擎、AI PPT 在线编辑模组三大技术升级。据介绍,讯飞智文 2.0 依托讯飞星火 V4.0 的底座能力,在文本生成方面进行了独立训练,对用户输入的主题具备更强大的理解能力。用户在“主题创建”中输入一句话主题,再勾选“联网搜索”,大模型即可自动抓取实时资讯,以确保事实的时效性、准确性。▲ 图为讯飞智文 1.0 生成结果▲ 图为讯飞智文 2.0 生成结果官方表示,讯飞智文 2.0 对长文本的内容理解、

统信发布中国首款操作系统级端侧模型 UOS LM,支持问答、翻译、创作等

感谢统信软件今日宣布,中国首款操作系统级端侧模型 UOS LM 正式发布。目前,UOS LM 端侧模型面向所有统信 UOS 社区版(deepin V23)用户发起定向邀约内测,添加 deepin 小助手申请内测资格。为保证流畅体验,统信推荐以下硬件性能:1.5B 模型:内存 2G,GPU 显存 4G,10TOPS7B 模型:内存 8G,GPU 显存 10G,20TOPS对于个人用户,UOS LM V1.0 版本实现本地文档构建知识库,并通过向量数据库支持基于语义的相似性搜索和向量分析操作,帮助用户通过 UOS AI

无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成

在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,