-
超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字
Google Research 展示了一种使用人工智能读取手写内容的新方法,名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本,无需任何中间设备。 传统的手写文字识别技术主要依赖于光学字符识别 (OCR),但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路,通过模仿人类学习阅读的过程,即通过不断地重写文本,来学习整个…- 5
- 0
-
ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard
最近的文本到图像生成器由文本编码器和扩散模型组成。 如果在没有适当安全措施的情况下部署,它们会产生滥用风险(左图)。 我们提出了潜在保护方法(右图),这是一种旨在阻止恶意输入提示的安全方法。- 3
- 0
-
谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字
谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。 谷歌在 2023 年 8 月推出了 SynthID 工具,该工具具备创建 AI 内容水印(声明该作品由 AI 打造)和识别 AI 生成内容的能力。 它可以在不损害原始内容的前提下,将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中,同时也能扫描这些内容已有的数字…- 6
- 0
-
RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX
一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。- 5
- 0
-
端侧最强开源 AI 模型 Llama 3.2 登场:可在手机运行,从 1B 纯文本到 90B 多模态,挑战 OpenAI 4o mini
Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型,代表了 Meta 在大型语言模型(LLMs)方面的最新进展,在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs (11B 和 90B)…- 13
- 0
-
英伟达 NVLM 1.0 引领多模态 AI 变革:媲美 GPT-4o,不牺牲性能平衡文本和图像处理难题
科技媒体 marktechpost 昨日(9 月 20 日)发布博文,报道了英伟达(Nvidia)最新发布的论文,介绍了多模态大语言模型系列 NVLM 1.0。多模态大型语言模型(MLLM)多模态大型语言模型(MLLM)所创建的 AI 系统,能够无缝解读文本和视觉数据等,弥合自然语言理解和视觉理解之间的差距,让机器能够连贯地处理从文本文档到图像等各种形式的输入。多模态大型语言模型在图像识别、自然语…- 20
- 0
-
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
综合新华社、中国网消息,由农业农村部农业大数据重点实验室、中国农业科学院农业信息研究所联合湖北省图书馆、华中农业大学图书馆、郑州师范学院传播学院、中华书局古联(北京)数字传媒科技有限公司等单位开发的古农文垂直领域大语言模型“齐民”今天在北京发布。AI在线从报道中获悉,中国具备历史悠久的农业文明和耕读文化,孕育了众多的农学家、产生了大量的古农书,古农书是中国传统农业精髓的重要载体,也是我国文化遗产的…- 6
- 0
-
刚刚,GPT-4o关键人物离职创业!曾在OpenAI最早提出构建「Her」
OpenAI 最早提出构建「Her」的那个人,刚刚宣布离职创业了。今年 5 月份,OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频,以一种非常自然的形式和人类语音对话,延迟低到与人类在对话中的响应时间相似。而且,它允许用户随时打断,并能感知和回应用户的情绪。因此,该模型发布后,很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是…- 18
- 0
-
元象推出国内首个基于物理的3D动作生成模型MotionGen
www.MotionGen.cn 一句话生成复杂3D动作,效果惊艳!测试期可申请免费试用。3D内容制作领域,生成逼真的角色动作生成是一个持续挑战,传统方法依赖大量的手K制作,或昂贵动作捕捉设备,效率低、成本高、难以生成一般运动任务或适应复杂场景和交互。元象XVERSE推出国内首个基于物理的3D动作生成模型MotionGen,创新性融合大模型、物理仿真和强化学习等前沿算法,让用户输入简单文本指令,就…- 44
- 0
-
Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像
Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模…- 35
- 0
-
微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频
微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。今天,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。AI在线附示例如下:Text to S…- 47
- 0
-
Exists 发布新 AI 平台:零编程经验者也可制作高质量 3D 游戏
AI 初创公司 Exists 于 8 月 15 日发布新闻稿,介绍最新上线的生成式 AI 平台,没有任何编程经验的用户通过文本输入,就能创建高质量的 3D 游戏。 该公司创始人兼首席执行官约塔姆・赫特林格博士(Dr. Yotam Hechtlinger)表示:我们的目标是像文本、图像、视频和音频创作一样,让生成式 AI 在游戏领域带来范式转变。根据官方公布的宣传视频,整个游戏 AI 工具易于上手,…- 29
- 0
-
阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本
感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中…- 12
- 0
-
科大讯飞宣布讯飞智文2.0全新版本正式上线
8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版基于讯飞星火V4.0 大模型底座,引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组,大幅提升编辑自由度和样式多样性。新增的实时联网搜索和长文本解析功能,增强了内容的时效性和深度。同时,AI Word和AI读写功能,助力用户高效阅读和撰写文档,进行知识管理,进一步丰富了AI在文档创作领域的应用…- 9
- 0
-
科大讯飞智文 2.0 版本发布:内置 AI PPT 编排创作引擎,基于星火大模型
AI在线从讯飞开放平台获悉,讯飞智文 2.0 版本今天正式发布,带来 PPT 文本生成大模型、AI PPT 编排创作引擎、AI PPT 在线编辑模组三大技术升级。据介绍,讯飞智文 2.0 依托讯飞星火 V4.0 的底座能力,在文本生成方面进行了独立训练,对用户输入的主题具备更强大的理解能力。用户在“主题创建”中输入一句话主题,再勾选“联网搜索”,大模型即可自动抓取实时资讯,以确保事实的时效性、准确…- 56
- 0
-
统信发布中国首款操作系统级端侧模型 UOS LM,支持问答、翻译、创作等
感谢统信软件今日宣布,中国首款操作系统级端侧模型 UOS LM 正式发布。目前,UOS LM 端侧模型面向所有统信 UOS 社区版(deepin V23)用户发起定向邀约内测,添加 deepin 小助手申请内测资格。为保证流畅体验,统信推荐以下硬件性能:1.5B 模型:内存 2G,GPU 显存 4G,10TOPS7B 模型:内存 8G,GPU 显存 10G,20TOPS对于个人用户,UOS LM …- 7
- 0
-
无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Clau…- 15
- 0
-
OpenAI 开发 ChatGPT「反作弊神器」:99.9% 超高命中率,但没发布
感谢AI在线网友 Xiaozhi 的线索投递!去各大高校图书馆转一圈,会发现头上一副耳机、手边一杯咖啡,电脑上一个 AI 工具网页几乎成了当代大学生标配。学生热衷于在 ChatGPT 的帮助下完成作业,教师们却头疼于无法杜绝学生用 ChatGPT 作弊的行为。人工智能可以根据一个提示,在几秒钟内免费创建整篇论文或研究论文。教师和教授表示,他们迫切需要帮助来打击滥用行为。《每日邮报》2023 年 1…- 5
- 0
-
OpenAI 承认正研发 ChatGPT 文本水印,但面临挑战
据《华尔街日报》报道,OpenAI 已经开发出一款能够高精度识别 ChatGPT 生成文本的工具,但迟迟未发布。对此 OpenAI 进行了回应,承认正在研究文本水印技术,但表示这项技术仍存在诸多挑战。图源 Pexels据AI在线了解,通过文本水印,OpenAI 将只专注于检测来自 ChatGPT 的文字,而不是来自其他公司模型的文字。其将通过对 ChatGPT 选择单词的方式进行微小的更改来实现这…- 15
- 0
-
语音克隆达到人类水平,微软全新 VALL-E 2 模型让 DeepFake 堪比配音员
继去年初的第一代 VALL-E 模型之后,微软最近又上新了 VALL-E 2 模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近,微软发布了零样本的文本到语音(TTS)模型 VALLE-2,首次实现了与人类同等的水平,可以说是 TTS 领域里程碑式的进展。论文地址:,用录音室环境下的干净单人语音训练模型,已经可以达到人类同等水平的质量,但零样本 TTS 依…- 28
- 0
-
科大讯飞星火 Spark Pro-128K 大模型开放调用,最低 0.21 元 / 万 tokens
科大讯飞今日宣布,讯飞星火 API 正式开放长上下文版本 —— Spark Pro-128K 大模型,价格最低 0.21 元 / 万 tokens。据介绍,用户与大模型之间的对话交流,通常被认为是短期记忆。一旦对话长度超过了其上下文承载能力,超出的部分就可能会被模型遗忘。区别于传统的文本处理模型,长文本模型具备更准确的文本理解和生成能力以及更强大的跨领域迁移能力,可以一次性理解和生成更多的信息,适…- 10
- 0
-
中山大学联合字节智创数字人团队提出MMTryon虚拟试穿框架,效果优于现有SOTA
虚拟换装技术在特效以及电商的场景下有着广泛的应用,具有较高的商业潜质与价值。近期,中山大学联合字节跳动智能创作数字人团队提出了一种多模态多参考虚拟试穿 (VITON) 框架 MMTryon,可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。对于单图换装,MMTryon有效的利用了大量的数据设计了一个表征能力强大的服装编码器, 使得该方案能处理复杂的换装场景及任意服装款式;对于…- 18
- 0
-
22个恣意超越SOTA,43个恣意媲美SOTA,Google推出医学医治通用大模型
编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法,这将是一个漫长且昂贵的恣意,需要满足许多不同的标准,而能够加快这一过程的人工智能模型将是无价之宝。然而,目前大多数人工智能方法只能解决一组定义狭窄的恣意,通常局限于特定领域。为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型言语模型(LLM),由 PaLM-2 微调而成,可编码有关各种医治方式的学问。仅使用一组权重,Tx-…- 7
- 0
-
视觉说话模型导论:这篇论文能成为你进军VLM的第一步
近些年,说话建模范围进展非凡。Llama 或 ChatGPT 等许多大型说话模型(LLM)有才智解决多种不同的使命,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的才智。如果能将视觉与说话打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型说话模型扩展到了视觉范围,但视觉与说话之间的连接尚…- 18
- 0
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!