资讯列表
让郭德纲说英语,霉霉讲中文,AI是如何做到视频无痕翻译的?
大家好,这里是和你们一起探索 AI 的花生~
这几天互联网上出现的一类视频引起了大家的广泛关注和热烈讨论,视频的特点是可以“让人物说外语”,但形式并不是我们常见的视频配音,而是真的像他们自己就会说外语一样,口音毫无 AI 感,人物的嘴型也是一致的。
比如下面这段“郭德纲用英语说相声”的视频,如果不说,几乎看不出来这是 AI 处理的,因为视频中人物的嘴型与说出的英语是一致的,发音很真实,没有 AI 的生硬感,甚至语调音色都与郭德纲说中文时的语调音色是一样的,这些细节上的精准匹配使视频显得非常自然真实,让人不得不感叹
第四波!2023年10月精选实用设计工具合集
大家好,这是 2023 年 10 月的第 4 波干货合集!这次合集中的 AI 工具比例相对并不高,不过其中有很多相对少见的有趣产品,比如动态字体效果生成器和实用性极强的 AE 插件合集,其中唯一的 AI 工具则是一个设计师作品集生成服务。如果你对于这些工具感兴趣,可以先收藏今天的合集。
当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:
1、在线免费字体动态效果生成器
,右上角的 「Select」按钮点击之后可以选择大量内置的字体动态效果,右下角则可以输入内容,由于是在线的网页工具
亲测可用!ChatGPT-4 会员充值攻略大揭秘!
亲测 GPT-4 和 MJ 会员开通成功!写一个 GPT-4 的充值攻略。希望对你有帮助哦~
更多关于GPT-4 的介绍:本文有三个部分,可以选择从自己需要的部分开始阅读。
第一部分:美区 APP Store 准备
第二部分:礼品卡充值
第三部分:礼品卡使用方式
彩蛋:更多方法查看文末哟~
ChatGPT APP下载地址:
注意需要使用美区的App store
一、美区APP Store准备
邮箱:1个未曾注册过Apple ID的邮箱
手机号:1个手机号码(国内的或曾用于注册Apple ID的都可)
浏览器:苹果系
基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计
编辑 | 紫罗基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因工程技术。先导编辑(Prime editor, PE)是美籍华裔科学家刘如谦(David R.Liu)团队开发的精准基因编辑系统,PE 是一种很有前途的基因编辑工具,但由于缺乏准确和广泛适用的方法,有效优化先导编辑 RNA(prime editing guide RNA, pegRNA)设计仍然是一个挑战。近日,来自重庆医科大学、西北农林科技大学、云南民族大学、浙江大学医学院和中国科学院数学与系统科学研究院生物信息学中心(B
炒作归炒作,新报告表明,仅15%的企业组织为生成AI做好准备
机器之能报道编辑:吴昕会和云市场的崛起遵循一样的路径吗?生成式人工智能吸引足够多的公众注意力,但这种亢奋并不意味着企业高管们认为它已经准备好在企业中部署。根据著名信息咨询和技术服务公司 Nash Squared 《年度数字领导力报告( Digital Leadership Report )》(该报告将于 11 月 9 日全面发布),全球只有十分之一的技术领导者大规模实施了人工智能,该报告是全球规模最大、持续时间最长的技术领导者年度调查。更重要的是,围绕生成式人工智能的炒作对鼓励对人工智能的进一步投资几乎没有什么作
图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的
LeCun 表示,绝大多数学术同行都非常支持开放式 AI 研发,但还是有反对者。关于 AI 风险的问题,各路大佬们也是意见不统一。有人带头签署联名信,呼吁 AI 实验室应立即暂停研究,深度学习三巨头 Geoffrey Hinton、Yoshua Bengio 等都支持这一观点。就在近几日,Bengio、Hinton 等再发联名信《在快速发展的时代管理人工智能风险》,呼吁在开发 AI 系统之前,研究者应该采取紧急治理措施,将安全和道德实践纳入重点,呼吁各国政府应该采取行动,管理 AI 带来的风险。文中提到了一些紧急治
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
习惯了 Stable Diffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模型,还是苹果做的。在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨率输入。解决这些挑战需要使用带有注意力块的深层架构,这使得优化更困难,消耗的算力和内存也更多。怎么办呢?最近的一些工作专注于研究用于高分辨率图像的高效网络架构。但是现有方法都没有展示出超
ChatGPT上新文件分析、自动搜索等功能,初创公司的产品被取代?
OpenAI 已然算是创业公司中的「巨头」。最近,OpenAI 为 ChatGPT Plus 会员推出了新的测试版功能,主要包括上传和分析文件,支持多模态,并且系统会根据上下文自动选择是否使用必应浏览器、数据分析工具、DALL·E,而无需用户手动切换。将文件输入到 ChatGPT 后,系统需要一些时间来消化该文件,然后 ChatGPT 就可以执行汇总数据、回答问题或根据 prompt 生成数据可视化等操作。目前,已有一些 ChatGPT Plus 会员用户测试了这些新功能。例如,有网友上传了图像文件,使用 Chat
像搭乐高一样做数学定理证明题,GPT-3.5证明成功率达新SOTA
中山大学和华为等机构的研究者提出了 LEGO-Prover,实现了数学定理的生成、整理、储存、检索和复用的全流程闭环。背景作为长链条严格推理的典范,数学推理被认为是衡量语言模型推理能力的重要基准,GSM8K 和 MATH 等数学文字问题(math word problem)数据集被广泛应用于语言模型的测评和比较中。事实上,数学作为一项科学研究并不仅仅包括计算具体实例,还包括推演一般性的定理。不同于简单的计算问题仅仅需要验证最终的结果与答案是否匹配,定理的证明要求对数学概念拥有更严格的理解,而这种定理证明的正确性是难
元乘象Chatimg3.0来了,赶超GPT-4V,还给出产业升级新打法
最近,AI 领域都在思考一件事:多模态大模型落地产业,好的打法应该是什么?通用人工智能时代正在到来,AI 大模型技术已成为数字经济下基础设施建设的重要支撑,也成为产业智能化转型的核心「引擎」,AI 大模型 产业应用迎来了前所未有的发展机遇。在 10 月 28 日举办的 CNCC 2023「超智融合 AI 大模型应用落地发展论坛」上,智子引擎发布了「元乘象 Chatimg3.0」,展示了多模态通用生成模型「元乘象 Chatimg3.0」的最新进展与落地探索。Chatimg3.0 核心技术的升级迭代元乘象 Chat
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型,Transformer 正以锐不可当之势席卷这个世界,但人们也不禁会问:Transformer 是唯一选择吗?斯坦福大学和纽约州立大学布法罗分校的一个研究团队不仅为这一问题给出了否定答案,而且还提出了一种新的替代技术:Monarch Mixer。近日,该团队在 ar
用50多年时间,探索最令人困惑的复杂性理论知识极限
证明问题难以解决究竟有多难?元复杂性(meta-complexity)理论研究者数十年来一直探究这个问题。近期的一系列研究成果开始给出这个问题的答案。复杂性理论研究者正直面着最让人困惑的问题:复杂性理论本身。一、起源2007 年秋季学期的第一周,Marco Carmosino 拖着自己去上了一堂数学课,这是马萨诸塞大学阿默斯特分校计算机科学专业学生的必修课。Carmosino 是一位大二学生,他当时正在考虑退学去设计视频游戏游戏。上课的教授提出了一个简单的问题,而这个问题将改变他的人生轨迹:你怎么知道数学真的有用?
昆仑万维开源「天工」13B系列大模型,0门槛商用
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:Skywork-13B-Base模型、Skywork-13B-Math模型,它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。Skywork-13B下载地址(Model Sc
更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA
论文地址: 地址: . 研究背景与动机随着扩散模型的兴起,一些典型的模型例如 Stable Diffusion, DALL-E 2 等在文本生成图像任务上展现了令人震撼的能力。但一个明显的不足是,这些模型在文本生成人体图片的任务上表现得不尽如人意,甚至很难生成具有合理结构或自然姿态的人体(例如正确的四肢数目和符合人体物理结构的几何拓扑)。背后的主要原因在于:自然环境下的人体是铰接的,且包含刚性和非刚性的形变;生成高质量的人体图片需要文本难以描述的结构信息。为了在文生图中引入结构控制信息,近期的代表工作如 Cont
国内唯一全面对标OpenAI的创业公司,大模型已经出到第三代
中国大模型公司,正在进入竞争的新阶段。仅用六个月时间,国内 AI 创业公司就已经把大语言模型发展到了第三代。10 月 27 日,中国计算机大会 CNCC2023 上,智谱 AI 发布了自研第三代对话大模型 ChatGLM3。这是继 6 月 25 日发布 ChatGLM2 后,智谱 AI 对话大模型的又一次重大升级。 智谱 AI CEO 张鹏在活动中进行了演讲。「ChatGLM3 融入了我们的一系列最新研究成果,实现了包括跨模态、Agent 等一系列全新能力
谷歌20亿美元砸向Anthropic:大模型军备竞赛升级
Anthropic 一年就收获了近 70 亿美元的投资。据华尔街日报、路透社等媒体报道,Alphabet 旗下谷歌公司发言人本周五表示,该公司已同意向人工智能公司 Anthropic 投资至多 20 亿美元(约合 146 亿人民币)。该发言人表示,该公司已向这个 OpenAI 的重要竞争对手预先投资 5 亿美元,并同意在此之后追加 15 亿美元。此前,谷歌已经是 Anthropic 的重要投资者,随着大型科技公司竞相将人工智能融入到自身业务中,这项新的投资将帮助谷歌加大力度与微软进行持续竞争。Anthropic 是
多模态搜索算法如何让视频搜索更精准?腾讯独家揭秘,超详细
一文详解多模态技术在 QQ 浏览器视频搜索上的实践经验。引言视频搜索作为搜索中最大的横向垂类,在约 50% 的搜索词下都会有视频结果的展现。然而,视频资源又不同于文本网页资源,在视频理解、视频匹配排序,以及交互行为等方面都会带来新的技术挑战。多模态技术近年逐步走进人们的视野,特别是 Transformer 结构在 NLP 领域的大放异彩后,也向视觉、音频等多模态领域延伸,为跨模态融合带来更大的便利和可能。多模态预训练(比如 ViLBERT/VisualBERT/VL-BERT/ERNIE-ViL 等)、多模态融合技
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM。大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。10 月 24 日,北京理工大学自然语言处理团队发布系列双语轻量级大语言模型明德 (Ming De LLM)——MindLLM,全面介绍了大型模型开发过