-
无需训练即可创建数字人,字节PersonaTalk视频口型编辑超SOTA
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。- 4
- 0
-
从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来
还记得「威尔・史密斯吃意大利面」的 AI 鬼畜视频吗?在这些视频里,威尔・史密斯的面部表情、动作都非常夸张,还充满了扭曲、变形。一年多以前,大部分 AI 视频生成模型确实只能达到这样的水平。- 2
- 0
-
字节全新发布豆包AI视频模型:再见了Sora,你的时代过去了
刚刚,字节的火山引擎的发布会基本结束了。 我现在有点过于激动。 虽然发布会结束了,但是我觉得,一个颠覆行业的全新的起点,在这一刻,正式到来了。 字节正式发布了他们全新的两款 AI 视频模型: 豆包视频生成-PixelDance 模型和 Seaweed 模型。Seaweed 模型下次我再详细来说。这次,我想说这个豆包 PixelDance 模型,因为太屌了,屌炸了,我真的是全程惊叹着看完的。 他们正…- 10
- 0
-
字节版Sora终于来了!一口气两款视频模型,带来的震撼不只一点点
我们用17个Prompt,实测了一把字节的两大视频生成模型。字节憋了个大招。9 月 24 日,字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展,一口气发布了两款视频生成大模型,正式宣告进军 AI 视频生成。这两款模型,一个名为 PixelDance(以下简称 P 模型),一个名为 Seaweed(以下简称 S 模型),不仅在审美、动幅上提升了一个 level,还破解了多主体互动和一致性难题。话…- 5
- 0
-
字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲、片段编辑等
高质量音乐生成、高灵活音乐编辑,Seed-Music 再次打开了 AI 音乐创作的天花板。放假期间,本 i 人又领教了被 e 人支配的恐惧。跟 e 人朋友出门玩,先被拉去饭局尬聊,再和陌生人组队打本,下面这首歌真是唱出了 i 人心声。后两天假期就舒服多了。通关了黑神话悟空还不过瘾,我在家补经典 86 版的《西游记》。无论多少次重温,还是会被大圣的魅力吸引。 这歌怎么样,是不是感觉斗战胜佛活灵活现,…- 8
- 0
-
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,…- 6
- 0
-
-
1篇Outstanding、5篇Oral!字节跳动今年ACL这么猛? 来直播间聊聊!
本周学术界瞩目的焦点,无疑是在泰国曼谷举行的 ACL 2024 顶会。这场盛会吸引了全球众多杰出的研究者,大家汇聚一堂,共同探讨和分享最新学术成果。官方公布的数据显示,本届 ACL 共收到近 5000 篇论文投稿,其中 940 篇被主会录用,168 篇工作入选大会口头报告(Oral),录取率低于 3.4%,这当中,字节跳动共有 5 篇成果中选 Oral。在 8 月 14 日下午的 Paper Aw…- 17
- 0
-
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经成为克服训练故障、保障训练进度和提高训练效率的关键。近日,字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生,兼容多个训练框架,支持 Checkpoint 的高效读写和…- 12
- 0
-
B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香
在 ChatGPT 走红之后,本着「打不过就加入」的心态,很多职场人学起了 AI。但遗憾的是,不少人走了弯路,甚至还被某些「199」的课程割了韭菜。其实,学 AI 这事儿并不难。读文章、看视频、啃论文都是很好的学习方式。当然,还是有不少读者吐槽,学 AI 就像当年学英语一样,总会遇到一些让人头疼的「生词」,读论文比做阅读理解还麻烦,视频课程也不知道哪个适合自己,浪费了不少时间。AI 学习路上遇到的…- 4
- 0
-
字节大模型同传智能体,一出手就是媲美人类的同声传译水平
无论是语速超快、发音复杂的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅自然地给出准确而地道的翻译结果。近年来,人工智能(Aritificial Intelligence, AI),尤其是以大语言模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速度发展,这些模型在多种自然语言处理任务中展现了卓越的能力。然而,尽管在许多领域取得了突…- 12
- 0
-
-
GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了
字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法,分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是,Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日,字节跳动大模型团队开发的成果 Depth Anyt…- 7
- 0
-
耳朵没错,是声响太真了,字节豆包语音合成成果Seed-TTS技巧揭秘
Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样,连发音瑕疵也能生成出来,尤其在学习模仿人类说话方面,相似性和自然度均有很好表现。举例来说,将一段语音提供给 Seed-TTS,它就能按文本生成全新语音,且带上原素材的声响特征。原素材(Prompt):Seed-TTS 生成的中文语音: 突然,身边一阵笑声。我看着他们,意气风发地挺直了胸膛,甩了甩…- 5
- 0
-
字节豆包全新图象Tokenizer:生成图象最低只需32个token,最高提速410倍
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected] 在生成式模型的迅速发展中,Image Tokenization 扮…- 4
- 0
-
字节打造大模型TTS:不仅能高保真分解,而且支持调整编写
通过高保真分解语音与真人语音无异。首先来听一段《凡人修仙传》:你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。TTS 是指文本转语音,这是一种具备诸多妙用的技术,像是让个人智能助理谈话、为视频或游戏配音、辅助视障人士、制作有声书等等。对于 TTS 技术研发者来说,流畅自然的表达一直以来都是值得追求的重要目标。…- 17
- 0
-
字节豆包、武大提出 CAL:通过视觉相干的 token 增强多模态对齐效果
AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]当前主流的视觉说话模型(VLM)主要鉴于大说话模型(LLM)进一步微…- 6
- 0
-
现在起,真正的强者敢于直面「扣子」的「模型广场」
实时 Pk、“蒙面“ 对垒、大众点评、定期排名...... 就问敢不敢揭榜?字节版 GPTs “扣子”上线后,五年级小学生都能创建自己的英语外教。“扣子”有一个相当大的优势,就是支持国内知名大说话模型作为底座,还免费,许多 “AI bot" 孕育而生。不过,无限续杯也有烦恼。“学霸”这么多,挑谁最合适?看跑分?不太懂,也飘渺。要不,大家现场"全开麦“ PK一下?“扣子”已经把舞…- 6
- 0
-
大模型价格进入“厘”时代,豆包大模型定价每千tokens仅0.8厘
大模型的性价比之战已经来到了新的阶段。5月15日,2024火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布,字节跳动内部自研的豆包大模型正式在火山引擎上对外开放服务。豆包大模型在价格上主打“极致性价比”:豆包通用模型pro-32k版,推理输入价格0.0008元/千tokens,较行业价格低99.3%。一元钱能买到豆包主力模型的125万tokens,相当于三本《三国演义》的输入量。谭待认为,降低…- 29
- 0
-
字节开源大模型量化新思绪,2-bit量化模型精度齐平fp16
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]随着深度学习大语言模型的越来越火爆,大语言模型越做越大,使得其推理成…- 4
- 0
-
减速集中模型,最快1步生成SOTA级图片,字节Hyper-SD开源了
最近,集中模型(Diffusion Model)在图象生成领域取得了显著的进展,为图象生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果,集中模型在推理流程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列集中模型蒸馏算法来减速集中模型的推理流程。这些方式大致可以分为两类:i) 轨迹保持蒸馏;ii) 轨迹重构蒸馏。然而,这两类方式会分别受到动机天花板有限或者…- 9
- 0
-
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技巧和钻研一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和实质重点分歧,揭示出与横屏视频数据分歧的特点。针对这一分歧,字节跳动技巧团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技巧点以及一个初始规划。这项钻研对准确的竖屏视频理解和基础技巧架构有较为重要的意义,论文已入选 CVPR2024。视频 demo 揭示、数…- 4
- 0
-
被误解的「中文版Sora」背后,字节跳动有哪些技能?
2024 开年,OpenAI 就在生成式 AI 规模扔下了重磅炸弹:Sora。这几年,视频生成规模的技能迭代持续加速,很多科技公司也公布了相关技能进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成规模的标准。在今后的这场竞争中,哪家公司将率先打造出超越 Sora 的产品,仍是未知数。国内这边,目光聚集于一众科技大厂。此…- 5
- 0
-
加速量子化学算计,字节&北大团队量子蒙特卡罗钻研新进展登Nature子刊
编辑 | 萝卜皮鉴于神经网络的变分蒙特卡罗(NN-VMC)已成为一种有前途、有潜力的重新算计量子化学的尖端技术。然而,现有办法的高算计成本,阻碍了它们在现实化学问题中的应用。字节跳动与北京大学团队介绍了 NN-VMC 的最新钻研进展,它实现了显著的加速率,从而极大地将 NN-VMC 的适用性扩展到更大的零碎。该团队的关键设计是一个名为 Forward Laplacian 的算计框架,它通过有效的前…- 4
- 0
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!