字节跳动

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

想象一下，仅凭一张照片，就能在几秒钟内看到这个人说话、做动作，甚至进行表演，这就是字节跳动推出的 OmniHuman-1的魅力所在。这款近期在网上走红的人工智能模型，可以通过生成高度逼真的视频，使静态图像焕发活力，配合音频片段，实现口型同步、全身肢体动作和丰富的面部表情。与传统的深度伪造技术不同，OmniHuman-1不仅仅局限于人脸替换，而是能够完整地动画化整个身躯，包括自然的手势、姿态，以及与物体的互动。

2/11/2025 10:23:00 AM

AI在线

字节联合港大发布新视频模型Goku：可直接生成虚拟数字人视频

字节联合港大发布新视频模型Goku：可直接生成虚拟数字人视频

近日，香港大学与字节跳动合作研发的基于流动的视频生成模型 Goku 正式发布。该模型利用先进的生成算法，可以根据文本提示生成高质量的视频内容，极大地丰富了数字艺术的表现形式。为了展示 Goku 模型的强大功能，研究团队制作了一系列精彩的视频示例，这些示例不仅展示了模型的技术能力，也展现了其在创意表现上的无限潜力。

2/10/2025 5:49:00 PM

AI在线

字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

据第一财经报道，即梦 AI 相关负责人透露，OmniHuman 模型未来会进行小范围内测，官方也会对这一功能设置严格的安全审核机制，并对输出的视频标注水印以作提醒。

2/7/2025 5:17:33 PM

浩渺

字节跳动展示 OmniHuman 多模态框架：图片 + 音频 = 逼真动画，半身全身均可生成

字节跳动展示 OmniHuman 多模态框架：图片 + 音频 = 逼真动画，半身全身均可生成

字节跳动表示，和一些只能生成面部或上半身动画的深度伪造技术不同，OmniHuman-1能够生成逼真的全身动画，且能将手势和面部表情与语音或音乐精准同步。

2/6/2025 3:20:06 PM

清源

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

Go语言开发AI智能体有多丝滑？字节重磅开源Eino框架，内含保姆级教程

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/4/2025 8:30:00 PM

机器之心

字节跳动BitsAI-CR：基于LLM的代码审查系统技术揭秘

字节跳动BitsAI-CR：基于LLM的代码审查系统技术揭秘

在人工智能浪潮席卷全球的今天，大语言模型 (LLM) 正在重塑软件开发流程。近日，字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节，展示了 AI 在提升企业研发效率方面的重要进展。论文地址：，但在大规模企业环境下面临严峻挑战。

2/3/2025 9:01:00 PM

机器之心

字节跳动回应“今年资本支出超 1500 亿元”：消息不准确

字节跳动回应“今年资本支出超 1500 亿元”：消息不准确

据路透社今日援引知情人士消息称，字节跳动今年计划投入超 1500 亿元人民币用于资本支出，其中大部分将用于AI领域。针对该报道，字节跳动回应称：“关于我们支出的匿名消息不准确。”

1/23/2025 6:31:05 PM

清源

百万 tokens 降至 0.8 元后，消息称字节跳动豆包大模型毛利率达 50%

百万 tokens 降至 0.8 元后，消息称字节跳动豆包大模型毛利率达 50%

据界面新闻今日援引多个知情人士消息称，字节跳动旗下的豆包大模型在去年大幅降价后，毛利率仍然为正。

1/22/2025 6:13:02 PM

清源

字节跳动发布 AI 中文 IDE“Trae”：内置 GPT-4o，可帮助自动化开发

字节跳动发布 AI 中文 IDE“Trae”：内置 GPT-4o，可帮助自动化开发

其支持AI问答、代码自动补全、基于Agent的AI编程等功能，可以帮助程序员自动化完成开发任务，并在一些项目中可以实现端到端开发，用户提问后能够直接生成完整的代码项目。

1/20/2025 5:25:31 PM

清源

字节跳动豆包全新上线 AI 编程功能：支持一键上传多个本地代码文件、实时引入 GitHub 开源仓库

字节跳动豆包全新上线 AI 编程功能：支持一键上传多个本地代码文件、实时引入 GitHub 开源仓库

豆包官方公众号显示，豆包电脑版和网页版全新上线AI编程功能。该功能支持一键上传多个本地代码文件、实时引入GitHub开源仓库，快速获取项目的完整上下文，不需再逐段复制代码。

1/17/2025 9:01:37 AM

浩渺

海内外15位博士，每人10万，字节跳动的奖学金越来越「香」了

海内外15位博士，每人10万，字节跳动的奖学金越来越「香」了

新一波 AI 技术浪潮来袭的时代，什么样的人才最抢手？最新公布的一份「奖学金名单」，或许能告诉我们答案。刚刚，15 位年轻的博士生，喜提 2024 年度字节跳动奖学金。

1/14/2025 2:42:00 PM

机器之心

字节跳动将自建数据中心变电站，消息称今年豪掷 1600 亿打造集群

字节跳动将自建数据中心变电站，消息称今年豪掷 1600 亿打造集群

字节跳动 1 月 3 日发布自建数据中心变电站设计框架采购寻源公告，计划采购自建变电站的主要设计原则及工程设想，完成变电站的建筑、电力一次系统、电力二次系统的扩初设计等。

1/6/2025 11:28:41 AM

汪淼

豆包大模型发布各领域技术进展，首次披露 300 万长文本能力

豆包大模型发布各领域技术进展，首次披露 300 万长文本能力

字节跳动旗下豆包大模型今日对外公布了2024年全领域的技术进展，宣称自5月15日首次亮相的7个月以来，在通用语言、视频生成、语音对话、视觉理解等方面模型能力已经跨入国际第一梯队。

12/30/2024 9:31:32 PM

清源

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

12月30日，字节豆包大模型对外披露2024全领域技术进展。距5月15日首次亮相仅7个月，豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面模型能力均已跨入国际第一梯队。豆包大模型团队表示，“从孩童般学语，到懵懂看世界，到为创作者绘出想象中的奇幻梦境，一切依然处于最早期。

12/30/2024 3:15:07 PM

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/24/2024 1:18:00 PM

机器之心

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

豆包视觉理解模型惊艳亮相：首次评测就排名全球第二

12 月 18 日-19 日，火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点，无疑就是豆包大模型家族的全线升级，以及全新豆包视觉理解模型的发布

12/23/2024 2:50:02 PM

汐元

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

豆包说要「普惠」，于是大模型处理图片按「厘」计价了

这段时间，OpenAI 宣告连续 12 轮轰炸，让 2024 年底的大模型领域热闹起来了。但坚持每个凌晨看直播的话会发现，越到后面的发布越平淡，内心的波动也越少了。今年的大模型就卷到这里了吗？

12/23/2024 1:06:00 PM

机器之心

字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

豆包3D生成模型也在本次活动中正式亮相。将其与火山引擎数字孪生平台veOmniverse结合使用，可完成智能训练、数据合成和数字资产制作，官方称之为“一套支持 AIGC 创作的物理世界仿真模拟器”。

12/18/2024 11:33:56 AM

清源

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型