高效预训练长度缩放技术

字节跳动发布高效预训练长度缩放技术，突破长序列训练瓶颈

字节跳动宣布推出高效预训练长度缩放技术（Efficient Pretraining Length Scaling），通过创新的Parallel Hidden Decoding Transformer(PHD-Transformer)框架，显著提升大语言模型(LLM)在长序列预训练中的效率与性能。据AIbase了解，该技术在保持推理效率的同时，支持高达2048K(2M)的上下文长度训练，解决了传统框架在数据异构性与计算平衡上的瓶颈。相关研究已在arXiv公开，引发了AI研究社区的广泛关注。

4/23/2025 3:00:42 PM

AI在线

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视觉视频生成安全干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind