多功能RNA阐发,百度团队基于Transformer的RNA语言模型登Nature子刊
编辑 | 萝卜芯预训练语言模型在阐发核苷酸序列方面显示出了良好的前景,但应用单个预训练权重集在不同工作中表现出色的多功能模型仍然存在挑战。百度大数据实验室(Big Data Lab,BDL)和上海交通大学团队开发了 RNAErnie,一种基于 Transformer 架构,以 RNA 为中心的预训练模型。钻研人员用七个数据集和五个工作评价了模型,证明了 RNAErnie 在监视和无监视学习方面的优…- 8
- 0
美国教授用 2 岁女儿训 AI 模型登 Science,人类幼崽头戴相机训练全新 AI
【新智元导读】为训练 AI 模型,纽约州立大学的一名教授 Brenden Lake,竟让自己不到 2 岁女儿头戴相机收集数据!要知道,Meta 训 Llama 3 直接用了 15 万亿个 token,如果 Lake 真能让 AI 模型进修人类幼崽,从有限的输入中进修,那 LLM 的全球数据荒岂不是解决了?为了训练 AI 模型,一位纽约州立大学的教授,竟然把类似 GoPro 的相机绑在了自己女儿头上…- 7
- 0
苹果颁布 OpenELM,基于开源训练和推理框架的高效谈话模型
在 WWDC24 之前,苹果在 Hugging Face 平台上颁布了一个“具有开源训练和推理框架的高效谈话模型”,名为 OpenELM。当然,这是一项开源谈话模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:大型谈话模型的可重复性和透明性对于推进封闭研讨、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们颁布了 OpenEL…- 3
- 0
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成散布模型
过去几年来,散布模型强大的图象合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的散布模型的博客。 Lilian Weng机器之心对这篇博客进行了不改变原意的编译、整理,以下是博客原文:视频生成任务本身是图…- 20
- 0
你的自拍和聊天记录,正被硅谷大厂砸数十亿美圆疯抢
新智元报道 编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们曾经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美圆,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们曾经纷纷出动,买下所有能…- 4
- 0
OpenAI 新动态:改善微调 API,扩张定制模型规划
感谢OpenAI 公司近日发布新闻稿,宣布改善微调(fine-tuning)API,并进一步扩张定制模型规划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch(将训练数据集中的所有样本都过一遍(且仅过一遍)的训练过程)过程中,都自动生成一个完整的微调模型检查点,便于减少后续重新训练的需要,尤其是在过拟合(ov…- 40
- 0
马斯克 xAI 推出 Grok-1.5 大语言模型:提升推理能力,可处理 128k 上下文
感谢马斯克旗下人工智能公司 xAI 今天在民间博客中宣布,正式推出 Grok-1.5 大语言模型。Grok-1.5 具有改良的推理能力和 128k 的上下文长度,其中最显著的改良之一是其在编码和数学相关任务中的表现。Grok-1.5 将在未来几天内在 𝕏 平台上向早期尝试人员和现有的 Grok 用户推出。在民间尝试中,Grok-1.5 在 MATH 基准上博得了 50.6% 的成果,在 GSM8K…- 7
- 0
OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里
感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,没法明确说明 Sora 的训练数据来历。在采访中,尔子直接问询 Murati 关于 Sora 训练数据来历时,她仅以含糊的民间话术搪塞:“我们运用的是公然可用数据和允许数据。”当尔子追问具体来历能否包含 YouTube 视频时,Murati…- 9
- 0
全球首个类 Sora 开源复现规划来了!全面公开所有训练细节和模型权重
全球首个开源的类 Sora 架构视频生成模型,来了!整个训练过程,包括数据处理、所有训练细节和模型权重,全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现 Sora 成为了开发社区最热议话题之一。…- 9
- 0
因利用受版权保护书本训练 AI 平台,英伟达被三名作家告状
感谢据美国福克斯电视台北京时间今日报道,科技巨头英伟达已被三名作家告状,因为英伟达在训练其 AI 平台 NeMo 时,未经许可利用了他们受到版权保护的书本。三名作家 Brian Keene、Abdi Nazemian 和 Stewart O'Nan 声称,自己的作品被收录在一个包罗约 196640 本书本的数据集内,这些书本帮助训练 NeMo 模拟普通书面说话,但这个数据集因“被举报入侵…- 4
- 0
「还是google好」,离职创业一年,我才发现训练大模型有这么多坑
Karpathy:中肯的,一针见血的。如何在不到一年的时光里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战,也实在令人头疼。一年前,乘着大模型的热潮,Yi Tay…- 4
- 0
性能提升、成本降低,这是分布式强化进修算法最新研究进展
深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于算计机视觉和自然语言处理领域。有观点认为,分布式…- 3
- 0
全球最长开源!元象开源大模型XVERSE-Long-256K,无条件免费商用!
元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K,支持输入25万汉字,让大模型利用进入“长文本时代”。该模型全开源,无条件免费商用,且附带手把手训练教程,让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱 参数量和高质量数据量决定了大模型的计算复杂度,而长文本技能(Long Context)是大模型利用发展“杀手锏”,因技能新、研发…- 5
- 0
大模型训练算力利用率达60%,蚂蚁开源分布式训练扩大库ATorch
近日,蚂蚁团体宣布开源大模型分布式训练加快扩大库ATorch。ATorch可针对不同模型和硬件资源,实现深度进修主动资源静态优化和分布式训练稳定性晋升,帮助晋升深度进修的智能性。据了解,在大模型训练中,ATorch千亿模型千卡级别训练的算力利用率可达60%,相当于为跑车装上了强劲的引擎。图:ATorch致力于让大模型训练更高效、可复现随着生成式大模型的爆发,模型训练的数据集和参数规模成指数级增长,…- 3
- 0
OpenLAM | 深度势能预训练大模型DPA-2发布
在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型意图。OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源绽放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京运用物理与计算数学研究所等 29 家…- 21
- 0
OpenAI内斗时,Karpathy在录视频:《大型语言模型初学》上线
赶紧学习起来吧!OpenAI 的风波暂时告一段落,员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言模型(LLM)的 30 分钟初学讲座,但该讲座当时没录制。因此,他基于这场讲座重新录制了一个长达 1 小时的视频,希望让更多人看到和学习。视频的主题为《大型语言模型初学》,涵盖了 LLM 的推理、训练、微调以及新出现的 LLM 操作系统和 LL…- 6
- 0
MIT 开发深度化学模型的神经标准策略,发现「神经标准」定律
编辑 | 绿萝在数据可用性和估计方面,大规模使得自然言语处理和估计机视觉等深度进修关键应用范畴取得了重要突破。越来越多的证据表明,规模可能是迷信深度进修的关键因素,但物理先验在迷信范畴的重要性使得规模化的策略和收益变得不确定。近日,来自 MIT 的钻研团队通过将模型和数据集巨细改变多个数量级来钻研庞大化学模型中的神经标准(neural-scaling)行为,钻研具有超过 10 亿个参数的模型,并在…- 5
- 0
MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质
编辑 | 萝卜皮凭借其繁杂的排列和动态功能,蛋白质通过采用简单建立块的独特排列(其中几何形状是关键)来执行大量的生物任意。将这个几乎无限的排列库转化为各自的功能,可以方便钻研职员计划用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种天真的鉴于谈话模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和计划蛋白质。「通过这种新步骤…- 4
- 0
OpenAI公布「官方爬虫」:GPT-5靠它训练,有需求可以屏蔽
众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。- 7
- 0
iPhone、Mac上都能跑,刷屏的Llama 2究竟功能如何?
昨天凌晨,相信很多人都被 Meta 颁布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」- 8
- 0
训练
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!