资讯列表

机器学习 | 从0开发大模型—译llama3-from-scratch

最近在看一篇Github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原文::、Tokenizer原始代码没有实现tokenizer,而是使用llama3的 tokenizer.model,实现代码如下:这里用了字节对编码(BPE),和我们训练的tokenzier使用的方式一样。 2、读取模型文件将模型文件下载到 Meta-Llama-3-8B 文件夹中,然后读取模型文件,代码如下:其中输出的配置看:n_layers=32:表示该模型有32个Transformer层n_heads=32:表示每个Transformer层有32个注意力头vobac_size=128256:表示词汇表大小为1282563、文本转换为token使用 tiktoken(openai的库)作为 tokenizer,实现如下:llama3-scratch其中,128000是 |begin_of_text| 的token,还包括如下特殊token:4、将token转换为embedding将上面的 token 通过 embedding 层,[17X1] 转换为 [17X4096],即 17 个 embeding(每个token一个),长度为 4096。

一文读懂 NVIDIA GPU Core

Hello folks,我是 Luga,今天我们来聊一下人工智能(AI)生态领域相关的底座技术 -  NVIDIA GPU Core。 近年来,如果大家使用过 NVIDIA 的 GPU,一定对“ GPU Core”有所耳闻。 那么,这玩意 究竟是什么?

我们一起聊聊如何给AI大模型喂数据?

大家好呀,我是飞鱼。 如果我想要大模型学习我的知识,怎么给他数据呢? 数据是大模型的食物,只有喂对了,模型才能更好地学习和成长。

如何使用基于AI的 Suno创作自己的音乐?

译者 | 布加迪审校 | 重楼Suno将使用其AI技能根据你对音乐的特定流派和主题的描述来创作歌曲。 你可能已经使用生成式AI来创建文本、图像甚至视频,但有没有用它来创作自己的音乐呢? 几种不同的文本转音乐工具可以充当虚拟作曲家,不过值得一试的此类工具是Suno。

「知识蒸馏+持续学习」最新综述!哈工大、中科院出品:全新分类体系,十大数据集全面实验

知识蒸馏(Knowledge Distillation, KD)已逐渐成为持续学习(Continual Learning, CL)应对灾难性遗忘的常见方法。 然而,尽管KD在减轻遗忘方面取得了一定成果,关于KD在持续学习中的应用及其有效性仍然缺乏深入的探索。 图1 知识蒸馏在持续学习中的使用目前,大多数现有的持续学习综述主要从不同方法的分类角度出发,聚焦于图像分类领域或其他应用领域,很少有综述文章专门探讨如何通过具体技术(如知识蒸馏)来缓解持续学习中的遗忘问题。

马斯克旗下 AI 聊天机器人 Grok 将推出“无拘束模式” ,提供更具争议性回答

根据 FAQ 页面的描述,Grok 在“无拘束模式”下将提供“可能令人反感、不恰当甚至冒犯性”的回答,类似于“一位仍在学习技艺的业余单口喜剧演员的表现”。目前,这一模式似乎尚未正式上线。

彭博分析师:受 AI 影响,全球银行业未来三到五年内将裁减最多 20 万个职位

“任何涉及重复性和常规任务的职位都面临风险,但AI不会完全取代这些工作,更多的是推动工作方式的转变。”

上海市“人工智能+”行动推进大会暨中国—金砖国家人工智能发展与合作中心基地启用仪式顺利举办

1月3日,上海市“人工智能 ”行动推进大会暨中国—金砖国家人工智能发展与合作中心基地启用仪式在西岸大剧院隆重举办。 上海市副市长陈杰、工业和信息化部科技司司长魏巍、上海市政府副秘书长庄木弟、中国信通院院长余晓晖、上海市经济信息化委主任张英、徐汇区委书记曹立强、徐汇区委副书记、区长王华、市各委办局领导出席仪式。 徐汇区各委办局相关负责同事出席。

分子特性预测新框架来了!浙大侯廷军团队、匹兹堡大学联合提出跨通道学习,各大基准表现亮眼

编辑 | 萝卜皮可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。 然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。 匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

2024年12月全球AI网站流量排行榜

AI在线 发布 2024年12月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!

2024年12月国内AI网站流量排行榜

AI在线 发布 2024年12月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!

2024年12月出海AI网站流量排行榜

AI在线 发布 2024年12月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!

2024年12月全球AI网站增长排行榜

AI在线 发布 2024年12月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!

西藏地震期间“小孩被埋”等 AI 图大量传播,严重可追责

1 月 7 日西藏定日县发生 6.8 级地震,牵动着亿万网友的心。网上流传的一张“小孩被埋图”,画面令人揪心不已,引发大量转发和评论。不少网友表示心疼,并为之祝福、加油。然而经核实,该图片并非真实地震画面,而是由 AI 工具合成的虚假图片。

美国AI芯片限制最后一刀!英伟达AMD全球禁运,只配5万块

就在离任前几天,拜登政府再次决定,对英伟达AMD等AI芯片的出口,进一步实施限制。 而这也是他为了防止美国技术落入中国手中的最后一搏。 知情人士透露,美国希望在国家和企业两个层面,限制AI芯片的销售。

马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几

在周三晚间与Stagwell董事会主席马克·佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累……用于人工智能训练的数据。这个现象基本上是去年发生的。”

微软确认小规模裁员,业绩不佳的员工面临风险

微软近日证实,该公司将根据各部门员工的业绩表现,实施一轮小规模的裁员。 微软发言人在发给CNBC的一封电子邮件中表示,“微软始终重视高绩效人才,我们一直致力帮助员工的学习和成长。 然而当他们的业务表现不佳时,我们将不得不采取必要的措施。

逆向设计电路,深度学习开辟全新的自动综合道路

编辑丨&在过去的二十年里,射频、毫米波和亚太赫兹集成电路和系统取得了巨大进步,展示了复杂的相控阵和多输入、多输出 (MIMO) 阵列与芯片级系统。 全新智慧功能的设计与达成离不开芯片的设计,这其中又包含一系列复杂的设计流程。 这些流程构成了构成了集成有源电路元件和无源电磁 (EM) 结构的协同设计和优化。