资讯列表
Java AI 实战:本地模型JSON结构化输出
在人工智能和机器学习领域,大语言模型(LLM)的应用日益广泛。 Ollama 作为一个强大的开源 LLM 工具,不仅可以进行自然语言对话,还能生成结构化的输出数据。 本文将详细介绍如何使用 Ollama 生成 JSON 格式的输出,并提供完整的 Java 实现方案。
OpenAI向超级人工智能迈进
OpenAI首席执行官Sam Altman在2025年刚开始就对人工智能的未来发出了大胆的宣言。 Altman表示,OpenAI现在对如何创建AGI(通用人工智能)充满信心,并将重点转移到下一个前沿领域:超级人工智能。 OpenAI的最新模型o3于去年12月发布,目前正在进行安全评估,成功通过了领先的AGI基准ARC-AGI挑战。
4年内AI统治脑力工作,人类只剩搬砖?马斯克预言300亿机器人占领世界
「4年内,除了体力活,AI将掌管一切脑力工作」! 马斯克的一句话,惊爆全网。 就在CES 2025期间的一场特别专访中,马斯克畅聊了AI在认知任务、人形机器人、Neuralink等技术进步,如何对人类生活产生变革性的影响。
让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法
7B参数的Qwen2.5数学推理表现超过o1-preview,这是怎么做到的? ! 靠的就是MSRA最新的创新算法,rStar-Math。
个人跑大模型,英伟达「皮衣刀客」新出的Project DIGITS与M4 Mac Mini到底哪个好?
前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,机器之心也在第一时间进行了报道,参阅《RTX5090 震撼发布,国行 16499 元起,黄仁勋「美国队长」pose 亮翻全场》。 在这篇文章的评论区,一位读者的问题引发了不少争议。 虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。
阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码
通义万相 2.1 还支持复杂运镜,可还原碰撞、反弹、切割、挤压等真实世界的物理规律,例如雨滴落在伞上会溅起水花。
银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
近日,英伟达CEO黄仁勋在今年CES的演讲无疑让整个科技圈为之沸腾。 他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——「来自银河通用的全场唯一一台轮式具身大模型机器人Galbot G1将RTX 5090缓缓托起。 」发布会结束后,黄仁勋更是第一时间亲自来到银河通用所在的展区,与Galbot机器人进行真机互动。
2025 年来了,3D 生成也迎来了新突破
2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。 无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。
Anthropic新研究:用统计思维评估大模型
目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。
组件可控个性化生成方法MagicTailor:生成过程可自由地定制ID
本文经AIGC Studio公众号授权转载,转载请联系出处。 文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。 相关链接论文阅读::(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。
开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕 / 翻译功能
VideoLAN 总裁 Jean-Baptiste Kempf 表示,即使在这个流媒体服务盛行的时代,VLC 的活跃用户数量仍在不断增长。
Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源!
Open-Sora是一项致力于高效制作高质量视频的计划。 目的是让所有人都能使用模型、工具和所有细节。 通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
近日,英伟达CEO黄仁勋在今年CES的演讲无疑让整个科技圈为之沸腾。 他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——「来自银河通用的全场唯一一台轮式具身大模型机器人Galbot G1将RTX 5090缓缓托起。 」发布会结束后,黄仁勋更是第一时间亲自来到银河通用所在的展区,与Galbot机器人进行真机互动。
重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1
微软亚洲研究院发布了一种创新算法——rStar-Math。 rStar-Math通过代码增强CoT、蒙特卡洛树搜索等,可以帮助小参数模型在不依赖老师模型蒸馏的情况下,实现多轮自我思维深度进化,极大增强模型的数学推理能力。 在美国数学竞赛AIME 2024测试中,rStar-Math平均解决了53.3%(8/15)的难题,超过了OpenAI o1-preview的44.6%,以及所有其他开源的大模型,成为最聪明的前20%高中数学生。
一篇推文看一年!Jim Fan力荐2025必读清单:50篇论文,扫盲「全领域AI实战」
别再反复看Transformer之类的古董级论文了,该更新论文清单了! 现行的AI从工程技术角度可以分为十个领域:前沿大模型、基准评估、提示思维链、检索增强生成、智能体、代码生成、视觉、声音、图像/视频扩散、微调,每个领域选出5篇代表作和相关工作,看完 实践=AI全栈大神! 前沿大模型OpenAI发布的ChatGPT把大模型带入普通消费者的日常生活中,旗下的GPT系列模型也一直是行业标杆,其中GPT1/2/3, Codex, InstructGPT, GPT4都有论文,GPT3.5, 4o, o1和o3只有相关的宣发活动。
世界模型会是L3自动驾驶的唯一解吗?2025 技术展望~
三维空间占有率(3D Occupancy)预测的目的是预测三维空间中的每个体素是否被占有,如果被占有,则对应的体素将被标记。 3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息,成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。 而自动驾驶世界模型(World Model)具备对真实物理世界的理解能力,基于一些历史信息/状态,能够预测未来时刻的场景变化甚至agents的状态变化。
2024 胡润中国人工智能企业 50 强公布:寒武纪 2380 亿价值位居榜首,科大讯飞、商汤科技前三
成立于 2016 年,总部北京的 AI 芯片企业寒武纪以 2380 亿的价值位居榜首,智能语音企业科大讯飞以 1160 亿的价值排名第二,机器视觉和大模型企业商汤科技以 500 亿的价值排名第三。
机器学习 | 从0开发大模型—译llama3-from-scratch
最近在看一篇Github上大佬的文章,从0开始训练llama3,觉得对于《从0开发大模型》有点帮助,于是翻译一下,发现其中很多内容当前系列文章的知识点相似。 原文::、Tokenizer原始代码没有实现tokenizer,而是使用llama3的 tokenizer.model,实现代码如下:这里用了字节对编码(BPE),和我们训练的tokenzier使用的方式一样。 2、读取模型文件将模型文件下载到 Meta-Llama-3-8B 文件夹中,然后读取模型文件,代码如下:其中输出的配置看:n_layers=32:表示该模型有32个Transformer层n_heads=32:表示每个Transformer层有32个注意力头vobac_size=128256:表示词汇表大小为1282563、文本转换为token使用 tiktoken(openai的库)作为 tokenizer,实现如下:llama3-scratch其中,128000是 |begin_of_text| 的token,还包括如下特殊token:4、将token转换为embedding将上面的 token 通过 embedding 层,[17X1] 转换为 [17X4096],即 17 个 embeding(每个token一个),长度为 4096。