大模型
看听读全都会的六边形战士MiniCPM,来啦
MiniCPM-o 2.6开源啦,该模型视觉、语音和多模态流式能力达到了 GPT-4o-202405 级别。 图片简介MiniCPM-o 2.6是一个端侧多模态大模型,具有8B参数量。 它基于SigLip-400M、Whisper-medium-300M、ChatTTS-200M和Qwen2.5-7B构建,通过端到端的方式训练和推理。
大模型时代,人机交互体验将被怎样重塑?
在科技持续演进、创新浪潮迭起的当下,人类与计算机的关系日益紧密,成为推动社会发展的关键力量。 自从世界上第一台计算机ENIAC被发明以来,人机交互就成为计算机科学非常重要的一个分支学科。 人机交互(Human-Computer Interaction,HCI)指的是人类和计算机之间的信息交换和互动的过程,目标是使这种交互尽可能直观、高效、满足需求。
突发,美国开始拉黑国产大模型公司!智谱官方回应:手握全链路大模型核心技术,无实质影响!一天内25家中企被列入实体名单!
编辑 | 伊风月初,腾讯被美国国防部列进了“中国军工企业清单”(1260H 清单)已经够离谱了! 没想到刚过去10天,更离谱的事情出现了:大模型公司也登上了美国黑名单! 昨晚深夜,美国商务部工业和安全局(BIS)修订了实体清单,其中大模型六小虎之一的智谱公司赫然在列。
文档解析技术指南:从传统Pipeline到端到端大模型
众多文档,如技术手册、历史档案、学术论文和法律文件,往往以扫描件或图片形式存在。 这对检索增强生成(Retrieval-Augmented Generation, RAG)、内容提取以及文档解读等后续处理工作构成了极大的挑战。 文档解析技术应运而生,它能够识别并提取文档中的多种元素,如文字、公式、表格和图片,同时保持它们之间的结构联系。
ChatGPT全年更新大总结!重看「大模型风向标」进化之路
2024年,大模型已经深入融入了我们的日常生活。 而作为领跑者,ChatGPT也一直是大模型届的指南针,无论是去年发布的大模型o1-pro,Sora Turbo,还是各种小功能,比如视频模式、打断说话等,甚至是每月200美元的高额定价,OpenAI的每一场发布会都能给广大AI爱好者带来一些新震撼、新思路。 下面共同回顾一下OpenAI在2024年发布的关键更新,一起见证大模型的进化之路!
上海 AI 实验室书生・浦语大模型升级:仅用 4T 数据训练而成,通用模型首次融合常规对话与深度思考
IT之家从上海人工智能实验室获悉,其书生大模型今日获得重要版本升级——书生·浦语3.0(InternLM3)。据官方介绍,其通过精炼数据框架大幅提升了数据效率,实现思维密度的跃升。
字节跳动2024奖学金公布:清华北大等八院校15名博士获奖
1月14日,字节跳动公众号公布“第四届字节跳动奖学金”评选结果,来自北京大学、北京邮电大学、清华大学、香港大学、香港城市大学、新加坡管理大学、新加坡国立大学、浙江大学(按拼音首字母排序)的15名在校生获奖,每人获得奖学金10万元人民币。 字节跳动奖学金计划是字节跳动于2021年发起的一年一期的人才培养项目。 过去三届,共有32位优秀学子获得了奖学金支持。
2025,大厂们的「大模型牌桌」战
随着大模型六小虎在AGI上的后撤第一枪被正式打响,中国大模型行业的分水岭快速露出水面、更加清晰。 初创公司在下一代超大规模模型竞争中的局限性开始被广泛关注,大厂「不下桌」的资本筹码变得更加明显。 无论是百度宣布2025年将推出下一代基座模型,还是阿里、字节在AI人才和资金上的继续投入,潮水退去,大模型在决胜战场的主导权还是来到了大厂手中。
思维链?思维树?华为诺亚:现在到了思维森林时刻!
OpenAI 接连发布 o1 和 o3 模型,大模型的高阶推理能力正在迎来爆发式增强。 在预训练 Scaling law “撞墙” 的背景下,探寻新的 Scaling law 成为业界关注的热点。 高阶推理能力有望开启新的 Scaling law,为大模型的发展注入新的活力。
国产推理大模型决战2025考研数学,看看谁第一个上岸?
随着上个月 2025 研究生考试的结束,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。 业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象深刻,但说到数学就不甚令人满意了。 去年一度火出圈的「9.9 与 9.11」比大小的问题,包括 GPT-4o 在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上改善了这一状况。
Anthropic新研究:用统计思维评估大模型
目前,评估大模型的方法就是比在基准测试中的数值,在于突出SOTA结果,并未充分考虑统计显著性。 例如,在对不同模型进行评估时,若仅依据表面的得分高低判断优劣,而不考虑数据的不确定性和变异性,可能会得出不准确的结论。 所以,Anthropic提出了将严谨的统计思维引入大模型评估领域。
我们一起聊聊如何给AI大模型喂数据?
大家好呀,我是飞鱼。 如果我想要大模型学习我的知识,怎么给他数据呢? 数据是大模型的食物,只有喂对了,模型才能更好地学习和成长。
有把握收入从1亿做到数亿!李开复最新回应25年调整:大厂才烧得起超大模型;第一年的打法已不再适用,AI应用爆发前夜公司要提前卡位
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)在零一万物深陷“收购风波”时,李开复第一时间在朋友圈进行了澄清。 与此同时,他一口气接受了多个采访,通过披露更多信息来攻破谣言。 图片关于零一万物预训练团队和Infra团队的去向已经明晰:愿意继续训练超大参数模型的成员,可以加入零一和阿里云合作成立的“产业大模型联合实验室”。
讯飞商业生态平台2.0来了!构建大模型应用服务新体系
AI时代的聚光灯已经由“模型参数”转移到“应用价值”,引领千行百业发掘大模型刚需场景,构建新质生产力。 据智能超参数发布的《中国大模型中标项目监测报告(2024)》显示,2024年有披露的大模型中标项目达到1520个,相比去年增长了15.5倍。 1月8日,科大讯飞AI服务市场行业伙伴生态大会在北京中关村国际会议中心成功举办。
金山云全面升级智算服务体系开启AI 2.0时代云计算发展新纪元
随着大模型落地应用,人工智能发展进入2.0时代。 在此阶段,智算云服务加速演进,成为新一代人工智能发展的核心驱动力,展现出无限潜能。 知名调研机构IDC发布的《中国智算服务市场(2024上半年)跟踪》报告显示,2024年上半年中国智算服务整体市场同比增长79.6%,市场规模达到146.1亿元人民币。
Tokenization,再见!Meta提出大概念模型LCM,1B模型干翻70B?
最近,受人类构思交流的高层级思路启发,Meta AI研究员提出全新语言建模新范式「大概念模型」,解耦语言表示与推理。 网友Chuby兴奋地表示:「如果Meta的大概念模型真的有用,那么同等或更高效率的模型,其规模将更小。 比如说1B模型将堪比70B的Llama 4。
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS
什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机,是接受客户输入 prompt 和生成返回 response 的枢纽,也是拉起异构硬件,将物理电能转换为人类知识的变形金刚。 大模型推理引擎的基本工作模式可以概括为,接收包括输入 prompt 和采样参数的并发请求,分词并且组装成 batch 输入给引擎,调度 GPU 执行前向推理,处理计算结果并转为词元返回给用户。 和人类大脑处理语言的机制类似,大模型首先会把输入的 prompt 进行统一理解,形成具有记忆能力的上下文。
跨年舞台歌手翻车惨烈,AI唱作俱佳,意外圈粉
AI好好用报道编辑:Sia刚刚过去的跨年舞台,依旧延续了群魔乱舞的台风。 假唱早已见怪不怪。 假唱。