模型

华为昇腾 AI 云服务：万亿参数模型训练无中断时长由 2.8 天提升至 40 天
华为云 Marketing 部部长董理斌在第五届深圳国际人工智能展（GAIE）上深入介绍了昇腾 AI 云服务与盘古大模型。与业界平均相比，昇腾 AI 云服务将万亿参数模型的训练无中断时长从 2.8 天提升至 40 天，并将集群故障恢复时间从 60 分钟缩短至 10 分钟。目前昇腾 AI 云服务已适配 100 多个行业主流大模型，为客户提供从开发到应用的全方位云服务支持。▲ 图源“华为云”AI在线获…
应用
- 27
- 0
沛霖（实习）9月9日
顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型
顺丰科技昨日在深圳国际人工智能展上发布了物流行业的垂直领域大语言模型“丰语”。顺丰科技大模型技术总监江生沛表示，顺丰在综合考虑效果与使用成本的均衡的思路下，自研了行业的垂直领域大语言模型。在训练数据方面，丰语约有 20% 的训练数据是顺丰和行业的物流供应链相关的垂域数据。AI在线获悉，目前基于大模型的摘要准确率已超过 95%，客服人员与客户对话后的处理平均时长减少了 30%；对快递小哥问题的定位准…
应用
- 31
- 0
沛霖（实习）9月9日
百度文心一言市场负责人张全文否认放弃通用大模型：将持续加大研发投入
感谢针对近日网上文心一言背后的通用大模型被放弃的消息，文心一言市场部负责人张全文在朋友圈发文，“所谓‘放弃通用大模型研发’纯属谣言！文心一言刚完成了功能全面升级。我们将持续加大在通用大模型领域的研发投入。”据了解，文心一言能力升级包含创作内容更加深度专业、问答效果更加全面丰富、支持同时处理上百个多种格式文件、一键关联读取网盘文档、智能翻译和图片理解等。AI在线此前报道，百度创始人、董事长兼首席执行…
应用
- 15
- 0
汪淼9月9日
2024 vivo 开发者大会下月举行，将发布全新蓝心大模型
vivo OS 产品副总裁 @vivo周围今日发文透露，下个月，vivo 将会在开发者大会上发布包括语言大模型、语音大模型、视觉大模型、多模态大模型、端侧大模型等在内的全新蓝心大模型，vivo 也将在全新的 OriginOS 原系统 5 上落地蓝心大模型的系统级和场景化体验。蓝心大模型于 11 月初举行的 2023 vivo 开发者大会上首次对外公布，包含十亿、百亿、千亿三个参数量级共 5 款。…
应用
- 25
- 0
浩渺9月9日
备战职业资格考试，百万考生用上大模型
自9月7日起，2024年职业资格考试即将进入密集期，大模型正悄然成为考生“刷题”备考的新型技术工具。据悉，职业技能学习平台考试宝已接入豆包大模型，为平台涵盖的上万个细分职业类别提供AI试题解析，该平台每天的活跃用户数已达到百万级。据人力资源和社会保障部办公厅发布的2024年度专业技术人员职业资格考试时间表，9月至年底，将有包括一级建造师、注册城乡规划师、会计（中级）、中小学教师资格、法律职业资格（…
应用
- 7
- 0
新闻助手9月9日
英伟达携手达慕思大学推出免费生成式 AI 教学工具包
英伟达深度学习研究院（DLI）携手达慕思大学（Dartmouth College），合作开发出了全新、免费的“生成式人工智能教学工具包”（Generative AI Teaching Kit）。达慕思大学工程学兼职助理教授萨姆・雷蒙德（Sam Raymond）参与开发工具包，他表示：“我们的首要目标是让学生了解、掌握各种技能，用于开发自己的 GPU 加速生成式人工智能应用。相信，通过这门课程学习的…
应用
- 25
- 0
故渊9月7日
业内首个 AI 大模型供应链安全国际标准发布，蚂蚁集团、微软、谷歌、百度等数十家单位共同编制
世界数字技术院（WDTA）公众号昨日（9 月 6 日）发布博文，宣布其在外滩大会上正式发布了国际标准《大模型供应链安全要求》。该标准由云安全联盟（CSA）大中华区联合蚂蚁集团、微软、谷歌、百度、NIST、Meta、PrivateAI 等数十家单位的专家共同编制。AI在线注：这是业内首个大模型供应链安全国际标准，标志着全球 AI 治理的国际合作又迈出了坚实的一步。云安全联盟（CSA）大中华区主席李雨…
应用
- 21
- 0
故渊9月7日
开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集
开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在反思标签中纠正了自己。在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemin…
应用
- 34
- 0
清源9月6日
华人小哥搞出一个鸡鸣狗叫GPT，可识别「毛孩子」80%的情绪
机器之能报道编辑：杨文铲屎官终于能理解汪星人的小心思了。「狗语翻译器」已经席卷娱乐圈。在节目中，贵气男孩尤长靖花了八百块钱，买了个「狗语翻译器」。视频链接：，「有两百的、四百的和八百的，要买哪个？」尤长靖斩钉截铁地说，「买八百的」。因为一分钱一分货，越贵的肯定越精准。结果买回来，它就各种胡言乱语。郭麒麟和陆虎也同样玩起了「狗语翻译器」。视频链接：，不少买家吐槽，这类长得像个蝴蝶结的狗语翻译器，简直…
应用
- 19
- 0
AI好好用9月6日
“国内首个端到端通用语音 AI 大模型”心辰 Lingo 发布，号称中文效果比 GPT-4o 更出色
西湖心辰昨日发布了心辰 Lingo 语音大模型，号称是“国内首个端到端通用语音大模型”。官方表示，针对心辰 Lingo 端到端语音大模型的能力，在多个领域和中文上进行增强，使得心辰 Lingo 的中文语音效果，相较 GPT-4o 更为出色。心辰 Lingo 于 8 月 24 日开启内测，至今已经有超千家企业用户预约测试。相比较传统 TTS，端到端语音大模型则是一种更为全面的技术，不仅可以语音识别，…
应用
- 36
- 0
沛霖（实习）9月6日
腾讯发布混元大模型Turbo版本用AI助力场景创新
大模型落地持续加速中。9月5日，腾讯宣布推出新一代大模型“混元Turbo”，相比前代模型，腾讯混元Turbo性能显著提升，训练效率提升108%，推理效率提升 100%，推理成本降低 50%，效果在多个基准测试上对标GPT-4o，且第三方测评居国内第一。目前，混元Turbo已经在腾讯云上线，输入和输出价格只有前代模型的一半。企业和开发者可以通过API、专属模型、精调模型等方式使用混元大模型相关能力。…
应用
- 24
- 0
新闻助手9月6日
国内首个 AI 大模型攻防赛启动，设立近 100 万元奖金池
9 月 6 日上午，在 2024 Inclusion・外滩大会“以 AI 守护 AI 大模型时代的攻守之道”论坛上，国内首个大模型攻防主题的科技赛事“全球 AI 攻防挑战赛”宣布正式启动。这项赛事聚焦 AI 大模型产业实践，设计了攻、防双向赛道，邀请各路“白帽黑客”（AI在线注：站在黑客立场攻击自己系统以进行安全漏洞排查的程序员）、技术人才分别进行针对文生图大模型“数据投毒”的攻防实战演练，以及金…
应用
- 23
- 0
汪淼9月6日
Deepseek AI 模型升级推出 2.5 版：合并 Coder 和 Chat，对齐人类偏好、优化写作任务和指令跟随等
DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型已经合并升级，升级后的新模型为 DeepSeek V2.5。图源：Linux.do 论坛网友截图DeepSeek 官方昨日（9 月 5 日）更新 API 支持文档，宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型，升级推出全新的 DeepSeek V2.5 新模型。官方表示…
应用
- 28
- 0
故渊9月6日
“端侧 ChatGPT 时刻到来”，面壁智能推出小钢炮开源 MiniCPM3-4B AI 模型
面壁智能官方公众号昨日（9 月 5 日）发布博文，宣布推出开源 MiniCPM3-4B AI 模型，声称“端侧 ChatGPT 时刻到来”。AI在线附上 MiniCPM 3.0 开源地址：是 MiniCPM 系列的第三代产品，整体性能超过了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125，媲美多款 70 亿~90 亿参数的 AI 模型。相比 MiniCPM1…
应用
- 36
- 0
故渊9月6日
腾讯发布新一代大模型“混元 Turbo”：推理效率提升 100%，成本降低 50%
感谢在今日的 2024 腾讯全球数字生态大会上，腾讯正式发布新一代大模型 —— 腾讯混元 Turbo。据腾讯官方介绍，该模型采用 MoE 架构，比上一代产品推理效率提升 100%，推理成本降低 50%。对外，腾讯混元 Turbo 的价格也比混元 Pro 降低 50%，输出价格为 0.05 元 / 千 tokens，输入价格为 0.015 元 / 千 tokens。9 月 2 日，中文大模型测评基准…
应用
- 26
- 0
汪淼9月5日
零一万物开源 Yi-Coder 系列编程助手模型，支持 52 种编程语言
零一万物今日宣布开源 Yi-Coder 系列模型，该模型是 Yi 系列模型家族中的编程助手。Yi-Coder 系列模型专为编码任务而生，提供 1.5B 和 9B 两种参数。其中，Yi-Coder-9B 的表现号称“优于其他 10B 参数以下的模型”，如 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至能够“与 DeepSeek-Coder 33B 相媲美”。据介绍，Yi-Coder…
应用
- 16
- 0
汪淼9月5日
消息称智谱完成新一轮数十亿元融资：国资入局，投前估值达 200 亿元
感谢据 36 氪报道，近日中国大模型独角兽智谱以 200 亿元的投前估值，完成了新一轮融资，金额达数十亿元。本轮领投方为中关村科学城公司，其为海淀区政府设立的市场化投资平台。对上述消息，对方表示不予置评。根据公开信息，新一轮融资是 2024 年以来智谱完成的第三笔。目前，智谱的股东阵容包括高瓴资本、启明创投、君联资本等知名投资机构以及美团、阿里、腾讯、小米在内的互联网大厂。AI在线此前报道，智谱 …
应用
- 14
- 0
汪淼9月5日
研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”
感谢当地时间 9 月 4 日，据《福布斯》报道，牛津大学的伊利亚・舒梅洛夫博士和他的团队发现，当生成式 AI 软件仅依赖于由 AI 生成的内容时，回答的质量开始恶化。这项研究已经发表在《自然》杂志上。在最初的两次查询后，答案逐渐偏离准确性，到第五次时，质量显著下降，到了第九次连续查询时，回答已完全退化为无意义的胡言乱语。研究人员将这种生成式 AI 内容的循环过度使用称为“模型崩溃”，即 AI 在不…
应用
- 40
- 0
清源9月5日
火山引擎携手南开大学，以大模型助力智慧校园建设
9月3日，火山引擎 AI 创新巡展活动在天津举办，来自教育、交通、医疗等各领域的客户分享了大模型应用实践。南开大学副校长、教授、博士生导师方勇纯表示：“南开大学携手火山引擎，共同探索‘AI 教育’的创新模式，落地一批AI应用场景，培养一支高水平的AI人才队伍，全场景拥抱大模型，推进‘数字南开’智慧校园建设。”据介绍，南开大学与火山引擎协同研发了大模型应用开发平台，现已落地并开放给南开的广大师生。同…
应用
- 14
- 0
新闻助手9月4日
迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。Git…
理论
- 23
- 0
ScienceAI9月3日
谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型
谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。项目背景基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结…
应用
- 13
- 0
故渊9月3日
阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源
阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20…
应用
- 28
- 0
汪淼9月2日
OpenCity 大模型预测交通路况：零样本下表现出色，来自港大百度
长时间交通状况预测，可以用大模型实现了。香港大学联合华南理工大学和百度，推出了长时间城市交通预测模型 ——OpenCity。而且泛化能力极强，可有效应用于广泛的交通预测场景。为了解决传统交通预测模型泛化性及长期预测能力不足的问题，研究团队新的基础模型 OpenCity。OpenCity 结合了 Transformer 架构和图神经网络，用以模拟交通数据中复杂的时空依赖关系。通过在大规模、异质性交通…
应用
- 11
- 0
清源8月31日
阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块
通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何…
应用
- 8
- 0
沛霖（实习）8月30日