测试

麦当劳“炒掉”AI 点餐员，叫停与 IBM 合作的自动点餐测试项目

麦当劳近期饱受争议的自动点餐 AI 系统将暂时停止测试，经常被人工智能聊天机器人搞错订单的顾客们，现在可以松一口气了。据行业刊物《餐馆商业》报道，麦当劳已通知其加盟商，将在 2024 年 7 月 26 日之前结束与 IBM 合作的自动语音点餐系统测试。图源 Pexels这项始于 2021 年的合作项目在超过 100 家麦当劳得来速餐厅试点，目前，麦当劳尚未公布终止与 IBM 合作的具体原因。不过，麦当劳依然看好自动点餐 AI 技术的前景。他们此前表示，此次测试让他们坚信“语音点餐解决方案将成为未来餐厅的一部分”。外

6/17/2024 6:46:48 AM

远洋

北上广深等六地政策对比｜中国无人驾驶产业发展背后的城市竞速

2015年5月，国务院发布《中国制造2025》，将发展智能网联汽车正式上升至国家战略高度，无人驾驶也被列为汽车产业未来转型升级的重要方向之一。此后的九年时间里，从工信部、国家发改委、科技部等中央部委到北京、上海、广州、深圳、武汉等重点城市，都将自动驾驶汽车列为重点任务之一，并陆续出台相关法规、政策和标准，逐步构建起智能网联汽车产业的政策体系，为更高阶自动驾驶大规模落地持续铺路。顶层设计的背后，是各个城市对自动驾驶技术发展的重视和支持。同时，各个城市之间也在上演着暗流激荡的产业竞赛。尤其是北京、上海、广州、深圳、武汉

6/11/2024 2:29:00 PM

新闻助手

经典手游“汤姆猫”实体化，旗下 AI 儿童陪伴机器人已开展工业设计、嵌入式系统开发工作

汤姆猫今日在电话交流会中透露，公司海外研发团队正进一步丰富首款 AI 手游《Talking Ben AI》的玩法与该产品的个性化交互能力，并在测试中持续进行数据搜集，用于优化数据库、模型能力。此外，该公司机器人研发团队已就汤姆猫 AI 儿童陪伴机器人开展工业设计与嵌入式系统的开发，后续将在产品主要功能完善后推进打样及测试工作。今年 3 月，汤姆猫还透露，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。此前一款全新适配 MR / VR 硬件的产品原型

5/16/2024 9:38:42 PM

清源

面壁智能发布 Eurux-8x22B 开源大模型：代码性能超越 Llama3-70B

感谢面壁智能发布开源大模型 Eurux-8x22B，包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO，主打推理能力。官方测试中，Eurux-8x22B 在 LeetCode（180 道 LeetCode 编程真题）与 TheoremQA （IT之家注：美国大学水准的 STEM 题目）测试上超越了 Llama3-70B，在 LeetCode 测试上超越闭源的 GPT-3.5-Turbo。▲ 官方测试结果据介绍，Eurux-8x22B 模型激活参数 39B，支持 64k 上下文，是由 Mixtr

5/3/2024 11:53:08 PM

泓澄（实习）

可评估大模型安全性，MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题，近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet

4/18/2024 11:11:08 PM

溯波（实习）

UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统

测试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图像生成基准测试现已兼容苹果 macOS 操作系统。该 AI 图像生成基准测试于上月推出，是 UL Procyon 专业基准测试套件的一部分。其基于 Stable Diffusion AI 模型（包含 1.5 和 XL 两种版本），能在所有支持的硬件上得到公平且可比较的结果。UL Procyon AI 图像生成基准测试通过强大的推理负载测量专用 AI 处理硬件的性能，首发时适配支持英伟达 TensorRT、英特尔 Op

4/10/2024 10:00:48 PM

溯波（实习）

AMD：锐龙 8040 系列处理器 AI 性能完胜英特尔酷睿 Ultra 处理器

AMD 近日公布了一系列基准测试，声称其锐龙移动版 7040 Phoenix 系列和 8040 系列处理器在运行大型语言模型 (LLMs) 方面，性能最高可领先于英特尔最新的 Core Ultra Meteor Lake CPU 达 79%。IT之家注意到，本次测试对比的是 AMD 锐龙 7 7840U 和英特尔 Core Ultra 7 155H 处理器，两款芯片均配备了硬件神经网络处理单元 (NPU)。AMD 展示了多张幻灯片，对比了这两款处理器的 Mistral 7b、Llama v2 和 Mistral I

4/7/2024 2:46:07 PM

远洋

Databricks 推出 1320 亿参数大语言模型 DBRX，号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX，号称是“目前最强开源 AI”，据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知，DBRX 是一个基于 Transformer 的大语言模型，采用 MoE（Mixture of Experts）架构，具备 1320 亿个参数，并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试，相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型，DBRX 在语言理解（MMLU）、程式设

3/31/2024 3:15:05 PM

漾仔

AI 程序员 Devin 卧底工作群修 bug！和 CTO 聊技术，网友：顶级码农水平

首个 AI 程序员 Devin，现身明星创业公司内部群。为解决一个技术问题，Devin 借用了其创造者的账号，与客户公司的 CTO 交流，并根据回复调整了代码方案。对话之专业，围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack，截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 Cognition 的首批客户之一。此时 Devin 正披着他的创造者之一、IOI 金牌得主 Steven Hao 的马甲

3/17/2024 5:15:57 PM

远洋

基于生成式 AI 技术，汤姆猫正在研发一款语音交互陪伴机器人

感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”，披露了公司在 AI 领域的布局。据介绍，汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品，已初步完成主要功能的测试，公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外，公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人，预计将为公司业务带来全新增长空间。汤姆猫透露，此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision Pr

3/11/2024 9:04:56 AM

浩渺

2024国际自动驾驶挑战赛正式开始

新赛题：七大赛道，赛题新颖，全方位覆盖相关领域最新最热话题，充分挖掘大模型在自动驾驶及具身智能垂直领域中的应用。高奖金：总奖金池超过12万美金，单赛道最高奖金可达2.7万美金。据不完全统计，奖金额度在CVPR 2024百个论坛中最高。重原创：加强基础研究探索，坚持四个面向。以原创性与科学研究价值作为主要衡量指标，并不单靠成绩排名。采取原创方案加性能指标两者结合的方式进行综合排序。2024年3月1号，2024国际自动驾驶挑战赛正式启动。本次挑战赛由上海人工智能实验室主办，并联合多家国内外机构共同举办。多位国内外知名专

2/29/2024 11:33:00 AM

新闻助手

距离“全自动”漏洞挖掘又近了一步！腾讯安全大数据实验室论文入选ACM CCS 2023

计算机领域国际权威学术顶会ACM CCS 2023于11月26日在丹麦哥本哈根开幕。腾讯安全大数据实验室团队论文《Hopper: Interpretative Fuzzing for Libraries》被大会收录，昨天，实验室研究员谢雨轩受邀出席大会进行主题分享。该论文提出了解释性模糊测试（Interpretative Fuzzing）方法，展示了如何基于动态反馈来学习API内外的约束进行代码自动化生成，从而在没有任何外部专家知识的前提下生成有效可用的代码调用方式，并且根据这些代码来挖掘漏洞。该研究方法的出现旨在

11/29/2023 5:08:00 PM

新闻助手

ICCV 2023 Oral | 如何在开放世界进行测试段训练？基于动态原型扩展的自训练方法

提高模型泛化能力是推动基于视觉的感知方法落地的重要基础，测试段训练和适应（Test-Time Training/Adaptation）通过在测试段调整模型参数权重，将模型泛化至未知的目标域数据分布段。现有 TTT/TTA 方法通常着眼于在闭环世界的目标域数据下提高测试段训练性能。可是，在诸多应用场景中，目标域容易受到强域外数据 (Strong OOD) 数据的污染，例如不相关的语义类别数据。在该场景又可称为开放世界测试段训练 (OWTTT），在该场景下，现有 TTT/TTA 通常将强域外数据强行分类至已知类别，从而

9/13/2023 3:12:00 PM

机器之心

强化学习再登Nature封面，自动驾驶安全验证新范式大幅减少测试里程

引入密集强化学习，用 AI 验证 AI。自动驾驶汽车 (AV) 技术的快速发展，使得我们正处于交通革命的风口浪尖，其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力，因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里，自动驾驶汽车的发展取得了长足的进步，尤其是随着深度学习的出现更是如此。到 2015 年，开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止，并且没有 level 4 级别的 AV 可以在市场上买到。导致这一现象的

3/23/2023 5:38:00 PM

机器之心

SOTA！模型社区更新日志

2023.10.20 平台更新优化了搜索体验，提升了搜索准确性调整了项目主页信息结构，提高了项目主页获取信息效率项目主页进行了移动端适配，可在手机上轻松浏览项目主页、获取项目信息上线了「综合热榜」、「Agent热榜」允许了部分用户浏览小土终端实测频道下线了旧版「发现」、「找SOTA」模块修复了已知的问题，并进行了系统稳定性的提升2023.09.01 平台更新SOTA！模型平台登录流程增加了实名认证流程修复了已知问题，提升了稳定性及用户体验「小土同学」接入了8个新的可进行推理测试的服务：a. CodeLlama-7b

3/13/2023 11:00:00 AM

SOTA模型

M1芯片搞数据科学好使吗？5种基准测试给你答案

最近 M1 芯片爆火，它是否适用于数据科学？在常用基准上测试一下就知道了。

2/10/2021 2:51:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind