菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
编辑:桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发明,就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河题目上,如今所有的 LLM 都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 G…- 6
- 0
研讨称 GPT-4 通过了图灵尝试,54% 的人将其误认为真人
感谢最新研讨称,越来越多的人难以在图灵尝试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵尝试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。尝试的标准是机械能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研讨人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代谈天机…- 3
- 0
麦当劳“炒掉”AI 点餐员,叫停与 IBM 协作的主动点餐尝试项目
麦当劳近期饱受争议的主动点餐 AI 体系将暂时停止尝试,经常被人工智能谈天机器人搞错订单的顾客们,现在可以松一口气了。据行业刊物《餐馆商业》报道,麦当劳已通知其加盟商,将在 2024 年 7 月 26 日之前结束与 IBM 协作的主动语音点餐体系尝试。图源 Pexels这项始于 2021 年的协作项目在超过 100 家麦当劳得来速餐厅试点,目前,麦当劳尚未公布终止与 IBM 协作的具体原因。不过,…- 14
- 0
北上广深等六地策略对比|中国无人驾驭产业发展背后的都市竞速
2015年5月,国务院发布《中国制造2025》,将发展智能网联汽车正式上升至国家战略高度,无人驾驭也被列为汽车产业未来转型升级的重要方向之一。此后的九年时间里,从工信部、国家发改委、科技部等中央部委到北京、上海、广州、深圳、武汉等重点都市,都将主动驾驭汽车列为重点任务之一,并陆续出台有关法规、策略和标准,逐步构建起智能网联汽车产业的策略体系,为更高阶主动驾驭大规模落地持续铺路。顶层设计的背后,是各…- 7
- 0
经典手游“汤姆猫”实体化,旗下 AI 儿童陪同机器人已开展工业设计、嵌入式系统开发工作
汤姆猫今日在电话交流会中泄漏,公司海外研发团队正进一步丰富首款 AI 手游《Talking Ben AI》的弄法与该产物的个性化交互能力,并在尝试中持续进行数据搜集,用于优化数据库、模型能力。此外,该公司机器人研发团队已就汤姆猫 AI 儿童陪同机器人开展工业设计与嵌入式系统的开发,后续将在产物主要功能完善后促成打样及尝试工作。今年 3 月,汤姆猫还泄漏,公司 AI 硬件团队正研发一款基于生成式人工…- 10
- 0
面壁智能发布 Eurux-8x22B 开源大模型:代码性能逾越 Llama3-70B
感谢面壁智能发布开源大模型 Eurux-8x22B,包括 Eurux-8x22B-NCA 与 Eurux-8x22B-KTO,主打推理能力。民间尝试中,Eurux-8x22B 在 LeetCode(180 道 LeetCode 编程真题)与 TheoremQA (IT之家注:美国大学水准的 STEM 题目)尝试上逾越了 Llama3-70B,在 LeetCode 尝试上逾越闭源的 GPT-3.5-…- 10
- 0
可评估大模型危险性,MLPerf 基准尝试开发方 MLCommons 发布 AI Safety 尝试 v0.5 版
全球人工智能社区、MLPerf 基准尝试开发方 MLCommons 克日发布了其 AI Safety 人工智能危险基准尝试的 v0.5 观念考证版本。人工智能的蓬勃发展不可避免地带来了一系列危险问题,克日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更稳固的危险“围栏”。AI Safety 基准尝试由集合了行业技术专家、学术研究人员、政…- 25
- 0
UL Procyon AI 图象生成基准尝试现已适配兼容苹果 macOS 系统
尝试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图象生成基准尝试现已兼容苹果 macOS 操作系统。该 AI 图象生成基准尝试于上月推出,是 UL Procyon 专业基准尝试套件的一部分。其基于 Stable Diffusion AI 模型(包含 1.5 和 XL 两种版本),能在所有撑持的硬件上得到公平且可比较的结果。UL Procyon AI…- 33
- 0
AMD:锐龙 8040 系列处理器 AI 本能完胜英特尔酷睿 Ultra 处理器
AMD 近日公布了一系列基准尝试,声称其锐龙移动版 7040 Phoenix 系列和 8040 系列处理器在运行庞大说话模型 (LLMs) 方面,本能最高可领先于英特尔最新的 Core Ultra Meteor Lake CPU 达 79%。IT之家注意到,本次尝试对比的是 AMD 锐龙 7 7840U 和英特尔 Core Ultra 7 155H 处理器,两款芯片均配备了硬件神经网络处理单元 (…- 13
- 0
Databricks 推出 1320 亿参数大言语模型 DBRX,号称“现阶段最强开源 AI”
Databricks 近日在推出了一款通用大言语模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准尝试中都逾越了“市面上所有的开源模型”。IT之家从民间新闻稿中得知,DBRX 是一个基于 Transformer 的大言语模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行尝试,相较…- 5
- 0
AI 程序员 Devin 卧底工作群修 bug!和 CTO 聊技术,网友:顶级码农水平
首个 AI 程序员 Devin,现身明星创业公司内部群。为解决一个技术成绩,Devin 借用了其创造者的账号,与客户公司的 CTO 交流,并根据回复调整了代码方案。对话之专业,围观者看了直呼这个世界太疯狂。事情发生在办公软件 Slack,截图中的 akshat 是 AI 基础设施创业公司 Modal Labs 的 CTO Akshat Bubna。Modal Labs 也是 Devin 开发商 C…- 8
- 0
微软 AI 程序员 AutoDev 登场:996 自主生成代码,性能超 GPT-4 30%
新智元报道 编写:桃子 润【新智元导读】全球首个 AI 程序员 Devin 诞生之后,让码农纷纷恐慌。没想到,微软同时也整出了一个 AI 程序员 ——AutoDev,能够自主生成、履行代码等工作。网友惊呼,AI 编码发展太快了。全球首个 AI 程序员 Devin 的横空出世,可能成为软件和 AI 发展史上一个重要的节点。它掌握了全栈的技能,不仅可以写代码 debug,训模型,还可以去美国最大求职…- 6
- 0
基于生成式 AI 技术,汤姆猫正在研发一款语音交互陪同机器人
感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”,披露了公司在 AI 领域的布局。据介绍,汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产物,已初步完成主要功能的尝试,公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外尝试。此外,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪同机器人,预计…- 13
- 0
5天完成6个月尝试量,减速催化研讨,「主动驾驭」催化尝试室Fast-Cat登Nature子刊
编辑 | 紫罗「主动驾驭尝试室」是未来?今年 1 月底,荷兰阿姆斯特丹大学开发自立化学合成 AI 机器人「RoboChem」。一周内,可以优化大约 10~20 个分子的合成。这需要博士生几个月的时间。还有去年 DeepMind 团队开发的自立尝试室 A-Lab,17 天自立合成 41 种新化合物。卡内基梅隆大学的 Coscientist,自立设计、规划和执行复杂的科学尝试......现在,来自美国…- 12
- 0
2024国际主动驾驭挑战赛正式开始
新赛题:七大赛道,赛题新颖,全方位覆盖相关领域最新最热话题,充分挖掘大模型在主动驾驭及具身智能垂直领域中的应用。高奖金:总奖金池超过12万美金,单赛道最高奖金可达2.7万美金。据不完全统计,奖金额度在CVPR 2024百个论坛中最高。重原创:加强基础研究探索,坚持四个面向。以原创性与科学研究价值作为主要衡量指标,并不单靠成绩排名。采取原创方案加性能指标两者结合的方式进行综合排序。2024年3月1号…- 14
- 0
距离“全自动”毛病发掘又近了一步!腾讯保险平安大数据实验室论文入选ACM CCS 2023
计算机领域国际权威学术顶会ACM CCS 2023于11月26日在丹麦哥本哈根开幕。腾讯保险平安大数据实验室团队论文《Hopper: Interpretative Fuzzing for Libraries》被大会收录,昨天,实验室研究员谢雨轩受邀出席大会进行主题分享。该论文提出了解释性朦胧尝试(Interpretative Fuzzing)方法,展示了如何基于动态反馈来学习API内外的约束进行代…- 28
- 0
ICCV 2023 Oral | 如何在凋谢天下进行尝试段训练?基于动静原型扩大的自训练法子
提高模型泛化能力是推动基于视觉的感知法子落地的重要基础,尝试段训练和适应(Test-Time Training/Adaptation)通过在尝试段调整模型参数权重,将模型泛化至未知的指标域数据散布段。现有 TTT/TTA 法子通常着眼于在闭环天下的指标域数据下提高尝试段训练性能。可是,在诸多应用场景中,指标域容易遭到强域外数据 (Strong OOD) 数据的污染,例如不相关的语义类型数据。在该场…- 9
- 0
飞秒级化学反应放缓至肉眼可见,首次运用量子计算机将模仿化学反应减慢1000亿倍
澳大利亚悉尼大学的科学家首次运用量子计算机间接观看到一个对化学反应至关重要的进程,实现这一突破的关键是将原进程速率从飞秒标准减慢至毫秒标准。联合首席研讨员 Vanessa Olaya Agudelo 博士说:「通过了解份子内部和份子之间的这些基本进程,我们可以在材料科学、药物设计或太阳能收集方面开辟一个新的可能性世界。「它还可以帮助改善依赖份子与光相互作用的其他进程,例如烟雾是如何产生的或臭氧层是…- 6
- 0
强化进修再登Nature封面,主动驾驭平安考证新范式大幅减少尝试里程
引入麋集强化进修,用 AI 考证 AI。主动驾驭汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。主动驾驭技术具有显着提高交通平安性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,主动驾驭汽车的发展取得了长足的进步,尤其是随着深度进修的出现更是如此。到 2015 年,开始有公司宣布他们…- 8
- 0
SOTA!模型社区革新日志
2023.10.20 平台革新优化了搜索感受,提拔了搜索准确性调整了项目主页信息结构,提高了项目主页获取信息效率项目主页从事了移动端适配,可在手机上轻松浏览项目主页、获取项目信息上线了「综合热榜」、「Agent热榜」允许了片面用户浏览小土终端实测频道下线了旧版「发现」、「找SOTA」模块建设了已知的课题,并从事了系统稳定性的提拔2023.09.01 平台革新SOTA!模型平台登录流程增加了实名认证…- 7
- 0
尝试
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!