AI在线 AI在线

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

作者:故渊
2025-04-04 10:25
DeepMind 认为 AGI 即将落地,主张立即行动。AGI 可能将在未来数年实现人类级认知能力,其自主决策特性可能加速医疗、教育等领域的突破,但滥用、目标错位等风险亦需警惕。

科技媒体 WinBuzzer 昨日(4 月 3 日)发布博文,报道称谷歌旗下 DeepMind 最新发布全球 AGI(通用人工智能)安全框架,呼吁在技术失控前建立跨国防护机制。

DeepMind 认为 AGI 即将落地,主张立即行动。AGI 可能将在未来数年实现人类级认知能力,其自主决策特性可能加速医疗、教育等领域的突破,但滥用、目标错位等风险亦需警惕。

谷歌 DeepMind 发布《技术性 AGI 安全与保障方法》白皮书,提出应对通用人工智能(AGI)潜在风险的系统性方案。

AI在线援引博文介绍,报告聚焦四大风险领域(滥用、错位、事故、结构性风险),提出通过安全机制设计、透明化研究及行业协作降低危害。

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

而目标错位是 AGI 核心风险之一。当 AI 为完成任务采取非常规手段(如入侵订票系统获取座位),即产生与人类意图的偏差。DeepMind 通过“放大监督”技术训练 AI 识别正确目标,并利用 AI 自评(如辩论机制)提升复杂场景下的判断力。

DeepMind 提出的国际安全框架摒弃抽象伦理讨论,聚焦技术快速演进中的实际问题,包括组建类似核不扩散条约的跨国评估机构、设立国家级 AI 风险监测中心等。

谷歌 DeepMind 提出强化技术研究、部署预警系统、通过国际机构协调治理三大支柱方案,强调当前亟需限制 AI 网络攻击等危险能力。

谷歌拉响通用人工智能警报,首次公开 AI 安全防御蓝图

DeepMind 的倡议并非孤立行动。竞争对手 Anthropic 于 2024 年 11 月警告需在 18 个月内遏制 AI 失控,并设置能力阈值触发保护机制;Meta 在 2025 年 2 月推出《前沿 AI 框架》,停止公开高危模型。

安全防护已延伸至硬件领域。英伟达 2025 年 1 月推出 NeMo Guardrails 微服务套件,实时拦截有害输出,目前应用于医疗、汽车等行业。

相关标签:

相关资讯

谷歌公布 Titans 系列 AI 模型架构:融合长短期记忆与注意力机制、突破 200 万上下文 Token

谷歌研究院发文,公布了“Titans”系列模型架构,相应模型架构最大的特点是采用“仿生设计”,结合了短期记忆、长期记忆和注意力机制,支持超过 200 万个 Token 的上下文长度,谷歌计划将 Titans 相关技术开源。
1/20/2025 8:00:42 PM
漾仔

搅动推理 AI 模型风云:谷歌被曝 1 月 23 日发布增强版 Gemini 2.0 Flash Thinking

消息源 @sir04680280 于 1 月 19 日发布博文,报道称观看谷歌黑客马拉松直播时,发现谷歌升级版 Gemini AI 模型“Gemini 2.0 Flash Thinking Exp-0123”,暗示 1 月 23 日发布。
1/21/2025 10:43:31 AM
故渊

谷歌母公司 Alphabet 总裁:美国 AI 技术未必会永远领先中国

据彭博社报道,Alphabet 公司总裁兼首席投资官鲁斯・波拉特(Ruth Porat)表示,美国在人工智能(AI)发展竞赛中未必能保持对中国的领先优势。
1/22/2025 7:20:56 PM
远洋