IBM CEO:DeepSeek 证明我们是正确的,小型且高效的模型同样能有实际成果

“历史早有先例。计算机发展早期,存储和计算能力的成本高得惊人。然而,随着技术进步和规模效应,这些成本迅速下降,推动了计算机的普及和创新。”

当地时间 2 月 4 日,IBM 首席执行官 Arvind Krishna 在《财富》杂志发表了一篇长文,谈到自己对 DeepSeek 及人工智能行业的看法及未来展望。

AI在线附 Arvind Krishina 的观点大意如下:

上周,DeepSeek 打破了 AI 领域的传统认知。一直以来,人们普遍认为,训练最先进的 AI 模型需要投入超过 10 亿美元,并依赖数千枚最新的芯片。AI 必须是专有技术,只有少数几家公司具备开发它的能力,因此保密至关重要。

但 DeepSeek 的做法颠覆了这一认知。新闻报道指出,他们仅用约 2000 枚英伟达芯片,以大约 600 万美元的成本训练了最新的模型,远低于行业预期。这再次证明,小型、高效的模型也能带来实际成果,无需依赖庞大而昂贵的专有系统。

然而,这一突破引出了一个更深层次的问题:AI 的未来究竟掌握在谁手中?AI 的发展不能由少数几家公司垄断,尤其是其中一些公司可能在数据保护、隐私和透明度等基本价值观上存在分歧。答案不是限制技术进步,而是要推动更广泛的合作,确保大学、企业、研究机构和社会组织共同参与 AI 的构建。

替代方案是,AI 的主导权可能会落入价值观和优先事项不同的参与者手中,这意味着未来社会和产业变革的关键技术将不再受掌控。真正的创新和进步,只有在 AI 的开发权得到广泛共享的前提下才能实现。

AI 行业已经走过了炒作期。2025 年,AI 必须从少数巨头的封闭体系中解放出来。到了 2026 年,社会各界不仅要使用 AI,更应投身于它的研发。

开源的小模型将成为实现这一目标的关键。DeepSeek 的成功说明,真正出色的工程技术应当在性能和成本之间找到最佳平衡。过去,行业普遍认为更大规模的模型才能带来更好表现,但真正的突破并不在于规模,而在于效率。我们在 IBM 的研究表明,针对特定应用优化的模型已经将 AI 推理成本降低了最多 30 倍,使训练更高效、更易获取。

我并不认为 AGI 即将实现,也不认同未来的 AI 需要依赖庞大的核能数据中心。这种论调人为制造了错误的选择题。AI 的高昂成本并非必然,它只是一个尚待解决的工程挑战。无论是成熟企业还是初创公司,都有能力推动成本下降,让 AI 更实用、更普及。

历史早有先例。计算机发展早期,存储和计算能力的成本高得惊人。然而,随着技术进步和规模效应,这些成本迅速下降,推动了计算机的普及和创新。

AI 的发展轨迹也将如此。这对全球企业而言是一个积极信号。只有当技术变得经济实惠、触手可及,它才能真正改变世界。通过拥抱开放、高效的 AI 模型,企业能够找到更具成本效益、符合自身需求的解决方案,释放 AI 在各行业的巨大潜力。

相关资讯

IBM 企业级 AI 开发平台 watsonx.ai 上线 DeepSeek R1 蒸馏模型

根据官方介绍,DeepSeek 还借助知识蒸馏技术,利用 R1 模型生成的数据优化了多个 Llama 和 Qwen 变体。

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。 传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。 面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

麦当劳通过 AI 技术提升餐厅运营效率

麦当劳正在利用人工智能技术来改善其全球43000家餐厅的运营,旨在帮助员工应对日常工作中的各种压力。 麦当劳的首席信息官布莱恩・赖斯(Brian Rice)表示,这项技术不仅可以优化员工与顾客和供应商之间的互动,还能有效预防设备故障,提升整体服务质量。 根据《华尔街日报》的报道,麦当劳去年开始在部分美国餐厅推出了一种边缘计算平台,并计划在2025年前将其推广到更多门店。