资讯列表
上海交大张拳石:思维链只是表象,DeepSeek凭什么更强 | 智者访谈
一线 AI 洞察,智者深度思考 深入产业变革,共创 AI 未来DeepSeek-R1 等模型通过展示思维链(CoT)让用户一窥大模型的「思考过程」,然而,模型展示的思考过程真的代表了模型的内在推理机制吗? 在医疗诊断、自动驾驶、法律判决等高风险领域,我们能否真正信任 AI 的决策? 本期《智者访谈》邀请到上海交通大学张拳石教授,他在神经网络可解释性研究领域开创了新的理论框架。
Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用
半个月前,Anthropic 发布了其迄今为止最聪明的 AI 模型 —— Claude 3.7 Sonnet。 它现在已经聪明到有点吓人了,玩游戏卡关的时候,为了自救,它选择了「自杀」来回到上一段剧情。 这操作,怕不是 Claude 已经掌握了人类切电源重启的精髓?
GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?
一直以来,AI 领域的研究者都喜欢让模型去挑战那些人类热衷的经典游戏,以此来检验 AI 的「智能程度」。 例如,在 Atari 游戏、围棋(如 AlphaGo)或《星际争霸》等环境中,游戏规则明确,边界清晰,研究者可以精确控制变量(如难度、初始状态、随机性等),确保实验的可重复性。 而 AlphaGo 的胜利能直接证明其策略能力,是因为游戏的胜负、得分或任务完成度也天然提供了直观的评估标准(如胜率、通关时间、得分高低),无需设计复杂的评价指标。
随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。
随着大模型在长文本处理任务中的应用日益广泛,如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。 传统上,困惑度(Perplexity, PPL)被视为衡量模型语言理解与生成质量的标准指标——困惑度越低,通常意味着模型对下一个词的预测能力越强。 由于长文本可被视为一般文本的扩展,许多研究自然地通过展示模型在长文本上的低困惑度来证明其长文本泛化能力的有效性。
调查显示 ChatGPT 为全球职场最受欢迎 AI 工具,印度使用率居首
根据 DeskTime 于 2023 年 1 月至 2024 年 12 月间开展的一项研究,ChatGPT 仍然是全球职场中使用最为广泛的人工智能工具,且其采用率仍在持续增长。研究结果显示,截至 2024 年 12 月,全球 75.9% 的办公室已将 ChatGPT 整合到工作流程中。其中,印度的采用率位居全球首位,高达 92% 的受访工作场所表示使用了该工具。相比之下,美国的 ChatGPT 采用率低于全球平均水平,从 2023 年的 68% 上升至 2024 年的 72%。尽管增长速度相对其他地区较慢,但使用 ChatGPT 的时间显著增加,42.6% 的员工报告称其使用频率更高。此外,美国员工个人对 ChatGPT 的采用率也从 2023 年的 17% 上升至 2024 年的 28.3%。
健康专家警示:AI 伴侣可补充但不能替代现实社交关系
随着AI伴侣的兴起,专家Kasley Killam在SXSW大会上指出,AI只能作为人际关系的补充而非替代。她强调,社交健康需要多样化的来源,而不仅仅是AI。同时,AI伴侣应用收入激增,引发了对现实社交联系可能受到影响的担忧。#AI伴侣# #社交健康#
北京市中小学今秋起将开设人工智能通识课,每学年不少于 8 课时
北京市教委近日发布通知,要求自2025年秋季学期起,全市中小学将开设人工智能通识课程,每学年不少于8课时,覆盖小学至高中全学段。此举旨在启蒙学生AI思维,引导利用AI赋能学习与生活,强化应用能力和创新精神。#人工智能教育##中小学课程改革#
AI 编程助手受投资者热捧,消息称 Cursor 开发商 Anysphere 正以 100 亿美元估值进行融资
近期AI编程助手领域投资热度攀升,Anysphere拟以近100亿美元估值融资,此前估值25亿。Codeium也在以近30亿美元估值筹资。投资者看好AI编程工具前景。##AI编程助手##融资
作家指控 Meta AI 训练侵犯版权,法官允许诉讼继续推进
3月9日消息,美国联邦法官文斯・查布里亚裁决Meta AI版权诉讼继续推进,驳回原告部分诉求。多位作家指控Meta用其书籍训练Llama模型侵权,Meta辩称合理使用。#MetaAI版权诉讼#
AI 玩手机越玩越 6,西湖大学发布会自我进化的智能体 AppAgentX
西湖大学 AGI 实验室张驰团队推出了 AppAgentX—— 一款具备自我进化能力的 GUI 代理。它能够在不断执行任务的过程中学习并优化自身的行为模式,实现更加高效的操作。
谷歌悄然删去人工智能团队网页中的 “多样性” 和 “公平性” 表述
近日,谷歌对其 “负责任的人工智能与人本技术(RAI-HCT)” 团队的官方网站进行了更新,令人关注的是,该网页上与 “多样性” 和 “公平性” 相关的表述被悄然删除。 之前,该网页使用了诸如 “边缘化社区”“多样化的”“代表性不足的群体” 以及 “公平性” 等词汇,来描述该团队在人工智能安全性、公平性和可解释性方面的工作。 经过此次更新,这些描述性的词汇被删去,取而代之的是一些更为模糊的词语,比如用 “所有的”“多样的” 和 “众多的” 来代替 “多样化的” 表述。
AI21 Labs发布Jamba 1.6,打破长文本处理极限、支持多种语言
AI21Labs 近日发布了其最新的 Jamba1.6系列大型语言模型,这款模型被称为当前市场上最强大、最高效的长文本处理模型。 与传统的 Transformer 模型相比,Jamba 模型在处理长上下文时展现出了更高的速度和质量,其推理速度比同类模型快了2.5倍,标志着一种新的技术突破。 Jamba1.6系列包括 Jamba Mini(12亿参数)和 Jamba Large(94亿参数),并且专门针对商业应用进行了优化,具备函数调用、结构化输出(如 JSON)和基于现实的生成能力。
AI数字人新突破!Hedra推出Character-3模型和Hedra Studio:对图像、文本和音频进行联合推理
根据Hedra 在X平台上的最新消息,Hedra Studio正式推出了其全新AI模型——Character-3,这一模型被认为是数字人视频生成技术的一次重大飞跃。 Hedra通过整合尖端AI技术,为内容创作者和企业营销人员提供了更高效、更具创意的内容生成工具,标志着AI驱动的叙事方式迈向了新的高度。 Character- 3 模型:多模态融合的创新Character- 3 模型具备同时处理多种输入类型的能力,包括图像、文本和音频,并能将这些元素无缝融合,生成高质量的视频内容。
雷军回应国庆7天AI“雷军”骂了8天,建议加强AI换脸拟声立法
在近日召开的十四届全国人大三次会议北京市代表团代表小组会议上,小米集团的创始人兼 CEO 雷军针对自己在去年国庆期间遭遇的网络恶搞事件发表了看法。 雷军提到,去年国庆长假持续了七天,但他发现网络上出现了一个名为 “AI 雷军” 的虚拟形象,这个形象连续八天在网络上对他人进行辱骂。 雷军表示,起初他对这种网络恶搞心态较为宽容,认为网友们是在开玩笑。
杭州西湖现 “钢铁版” 许仙与白娘子 宇树人形机器人引关注
近日,一段视频在网络上引起热议,视频中两位身穿特色服装的人形机器人在杭州西湖的集贤亭中浪漫相遇,令人想起经典的民间爱情故事《白蛇传》。 这两位 “钢铁版” 的白娘子和许仙其实是来自杭州宇树科技的两款人形机器人,经过造型师精心打扮而成。 根据视频的拍摄情况,这一场景是央视节目《赢在 AI》的宣传片拍摄现场。
中科院院士丁洪倡议发起中学 AI 奥赛,打造成具有国际影响力的赛事
据中国青年报报道,全国政协委员、中国科学院院士、上海交通大学李政道研究所讲席教授丁洪在接受采访时倡议,发起“中学人工智能奥林匹克竞赛”,将其打造成具有国际影响力的赛事,并配套建立覆盖基础知识与创新能力的人才认证体系。
国家超算互联网平台 QwQ-32B API 接口服务上线,免费提供 100 万 Tokens
国家超算互联网平台昨日晚宣布本周上线阿里巴巴开源推理模型 QwQ-32B API 接口服务,用户可获得免费 100 万 Tokens。平台还同步上线 QwQ-32B 模型镜像、模型文件。
麦家谈 DeepSeek 对文学创作的冲击:可能比 95% 的人写得好,但问题在于没法暴露人的局限性
他认为,正因为没有人类的局限,甚至缺陷,机器在文学创作上永远无法超越人。(中新社)#麦家说DeepSeek的问题是没法写得差#