导语:「十八金刚」暗示的,其实是巨大的技术想象力与迫切的 AI 生产力。
作者:马蕊蕾
编辑:陈彩娴
WAIC 论坛最后一天下午,启明创投主管合伙人周志峰在世博中心红厅分享了一组数据:
经统计,仅 2023 年,一级市场中 AI 投资金额就达到了 224 亿美元,超过了前 10 年投资累计总和。其中,超过三分之二的资金投向从事基础设施或模型开发的企业。
换言之,更具体的表达,人工智能的崛起已从激励的模型层竞争,走向基础设施层与应用层。
所谓基础设施层,指能使模型训练与推理成本更低、速度更快、能效更高的 AI 计算,包括但不限于适配 AGI 的芯片研发;而应用层,则从生产力提速等效率工具,扩大到端侧 AI、机器人、汽车等垂直领域。
这个趋势在今年的 WAIC 上也被验证:
模型层,月之暗面、零一万物、深言科技缺席外,其余中国 Tier 1 与 Tier 2 的大模型团队几乎全部到场展出,包括智谱 AI、面壁智能、百川智能、阶跃星辰等等;但除此之外,会内会外也再无新增的中国大模型公司。
WAIC 2024 的八大「镇馆之宝」包括:阿里云通义灵码、智谱 AI 基座大模型、商汤 Vimi 可控人物视频生成大模型 、蚂蚁集团基于百灵大模型的「AI 智能助理」、联想集团笔记本 YOGA Book 9i AI 元启、特斯拉赛博越野旅行车与智能飞行器展区展出的三家电动垂直起降航空器(eVTOL)头部企业创新产品,模型层成果只占 1/4。
而计算层,阿里云、华为云、无问芯穹、壁仞、遂原等中国企业不断展出围绕大模型训练与推理的新成果,AI 模型在千行百业的应用也呈现愈加井喷之势。从金山办公的 WPS AI,到「十八金刚」,AI 模型与实际场景结合的程度越来越高。
根据 WAIC 官方数据,今年有 500 余家企业参展,市外企业和国际企业占比超过 50%,展品数量超 1500 项,参展企业数、亮点展品数和首发新品数均创下了历史最高。
正如《爱,死亡和机器人》的科幻动画剧里所表达的:如果活着不进化,那活着的意义是什么?人工智能的发展已然是既成的趋势,WAIC 作为中国人工智能发展的缩影,见证着 AI 的技术从业者从解答「AI 是什么」到「AI 能如何改变我们的生活与生产力」。
从能动的古人古画、实时的多模态交互、到力驱智能的机器人,科幻小说中那些让人惊叹的想象,正在一一成为我们可感知、可触碰的现实。
大模型再无新玩家
今年 WAIC,参展企业主要集中在世博展览馆的H1和H2两个展馆。
进入展馆,厂商超大面积的展区无疑能吸引人的注意,阿里的「通义」、腾讯的「混元」、商汤科技的「日日新」、云知声的「山海」等等,几乎每个设列的展台都有属于自己的「大模型」。
但相比去年,今年厂商没有局限在单纯对模型的性能进行展示和比拼,而是更聚焦的向行业展示实际的最新落地成果和应用方向。
支付宝智能助理是基于蚂蚁集团自研的百灵大模型研发的一款全新生活办事AI产品,围绕用户的吃、喝、行、游等数十种生活场景,不仅”有脑有嘴能对话“,还”有手有脚能办事“。用户只需要下达指令,就可以获得出行、健康、政务等领域的超8000项数字生活服务。
在「腾讯元宝」展区,现场参会嘉宾可以与腾讯元宝 APP 进行互动,体验 AI 能力。APP 覆盖工作提效、生活娱乐两大场景,除了提供 AI 搜索、AI 总结、AI 写作等核心功能,还提供创意绘画、口语陪练、百变 AI 头像等有趣好玩的特色应用,以及更多用户创建的智能体。
商汤展示了可控人物视频生成大模型 Vimi,Vimi 基于商汤日日新大模型的强大能力,仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
随着生成式 AI 加速进化,大厂商不是唯一的主角,创业独角兽的技术成果也吸引了大量与会人员的关注:
百川智能最大的亮点是 AI 健康顾问。
该产品依托百川智能的通用医疗增强大模型打造,形态上属于医疗垂直领域的对话式机器人,它的通用医疗增强大模型不仅在USMLE(美国医考)的评测中超越了GPT-4,并且在由医生(协和、北医等头部三甲高年资主任、主治医师)和心理学专家作为评测主体,对模型进行多角度评测的真实人工评测中,效果同样超越了GPT-4。
智谱 AI 作为本届 WAIC 镇馆之宝,展示了以智谱大模型开放平台 bigmodel.cn 和智谱大模型产品矩阵为核心的系列创新成果。智谱 AI 还为 CGTN 打造了数字人直播平台,「AI 老罗」也以数字人的形态亮相清言展区,观众可以向 AI 老罗提问带货秘籍。
此外,AI 创意作品《清言画册》首刊也亮相现场,这本主题为「清」的AI画册,展现出清言App强大的绘图能力。观众可以通过清言画册小程序观看画卷,并可一键绘制同款。
阶跃星辰则发布了 Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。
在展台现场,阶跃星辰还与上影合作,另外,公司还通过基于《大闹天宫》剧情和角色制作的AI互动游戏,展示了「AI+IP」的落地玩法。
AI 基础设施层明星团队无问芯穹除了在计算层面的分享,还基于多种模型与多种芯片自由搭配组合的产品能力,构建了游戏应用「谁是卧底」小游戏,受到现场大家的喜爱。
这一应用允许观众通过选取多种模型与芯片,自由组合出4位「AI玩家」,与自己亲手「组装」出来「AI玩家」们展开一场语言博弈游戏。
关于 AI Infra 的未来发展,无问芯穹联合创始人兼 CEO 夏立雪有一个形象的设想:
「打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种AI应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的AI Native基础设施。」
人形机器人的「 T 台秀」
今年25款人形机器人来到现场,这些看得见摸得着的人形机器人,让科幻电影仿佛照进了现实。
时隔半年,特斯拉人形机器人擎天柱二代(Optimus)首次亮相。相比前代产品,其采用了全部由特斯拉自主设计和制造的执行器和传感器,整体外观设计更加精细,行走速度提高了 30%,重量减轻了 10 公斤,十个手指也进化出感知和触觉。
现场透露,最近 Optimus 已经在特斯拉工厂做了一些实用的工作,比如借助视觉神经网络和 FSD 芯片,模仿人类操作进行电池的分拣训练。明年,特斯拉将会生产超过 1000 个 Optimus 的「同胞」们一起完成生产任务。
有点遗憾的是,特斯拉的人形机器人相比去年依旧待在橱柜里。
不同往日,今年各种国产机器人吸引了更多人的眼球,好像走进了人形机器人的「T台秀」现场。
宇树科技带来了自家全球首款原地后空翻功能的通用人形机器人 Unitree H1,现场工作人员称,该机器人已经实现在复杂地形和环境中自主行走和奔跑。
后空翻这种高难度动作的实现,不仅展示了机器人在平衡控制和动力系统方面的卓越性能,更预示着未来人形机器人可能在复杂地形和极端环境中发挥重要作用。目前,「宇树H1」机器人已经实现工业场景下的功能应用。
傅利叶携进阶升级的人形机器人 GR-1 及下肢外骨骼机器人 ExoMotus M4 亮相大会。经过一年的成长,GR-1 在环境感知、仿真模型、运动控制优化等方面实现进阶升级。
据介绍,傅利叶研发团队在仿真环境中训练 GR-1,再将训练好的模型迁移到现实世界。通过远程遥操采集人类的动作数据,用于训练和改进仿真模型,GR-1 得以模仿学习人类运动,完成跳舞、打鼓、放置物品等日常生活动作。
星动纪元的人形机器人小星,它有一双灵巧的手,尺寸和成年男性手尺寸差不多,拥有 12 个主动自由度,能够在不同类型的地面上稳步前进,可以爬长城、过雪地,在多种地形上稳定行进。
它的这些能力得益于星动纪元有一套自己的强化学习算法 Humanoid-Gym,这个算法的鲁棒性很强,能够包容不同地形的干扰。
开普勒通用人形机器人 K1,该机器人身高 175cm,体重 70kg,全身具备 40 个关节自由度、80 多个传感器,使之具备了复杂地形行走、智能规避障碍等多种功能。
目前 K1 主要针对商业和工业应用,比如,它能够在生产线上执行精确的装配、搬运和检验任务,在仓库管理和物流配送中能够自主导航、搬运重物,以及应用在户外巡检和应急救援领域。
此外,云深处科技专注于四足机器人的研发及应用,名为「绝影X30」的较大四足机器人在现场展现了它灵活上下楼梯的样子,它能够在 -20℃ 到 55℃ 的极端环境下作业,也适用于电力巡检、应急救援、消防侦查等领域。云深处科技还在现场向「AI科技评论」透露,很快就又会有新的产品发布。
AI+应用开始崭露头角
业内普遍认为,人工智能会将创作的边际成本降至零。这是一个目标,而不只是停留在想象中的计划。
AI 应用场景不断丰富,扩展到音频、搜索、视频生成、法律、教育、金融、编程、旅游、游戏等等领域。
数据统计,截至 2023 年上半年,生成式 AI 创业企业方向中,生产力工具占了 46%,占比最高,这表明市场认为这是一个最先落地、最有前景的应用方向。
针对生产力提升的效率工具依然是一个亮点。以办公场景为例,金山办公、合合信息等重点发力端侧应用,展现模型落地前景。
作为 36 年的老牌办公软件公司,金山办公在论坛上分享了针对 C 端、B 端以及 G 端场景下 AI 办公的最佳实践。时隔一年,金山办公发布了 WPS AI 2.0,同时首次公开了金山政务办公模型 1.0。
在 C 端,金山办公为个人用户新增了四大 AI 办公助手,包括 AI 写作助手、AI 阅读助手、AI 数据助手以及 AI 设计助手。
从 2022 年底 ChatGPT 横空出世,到 2024 年百万 Token 成本降至 1 元以下,个人的办公效率因为大模型的应用而不断提升。在 WPS AI 的展台,我们能非常直观的感受到办公软件如何通过 AI 助手帮助打工人提升办公效率。
当你在文档输入几行字突然没有思路,AI 写作助手就可以帮助你表达出「卡在嘴边的句子」。对于强迫症患者也更友好,当文档的排版格式特别混乱,不需要进行繁琐格式的设置,可以直接使用 AI 设计助手,一键就可以完成文档排版,让每一篇文档都清晰规范,整个操作过程非常丝滑。
金山办公助理总裁晁云曈在接受 AI 科技评论等媒体采访时谈道:WPS Al 可以成为“打工人”的智囊,每一个人都可以拥有属于自己的小团队,“打工人”需要应对的问题不再是怎么去使用 AI,而是怎么把它分给不同的 AI 助手去做管理和拆解任务。在他看来,AI 不可能给出 100% 正确的答案,所以拆解任务变成了一个有意思的过程。
对于 B 端的用户,金山办公也专门推出了 WPS AI 企业版,由 AI Hub(智能基座)、AI Docs(智能文档库)和 Copilot Pro(企业智慧助理)三个核心组成。
值得一提的是,WPS AI 构建的智能文档库在问答过程中会继承企业以前的文档权限,AI 对企业文档数据不会产生越权,严格保障企业数据安全。
例如,一家企业内部的营收情况,只有内部上级财务管理部门人员可以在企业文档中搜索到详情,其余工作人员无权限搜索到相关内容,严格保障了内部数据的安全问题。
对于 G 端的用户,金山办公推出了 WPS AI 政务版。值得注意的是,WPS AI 政务版的核心在于其自主研发的金山政务办公模型。基于亿级政务语料,选择从零开始,自主搭建、开源并深入训练该模型。
金山办公助理总裁陈波说:「最基础的是要可信,在政务系统里面做问答,知识是不是可信,来源是不是可信,是我们做这个系统中首先要考虑的因素。」
这次在现场,合合信息旗下的扫描全能王开放的敦煌遗书合成样本的文字修复体验项目,也吸引了公众来围观。
大家可以在不同位置扫描样本卷轴,见证AIGC技术通过字形修补、褪色修复、背景补全等方式,让残损的古籍焕发新的生命力。
据悉,AIGC 技术也被扫描全能王广泛应用于多项功能中。通过融合 AIGC 技术,扫描全能王具备了优秀的图像增强能力,可以快速学习多种文档的图像特征,智能修复图像、去除噪声、优化颜色等,使图像更加清晰美观,在日常、工作中帮助广大用户提升图像处理效率。
此外,在AR眼镜领域,XREAL展区火爆异常。此次XREAL携最新Beam Pro、Air 2 Pro及Air 2 Ultra等产品亮相展位。其中颇受国内用户期待的XREAL AR眼镜——Air 2 Ultra,吸引了大量观众前来排队体验。它是XREAL面向全球推出的XREAL Air 2系列AR眼镜的最新成员,目前还尚未在国内开售。
它采用先进的自研光学引擎,让佩戴者每只眼睛都能获得全高清的观看体验,同时具备先进的手部跟踪和手势识别功能,与Beam Pro结合可为用户带来极具差异化的AR体验,甚至能从根本上改变数据交互的方式。
当然,除去这些耳熟能详的产品,AI 科技评论还在本次展馆的 Future Tech 100 未来之星创新孵化展和体验区,看到一些吸引众多人围观的产品。
像「数字空间盒子」,创始团队由清华大学、中国人民大学博士带领,采用轻量级私有化部署,内置大模型AI来助力企业数字化转型加速。产品具有数据私有化、办公智能化以及设备微型化的特点。现场工作人员在演示的过程中,你会被支持数百人在线/离线协同使用的功能而心动,因为市场上大多数办公协同工具并不支持离线操作。
据悉,该产品由国内顶级VC「奇绩创坛」投资加速,目前已服务国内500+中小企业研发部门、高校、实验室等中小部门团队。
写在最后
AI科技评论在现场采访了大量人形机器人展区的工作人员,问他们:这几天你在展区被问过最多的问题是什么?他们大多都有一个类似的回答:大家关心,这个机器人到底能用来干什么?
摆在展馆的AI应用虽然让人眼花缭乱,但回归到真实的落地层面,用户远远比我们想象中的更务实。即使是在 Future Tech 100 未来之星创新孵化展,围观最多的也都聚焦在真正能应用的产品上。
例如,Mytwins.ai 的 19.9 定制数字人,现场很多人在简单的咨询后,毫不犹豫的下单体验,为自身更高效的制作短视频而买单。
在 WAIC 的行业论坛中,有一种观点认为,AI 创新应用的发展正从 Save Time(提升效率)到 Kill Time(获得愉悦)中转变。今年的 WAIC 已逐渐有一些 Kill Time 层的应用出现,但还不够多。目前,提升效率的 AI 工具创新依然是 AGI 应用的主流。
但从 2023 年,关于 AI 的一切都发展地无比迅速。在迅速的技术变革中,保守是拦路虎、创新是垫脚石。办公智能的创新是 AGI 应用的开路人,但绝不会是终局者。见证时代,我们需要的,只是时间与耐心。