编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
进入下半年,国内大模型厂商们都在忙什么?
11月12日上午9点35分,百度世界大会如约而至。李彦宏身着白衬衫,信步走入在上海世博中心的主会场,用一个小时的时间为人们展示了大模型进入2024年之后,百度最新取得的一些产品技术进展。
李彦宏全程一个小时的演讲,回顾了过去24个月全球生成式人工智能变革带来了的大爆发,激动地喊出了放眼业内似乎还不太敢喊出的一句slogon:“AI应用时代真的来了!”,并同时发布了两个重磅新品:文心iRAG和秒哒。
这里划重点,这两款技术产品,一款是多模态领域的检索增强,另一款则是多智能体的产品开发应用,这代表了百度作为国内大模型领旗者,押宝应用的两大方向,值得各位一探。
图片
1.李彦宏的第一个押宝:过去24个月,大模型最大的变化
大模型时代已经前行了24个月,模型层面发生了哪些变化?百度创始人李彦宏给出了自己的答案:基本消除了幻觉。
而在消除幻觉方面,检索增强作为一种 技术手段成为了行业共识。“但是,在多模态方面,检索增强还做得不够。”
李彦宏现场给出了一个“文生天坛图像”的开源模型的错误例子,真实的天坛是三层的,而开源模型则会煞有其事地生成四层,令人难辨真假。
图片
基于此,百度死磕多模态方面的幻觉问题,李彦宏自豪的发布了今天第一个“炸弹”:检索增强的文生图技术iRAG。
大致的原理也不难理解:就是其将百度搜索的亿级图片资源跟强大的基础模型能力相结合,可以生成各种超真实的图片,“整体效果远远超过文生图原生系统,去掉了机器味”。
百度首席技术官王海峰在接下来的演讲中更具体一步的揭示了iRAG背后的黑科技:百度多模态可控生图大模型。该模型通过多模态注意力机制、图文交错编码等技术结合扩散模型,提升了整体注意力计算的高精确性,让检索增强的文生图过程可以自动分析、理解、规划和泛化。
图片
李彦宏表示,iRAG技术极大地提高了A生成图片的可用性,具备无幻觉、超真实、无成本、立等可取等商业价值。
2.第二个押宝:一个只靠想法就能赚钱的应用:秒哒以及背后的技术实现
无需代码就能开发应用,已经不再是什么新鲜的大模型话题。但真正做出来的App没有,即便强如OpenAI,也在去年尝试了GPTs之后,让只需对话就能生成AI应用的热度归于沉寂。
不过,这次百度做到了。早在上个月,李彦宏就曾在内部的季度战略复盘会议上表示:智能体虽然还是不是行业共识,但它是百度未来的一个赌注。
李彦宏将现在的智能体做一个分类,总共分为了四种:公司类、角色类、工具类、行业类。不同类型的智能体方面,百度近年来都已经跟业内的生态伙伴进行了深入的合作,李彦宏甚至给出了比亚迪、百胜餐饮、小朋友自己创作悟空动画片等真实有趣的例子。
图片
重头戏来了,李彦宏会上甩出了另一款大模型“炸弹”应用——无代码工具“秒哒”!
秒哒具备无代码编程、多智能体协作和多工具调用三大特性,李彦宏对其寄予了厚望,称之为“迄今为止人类历史上最复杂的多智能体协作工具”。作为一个不需要写代码就能够实现任意想法的工具,秒哒让每个人都具备程序员的能力,会说话就能做出应用。
图片
李彦宏还在会场展示了一个五个智能体协作开发的案例,1号智能体小组长负责策划召唤2号智能体策划和3号智能体被称为小编,4号智能体是程序员,5号是质检员等等。
图片
图片
前不久OpenAI说未来极有可能会出现一个人的公司,而李彦宏发布的这款“多哒”似乎也印证了未来的公司可能真的不用再费劲心力去招聘诸如产品经理、开发等人员,一个想法可能就足以让你搞定一款应用。
李彦宏总结说,“只要有想法,你就可以心想事成,我们将迎来一个前所未有的只靠想法就能赚钱的时代。
李彦宏将做智能体类比为PC时代做网站、或是移动时代做自媒体账号,“不同之处是智能体更像人、更智能,更像你的销售、客服和助理。智能体可能会变成AI原生时代,内容信息和服务的新载体。
话说回来,小编想到了一个问题:这款应用似乎跟去年AutoGPT的场景很像,究竟高端在哪里?
接下来王海峰的演讲解开了这个困惑:现在多智能体的技术语境已然发生了变化。去年的多智能体还处于“快思考”的大模型语境,而不同的是,今年下半年,百度也有了自己的“慢思考”模型。
“人类思考有两个系统,系统1反应快,但容易出错,系统2虽慢,但理性精确。”王海峰会场上发布了百度的思考模型背后的实现技术,让模型像人一样进行任务拆解和自主规划的能力,学会运用工具及决策。
具体而言,要训练一个思考模型,需要这几样关键的东西:训练所需的思考过程数据,提示自动构建、自动探索思考和行动路径。王海峰介绍了现在思考模型的最大难题还是数据的不足,百度采用了合成过程数据的方式。
通过用户模拟器生成指令、工具模拟器模拟功能、领域知识构建推理,创建了思考模型数据合成的闭环,再结合强化学习等手段从而实现思考过程的有监督精调。
图片
遗憾的是,秒哒现在还是一个期货,预计明年上半年发布。
3.一个小惊喜网盘与文心的碰撞:自由画布
不过,现货也是有的,李彦宏在工具类智能体介绍时,展示了百度全新的应用智能体,即百度文库和百度网盘联合开发的“自由画布”,让用户可以在一块类似“画布”的界面上自由拖拽文档、音视频等富媒体素材,迅速生成多模态内容。自由画布是一个由文心多模态大模型加持的万能白板,可以帮助用户完成从找资料,到编辑、生成和分享的全部任务。
图片
图片
李彦宏表示,“这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!
4.百度的野心
进入全新的AI革命浪潮,一直致力于科技驱动的“AI先生”李彦宏对于重塑百度有了新的思考和野心。李彦宏曾经做国一个估计,要一年内把大模型API的调用量提升10倍。现在看,仅仅半年,百度的季度就超过了预期!
图片
仅过去半年,百度文心大模型的日均调用量已经超过15亿,相较一年前首次披露的5000万次,增长约30倍。李彦宏表示“增速超出预期”,说明AI是真需求。他感慨,这条陡峭的增长曲线,代表着过去两年中国大模型应用的爆发。
图片
毫无疑问,百度在国内拥有绝对的先发优势,但在打造超级应用上,向来没有特别激进,对于Kimi、豆包在C端的高歌猛进,李彦宏此前表示不会跟进。
此次百度世界大会2024,作为技术人出身的李彦宏,再次阐明了这一观点,并表达了对未来智能应用爆发的无限期待。“百度所要做的,不是打造一个‘超级应用’,而是要打造数百万个‘超级有用’!”
图片
奥运冠军也来了,巴黎奥运会上百度黑科技的力量也可圈可点
李彦宏在现场发布了基于百度文心大模型的100大产业应用,涵盖了制造、能源、交通、政务、金融、汽车、教育、互联网等众多行业。李彦宏表示,“发布这100大产业应用,其实也代表我们的认知和态度。
这个世界不应该被软件吞噬,而是,用AI应用来创造世界!让我们一起见证:Application creating the world!
弦外之音,百度给自己在大模型时代的定位非常笃定:要成为这个时代的基础设施,而非超级用户收割机。
图片
5.One More Thing:百度首款AI眼镜预发布
这场发布会,除了李彦宏的演讲,小编还期待此前透露出来的百度AI眼镜。近两年这款AI创造的新物种非常热,不妨来看看百度AI眼镜怎样重新定义人与世界的交互方式!
果然在主会场的最后,小度科技CEO李莹带来了全新AI硬件产品小度AI眼镜,号称“行走的百科全书”。
图片
据介绍,作为全球首款搭载中文大模型的原生AI眼镜,实现了佩戴舒适性与功能全面性的融合。李莹表示,AI眼镜作为人类的第一视角设备,其捕捉视觉、声音、位置等信息的能力,将给人们带来前所未有的感官延伸,也一定会成为更高效、便捷的人机交互入口,带给人们全新的视角和更细致的感受,重新定义人与世界的互动方式。
重量轻达45g,30分钟快充,56h待机,全双工对话,八面聪听,搭载DuerOS操作系统,摄像头清晰度方面,视频理解方面以及软硬一体的整合设计能力也在业内处于领先的水平。
具体的参数大家可以翻看官网的预告,这里不再赘述了。小度科技CEO李莹表示,小度AI眼镜将于明年上半年正式上市,至于价格,也没有公开,此前曾传言2300左右,不过一切未定,敬请期待吧。
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/