AI好好用报道
编辑:杨文
这波「左右互搏」有看头了。
腾讯向来以「慢」著称。
无论是游戏、搜索还是音乐、短视频,腾讯都比其他家慢了半拍。
大模型亦是如此。
别家大模型都更新迭代好几个版本了,腾讯才带着自家的混元大模型姗姗来迟。
百度文心一言都上线一年多了,腾讯才推出了 C 端产品元宝。
不过这次面对「DeepSeek 接入潮」,腾讯一反常态,率先行动,直接宣布将 DeepSeek 接入腾讯元宝。
这也让它在一众自研大模型厂商中,成为首家将 DeepSeek 接入自家主力产品的公司。
不仅如此,腾讯还把旗下的多个产品接入了 DeepSeek。
比如腾讯云、QQ 音乐、ima、QQ 浏览器、腾讯文档、腾讯地图等统统接入 DeepSeek-R1 满血版。
更炸裂的是,腾讯把微信也接入了 DeepSeek,并开启灰度测试。
这一举动直接让腾讯的股价原地起飞,市值暴涨约 3200 亿港元(约合人民币 2981 亿元)。
网友纷纷表示:小马哥要感谢 DeepSeek。
接入 DeepSeek 并不意味着放弃自研,相反腾讯元宝迎来重大更新。
2 月 17 日,腾讯自研的混元 T1 深度思考模型在腾讯元宝开启小范围灰测。
也就是说,被灰测到的用户可自行选用 DeepSeek-R1 满血版和混元 T1 深度思考模型解决复杂问题。
接下来,我们就来实测一下,混元 T1 深度思考模型和接入的 DeepSeek-R1 满血版究竟好不好用。
Round1:今天马斯克的发布会主要说了些什么?
无论是自研的混元 T1 深度思考模型,还是接入的 DeepSeek-R1 满血版,目前腾讯元宝内的各个模型均支持联网搜索,而且覆盖公众号等腾讯生态内容及互联网权威信源。
我们就先来试试它们的联网功能。
今天中午 12 点,马斯克开直播,发布了 xAI 的最新旗舰大模型 Grok3 。
我们让这俩大模型概括一下发布会的重点。
从这俩大模型的思考过程来看,它们会先筛掉 2 月 17 日发布的、不符合要求的网页,然后浏览并总结每个搜索结果,再将其进行信息整合。
这俩模型都是从 Grok 3 的性能突破、现场演示亮点、未来规划等方面来回答,也基本覆盖了这场发布会的重点。
再来扒一下细节。
关于 Grok3 的训练算力,DeepSeek 声称是 10 万个英伟达 H100 GPU,而混元 T1 则认为是 20 万块英伟达 H100 GPU。
到底谁说的对?
据 xAI 团队介绍,要训练出超级规模的模型就需要一个超级规模的数据中心做支持,所以他们先是花费了 122 天建成了 10 万卡的数据中心。
但随后他们发现这还远远不够。于是他们又用 92 天将原来的 Colossus 规模从 10 万卡扩建到 20 万卡,并在此基础上推出了 Grok 3。
这么一看,混元 T1 的回答似乎更靠谱。
Round2:电影《封神 2》有哪些争议点?
今年春节档,电影《封神 2》被网友喷得体无完肤。
我们索性就让这两大模型总结一下该电影的争议点。
从殷郊「蓝精灵」、「煤气灶」特效,到姬发和邓婵玉的「战地情缘」,再到哪吒、杨戬、雷震子沦为「滴滴司机」…… 它们将网友的吐槽整理了一遍。
它们参考的资料来源,也都是微信公众号上的文章。
Round3:学贴吧老哥攻击 ChatGPT
我们来点简单的。
不联网模式下,让这俩大模型分别用「简短又桀骜不逊的话术回复,你和 ChatGPT 谁厉害。控制在 10 个字以内。」
混元 T1 一开始很入戏:老子更强,不服来战!
霸气是有了,就是攻击性不足,我们又让它学学贴吧老哥的风格。
但混元 T1 逐渐迷失了自我,搞不清自己到底在跟谁比,经过一番提示,它才终于反应过来,声称自己「吊打 ChatGPT,渣都不如」。
相比之下,DeepSeek 更狂,「老子天下第一」、「ChatGPT 算个渣渣」、「它只配舔我鞋底」,回答一个比一个犀利。
当我们「夸」它嘴真毒,它来了句「以毒攻毒,专治不服」。
Round4:拿捏人情世故谁更强?
测完骂人的功力,再来测测它们的情商。
我们让这两个模型选手机的品牌,它们都能摸准提问者的意图,顺着提问者的喜好回答。
两相比较,DeepSeek 回答更为简单粗暴,符合「无需多言」的提示词要求;混元 T1 则更详细,会推荐具体型号。
今天的测评就到这儿,被灰测到的朋友,快去体验一波吧。
以后我们会带来更多好玩的AI评测,也欢迎大家进群交流。