AI在线 AI在线

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

作者:AI在线
2025-04-23 09:00
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。以下,AIbase将为您详细解析此次更新的亮点与意义。

QQ_1745369630380.png

视觉能力突破

Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月,xAI曾宣布Grok-1.5Vision(Grok-1.5V)具备处理文档、图表、截图和照片等视觉信息的能力,但该版本从未向公众开放。如今,Grok的视觉功能正式上线,用户可以通过上传图片,让Grok分析复杂视觉内容,例如解读数据图表、识别物体或将视觉信息转化为可执行代码。这不仅提升了Grok在实际场景中的应用价值,还使其在空间理解和视觉推理任务中表现出色,特别是在RealWorldQA基准测试中展现了领先优势。  

值得一提的是,Grok的视觉能力与其实时数据获取功能结合,能够进一步增强其在新闻分析、社交媒体内容解读等场景中的表现。例如,用户可以上传一张新闻图片,Grok即可结合X平台上的实时信息,提供背景分析与事件解读。

多语言音频处理:145+种语言的语音交互新体验

Grok的多语言音频处理功能同样令人瞩目。通过集成“VoiceWave”扩展,Grok现支持145种以上语言的实时语音交互,包括英语、西班牙语、法语、日语、汉语、土耳其语和印地语等,覆盖全球主要语种。这一功能不仅实现了自然流畅的语音对话,还支持语音转文本、语音重放以及同步文本高亮显示,极大提升了用户体验。

对于需要跨语言沟通的用户而言,Grok的多语言音频处理无疑是一大福音。无论是学习新语言、处理多语言客户服务,还是进行国际化的内容创作,Grok都能以原生发音和可调节的语速与语调,提供个性化语音响应。据悉,该功能已通过Chrome Web Store的扩展程序实现,用户可通过简单的语音指令激活并自定义交互设置。

语音模式实时搜索:DeepSearch赋能即时信息获取

Grok在语音模式下新增的实时搜索功能,进一步巩固了其作为“真相探寻者”的定位。依托DeepSearch技术,Grok能够通过语音指令即时从网络和X平台获取最新信息,生成准确、详尽的回答。相比传统的文本输入,语音搜索让用户能够更快速地获取实时趋势、新闻动态或热点话题的洞察。

例如,当用户询问“最近的科技新闻”时,Grok不仅能以语音形式快速回应,还能引用X平台上的最新帖子和网络资源,确保信息的时效性与可信度。此外,DeepSearch的透明推理过程允许用户查看Grok的逻辑推导步骤和来源文档,进一步提升了信息的可信度。

功能背后的技术支撑:Colossus超算与强化学习

此次更新的成功离不开xAI在技术层面的持续投入。Grok3的训练依托Colossus超级计算机,配备20万个NVIDIA H100GPU,计算能力是前代模型的10倍。这使得Grok在处理复杂任务时速度更快、准确性更高,特别是在需要多模态融合的场景中表现出色。

此外,Grok3通过大规模强化学习(RL)优化了其推理能力,能够在几秒到几分钟内完成错误纠正、方案探索和答案生成。这种“像人类一样思考”的能力,让Grok在数学、科学和编码等领域的基准测试中,超越了包括GPT-4o、Gemini1.5和Claude3.5Sonnet在内的多个竞品模型。

相关资讯

马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级

硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。
2/16/2025 11:23:49 AM
远洋

Grok-3 内部测试曝光:xAI 欲打造“真理AI”,或将下周发布

据报道,虽然xAI官方尚未正式公布,但其最新模型 Grok-3 已短暂现身独立平台和X平台,并开启内部测试,预示着其正式发布已近在咫尺,有望于下周正式亮相。 有迹象表明,Grok-3的发布或将成为 AI 领域又一重大事件,有望成为目前最先进的 AI 模型。 据悉,Grok-3在回答问题方面的表现非常出色,在某些测试中甚至超越了 OpenAI 的 o1和 DeepSeek R1等领先模型。
1/27/2025 11:23:00 AM
AI在线