应用

古早费曼论文手写公式也能转LaTeX，还能看懂梗图，马斯克Grok新功能上线就火了

Grok 大模型终于能看懂图像了。设想一下，如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型（LLM）中，并从中获得格式规范的 LaTeX 文档库，这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言，这不仅仅是技术层面的飞跃，它更标志着知识管理和信息传播方式的一次重大变革。

10/29/2024 1:29:00 PM

机器之心

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

10/29/2024 1:24:00 PM

机器之心

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

10/29/2024 1:21:00 PM

机器之心

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。

10/29/2024 1:17:00 PM

机器之心

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

感谢在今年国庆假期期间，一些网友利用 AI 技术克隆雷军的声音，借此吐槽不文明行为或表达对他人的不满，有网友戏称“被 AI 雷军追着骂了整个假期”。对此，雷军本人今日发布视频回应称，的确让自己挺困扰，也挺不舒服。雷军表示希望大家不要再玩了，觉得这个事情不太好，不过他还是觉得 AI 是很好的技术，也非常实用。

10/29/2024 12:56:24 PM

汪淼

10 月 28 日，新浪新闻・2024 探索大会在北京召开，邀请专家学者、行业领袖，以及数字技术领域的探索者和从业者们，就新质生产力赋能产业、企业数字化转型、数字生态构建等热点话题展开深入探讨。华为云 Marketing 部部长董理斌发表题为 “解难题做难事，AI 重塑千行万业” 的主题演讲，分享华为云在 AI for Science 领域的最新进展，以及盘古大模型、昇腾 AI 云服务等创新技术。华为云 Marketing 部部长董理斌发表主题演讲人工智能正在改变我们进行科学研究的方式，增强人类探索以前难以解决的问题的能力。

10/29/2024 11:42:00 AM

新闻助手

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

10/29/2024 10:01:35 AM

故渊

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

感谢科技媒体 The Information 昨日（10 月 28 日）发布博文，报道称 Meta 公司一方面为减少对微软、谷歌的依赖，另一方面追赶 OpenAI 在 AI 领域的发展，正开发一款 AI 搜索引擎。 AI在线援引该媒体报道，内置于 Instagram 和 Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎，来回答用户关于近期新闻和事件的问题。而消息称 Meta 公司早在 8 个月前就组建了专门的团队，通过网络爬虫收集了大数量网页数据，并建立了一个信息数据库。

10/29/2024 8:49:19 AM

故渊

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

感谢谷歌公司昨日（10 月 28 日）发布博文，宣布在全球 100 多个国家和地区扩展 AI Overviews in Search 功能，覆盖全球 10 亿月活跃用户。 AI在线注：谷歌公司于今年 5 月在美国启动 AI Overviews in Search 功能，并于今年 8 月扩展到部分美国以外的市场，该功能主要用于 AI 总结搜索结果，让用户找到更契合的搜索结果。谷歌在博文中表示，将于本周开始将会在全球 100 多个国家和地区推出 AI Overviews 功能，覆盖全球 10 亿月活跃用户。

10/29/2024 8:14:46 AM

故渊

AI 电商设计新思路！Midjourney 一站搞定 N 种不同风格的场景素材

大家好，我是花生。自 Midjourney 的外部编辑功能上线后，我就一直有探索它在不同设计上的应用思路，尤其是电商设计这一块，没想到真得到了一些不错的结果。虽然只是比较初步的尝试，但从中能看到新版 Midjourney 在电商场景设计方面的巨大应用潜力，相信能给你带来新的启发和灵感。

10/29/2024 7:58:25 AM

夏花生

大厂实战！百度「捏合总结」功能设计复盘

百度APP个人中心 AI 版重构设计复盘前言AI 能力的迅猛发展，为产品设计带来了很多新的可能性和机会。阅读文章 . 前言.

10/29/2024 1:38:43 AM

百度MEUX 团队

快来加书签！12个超好用的 AI 神器

今天给大家推荐12个好用的AI工具，每一个都值得你加书签收藏！第三波！ 2024年10月精选实用设计工具合集大家好，这是 2024 年 10 月的第 3 波干货合集！

10/29/2024 12:38:40 AM

AGI设计之路

2024 科大讯飞全球 1024 开发者节：AI 文娱论坛“重构内容与表达”完满落幕

10 月 24 日，2024 科大讯飞全球 1024 开发者节 AI 文娱论坛在合肥圆满举办。论坛以“重构内容与表达”为主题，旨在探讨 AI 时代下文娱产业的最新趋势，见证讯飞 AI 文娱业务的重大发布，与合作伙伴共同推动文娱行业的繁荣发展。科大讯飞副总裁 & 研究院院长刘聪、科大讯飞消费者事业群副总裁严亚路出席大会，讯飞输入法业务部总经理程坤、数字娱乐业务部总经理 & 讯飞音乐主理人郭嘉、数字娱乐业务部副总经理 & 讯飞音乐首席科学家江源分别作主题演讲。

10/28/2024 9:01:42 PM

汐元

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。

10/28/2024 4:29:25 PM

汪淼

先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了

这才是未来 AI 该有的样子？奇怪了。一款 AI 代码工具刚发布，限量测试却要求「不懂代码」的人优先。

10/28/2024 1:18:00 PM

机器之心

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能，将极大地丰富人类用户与 AI 智能体互动的体验。上个月，谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新，允许用户生成 YouTube 视频和音频文件的摘要，甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页，NotebookLM 的用例和覆盖范围进一步扩大。

10/28/2024 1:14:00 PM

机器之心

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强 4D 驾驶场景重建效果的工作。 DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果，在 user study 实验中获得了超过 80% 的偏好投票，为走向空间智能和 4D 世界模型迈出了坚实的一步。论文链接：：：。

10/28/2024 1:11:00 PM

机器之心

Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购

综合 TechCrunch、The Information 报道，AI 搜索引擎 Perplexity 的首席执行官 Aravind Srinivas 透露，其产品目前每周的查询量已达到 1 亿次，推算下来每月约为 4 亿次，与 7 月的 2.5 亿次相比增长显著。当地时间 25 日，该公司披露称，随着公司快速扩展，Perplexity 正在逐步推出电商功能，计划让“Perplexity Pro”服务的订阅用户享受一键下单的便捷功能。同时，公司也在开发新的广告模式。

10/28/2024 11:17:16 AM

清源

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相基于MiniO存储的RAGFlow+Dify图片处理方案

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力安全视觉视频生成干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind

应用

古早费曼论文手写公式也能转LaTeX，还能看懂梗图，马斯克Grok新功能上线就火了

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

权威AI开源标准1.0版发布：Llama也不算开源

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

华为云董理斌：解难题做难事，AI重塑千行万业

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

AI 电商设计新思路！Midjourney 一站搞定 N 种不同风格的场景素材

大厂实战！百度「捏合总结」功能设计复盘

快来加书签！12个超好用的 AI 神器

2024 科大讯飞全球 1024 开发者节：AI 文娱论坛“重构内容与表达”完满落幕

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购