AI

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024
视觉定位（Visual Grounding）旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研究大致可以分为三类：两阶段方法、单阶段方法和基于Transformer的方法。
理论
- 968
- 0
新智元11月5日
AI技术：制造业的未来还是泡沫幻影？
在探讨制造业的未来时，一个不可忽视的趋势是高科技制造业对人工的依赖正在逐渐减少。传统观念中，人工操作往往被视为生产过程中的污染源，如呼吸、皮肤屑、头发等都会对精密制造构成威胁，同时人工操作也伴随着各种错误和失误的风险。因此，全自动化的生产车间，依托人工智能技术的强大支撑，正逐步崛起为制造业发展的新航标。
理论
- 968
- 0
赵立京11月5日
手机秒拍动画大片，高级运镜效果惊人！Runway两弹更新，火得一塌糊涂
前几天，Runway宣布更加灵活逼真的AI摄像头控件上线，开始实现3D化！该功能Gen-3 Alpha Turbo视频生成模型可用。而就在一个多星期前，10月23日，Runway还宣布了Gen-3 Alpha的新功能Act-One。
理论
- 970
- 0
新智元11月5日
要创造商业价值，利用AI来利用公司的数据
用专有数据训练大型语言模型能为你带来竞争优势吗?尽管我们生活在一个日益数据驱动的世界中，但大多数公司并未采用数据驱动的商业模式。像Alphabet、Meta和亚马逊这样的企业凭借网络效应形成的良性循环而取得成功，但这种模式对于销售传统产品和服务的组织来说却难以实现，然而，如今已能广泛获取各种工具来充分利用日常业务流程中生成的专有数据，这些工具可能帮助你的公司形成竞争优势。随着市场竞争的加剧，利…
理论
- 968
- 0
Martin De Saulles11月5日
1000个智能体打造《我的世界》，北大校友35页技术报告揭秘
北大校友打造的1000个智能体「我的世界」，背后原理揭晓了！团队全新公开35页技术报告，详尽解密AI智能体如何产生专业化分工、社交互动、甚至传播虚拟宗教……其中最精彩的，当数团队整活儿：让牧师NPC引入虚拟宗教，最后发现该宗教在500个智能体（横跨6大城乡）中进行了广泛传播。据介绍，项目整体由一个名为PIANO的架构提供支持，它核心解决多智能体交互问题，用于确保多个输出流的一致性。
理论
- 968
- 0
量子位11月5日
无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24
视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以实施。那么，有没有更轻松的优化方法呢？就在最近，卡内基梅隆大学（CMU）的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——通过大语言模型自动调整自然语言提示词，使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。
理论
- 968
- 0
量子位11月5日
Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式
复刻OpenAI o1推理大模型，开源界传来最新进展：LLaMA版o1项目刚刚发布，来自上海AI Lab团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重策略范式（先验策略价值评估）。在2024年6月，o1发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。
理论
- 968
- 0
量子位11月5日
AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨
就在刚刚，Anthropic宣布，Claude 3.5 Haiku已经可以通过API访问。图片与此同时，就在今天，Grok API也官宣正式开启公测。图片Claude 3.5 Haiku正式开放APIClaude 3.5 Haiku现已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。
理论
- 968
- 0
新智元11月5日
GPT-4o mini 的 6.7/8.3 倍，Claude 3.5 Haiku AI 模型每百万 tokens 输入 1 美元 / 输出 5 美元
Anthropic 昨日（11 月 4 日）发布博文，宣布开发者可以通过第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI，调用 Claude 3.5 Haiku 模型。 Claude 3.5 Haiku 对标的是 OpenAI 的 GPT-4o Mini 和谷歌的 Gemini 1.5 Flash，在多项 AI 基准测试中超越了 Anthropic…
应用
- 4
- 0
故渊11月5日
人工智能时代下机遇与挑战并存的选择：医学专业
人工智能（AI）已经无处不在，并且在医学领域的应用也越来越广泛。在某些情况下，AI可以增强甚至取代医生的一部分工作。医学生在选择专业时，应当考虑到AI将如何改变医生的岗位形态（以及获得的薪酬待遇）。
理论
- 968
- 0
admin11月5日
ControlNet作者新作：AI打光玩得更溜了！细节保留能力远高于SD1.5
ControlNet作者“敏神”（张吕敏），刚刚上新了一个新项目——名叫IC-Light V2，可以说是把AI打光这事儿玩得溜溜的。图片IC-Light是此前张吕敏开发的图像处理工具，可以通过AI技术精确控制图像中的光照效果。而此次的V2版本则是一系列基于FLUX的IC-Light型号，具有16通道VAE和原生高分辨率。
理论
- 970
- 0
admin11月5日
昆仑万维发布天工 AI 高级搜索功能，升级分析推理、金融 / 科研能力
感谢昆仑万维天工 AI 今日发布最新版本的 AI 高级搜索功能，迎来四个方面的升级：全面升级多层次分析推理能力升级的金融投资专业 AI 搜索升级的科研学术专业 AI 搜索针对文档 AI 阅读分析的智能优化全面升级多层次分析推理能力在处理复杂任务时，天工 AI 推理能力支持难题拆解自动规划主动扩展深度回答图文交织。智能搜索 Agent 把复杂的难题拆解为多个简单的问题，自动规划路径，一边思…
应用
- 2
- 0
汪淼11月5日
因发现稀有蜜蜂，扎克伯格拟建的核电 AI 数据中心计划受阻
金融时报昨日（11 月 4 日）发布博文，报道称 Meta 原计划在美国建设由核能驱动的人工智能数据中心，但该项目因发现稀有蜜蜂而遇到障碍。 AI在线注：Meta 的目标是利用核能来支持其不断增长的 AI 计算需求。核能被认为是一种低碳且高效的能源选择，适合大规模的数据处理需求。
应用
- 5
- 0
故渊11月5日
小鹏鹏行前高管创业入局 AI 陪伴机器人，完成千万元级天使轮融资
原小鹏机器人产品设计负责人孙兆治创业成立的上海珞博智能科技有限公司已于年中完成千万元级人民币天使轮融资，由产业相关⽅投资。公开资料显示，孙兆治是原小鹏机器人（鹏行智能）产品设计负责人，曾任小鹏汽车内饰设计负责⼈、滴滴造车项目产品负责人、XID Lab 用户体验设计工作室创始人。团队方面，珞博智能团队其他成员主要来自字节跳动、华为、大疆、商汤、MiniMax、泡泡玛特等科技及潮玩公司。
应用
- 7
- 0
汪淼11月5日
AI Agent应用出路到底在哪？
1 Agent/Function Call 的定义Overview of a LLM-powered autonomous agent system：图片Agent学会调用外部应用程序接口，以获取模型权重中缺失的额外信息（预训练后通常难以更改），包括当前信息、代码执行能力、专有信息源访问权限等。 2 从去年到现在有什么进展?Not a research seminar but good to kn…
理论
- 968
- 0
JavaEdge11月5日
前 OpenAI “AGI 准备工作”负责人：AI 将很快完成人类在计算机上能做的一切
据《商业内幕（Business Insider）》当地时间 3 日报道，OpenAI 前政策研究与“AGI （AI在线注：通用人工智能）准备工作”负责人 Miles Brundage 表示，未来几年行业可能会开发出“几乎能够远程完成”人类能通过计算机操作的所有任务的系统，包括使用鼠标和键盘，甚至在视频聊天中呈现出“人类形象”。对于 OpenAI 等公司来说，开发具备 AGI 的机器的时间表是业内…
应用
- 2
- 0
清源11月4日
AI 医生来了：英国医院明年将用人工智能预测致命心脏病风险
据 TheGuardian 报道，英国国家医疗服务体系（NHS）即将试用一款名为“Aire”的“超人类”人工智能工具，该工具能够预测患者患病和早逝的风险。这项被称为人工智能心电图风险评估（AI-ECG risk estimation）或简称 Aire 的新技术，经过训练可以读取心电图（ECG）测试的结果，能够检测出医生无法看到的潜在心脏结构问题，并标记出可能需要进一步监测、检查或治疗的患者。据…
应用
- 6
- 0
远洋11月4日
微软在英国启动生成式 AI 加速器计划，与英伟达、GitHub 联手帮助初创公司成长
北京时间今日，微软宣布推出生成式 AI 加速器计划，该计划旨在培育英国最杰出的 AI 初创企业，并助力其未来取得成功。该计划与英伟达以及微软旗下的开发平台 GitHub 合作，为希望构建、推广和扩展生成式 AI 产品与服务的公司提供资源、机会。其运行时间为 2025 年 1 月至 3 月初，官方称专为已获得种子资金并寻求进一步发展的英国 AI 初创企业量身定制。
应用
- 8
- 0
清源11月4日
戴尔在深圳成立 AI 智能解决方案中心，提供服务器、以太网等软硬件基础设施
感谢据界面新闻报道，戴尔科技集团今日宣布在深圳成立 AI 智能解决方案中心。新中心提供服务器、以太网与交换机等一系列软硬件基础设施。 AI在线注意到，戴尔全球资深副总裁吴冬梅表示，AI 智能解决方案中心将立足深圳，面向大湾区，未来进一步覆盖至大中华区，以为 AI 应用落地提供支持。
应用
- 8
- 0
浩渺11月4日
AI 无处不在：谷歌将为 Chrome 浏览器增强保护模式引入人工智能
消息源 Leopeva64 于 11 月 3 日在 X 平台发文称，AI 现在已是“无处不在”，Chrome 浏览器安全浏览模式中的“增强保护”将由 AI 驱动，谷歌已在 Chrome Canary 版本中更新了该模式的描述。 ▲ AI在线注：左图为稳定版，右图为 Canary 版谷歌在设置页面更新了这项功能的说明。现在的描述写道：“实时 AI 驱动的防护，基于您的浏览数据传输至 Google，…
应用
- 6
- 0
清源11月4日
谷歌内部项目：大模型 AI 智能体发现了代码漏洞
开源数据库引擎 SQLite 有 bug，还是智能体检测出来的！通常，软件开发团队会在软件发布之前发现软件中的漏洞，让攻击者没有破坏的余地。模糊测试（Fuzzing）是一种常见的软件测试方法，其核心思想是将自动或半自动生成的随机数据输入到一个程序中，并监视程序异常。
理论
- 968
- 0
机器之心11月4日
解决真实GitHub Issue能力登顶，字节豆包MarsCode团队分享背后工程实践，踩过的坑也分享了
解决真实GitHub Issue的基准测试，字节家的豆包MarsCode Agent悄悄登顶了。 SWE-Bench，一个由普林斯顿大学提出的极具挑战性的Benchmark，近期受到工业界、学术界和创业团队的广泛关注。在其子集SWE-Bench Lite排行榜上，豆包MarsCode Agent近期冲上第一。
理论
- 968
- 0
量子位11月4日
开源视频生成天花板？最强搅局者Mochi 1免费直出电影级特效
AI视频生成赛道最强搅局者，来了！何谓搅局？下面这些是模型直出的效果，开源免费送给你！
理论
- 968
- 0
新智元11月4日
Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！
1.5M参数模型就可以控制人形机器人的身体？！英伟达高级科学家Jim Fan表示，并不是每个基础模型都需要规模庞大。
理论
- 968
- 0
新智元11月4日