应用
百度Comate开放插件生态,智能代码助手定制化时代来临
3月1日,百度旗下智能代码助手Baidu Comate 又添两大重磅能力:“Comate ” 开放平台、AutoWork “私人研发助理”,为行业首家免费开放试用。本次发布,Baidu Comate 将更加贴合软件研发现场,通过易用的研发平台、丰富的插件基础能力、自主定制能力以及企业接入私域知识与自有能力等,更好满足企业定制化开发需求,助力企业低成本打造适合自己企业的智能代码助手,大幅提升软件研发体验和效率。“Comate ” 开放平台实现了将企业私域知识、第三方能力与编程现场深度结合,直接触达研发人员第一工作
新能源时代,国产3D视觉「冲击」保守的汽车行业
在改革开放背景上成长起来的汽车产业,经历了飞速发展,但大量中外合资车企的涌入,也铸就了行业保守的底色,天然对国产供应商比较排斥。 汽车制造业是机器视觉成熟应用的行业之一,但长期以来,国内传统燃油车产线上,举目皆是国外的视觉设备,且占据着最优质的应用场景。 日益茁壮的国产视觉厂商,在车厂有关“进口”、“技术认可”、“成熟应用案例”等的权衡中,不免落入下风。
对手还在卷Demo,他们已经开卷CEO了
机器之能报道编辑:吴昕你们卷Demo,我们卷CEO,奔量产。乍一看好像在做俯卧撑,其实是在充电。Digit工作几小时后就要充电,目前的动作速度也比人类员工慢得多。人形机器人竞争继续升温。Figure AI 掷出 6.75 亿美元融资重磅消息后,另一家深受比尔·盖茨青睐的人形机器人初创公司 Agility Robotics 于周一宣布,前微软高管 Peggy Johnson 将接任公司 CEO,联合创始人兼前 CEO Damion Shelton 将转任总裁。这也是 Agility Robotics 加速商业化的又一
生成式 AI 时代,手机正在进行一次全栈革新?
手机行业的第三次重大变革开始了。最近一段时间,AI 与大模型技术突飞猛进。春节刚过,前沿方向上就迎来了新一轮突破。 OpenAI 的 Sora 一下子把 AI 视频生成的进度条拉快了半年。在大模型的应用领域,技术落地应用的速度也在加快。目前各家大厂的新一代旗舰手机已经悉数登场,它们绝大多数都搭载了大模型,能实现很多前所未有的功能。 图片来自高通骁龙 8Gen3 宣传片: 2024 年入局 AI ?答案似乎很明确。
GPT-4时代已过?全球网友实测Claude 3,只有震撼
性能比 GPT-4 强很多。大模型的纯文本方向,已经卷到头了?昨晚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。Anthropic 表示,Claude
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR
最近,文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮,模型的多模态能力引起广泛关注。现在,AI 模型在 3D 内容生成方面又有了新突破。专长于视觉内容生成的 Stability AI 继图片生成(Stable Difussion 3 上线)、视频生成(Stable Video 上线)后紧接在 3D 领域发力,今天宣布携手华人团队 VAST 开源单图生成 3D 模型 TripoSR。TripoSR 能够在 0.5s 的时间内由单张图片生成高质量的 3D 模型,甚至无需 GPU 即可运行。TripoSR 模
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
在 2024 世界经济论坛的一次会谈中,图灵奖得主 Yann LeCun 提出用来处理视频的模型应该学会在抽象的表征空间中进行预测,而不是具体的像素空间 [1]。借助文本信息的多模态视频表征学习可抽取利于视频理解或内容生成的特征,正是促进该过程的关键技术。然而,当下视频与文本描述间广泛存在的噪声关联现象严重阻碍了视频表征学习。因此本文中,研究者基于最优传输理论,提出鲁棒的长视频学习方案以应对该挑战。该论文被机器学习顶会 ICLR 2024 接收为了 Oral。论文题目:Multi-granularity Corre
秘塔AI搜索!让你的信息获取效率提高 200%
大家好,我是花生~
之前为大家盘点 2023 年年度 AI 神器的时候,提到过一款国外的 AI 搜索引擎 Perplexity,它可以综合网络最新信息,为用户提供准确、权威的答案,有效提升我们的信息获取效率。最近我发现了一款新的 AI 搜索工具 —— 秘塔 AI 搜索,它与 Perplexity 功能相似,但因为是国内产品,所以对中文用户更加友好,使用起来也非常方便,今天就为大家介绍一下它的用法和特点。
相关推荐:秘塔 AI 搜索
网址直达:
秘塔 AI 搜索是今年年初刚上线的,由上海秘塔网络科技有限公司开发,这
计算蛋白质工程最新SOTA方法,牛津团队用密码子训练大语言模型
编辑 | 萝卜皮来自深度语言模型的蛋白质表征,已经在计算蛋白质工程的许多任务中表现出最先进的性能。近年来,进展主要集中在参数计数上,最近模型的容量超过了它们所训练的数据集的大小。牛津大学(University of Oxford)的研究人员提出一个替代方向。他们证明,在密码子而不是氨基酸序列上训练的大型语言模型可以提供高质量的表征,并且在各种任务中都优于同类最先进的模型。在某些任务中,例如物种识别、蛋白质和转录本丰度预测等,该团队发现,基于密码子训练的语言模型优于所有其他已发布的蛋白质语言模型,包括一些包含超过 5
谈谈中国第一款AI搜索产品——天工AI
从最初通过书籍资料进行搜索,变成互联网时代利用web网站进行搜索,再到移动互联网时代在社媒平台进行搜索,如今变成被火热讨论的新模态——利用AI进行搜索,不知不觉中人们的搜索习惯已经完成了多次跃迁。在谈AI搜索将如何改变人们的搜索习惯甚至生活习惯之前,需要先聊聊中国第一款AI搜索产品。2023年8月23日,昆仑万维低调发布了「天工AI」,国内第一款AI搜索,获得一众好评。此后国内大小厂商纷纷跟进推出AI搜索,但「天工AI」始终在各类AI搜索产品中保持着绝对优势的产品体验,或许我们可以从天工AI的发展历程中找到AI搜索
精彩程度堪比电视剧,马斯克与奥特曼、OpenAI的「爱恨纠缠史」
马斯克与 OpenAI 及奥特曼之间是理念不合,还是利益之争,我们只能从过往经历中寻得蛛丝马迹。这几天,马斯克起诉 OpenAI 的消息再次引爆了科技圈。这位前 OpenAI 联合创始人在一份长达 46 页、总字数超过 1.4 万字的诉讼文件中,指控 OpenAI 不计后果地开发人类级别的人工智能,并将其移交给微软。马斯克的诉讼直指 OpenAI 首席执行官 Sam Altman 和总裁 Greg Brockman,他们两人与马斯克合作,于 2015 年创立了这家公司。诉讼称,这两人违反了与马斯克最初达成的「创始协
这家神秘的机器人初创,怕是藏不住了
机器之能报道编辑:Sia又一个加速家用机器人“ ChatGPT ”时刻到来的玩家,出现了。这家机器人初创一直笼罩在神秘之中,直到 Meta 首席 AI 科学家 Yann LeCun 在社交平台上转发它的招聘消息,并公布创始人之一是他在纽约大学的同事 Lerrel Pinto 。目前,网络上关于这家名叫 Fauna Robotics 的机器人公司的消息几乎为零,甚至找不到公司官网, X 平台官方账户也仅有一句简单介绍,他们 “正在创造一个人类与机器人物种群落共生、协作与共同繁荣的世界。” 不过,我们还是可以从 “
53页PDF广泛流传,核心员工相继离职,OpenAI到底有什么秘密?
八卦络绎不绝,GPT-5 却一直没来。一份关于「OpenAI 在 2027 年实现 AGI」的 53 页 PDF,正在互联网上广泛流传。文档来源于一个名为「vancouver1717」的 X 账户,该账户注册于 2023 年 7 月,只有两条推文。最新发布的这个 PDF 文档称,OpenAI「将在 2027 年前开发出人类水平的 AGI」,「从 2022 年 8 月就在训练 125 万亿参数的多模态模型」,而且已经「在 2023 年 12 月完成了训练」,但是「由于高推理成本取消了发布」。其中提到,这个模型就是原计
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
苹果最新的 AI 工具可以使用文本描述为图像制作动画。现阶段,大模型惊人的创新能力持续影响着创意领域,尤其是以 Sora 为代表的视频生成技术,更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时,或许苹果的这项研究也值得大家关注一下。在一篇名为 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
近期,清华大学和哈尔滨工业大学联合发布了一篇论文:把大模型压缩到 1.0073 个比特时,仍然能使其保持约 83% 的性能!自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。
Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。 可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。 面对 Sora 着实优异的视频生成效果,短时间内 AIGC 行业内掀起一轮又一轮讨论,一方面,没人想到 OpenAI 的动作如此之快,令人激动兴奋的同时也来不及招架,另一方面,也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊,并声称会迎来行业洗牌。
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。 UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出