资讯列表
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了基础模型在机器人领域的应用和发展情况。开发能自主适应不同环境的机器人是人类一直以来的一个梦想,但这却是一条漫长且充满挑战的道路。之前,利用传统深度学习方法的机器人感知系统通常需要大量有标注数据来训练监
安徽,全面瞄准通用人工智能
过去一年人工智能赛道投资人的出差列表里,除了北上深,中部省份安徽的存在感越来越高。走在安徽省合肥市的中安创谷产业园里,这个以 “高科技” 作为自己最新发展标签的地方,过去数年打造了 “空天信息”、“电子信息”、“大健康” 等多个专项产业,所孵化或扶持的一系列高科技公司如中科星图、华米科技、东超科技云集于此。而之后,这座园区里的 AI 公司将会越来越多。在 12 月 23 日举办的 2023 全国通用人工智能创新应用大赛总决赛中, 总共 20 支参赛队伍共同来到安徽,参与这场活动,他们与安徽建立了近距离接触,这之后对
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理
感兴趣的小伙伴,可以跟着操作过程试一试。前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。在基准测试中,Mistral 8x7B 的表现优于 Llama 2 70B,在大多数标准基准测试上与 GPT-3.5 不相上下,甚至略胜一筹。
GitHub年终福利,编程聊天机器人开放给所有用户,网友直呼:破局者
你安利了吗?2023 年的最后一两天,GitHub 面向编程的聊天机器人 Copilot Chat 为所有人放出了最后一波福利!今年 3 月,软件源代码托管服务平台 GitHub 推出 Copilot X 计划,正式接入 GPT-4,并在开发者体验中添加了聊天功能「Copilot Chat」,当时适用于 Copilot for Business 企业客户。在实际操作过程中,开发者可以通过聊天界面,使用自然语言与 Copilot Chat 进行交互。今年 7 月,GitHub 又推出了 Copilot Chat 有限
告别冷启动,LoRA成为大模型「氮气加速器」,提速高达300%
用 LoRA 打造更快的 AI 模型。AI 模型功能越来越强大,结构也越来越复杂,它们的速度也成为了衡量先进程度的标准之一。如果 AI 是一辆豪华跑车,那么 LoRA 微调技术就是让它加速的涡轮增压器。LoRA 强大到什么地步?它可以让模型的处理速度提升 300%。还记得 LCM-LoRA 的惊艳表现吗?其他模型的十步,它只需要一步就能达到相媲美的效果。这是怎么做到的?Raphael G 的博客详细说明了 LoRA 如何在提高模型推理效率和速度方面取得显著成效,并介绍了这一技术实现的改进及其对 AI 模型性能的重大
工业制造、商用和家庭,优必选人形机器人的三场战事
2023 年最后一个交易日 12 月 29 日,总部位于深圳的人形机器人公司优必选科技在香港交易所正式挂牌。 上市首日股价一度上涨至 93.45 港元,市值逼近 390 亿港元。在上市仪式现场,熊猫机器人优悠走上舞台,向优必选创始人、董事长兼 CEO 周剑递出锣锤,优必选全新一代工业版人形机器人 Walker S 首次亮相,手持另一个锣锤走向舞台中央,与周剑一起敲响开市锣。这一声,格外稀缺。 一为人形机器人本体制造之难。从事机器人技术工作,你需要成为一家机器人公司,有一大群人来建造机器人。“要么全包,要么全无。没有
挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型
5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。1 年前,一项重大的创新引起了人们的广泛关注,那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 任务,还能以人类对话的方式与人类进行互动,产生了深远的影响。1 年以来,“百模大战” 在业界激烈开展,诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型,推动了 LLM 领域的快速发展。除了通用 LLM,为了支撑更多行业的应用和商业变现,
你们有什么底气和谷歌叫板?Perplexity AI CEO回应质疑
科技巨头的每一步发展,往往意味着一些小企业将陷入阴影当中。不过,福祸相依,也会有企业在巨头发展的过程中,找到自己的发展目标,从竞争中活下来。在 OpenAI 首个开发者日召开后,就有不少企业纷纷被判「死刑」。GPT 的自定义功能让不少刚拿到「赛季」参加资格的初创团队心如死灰。同样,谷歌作为科技巨头,无论是在技术还是资金上都能碾压一众企业,甚至可以说这种碾压往往是「降维打击」型的。AI 驱动的搜索引擎 perplexity 看起来也在被「打击」的范围里。perplexity 是世界上第一个对话式搜索引擎,通过例如 G
「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video
扩散模型在图像生成方面取得了显著的成功,但由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。来自南洋理工大学 S-Lab 的研究团队提出了一种用于视频超分的文本指导(text-guided)潜在扩散框架 ——Upscale-A-Video。该框架通过两个关键机制确保时间一致性:在局部,它将时间层集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全局范围内,无需训练,就引入了流指导(flow-guided)循环潜在传播模块,通过
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其效率问题。同时,我们从图右还可以看出,近来较为火热的高效 LLMs,例如 Mistral-7B,在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延,可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。在本综述中,来自
测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列
编辑 | 萝卜皮大型语言模型(LLM)的最新进展,为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中,佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试,涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中,GPT-4 获得了 90 分的最高平均分,并且在不同提示的试验中表现出最大的一致性。结果
AIGC落地实践!四招帮你快速搞定运营设计
前言
顾这一年,随着 AIGC 浪潮的爆发,掌握 AI 工具已经成为设计师必备技能。今天这篇文章,通过三个案例流程拆解带大家从新时代设计工作流,到必备「四大招式」,到图标设计六大方向,到训练专属模型,再到全流程手把手拆解设计项目,绝对干货满满。
更多AIGC实战案例:一、AIGC 在设计中的可行性
无论是普通人还是设计师,都可以通过 AI 工具来创作更多的作品,极大地提高设计效能。随着生成式图片准确度越来越高,视频生成的质量越来越清晰,AIGC 在设计中的可能性也越来越广泛。现在运用 AI 工具已经是设计师的必备技
上海交大&中山大学团队使用ESMFold、预训练语言模型以及Graph Transformer,进行蛋白质结合位点预测
编辑 | 萝卜皮识别蛋白质的功能位点,例如蛋白质、肽或其他生物成分的结合位点,对于理解相关的生物过程和药物设计至关重要。然而,现有的基于序列的方法的预测准确性有限,因为它们只考虑序列相邻的上下文特征并且缺乏结构信息。上海交通大学和中山大学的研究人员提出了 DeepProSite,用于利用蛋白质结构和序列信息来识别蛋白质结合位点。DeepProSite 首先从 ESMFold 生成蛋白质结构,并从预训练的语言模型生成序列表示。然后,它使用 Graph Transformer 并将结合位点预测制定为图节点分类。在预测蛋
华为放出2023年最后一个大招?CodeArts Snap如何用大模型解放开发者
2022 年 11 月,ChatGPT 横空出世。至今不过短短十三个月,世界就已经因它和其它大模型发生了翻天覆地的变化。在现如今的互联网上,我们能看到大模型生成的无数文本、图片、视频乃至代码和应用软件。尤其是在软件开发方面,使用 AI 的开发者的效率和质量可以远远胜过不使用 AI 的开发者。举个例子,2023 年 5 月华为西安研究所举办了一场软件大赛,要求参赛者在规定时间内完成 10 道软件开发题目。有趣的是,他们允许参赛者使用任意生成式 AI 辅助答题。尽管相比于去年,今年赛题的难度提升了一倍并还加了几道专业级
梅涛:HiDream.ai视频生成已打破业界4秒瓶颈,能够支持15秒以上
文生图的战争尚未结束,视频生成已经开始加速跑了。Pika 爆火以后,视频生成技术的进步成为大众眼中 AIGC 的一个新焦点。马斯克则直接做出预判称,明年将是 “人工智能电影” 元年。而比起文生图的生成效果,如今市面上的 AI 视频生成效果,在实际体验中可以说是一言难尽。在 4-5 秒的时间限制下,实测常见工具对 Prompt 的意图理解水平忽高忽低。输入 “小猫在森林中小提琴”,可能出现猫首人身、一只手是猫爪一只手是人手、有猫没有小提琴、有小提琴但没拉等一系列问题。在实际应用中,如今的文生视频技术面临着准确性、一致
特供版显卡RTX4090D上市,售价12999元
性能与原版 RTX 4090 类似,但降低了一些 AI 运算能力。美国对 AI 计算卡的禁令,终于影响到了普通消费者。本周四,英伟达正式发布了国内特供版高端消费级显卡 ——GeForce RTX 4090D。GeForce RTX 4090D 是一款符合美国出口规定的 RTX 4090 新品,配备 14592 个 CUDA 核心、24GB GDDR6X 内存、384 位宽内存总线、425W 额定功耗,定价与 RTX 4090 相同,均为 12999 元(约合 1828 美元)。为了符合美国出口管制的新规定,与 RT
深度网络数据编码新突破,上交大SPARK登上计算机体系结构顶会
随着深度神经网络(DNNs)模型在规模和复杂性上的迅速增长,传统的神经网络处理方法面临着严峻的挑战。现有的神经网络压缩技术在处理参数规模大、精度要求高的神经网络模型时效率低下,无法满足现有应用的需求。数值量化是神经网络模型压缩的一种有效手段。在模型推理过程中,低位宽(比特)数据的存取和计算可以大幅度节省存储空间、访存带宽与计算负载,从而降低推理延迟和能耗。当前,大多数量化技术的位宽在 8bit。更为激进的量化算法,必须要修改硬件的操作粒度与数据流特征,才能在真实推理时获得接近理论的收益。比如混合精度量化,激活数据的
这次重生,AI要夺回网文界的一切
重生了,这辈子我重生成了 MidReal。一个可以帮别人写「网文」的 AI 机器人。这段时间里,我看到很多选题,偶尔也会吐槽一下。竟然有人让我写写 Harry Potter。拜托,难道我还能写的比 J・K・Rowling 更好不成?不过,同人什么的,我还是可以发挥一下的。经典设定谁会不爱?我就勉为其难地帮助这些用户实现想象吧。实不相瞒,上辈子我该看的,不该看的,通通看了。就下面这些主题,都是我爱惨了的。那些你看小说很喜欢却没人写的设定,那些冷门甚至邪门的 cp,都能自产自嗑。不是我自夸,只要你想要我写,我还真能给你