资讯列表
给3D资产生成高清纹理,腾讯让AI扩充游戏皮肤
近日,腾讯宣布推出一项名为 Paint3D 的技术,它能够根据文本或图像输入,为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图,对任何 3D 物体进行纹理绘制。效果演示视频相关技术论文已经公开。项目主页::: ,这项技术主要解决的挑战是如何生成没有内嵌光照信息的高质量纹理,使得生成的纹理能够被重新照明或重新编辑,直接应用于现有的渲染管道。Paint3D 通过引入预训练 2D 图像生成模型来获取文字和图像输入的引导能力,从不同的提示中概括出丰富且高质量的纹理。在此基础上,Paint3D 利用 3D 数据高
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
理论证明!校准的语言模型必然出现幻觉。大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。现在,一项新研究得出结论:「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh
美图视觉大模型MiracleVision(奇想智能)将向公众开放
1月2日,美图公司宣布自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。美图自研视觉大模型也是目前福建省唯一通过备案的大模型。美图AI视觉大模型MiracleVision(奇想智能)于2023年6月进行内测,研发之初,美图将其定义为“懂美学”的视觉大模型,搭建了基于机器学习的美学评估系统,并邀请艺术家、设计师等专业人士参与到大模型的训练中。MiracleVision(奇想智能)具备强大的视觉表现力和创作力,为美图秀秀、美颜相机、Wink、美图设计室、
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。自发布以来,曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在是寒假」,它就会变得懒懒散散,仿佛进入了一种冬眠状态。大模型变懒、变笨,具体是指模型在新任务上的零样本性能变差。尽管上述原因听起来很有趣,但问题到底怎么解决呢?在最近的一篇论文中,加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因:「我们发
你没有看过的全新版本,Transformer数学原理揭秘
近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理进行全新解读,内容很长,知识很多,十二分建议阅读原文。2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。事实上,这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂,同时在大语言模型的出现中也起到了关键作用。因此,了解
AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型
创建逼真的动态虚拟角色,要么在训练期间需要准确的 3D 配准,要么在测试期间需要密集的输入图像,有时则两者都需要,也许 D3GA 是你需要的。在 19 世纪,印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行,其特点是以「短小的、断断续续的笔触,几乎不传达形式」为特征,就是后来的印象派。简单来说印象派笔触未经修饰而显见,不追求形式的精准,模糊的也合理,其将光与色的科学观念引入到绘画之中,革新了传统固有色观念。在 D3GA 中,作者的目标反其道而行之,是希望创建像照片般逼真的表现。在 D3GA 中,作者对高斯泼溅(G
长期主义支持青年科技人才,“科学探索奖”启动第六届申报
“科学探索奖”5周年之后再出发。作为目前国内金额最高的青年科技人才资助计划之一,第六届“科学探索奖”申报工作于2024年1月1日正式启动。2024年“科学探索奖”仍设置10个领域,包括数学物理学、化学新材料、天文和地学、生命科学、医学科学、信息电子、能源环境、先进制造、交通建筑、前沿交叉。今年仍将遴选出不超过50位获奖人,每位获奖人在5年内获得总计300万元人民币奖金,且可自由支配。“科学探索奖”是一项由新基石科学基金会出资、科学家主导的公益奖项,秉承“面向未来、奖励潜力、鼓励探索”的宗旨,聚焦基础科学和前沿技术,
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了基础模型在机器人领域的应用和发展情况。开发能自主适应不同环境的机器人是人类一直以来的一个梦想,但这却是一条漫长且充满挑战的道路。之前,利用传统深度学习方法的机器人感知系统通常需要大量有标注数据来训练监
安徽,全面瞄准通用人工智能
过去一年人工智能赛道投资人的出差列表里,除了北上深,中部省份安徽的存在感越来越高。走在安徽省合肥市的中安创谷产业园里,这个以 “高科技” 作为自己最新发展标签的地方,过去数年打造了 “空天信息”、“电子信息”、“大健康” 等多个专项产业,所孵化或扶持的一系列高科技公司如中科星图、华米科技、东超科技云集于此。而之后,这座园区里的 AI 公司将会越来越多。在 12 月 23 日举办的 2023 全国通用人工智能创新应用大赛总决赛中, 总共 20 支参赛队伍共同来到安徽,参与这场活动,他们与安徽建立了近距离接触,这之后对
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理
感兴趣的小伙伴,可以跟着操作过程试一试。前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。在基准测试中,Mistral 8x7B 的表现优于 Llama 2 70B,在大多数标准基准测试上与 GPT-3.5 不相上下,甚至略胜一筹。
GitHub年终福利,编程聊天机器人开放给所有用户,网友直呼:破局者
你安利了吗?2023 年的最后一两天,GitHub 面向编程的聊天机器人 Copilot Chat 为所有人放出了最后一波福利!今年 3 月,软件源代码托管服务平台 GitHub 推出 Copilot X 计划,正式接入 GPT-4,并在开发者体验中添加了聊天功能「Copilot Chat」,当时适用于 Copilot for Business 企业客户。在实际操作过程中,开发者可以通过聊天界面,使用自然语言与 Copilot Chat 进行交互。今年 7 月,GitHub 又推出了 Copilot Chat 有限
告别冷启动,LoRA成为大模型「氮气加速器」,提速高达300%
用 LoRA 打造更快的 AI 模型。AI 模型功能越来越强大,结构也越来越复杂,它们的速度也成为了衡量先进程度的标准之一。如果 AI 是一辆豪华跑车,那么 LoRA 微调技术就是让它加速的涡轮增压器。LoRA 强大到什么地步?它可以让模型的处理速度提升 300%。还记得 LCM-LoRA 的惊艳表现吗?其他模型的十步,它只需要一步就能达到相媲美的效果。这是怎么做到的?Raphael G 的博客详细说明了 LoRA 如何在提高模型推理效率和速度方面取得显著成效,并介绍了这一技术实现的改进及其对 AI 模型性能的重大
工业制造、商用和家庭,优必选人形机器人的三场战事
2023 年最后一个交易日 12 月 29 日,总部位于深圳的人形机器人公司优必选科技在香港交易所正式挂牌。 上市首日股价一度上涨至 93.45 港元,市值逼近 390 亿港元。在上市仪式现场,熊猫机器人优悠走上舞台,向优必选创始人、董事长兼 CEO 周剑递出锣锤,优必选全新一代工业版人形机器人 Walker S 首次亮相,手持另一个锣锤走向舞台中央,与周剑一起敲响开市锣。这一声,格外稀缺。 一为人形机器人本体制造之难。从事机器人技术工作,你需要成为一家机器人公司,有一大群人来建造机器人。“要么全包,要么全无。没有
挑战Transformer,华为诺亚新架构盘古π来了,已有1B、7B模型
5 年前,Transformer 在国际神经信息处理大会 NeurIPS 2017 发表,后续其作为核心网络架构被广泛用于自然语言处理和计算机视觉等领域。1 年前,一项重大的创新引起了人们的广泛关注,那就是 ChatGPT。这个模型不仅能够执行复杂的 NLP 任务,还能以人类对话的方式与人类进行互动,产生了深远的影响。1 年以来,“百模大战” 在业界激烈开展,诞生了如 LLaMA、ChatGLM 和 Baichuan 等开源大模型,推动了 LLM 领域的快速发展。除了通用 LLM,为了支撑更多行业的应用和商业变现,
你们有什么底气和谷歌叫板?Perplexity AI CEO回应质疑
科技巨头的每一步发展,往往意味着一些小企业将陷入阴影当中。不过,福祸相依,也会有企业在巨头发展的过程中,找到自己的发展目标,从竞争中活下来。在 OpenAI 首个开发者日召开后,就有不少企业纷纷被判「死刑」。GPT 的自定义功能让不少刚拿到「赛季」参加资格的初创团队心如死灰。同样,谷歌作为科技巨头,无论是在技术还是资金上都能碾压一众企业,甚至可以说这种碾压往往是「降维打击」型的。AI 驱动的搜索引擎 perplexity 看起来也在被「打击」的范围里。perplexity 是世界上第一个对话式搜索引擎,通过例如 G
「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video
扩散模型在图像生成方面取得了显著的成功,但由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。来自南洋理工大学 S-Lab 的研究团队提出了一种用于视频超分的文本指导(text-guided)潜在扩散框架 ——Upscale-A-Video。该框架通过两个关键机制确保时间一致性:在局部,它将时间层集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全局范围内,无需训练,就引入了流指导(flow-guided)循环潜在传播模块,通过
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其效率问题。同时,我们从图右还可以看出,近来较为火热的高效 LLMs,例如 Mistral-7B,在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延,可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。在本综述中,来自
测试大语言模型的生物推理能力,GPT-4、PaLM2等均在测试之列
编辑 | 萝卜皮大型语言模型(LLM)的最新进展,为将通用人工智能 (AGI) 整合到生物研究和教育中提供了新机遇。在最新的研究中,佐治亚大学和梅奥诊所的研究人员评估了几个领先的 LLM(包括 GPT-4、GPT-3.5、PaLM2、Claude2 和 SenseNova)回答概念生物学问题的能力。这些模型在包含 108 个问题的多项选择考试中进行了测试,涵盖分子生物学、生物技术、代谢工程和合成生物学等生物学主题。在这些模型中,GPT-4 获得了 90 分的最高平均分,并且在不同提示的试验中表现出最大的一致性。结果