资讯列表

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

大模型涌向移动端的浪潮愈演愈烈,终于有人把多模态大模型也搬到了移动端上。近日,美团、浙大等推出了能够在移动端部署的多模态大模型,包含了 LLM 基座训练、SFT、VLM 全流程。也许不久的将来,每个人都能方便、快捷、低成本的拥有属于自己的大模型。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中

高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备

在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人物的出现,将极大地提升人类玩家与虚拟人物的社交体验,带来全新的娱乐方式。在该研究中,作者专注于人与虚拟人的互动任务,特别是涉及物体的互动任务,提出了一项名为在线全身动作反应合成的新任务。新任务将基于人类的动作生成虚拟人的反应。以往的研究主要关注人与人的互动,不考虑任

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。ChatGPT 的诞生,让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普遍的限制:由于资源受限,当前大多 LLM 主要是在较短的文本上进行预训练,导致它们在较长上下文方面的表现较差,而长上下文在现实世界的环境中是更加常见的。最近的一篇综述论文对此进行了全面的调研,作者重点

以前所未有的精度,预测超重核的衰变模式和半衰期,中山大学团队开发 AI 新方法

编辑 | 白菜叶有关超重区域核素衰变过程的信息对于研究118号元素 Oganesson 和「稳定岛」之外的新元素至关重要。中山大学的研究人员在理解超重核衰变过程方面取得了重大突破。他们提出了应用随机森林算法来研究超重区域不同衰变模式之间的竞争,包括 α 衰变、β-衰变、β 衰变、电子俘获和自发裂变。观察到的半衰期和主要衰变模式得到了很好的再现。该研究以「Random forest-based prediction of decay modes and half-lives of superheavy nuclei」

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮酶动力学参数的预测对于设计和优化各种生物技术和工业应用的酶至关重要,但当前预测工具在各种任务上的有限性能阻碍了它们的实际应用。中国科学院的研究人员开发了 UniKP,一个基于预训练语言模型的统一框架,用于预测酶动力学参数,包括来自蛋白质序列和底物结构的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。还提出了源自 UniKP (EF-UniKP) 的两层框架,从而允许在考虑环境因素(包括 pH 值和温度)时进行稳健的 kcat 预测。并且,该团队系统地探索了四种有代表性

第一波!2024年1月精选实用设计工具合集

大家好,这是进入 2024 年之后的第一波干货合集!这次的干货合集还是以 AI 相关的设计干货开头,这次有了在本地无限制帮你清理图片中元素的 AI 工具,有知名免费图库出品的实时 AI 图片生成工具、将截图直接转化为代码的超强工具,还有斯坦福教授出品的 AI 导航,结尾还额外添加了2款实用的工具,一个是免费的样机工具,还有一个免费的 APP 图标和 LOGO 生成工具。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、基于 AI 的本地智能图片清理工具 Cleaner 是

如何用 AIGC 快速生成电商主图?来看阿里实战案例!

数字化时代,人工智能的发展为设计师们带来了全新的创作方式和工具。商业广告的设计需要准确地传递品牌的价值和理念,而 AI 生成设计可以通过强大的算法和深度学习,快速生成符合品牌形象和目标受众的广告设计。产品摄影需要展示产品的外观和特点,AI 可以通过图像分析和处理,自动生成令人惊艳的视觉效果。电商主图的设计需要吸引消费者的点击和购买,通过生成则可更快速精准高效的满足场景化设计要求。 商品场景图作为电商类产品核心透出起到重要的作用,在药电商场景图实践过程中,探索如何通过 TVC 等精细商业广告到产品摄影原理再到商品场景

发现、合成并表征303个新分子,MIT团队开发机器学习驱动的闭环自主分子发现平台

编辑 | X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自 MIT 的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了 3000 多个反应,其中 1000 多个产生了预测的反应产物,提出、合成并表征了 303 种未报道的染料样分子。该研究以《Autonom

百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万

2023 年,AI 大模型的最后一波突破来了。文心一言用户规模破 1 亿,飞桨的开发者数量达到 1070 万。只用短短两个月,文心大模型 4.0 整体效果又提升了 32%。2023 年 12 月 28 日,在刚刚过去的 WAVE SUMMIT 2023 深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新进展。在大会现场,百度的演示呈现了基于大模型进行 AI 原生应用开发的新方法和新思路。想开发一个 AI 原生应用,一行代码也不需要:基于星河社区大模型工具中心「多工具智能编排」开发模式,我们可以

「唤醒」NPC,这家融资过亿的国内创企在做一种很新的游戏

每次进入游戏,NPC 都说着不一样的台词,这将是一个怎样的世界?在众多游戏类型中,开放世界游戏是非常受欢迎的一种,因为它允许玩家在一个引人入胜的虚拟世界中漫游,自由地去体验丰富的故事情节,同时完成一些复杂的支线、主线任务。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游戏都属于开放世界游戏。在这类游戏中,非玩家角色(NPC)在推动剧情进展、提供任务与服务以及增强游戏的沉浸感和真实性方面发挥着至关重要的作用。不过,这些 NPC 的台词和行为模式往往是预先编写和固定的,所

文生视频下一站,Meta已经开始视频生视频了

文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间产生像素闪烁。为了解决这个问题,来自得州大学奥斯汀分校、Meta GenAI 的研究者提出了一种新的 V2V 合成框架 ——FlowVid,联合利用了源视频中的空间条件和时间光流线索(clue)。给定输入视频和文本 prompt,FlowVid 就可以合成时间一致的视

给3D资产生成高清纹理,腾讯让AI扩充游戏皮肤

近日,腾讯宣布推出一项名为 Paint3D 的技术,它能够根据文本或图像输入,为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图,对任何 3D 物体进行纹理绘制。效果演示视频相关技术论文已经公开。项目主页::: ,这项技术主要解决的挑战是如何生成没有内嵌光照信息的高质量纹理,使得生成的纹理能够被重新照明或重新编辑,直接应用于现有的渲染管道。Paint3D 通过引入预训练 2D 图像生成模型来获取文字和图像输入的引导能力,从不同的提示中概括出丰富且高质量的纹理。在此基础上,Paint3D 利用 3D 数据高

大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉

理论证明!校准的语言模型必然出现幻觉。大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。现在,一项新研究得出结论:「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh

美图视觉大模型MiracleVision(奇想智能)将向公众开放

1月2日,美图公司宣布自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案,将面向公众开放。美图自研视觉大模型也是目前福建省唯一通过备案的大模型。美图AI视觉大模型MiracleVision(奇想智能)于2023年6月进行内测,研发之初,美图将其定义为“懂美学”的视觉大模型,搭建了基于机器学习的美学评估系统,并邀请艺术家、设计师等专业人士参与到大模型的训练中。MiracleVision(奇想智能)具备强大的视觉表现力和创作力,为美图秀秀、美颜相机、Wink、美图设计室、

这是GPT-4变笨的新解释

变笨的本质是知识没进脑子。自发布以来,曾被认为是世界上最强大的 GPT-4 也经历了多场「信任危机」。如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4 架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在是寒假」,它就会变得懒懒散散,仿佛进入了一种冬眠状态。大模型变懒、变笨,具体是指模型在新任务上的零样本性能变差。尽管上述原因听起来很有趣,但问题到底怎么解决呢?在最近的一篇论文中,加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4 性能下降的深层原因:「我们发

你没有看过的全新版本,Transformer数学原理揭秘

近日,arxiv 上发布了一篇论文,对 Transformer 的数学原理进行全新解读,内容很长,知识很多,十二分建议阅读原文。2017 年,Vaswani 等人发表的 《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制,这是 Transformers 区别于传统架构的创新之处,在其卓越的实用性能中发挥了重要作用。事实上,这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂,同时在大语言模型的出现中也起到了关键作用。因此,了解

AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型

创建逼真的动态虚拟角色,要么在训练期间需要准确的 3D 配准,要么在测试期间需要密集的输入图像,有时则两者都需要,也许 D3GA 是你需要的。在 19 世纪,印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行,其特点是以「短小的、断断续续的笔触,几乎不传达形式」为特征,就是后来的印象派。简单来说印象派笔触未经修饰而显见,不追求形式的精准,模糊的也合理,其将光与色的科学观念引入到绘画之中,革新了传统固有色观念。在 D3GA 中,作者的目标反其道而行之,是希望创建像照片般逼真的表现。在 D3GA 中,作者对高斯泼溅(G

长期主义支持青年科技人才,“科学探索奖”启动第六届申报

“科学探索奖”5周年之后再出发。作为目前国内金额最高的青年科技人才资助计划之一,第六届“科学探索奖”申报工作于2024年1月1日正式启动。2024年“科学探索奖”仍设置10个领域,包括数学物理学、化学新材料、天文和地学、生命科学、医学科学、信息电子、能源环境、先进制造、交通建筑、前沿交叉。今年仍将遴选出不超过50位获奖人,每位获奖人在5年内获得总计300万元人民币奖金,且可自由支配。“科学探索奖”是一项由新基石科学基金会出资、科学家主导的公益奖项,秉承“面向未来、奖励潜力、鼓励探索”的宗旨,聚焦基础科学和前沿技术,