资讯列表

谷歌Gemini技术报告出炉,作者多达900余人

从此以后,Google Scholar 数据该出问题了。备受期待的谷歌 Gemini 技术报告完整版,今天终于出炉了。两周前,人们兴奋于谷歌提出的「原生多模态大模型」Gemini,其宣称超越 GPT-4 的强大性能,以及对于图像、视频等领域的理解能力让人们似乎看到了未来。不过由于谷歌演示的 demo 涉嫌夸大效果,Gemini 又很快陷入了争议。但作为生成式 AI 领域最近的重要进展,人们对于 Gemini 的期待越来越高,有团队很快进行研究发了测试论文。今天发布的 64 页技术报告,或许可以为我们的许多疑惑进行更

再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」

「能不能把这张图里的产品,都放到另一张图的桌子上?」面对这样的要求,设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单,想要做到无缝接入,贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里,它们根据你的指令自动摆好姿势、站位的「魔法」呢?来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只需要一张照片,就能被传送到另一张图片的世界中。论文链接::,想让这只柯基按照涂鸦的姿势,在墙角站卧坐躺,没有问题。让哆啦 A

只需一张图片、一句动作指令,Animate124轻松生成3D视频

Animate124,轻松将单张图片变成 3D 视频。近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合多种控制信号。与此相较,3D 动态场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试基于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。然而,现

阿里云首创PilotScope新技术,为AI4DB应用提速

12月20日,数据库国际顶会VLDB2024公布新一批论文,阿里云新技术PilotScope成功入围,该平台技术可实现AI算法在数据库的“一键部署”,极大降低数据库中AI算法的应用门槛,为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。图说:数据库顶会VLDB2024数据库是事关国计民生的基础软件技术,数据库技术的更新影响着数字时代的千行百业,其中一个前沿领域即是数据库智能化(AI4DB,AI for Database)。现在的数据库系统非常复杂,对稳定性要求极高,即便将单一AI算

“数智说”金融科技与数实融合论坛成功举办

为了进一步加强现代金融机构和金融基础设施建设,推动金融更好地服务实体经济和科技创新,12 月 16 日,数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表,共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

大模型+搜索构建完整技术栈,百川智能用搜索增强给企业定制化下了一剂「猛药」

用好企业知识库是大模型应用破局的关键。从 ChatGPT 最初发布算起,虽然大模型的热潮已经持续了一年多,但大部分时间依然停留在学术前沿和技术创新层面,深入具体场景实现产业价值的案例并不多见。实际落地的种种挑战最终指向一个方向:行业知识。面对各行各业的垂直场景,依靠网络公开信息和知识预训练的通用模型很难搞定准确性、稳定性、性价比等问题。如果在外部实时信息搜索之余辅以强大的专门的企业知识库,让模型对行业知识的理解大大增强,效果自然更好。这就好比我们熟悉的「开卷考试」模式,人类大脑的「内存容量」越强越好,但终归有上限,

卷生成式AI的旗舰手机,2024年会引发一场交互革命

生成式 AI 已经改变了我们的交互形态。最近,各家手机厂商都在不约而同地做着一件事:把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上,小米放出消息,能在手机端侧运行的 60 亿参数大模型。他们提出的 AI 模型搭载在新一代手机系统中,可以回答人们提出的各种复杂问题,帮你生成文章、表格,或是帮你写代码。荣耀提前展示了下一代旗舰机 Magic 6 的生成式 AI 能力,在手机上通过自然语言发出指令,你就能让 AI 去找你拍摄的素材,寻找合适的部分整合成一段视频。随后在 11 月份,vivo、OPPO 等厂商发布

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型,被人们认为是革命性的 zero-shot 视频生成工具。VideoPoet 既可以文生视频、图像生视频,又能风格迁移,视频转语音。从效果上看,它可以构建多样化且流畅的运动。消息一出,有很多人表示欢迎:看看目前的几个成品效果不错,大模型技术发展的速度也太快了。有人对于

霉霉演唱《稻香》,国内团队的Amphion音频生成火了

香港中文大学(深圳)数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion(安菲翁)。该系统旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的开源平台。截至目前,Amphion 已经多次进入 GitHub Trending Repositories 榜单。2022 年被称为 AIGC 元年,ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年,AI 孙燕姿、AI

摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo

谷歌的 Gemini 到底几斤几两?和 OpenAI 的 GPT 模型相比表现如何?CMU 这篇论文测明白了。前段时间,谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra(能力最强)、Pro 和 Nano。研究团队公布的测试结果显示,Ultra 版本在许多任务中优于 GPT4,而 Pro 版本与 GPT-3.5 不相上下。尽管这些对比结果对大型语言模型研究具有重要意义,但由于确切的评估细节和模型预测尚未公开,这限制了对测试结果的复现、检测,难以进一步分析其隐含

NeurIPS 2023 Spotlight | 腾讯AI Lab绝悟新突破:在星际2灵活策略应对职业选手

近日,腾讯 AI Lab 的游戏 AI 团队宣布了其决策智能 AI "绝悟" 在《星际争霸 2》中的最新研究进展,提出一种创新的训练方法显著提升了 AI 的局内策略应变能力,使其在考虑了 APM 公平的对战环境中,与 3 位国内顶尖的神族职业选手各进行多达 20 局神族 vs 神族的对战,稳定地保持 50% 及以上的胜率。该成果已获 NeurIPS 2023 Spotlight 论文收录。实时策略游戏(RTS)以其复杂的游戏环境更贴近现实世界,一直是 AI 研究的焦点和挑战所在。《星际争霸 2》作为其中极具代表性的

西南交大杨燕/江永全团队:基于双任务的端到端图至序列无模板反应预测模型

排版 | X本文介绍西南交通大学杨燕/江永全团队发表于《Applied Intelligence》的研究成果,第一作者是硕士生胡昊哲。论文链接::(Graph-to-Sequence)模型框架为基础,进一步在同参数量规模下尝试构建一类在单个模型中同时解决逆合成预测与正向反应预测任务的模型 BiG2S(Bidirectional Graph-to-Sequence)。同时,作者初步分析了模型在主流逆合成数据集 USPTO-50k 上训练时不同 SMILES 片段的预测难度差异以及模型在训练期间对验证集数据 Top-k

为AI加速而生:英特尔的至强,现在能跑200亿参数大模型了

实用化 AI 算力又升上了一个新台阶。

有史以来最高互作强度,华盛顿大学David Baker团队用AI工具产生具有非凡结合强度的蛋白质

编辑 | 萝卜皮多肽的研究对于药物开发、疾病检测和环境监测具有重大意义。许多肽激素在结合其受体后形成 α 螺旋,对其敏感的检测方法可能有助于更好的疾病临床管理。从头蛋白质设计现在可以生成对结构化蛋白质具有高亲和力和特异性的结合物。然而,蛋白质和具有螺旋倾向的短肽之间的相互作用的设计是一个尚未解决的挑战。华盛顿大学医学院蛋白质设计研究所的科学家们人工智能驱动的生物技术来应对这些挑战。他们使用人工智能软件创建了蛋白质分子,这些蛋白质分子以极高的亲和力和特异性与各种具有挑战性的生物标志物(包括人类激素)结合。值得注意的是

Open AI 总裁出品的斯坦福创业课,万字精华知识点全在这!

本期带来的是我个人 mark 了很久的内容,在 ChatGPT 爆火时有不少人关注,但真正愿意花时间去看 20 节课的人不多,因此我将这 20 节课的内容进行了深度提取和整理,希望大家喜欢~ 更多写给设计师的创业心得:前言 Open AI 带火了 Sam Altman 此前在斯坦福商学院的创业课程《How to Start a Startup》,课程录制彼时 Sam 正在担任 YC(著名投资公司,初创公司孵化器)总裁。该课程邀请演讲的嘉宾也非常重量级,包括:YC、网景公司、Paypal、Stripe、Airbnb、

囊括LLM与AI4SCI两大前沿主题的MindSpore嘉年华再启,静待多模态勇士问鼎华为Mate60大奖

MindCon 极客周是昇思 MindSpore 开源社区每半年举办一次的开发者狂欢盛会,旨在引领兴趣者们走入 AI 探索的世界。自 2020 年 12 月首届举办至今,每年都会与昇思 MindSpore 开源社区的开发者相聚,如今正式迎来第五届,回首第一届 MindCon 极客周时,昇思 MindSpore AI 框架刚刚开源半年,凭借热爱我们带领社区开发者从 0 到 1 参与开源贡献,也正式开启了众多热爱开源开发者的封神之路!随后三届赛事中,我们又收获了更多开源爱好者一起修复社区 Bugfix,贡献开源社区,分

word2vec作者爆料:seq2seq是我的想法、GloVe抄袭技巧,反击来了

Tomas Mikolov 这篇爆料满满的文章,里面涉及的研究人员已经开始回击了。随着 NeurIPS 2023 获奖论文的公布,十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Compositionality」由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 撰写。不