应用

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

「能不能把这张图里的产品，都放到另一张图的桌子上？」面对这样的要求，设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单，想要做到无缝接入，贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里，它们根据你的指令自动摆好姿势、站位的「魔法」呢？来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品，只需要一张照片，就能被传送到另一张图片的世界中。论文链接：：，想让这只柯基按照涂鸦的姿势，在墙角站卧坐躺，没有问题。让哆啦 A

12/21/2023 2:37:00 PM

机器之心

只需一张图片、一句动作指令，Animate124轻松生成3D视频

Animate124，轻松将单张图片变成 3D 视频。近一年来，DreamFusion 引领了一个新潮流，即 3D 静态物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步，逐渐融入单视角图像，进而发展到整合多种控制信号。与此相较，3D 动态场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试基于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。然而，现

12/21/2023 2:28:00 PM

机器之心

“数智说”金融科技与数实融合论坛成功举办

为了进一步加强现代金融机构和金融基础设施建设，推动金融更好地服务实体经济和科技创新，12 月 16 日，数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表，共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导，上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办，中国联合网络通信有限公司上海市分公司联合主办，机器之心（上海）科技

12/20/2023 6:28:00 PM

新闻助手

4090成A100平替？上交大推出推理引擎PowerInfer，token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队，刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址：：？在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上，PowerInfer 对比 llama.cpp 实现了 11 倍加速！PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU

12/20/2023 6:01:00 PM

机器之心

大模型+搜索构建完整技术栈，百川智能用搜索增强给企业定制化下了一剂「猛药」

用好企业知识库是大模型应用破局的关键。从 ChatGPT 最初发布算起，虽然大模型的热潮已经持续了一年多，但大部分时间依然停留在学术前沿和技术创新层面，深入具体场景实现产业价值的案例并不多见。实际落地的种种挑战最终指向一个方向：行业知识。面对各行各业的垂直场景，依靠网络公开信息和知识预训练的通用模型很难搞定准确性、稳定性、性价比等问题。如果在外部实时信息搜索之余辅以强大的专门的企业知识库，让模型对行业知识的理解大大增强，效果自然更好。这就好比我们熟悉的「开卷考试」模式，人类大脑的「内存容量」越强越好，但终归有上限，

12/20/2023 3:40:00 PM

机器之心

卷生成式AI的旗舰手机，2024年会引发一场交互革命

生成式 AI 已经改变了我们的交互形态。最近，各家手机厂商都在不约而同地做着一件事：把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上，小米放出消息，能在手机端侧运行的 60 亿参数大模型。他们提出的 AI 模型搭载在新一代手机系统中，可以回答人们提出的各种复杂问题，帮你生成文章、表格，或是帮你写代码。荣耀提前展示了下一代旗舰机 Magic 6 的生成式 AI 能力，在手机上通过自然语言发出指令，你就能让 AI 去找你拍摄的素材，寻找合适的部分整合成一段视频。随后在 11 月份，vivo、OPPO 等厂商发布

12/20/2023 3:36:00 PM

机器之心

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：革命性技术

蒙娜丽莎打哈欠，小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二，谷歌提出的视频生成大模型上线，立刻获得了人们的关注。这款名为 VideoPoet 的大语言模型，被人们认为是革命性的 zero-shot 视频生成工具。VideoPoet 既可以文生视频、图像生视频，又能风格迁移，视频转语音。从效果上看，它可以构建多样化且流畅的运动。消息一出，有很多人表示欢迎：看看目前的几个成品效果不错，大模型技术发展的速度也太快了。有人对于

12/20/2023 3:33:00 PM

机器之心

霉霉演唱《稻香》，国内团队的Amphion音频生成火了

香港中文大学（深圳）数据科学学院武执政副教授团队联合上海人工智能实验室 OpenMMLab 团队开源了综合音频生成项目 Amphion（安菲翁）。该系统旨在打造一个集语音合成转换、歌声合成转换、音效音乐生成等多功能为一体的开源平台。截至目前，Amphion 已经多次进入 GitHub Trending Repositories 榜单。2022 年被称为 AIGC 元年，ChatGPT、Stable Diffusion、MidJourney 为代表的文字、图像应用带火了 AI 领域。2023 年，AI 孙燕姿、AI

12/20/2023 3:24:00 PM

机器之心

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

谷歌的 Gemini 到底几斤几两？和 OpenAI 的 GPT 模型相比表现如何？CMU 这篇论文测明白了。前段时间，谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra（能力最强）、Pro 和 Nano。研究团队公布的测试结果显示，Ultra 版本在许多任务中优于 GPT4，而 Pro 版本与 GPT-3.5 不相上下。尽管这些对比结果对大型语言模型研究具有重要意义，但由于确切的评估细节和模型预测尚未公开，这限制了对测试结果的复现、检测，难以进一步分析其隐含

12/20/2023 3:11:00 PM

机器之心

为AI加速而生：英特尔的至强，现在能跑200亿参数大模型了

实用化 AI 算力又升上了一个新台阶。

12/20/2023 2:33:00 PM

机器之心

有史以来最高互作强度，华盛顿大学David Baker团队用AI工具产生具有非凡结合强度的蛋白质

编辑 | 萝卜皮多肽的研究对于药物开发、疾病检测和环境监测具有重大意义。许多肽激素在结合其受体后形成 α 螺旋，对其敏感的检测方法可能有助于更好的疾病临床管理。从头蛋白质设计现在可以生成对结构化蛋白质具有高亲和力和特异性的结合物。然而，蛋白质和具有螺旋倾向的短肽之间的相互作用的设计是一个尚未解决的挑战。华盛顿大学医学院蛋白质设计研究所的科学家们人工智能驱动的生物技术来应对这些挑战。他们使用人工智能软件创建了蛋白质分子，这些蛋白质分子以极高的亲和力和特异性与各种具有挑战性的生物标志物（包括人类激素）结合。值得注意的是

12/20/2023 2:20:00 PM

ScienceAI

Open AI 总裁出品的斯坦福创业课，万字精华知识点全在这！

本期带来的是我个人 mark 了很久的内容，在 ChatGPT 爆火时有不少人关注，但真正愿意花时间去看 20 节课的人不多，因此我将这 20 节课的内容进行了深度提取和整理，希望大家喜欢～更多写给设计师的创业心得：前言 Open AI 带火了 Sam Altman 此前在斯坦福商学院的创业课程《How to Start a Startup》，课程录制彼时 Sam 正在担任 YC（著名投资公司，初创公司孵化器）总裁。该课程邀请演讲的嘉宾也非常重量级，包括：YC、网景公司、Paypal、Stripe、Airbnb、

12/20/2023 12:11:54 AM

Bay的设计奥德赛

囊括LLM与AI4SCI两大前沿主题的MindSpore嘉年华再启，静待多模态勇士问鼎华为Mate60大奖

MindCon 极客周是昇思 MindSpore 开源社区每半年举办一次的开发者狂欢盛会，旨在引领兴趣者们走入 AI 探索的世界。自 2020 年 12 月首届举办至今，每年都会与昇思 MindSpore 开源社区的开发者相聚，如今正式迎来第五届，回首第一届 MindCon 极客周时，昇思 MindSpore AI 框架刚刚开源半年，凭借热爱我们带领社区开发者从 0 到 1 参与开源贡献，也正式开启了众多热爱开源开发者的封神之路！随后三届赛事中，我们又收获了更多开源爱好者一起修复社区 Bugfix，贡献开源社区，分

12/19/2023 6:24:00 PM

机器之心

word2vec作者爆料：seq2seq是我的想法、GloVe抄袭技巧，反击来了

Tomas Mikolov 这篇爆料满满的文章，里面涉及的研究人员已经开始回击了。随着 NeurIPS 2023 获奖论文的公布，十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Compositionality」由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 撰写。不

12/19/2023 6:10:00 PM

机器之心

万人试用AI新应用：真人视频转动漫、像素风，从未如此丝滑

视频的次元壁就这么被打破了。在 AI 的加持下，一张照片可以千变万化，其实视频也能。这是新 AI 应用 DomoAI 公布的一些 demo：只需要给 AI 一些原始视频，它就可以帮你把视频改成你想要的风格，比如动漫风、像素风或者 3D 卡通风格。这一应用在 X 平台上引起了很多人的关注。因此，除了官方 demo，我们还能看到很多网友晒出的作品。图源：《瞬息全宇宙》电影片段进行尝试的网友表示，DomoAI 的生成结果「超级干净、稳定且令人印象深刻！」其他网友用更多视频素材进行了尝试，结果同样非常惊艳。图源：： dem

12/19/2023 6:01:00 PM

机器之心

Adobe终止200亿美元收购Figma计划：监管阻力难克服

「收购可以，请出售核心业务。」2022 年 9 月，行业巨头 Adobe 宣布将以高达 200 亿美元的价格收购知名 UI 和 UX 设计工具套件制造商 Figma。消息一出，设计圈迅速给出大量负面反应。设计师们最担心的似乎是 Adobe 会毁掉甚至终止 Figma 的产品。还有人推测 Adobe 会以半途而废的方式将 Figma 的产品想法集成到 Adobe 自己的产品中。毕竟，Figma 提供高级功能，允许整个团队从任何设备跨平台协同工作，是 Adobe 的 UX/UI 设计应用程序 Adobe XD 的最强竞

12/19/2023 5:48:00 PM

机器之心

人工智能为新药铺平道路：几何深度学习方法可以预测合成药物分子的最佳方案

编辑 | 萝卜皮后期功能化是优化候选药物特性的一种经济方法。然而，药物分子的化学复杂性往往使得后期多样化具有挑战性。为了解决这个问题，德国慕尼黑大学（Ludwig-Maximilians-Universität München）、苏黎世联邦理工学院（ETH Zurich）和巴塞尔罗氏制药（Roche Innovation Center Basel）的研究人员开发了基于几何深度学习和高通量反应筛选的后期功能化平台。考虑到硼基化是后期功能化的关键步骤，计算模型预测了不同反应条件下的反应产率，平均绝对误差范围为 4-5%

12/19/2023 4:00:00 PM

ScienceAI

GPT-5、AlphaFold新版等AI工具值得期待，Nature发布2024年值得关注的科学事件

编辑 | X12 月 18 日，《Nature》发布了 2024 年值得关注的科学事件。值得一提的是，12 月 13 日，《Nature》刚刚发布了 2023 年度十大人物（Nature’s 10），旨在评选出为科学领域做出重要贡献并引起人们对关键问题关注的个人。其中大型语言模型（LLM）ChatGPT，这是有史以来第一次「计算机程序」入选。毋庸置疑，与 2023 年相呼应，包括 ChatGPT 在内的 AI 工具也成为 2024 年值得关注的科学事件。AI 的进步ChatGPT 的兴起对今年的科学界产生了深远的影

12/19/2023 3:47:00 PM

ScienceAI

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片从浏览到交互：DroidRun凭借自我修复机制，打造智能手机自动化标杆 OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达人形机器人 Transformer 百度 AI视频苹果深度学习模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型