应用

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

还在苦苦寻找开源的机器人大模型？试试RoboFlamingo！近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

1/17/2024 2:37:00 PM

机器之心

Stable Diffusion ComfyUI 基础教程（七）如何使用三大微调模型：Embeddings、Lora、Hypernetwork

前言：在我们绘图过程中我们用到了 Checkpoint 模型和 VAE 模型，但是还有另外三种可以辅助我们出图的模型没有给大家介绍，他们分别是 Embeddings（嵌入）、Lora（低秩适应模型）、Hypernetwork（超网络）这三种模型；在开始讲解这三个模型之前我们一定要记住不止 Checkpoint（大模型）分 SD1.4、SD1.5、SDXL1.0 等基础算法型号，这三个模型同样也分，我们在使用时要选择对应基础算法型号才能正常使用。今天我们就讲讲这三种模型分别是什么原理、有什么作用和怎么使用。

1/17/2024 8:16:46 AM

搞设计的花生仁

上海人工智能实验室团队开发具有多核光纤单元旋转功能的AI驱动投影断层扫描

编辑 | 白菜叶光学断层扫描已成为一种非侵入性成像方法，可提供对亚细胞结构的三维洞察，从而能够更深入地了解细胞功能、相互作用和过程。传统的光学断层扫描方法受到有限的照明扫描范围的限制，导致分辨率各向异性和细胞结构的不完整成像。为了克服这个问题，上海人工智能实验室、德国德累斯顿工业大学（Technische Universität Dresden）以及马克斯·普朗克学会（Max Planck Society）的研究人员采用了紧凑的多核光纤细胞旋转器系统，该系统有助于对微流控芯片内的细胞进行精确的光学操纵，从而实现具有

1/16/2024 6:51:00 PM

ScienceAI

在24项场景中优于人类医生，Google团队开发基于自博弈的诊断对话大模型

编辑 | 白菜叶医学的核心在于医患对话，熟练的病史采集为准确的诊断、有效的管理和持久的信任铺平了道路。能够进行诊断对话的人工智能（AI）系统可以提高护理的可及性、一致性和质量。然而，学习临床医生的专业知识是一个巨大的挑战。Google Research 和 Google DeepMind 的 AI 团队开发了 AMIE（Articulate Medical Intelligence Explorer），这是一种基于大型语言模型（LLM）的人工智能系统，针对诊断对话进行了优化。AMIE 使用一种新颖的基于自博弈（se

1/16/2024 6:44:00 PM

ScienceAI

全球最长开源！元象开源大模型XVERSE-Long-256K，无条件免费商用！

元象发布全球首个上下文窗口长度256K的开源大模型XVERSE-Long-256K，支持输入25万汉字，让大模型应用进入“长文本时代”。该模型全开源，无条件免费商用，且附带手把手训练教程，让海量中小企业、研究者和开发者更早一步实现“大模型自由”。全球主流长文本大模型图谱参数量和高质量数据量决定了大模型的计算复杂度，而长文本技术（Long Context）是大模型应用发展“杀手锏”，因技术新、研发难度高，目前多为闭源付费提供。 XVERSE-Long-256K支持超长文本输入，可用于大规模数据分析、多文档阅读理解

1/16/2024 3:52:00 PM

李亚洲

微软Copilot大会员来了：每月20刀，人人都能用

覆盖 Office 全家桶，免费的移动版 App 也同期上线。去年 9 月，微软宣布了大模型 Copilot 能力加入 Office 和 Windows 11 的新计划。今天，该能力终于覆盖到了全体用户。1 月 15 日，微软正式发布 Copilot Pro，其每月订阅费用为 20 美元，可解锁访问 Word、Excel 和 PowerPoint 等 Office 常用办公软件中的大模型能力，同时优先访问最新的 OpenAI 模型。在其之上，你也可以基于需求构建起属于自己的 Copilot GPT。Copilot

1/16/2024 2:55:00 PM

机器之心

Yann LeCun发来肯定：腾讯人像照片生成可以随便玩了

AI 帮你成为百变星君。这一次，Yann LeCun 首次跻身「百变大咖」。身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你，一身古装在故宫门前打卡留念……就连本人也出来转发并喊话，「左下角这幅文艺复兴时期的画，是我的最爱。」性感女神寡姐身穿紫色巫师服注视着远方，还可以戴着圣诞帽和你对视：身穿太空服的奥特曼看起来萌萌的，把头发染成红色也毫无违和感上述研究便是来自南开大学、腾讯等机构提出 PhotoMaker，这是一种高效的个性化文本到图像生成方法。相关论文《PhotoMaker：Customizing Reali

1/16/2024 2:51:00 PM

机器之心

开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了

又有新的开源模型可以用了。从 Llama、Llama 2 到 Mixtral 8x7B，开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5，因此它也被认为是一种「非常接近 GPT-4」的开源选项。在前段时间的一篇论文中，该模型背后的公司 Mistral AI 公布了 Mixtral 8x7B 的一些技术细节，并推出了 Mixtral 8x7B – Instruct 聊天模型。该模型性能在人类评估基准上明显超过了 GPT-3.5 Tur

1/16/2024 2:44:00 PM

机器之心

微软TaskWeaver开源框架：携手数据分析与行业定制，打造顶级Agent解决方案

数据分析一直是现代社会中的重要工具，它帮助我们洞察本质、发现规律并指导决策。然而，数据分析过程往往复杂且费时，因此我们期望存在一个智能助手助力用户直接 “与数据对话 “。得益于大语言模型（LLM）的发展，虚拟助手和 Copilot 等智能 Agent 纷纷涌现，它们在自然语言理解和生成方面的表现令人叹为观止。但遗憾的是，在处理复杂数据结构（如 DataFrame, ndarray 等）和引入领域知识方面，现有的 Agent 框架仍然举步维艰，而这恰恰是数据分析和专业领域中的核心需求。为了突破这一瓶颈，微软推出了 T

1/16/2024 2:38:00 PM

机器之心

第三波！2024年1月精选实用设计工具合集

大家好，这是 2024 年 1 月的第三波干货合集！这一期干货合集打头的一个免费的在线 AI 壁纸生成工具，之后是字体海报灵感设计网站和类似 Pinterest 的在线灵感搜集网站，此外还有无代码网站设计和生成工具 ReadyMag 以及特别有自己一套风格的免费图库 KaboomPics ，最后是一组免费矢量涂鸦素材。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、在线 AI 壁纸生成工具 AI 大模型到底是哪个，但是总体上来看有很大概率是一个基于 Stable Dif

1/16/2024 7:01:33 AM

陈子木

龙年春节专题！7 款高质量 Stable Diffusion WebUI 模型推荐

大家好我是花生~ 上次推荐了 15 组春节主题的 Midjourney 提示词，不知道大家用起来了没有？今天继续推荐 7 款龙年春节主题的 Stable Diffusion 模型，在 WebUI 或 ComyfyUI 可以用它们免费出图，还可以结合控制插件 ControlNet 让生成的图像更符合设计需求。相关推荐：一、年货街 | 新年电商营销场景这是一个专门生成电商年货促销场景的 Lora，以中式建筑街道为画面主元素，整体的 3D 质感非常不错，很适合作为 Banner 或者长图的背景素材。 1. 模型网址

1/16/2024 5:26:58 AM

夏花生

完蛋，CES 2024被机器人包围了

机器之能报道编辑：佳琪2024 年国际消费电子展（CES）这一科技界的风向标活动刚刚落幕。作为全球备受瞩目的科技盛会，CES 吸引了来自 150 多个国家和地区的 4000 多家尖端科技企业。各家品牌纷纷秀出了最先进的技术和产品。英伟达的 AI PC 布局、英特尔最新的第 14 代处理器、发布 3 天即售罄 3 万台的 Rabbit R1...... 今年的 CES 见证了亿点点新变革的发生。超过 13 万名参会者亲临现场，体验了一把「黑科技照进现实」的震撼。在 CES 的展厅里，机器人总是最引人注目的焦点，其中有

1/15/2024 5:46:00 PM

机器之能

我们是怎么一步步被Hugging Face收购的：开源库Gradio构建者分享背后故事

Gradio CEO 兼联合创始人 Abubakar Abid 谈了谈 Gradio 被收购的内幕故事。不知大家是否还记得 2021 年年末，Hugging Face 宣布收购 Gradio 一事。两年过去了，Gradio 是如何成长起来的，又是如何被收购的，Gradio CEO 兼联合创始人 Abubakar Abid 说出了一些内幕故事。图源：是一个开源的 Python 库，可让你快速为机器学习模型、API 或任意 Python 函数构建演示或 Web 应用程序。只需几行代码，就可以让你的机器学习模型从抽象晦

1/15/2024 4:30:00 PM

机器之心

央企第一家：中国电信开源星辰语义大模型，共享超1T 高质基础数据

2024 年伊始，中国电信开源星辰语义大模型- 7B，成为第一家开源大模型的央企。同时开源的还有超 1T 的高质量清洗基础数据。随着新一轮科技革命和产业变革加速演进，拥抱 AI 成为中国电信当下发展的核心战略之一。2019 年，中国电信在原数据中心基础上成立大数据和 AI 中心。2023 年11 月，中国电信注资 30 亿元成「中电信人工智能科技有限公司」（以下简称中电信 AI 、 AI 团队），牵头打造中国电信 AI 核心技术。同月，中国电信发布千亿级星辰语义大模型。开源项目链接地址

1/15/2024 4:16:00 PM

机器之心

AI：你总要高清视频，它来了

以后，就算是跑着拍视频，FMA-Net也能给你处理得非常满意。Magnific 图像超分 & 增强工具还正在火热体验中，它强大的图像升频与再创能力收获一致好评。现在，视频领域也有了自己的 Magnific。拍摄的街道视频一片模糊，仿佛高度近视没戴眼镜一样：与之相比，下面的视频清晰度高了很多：视频画面两边形成鲜明的对比：左边视频已经模糊的看不清人脸，而右边视频建筑物的纹理也看得清清楚楚：行驶的汽车仿佛从一个模糊的世界穿越到高清世界：不同的方法进行比较，明显看到右下角的视频在微小的细节恢复方面更加清晰：通过上述展示，我

1/15/2024 4:12:00 PM

机器之心

Transformer的无限之路：位置编码视角下的长度外推综述

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而，Transformer 及在其基础之上的大语言模型（Large Language Models，LLMs）都不具备有效长度外推（Length Extrapolation）的能力。这意味着，受限于其训练时预设的上下文长度限制，大模型无法有效处理超过该长度限制的序列。文本续写和语言延展是人类语言的核心能力之一，与之相对的，长度外推是语言模型智能进化的重要方向，

1/15/2024 4:06:00 PM

机器之心

斯坦福Christopher Manning获2024 IEEE冯诺依曼奖，曾培养陈丹琦等多位华人学生

近日，2024 年度 IEEE 冯诺伊曼奖项结果正式公布，本年度奖项由斯坦福教授、AI 学者克里斯托弗・曼宁（Christopher Manning）获得，获奖理由为「促进自然语言计算表示和分析方面的进展」。IEEE 约翰・冯・诺依曼奖章（IEEE John von Neumann Medal）于 1990 年设立，以著名数学家、代计算机创始人之一约翰・冯・诺依曼的名字命名，旨在表扬在计算机科学和技术领域取得突出成就的科学家。约翰・冯・诺依曼在高级研究所的工作促成了 1952 年 IAS 二进制存储程序计算机的诞生

1/15/2024 11:32:00 AM

机器之心

即插即用，完美兼容：SD社区的图生视频插件I2V-Adapter来了

图像到视频生成（I2V）任务旨在将静态图像转化为动态视频，这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息，同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。近期，由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布，该研究引入了一个创新的图像到视频转换方法，提出了一种轻量级适配器模块，即

1/15/2024 11:26:00 AM

机器之心

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 MiniMax MCP Server正式上线，开启多模态AI新纪元 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达人形机器人 Transformer 百度 AI视频苹果深度学习模态 xAI 字节跳动驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练