应用

让机器人感知你的「Here you are」，清华团队使用百万场景打造通用人机交接

来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架，让机器人学习通用的基于视觉的人机交接策略（generalizable vision-based human-to-robot handover policies）。这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体，为人机交互提供了新的可能性。随着具身智能（Embodied AI）时代的来临，我们期待智能体能主动与环境进行交互。在这个过程中，让机器人融入人类生活环境、与人类进行交互（Human Robot Interacti

1/4/2024 2:25:00 PM

机器之心

15 组高质量春节主题 Midjourney 提示词！助你高效完成设计

大家好，我是和你们一起探索 AI 绘画的花生~ 再过 1 个多月就是农历新年了，这段时间大家设计的物料应该都离不开这个主题。所以老规矩，还是给大家整理了一组红红火火的设计类春节主题 Midjourney 提示词，包含人物、3D 元素、电商场景、背景素材等多个类型，其中还有几组 V6 模型出的图，质量相当不错，一起来看看吧~ 上期回顾：一、3D 元素 4 golden Inflatable Balloons，formed the number "2024"，in the middle of a burgundy ba

1/4/2024 8:17:49 AM

夏花生

如何用AIGC辅助年会主视觉设计？完整复盘来了！

一、项目背景本次年会于 24 年 1 月 23 日面向全体员工召开，主题为“聚变，创未来 2023 年年度荣誉盛典” ，整体年会旨在回顾总结上一年度工作，发布 24 年的工作方针；表彰 23 年战略实施过程中发挥重要作用的个人或团体，树先锋，立榜样，达到鼓舞员工的作用；同时提升员工归属感与凝聚力，激扬团队士气，为新一年度的工作奏响序曲。更多AIGC实战案例：二、业务诉求本次年会不涉及工作汇报，整体定调偏欢快、娱乐，需求方团队希望主视觉整体体现科技与活力氛围。三、设计目标本次项目由多人协作完成 3 版主

1/4/2024 8:00:43 AM

南河与参宿｜视觉设计师

腾讯高手出品！如何用 AIGC 快速完成设计用研探索？

一、前言在日新月异的互联网背景下，为了打造完整统一的设计体验和适应快速迭代的设计流程，设计师们需要不断向全栈化的体验设计师转变。随着身份的急速转变，纯交互出身或视觉出身的同学便会产生一些专业领域之外的疑问。交互同学可能会对视觉样式或动效效果等问题产生疑惑，而视觉同学则可能会对使用流程、信息架构等感到困惑。甚者，具有更高要求的设计师还需要深入探索产品的功能方向。那么，当我们对产品或设计产生疑惑时，就需要一些调研手段去帮助验证设计的可行性，这时候便需要设计用研。二、何为设计用研聊到“用研”，大家可能会困惑：设计

1/4/2024 7:50:02 AM

团队ISUX

商汤科技发布首款智能台灯“元萝卜光翼灯”，打造智能台灯3.0时代先行者

2024年1月3日，商汤科技在北京召开以“不止于光”为主题的新品发布会，宣布“元萝卜SenseRobot”家族再添新品类，隆重推出旗下智能台灯产品——元萝卜光翼灯。该产品主要面向学龄儿童，覆盖书桌学习场景，护眼标准优于国家AA级认证指标、全光谱、模仿自然光，具备Rg0豁免级防蓝光效果等优势，创新融合了领先的人工智能技术，实现AI纠正坐姿提醒、AI专注力检测、AI光随书动等特色智能功能，帮助孩子们预防近视和脊椎侧弯等健康问题，享受智能时代健康、轻松的学习成长体验。商汤科技联合创始人、元萝卜总裁马堃在发布会上表示，“商

1/3/2024 9:52:00 PM

李亚洲

数智上海 2023 峰会 | 通用、垂直、AI Agent，大模型是如何拥抱千行百业应用场景的？

由于通用大模型的泛化特性，它很难在落地行业场景中精准满足用户需求。让通用大模型学习行业知识和行业语料成为行业大模型，再进一步学习业务知识和专业领域工具演进为场景大模型，是当前大模型落地应用的关键路径。未来，AI Agent 的产品形式被越来越多地认为是大模型的进化方向，是赋能各行各业的高效生产力工具。通用大模型性能如何保障？如何架构行业垂直大模型？AI Agent 落地前景？数智上海 2023 峰会上，最具代表性的产学一线嘉宾围绕大模型演进过程，带来了前沿分享。以「智能创新赋能产业数字化转型」为主题，数智上海 20

1/3/2024 6:37:00 PM

新闻助手

AAAI 2024 Fellow公布，清华大学朱军教授入选

朱军教授加入了人工智能「名人堂」。AAAI（Association for the Advancement of Artificial Intelligence）是国际人工智能领域最权威的学术组织之一，Fellow 是该学会给予会员的最高荣誉，仅颁给对人工智能做出「非同寻常的卓越贡献者」，而且评价时间以十年计。由于其评判极其严格，历届 AAAI Fellow 入选者均为人工智能领域公认的著名学者，每年严格限制入选人数，因此被誉为国际人工智能领域的名人堂。今日，AAAI 公布了 2024 年度的 Fellow 评选结

1/3/2024 3:46:00 PM

机器之心

哈佛校长辞职：被指学术不端，史上在位时间最短

学术抄袭丑闻已经严重影响了学校的运转。哈佛大学和美国高等教育界，近期面临着前所未有的挑战和不断升级的争议。本周二，哈佛大学校长克洛迪娜・盖伊（Claudine Gay）发表声明，宣布辞去哈佛大学校长一职。盖伊于去年 7 月起出任哈佛大学校长，最终任期仅 6 个月零两天，是哈佛大学历史上任职时间最短的校长。去年，盖伊的任命被视为哈佛大学的突破性时刻。她不仅是首位黑人校长和第二位女性校长，更以海地移民的女儿和政府中少数群体代表专家的身份，在美国最高法院驳回了哈佛大学等高校歧视种族的招生的标志性时刻走马上任。盖伊的倒台部

1/3/2024 3:40:00 PM

机器之心

骁龙888实时运行，美团、浙大等打造全流程移动端多模态大模型MobileVLM

大模型涌向移动端的浪潮愈演愈烈，终于有人把多模态大模型也搬到了移动端上。近日，美团、浙大等推出了能够在移动端部署的多模态大模型，包含了 LLM 基座训练、SFT、VLM 全流程。也许不久的将来，每个人都能方便、快捷、低成本的拥有属于自己的大模型。MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术，包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型，以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中

1/3/2024 3:33:00 PM

机器之心

第一波！2024年1月精选实用设计工具合集

大家好，这是进入 2024 年之后的第一波干货合集！这次的干货合集还是以 AI 相关的设计干货开头，这次有了在本地无限制帮你清理图片中元素的 AI 工具，有知名免费图库出品的实时 AI 图片生成工具、将截图直接转化为代码的超强工具，还有斯坦福教授出品的 AI 导航，结尾还额外添加了2款实用的工具，一个是免费的样机工具，还有一个免费的 APP 图标和 LOGO 生成工具。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、基于 AI 的本地智能图片清理工具 Cleaner 是

1/3/2024 8:05:30 AM

陈子木

如何用 AIGC 快速生成电商主图？来看阿里实战案例！

数字化时代，人工智能的发展为设计师们带来了全新的创作方式和工具。商业广告的设计需要准确地传递品牌的价值和理念，而 AI 生成设计可以通过强大的算法和深度学习，快速生成符合品牌形象和目标受众的广告设计。产品摄影需要展示产品的外观和特点，AI 可以通过图像分析和处理，自动生成令人惊艳的视觉效果。电商主图的设计需要吸引消费者的点击和购买，通过生成则可更快速精准高效的满足场景化设计要求。商品场景图作为电商类产品核心透出起到重要的作用，在药电商场景图实践过程中，探索如何通过 TVC 等精细商业广告到产品摄影原理再到商品场景

1/3/2024 7:03:34 AM

团队阿里健康设计

百度大模型这一年：文心一言国内首个用户破亿，飞桨开发者超千万

2023 年，AI 大模型的最后一波突破来了。文心一言用户规模破 1 亿，飞桨的开发者数量达到 1070 万。只用短短两个月，文心大模型 4.0 整体效果又提升了 32%。2023 年 12 月 28 日，在刚刚过去的 WAVE SUMMIT 2023 深度学习开发者大会上，百度揭幕了文心大模型与深度学习平台飞桨的一系列新进展。在大会现场，百度的演示呈现了基于大模型进行 AI 原生应用开发的新方法和新思路。想开发一个 AI 原生应用，一行代码也不需要：基于星河社区大模型工具中心「多工具智能编排」开发模式，我们可以

1/2/2024 3:47:00 PM

机器之心

「唤醒」NPC，这家融资过亿的国内创企在做一种很新的游戏

每次进入游戏，NPC 都说着不一样的台词，这将是一个怎样的世界？在众多游戏类型中，开放世界游戏是非常受欢迎的一种，因为它允许玩家在一个引人入胜的虚拟世界中漫游，自由地去体验丰富的故事情节，同时完成一些复杂的支线、主线任务。这极大地满足了人的好奇心和探索欲。《荒野大镖客》、《GTA5》、《塞尔达传说》等大家耳熟能详的游戏都属于开放世界游戏。在这类游戏中，非玩家角色（NPC）在推动剧情进展、提供任务与服务以及增强游戏的沉浸感和真实性方面发挥着至关重要的作用。不过，这些 NPC 的台词和行为模式往往是预先编写和固定的，所

1/2/2024 3:41:00 PM

机器之心

文生视频下一站，Meta已经开始视频生视频了

文本指导的视频到视频（V2V）合成在各个领域具有广泛的应用，例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像（I2I）的合成方式，但在视频到视频（V2V）合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间产生像素闪烁。为了解决这个问题，来自得州大学奥斯汀分校、Meta GenAI 的研究者提出了一种新的 V2V 合成框架 ——FlowVid，联合利用了源视频中的空间条件和时间光流线索（clue）。给定输入视频和文本 prompt，FlowVid 就可以合成时间一致的视

1/2/2024 3:36:00 PM

机器之心

给3D资产生成高清纹理，腾讯让AI扩充游戏皮肤

近日，腾讯宣布推出一项名为 Paint3D 的技术，它能够根据文本或图像输入，为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图，对任何 3D 物体进行纹理绘制。效果演示视频相关技术论文已经公开。项目主页：：: ，这项技术主要解决的挑战是如何生成没有内嵌光照信息的高质量纹理，使得生成的纹理能够被重新照明或重新编辑，直接应用于现有的渲染管道。Paint3D 通过引入预训练 2D 图像生成模型来获取文字和图像输入的引导能力，从不同的提示中概括出丰富且高质量的纹理。在此基础上，Paint3D 利用 3D 数据高

1/2/2024 3:27:00 PM

机器之心

大模型幻觉问题无解？理论证明校准的LM必然会出现幻觉

理论证明！校准的语言模型必然出现幻觉。大型语言模型（LLM）虽然在诸多下游任务上展现出卓越的能力，但其实际应用还存在一些问题。其中，LLM 的「幻觉（hallucination）」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来，研究人员一直在努力分析和缓解幻觉问题，该问题让 LLM 很难广泛应用。现在，一项新研究得出结论：「经过校准的语言模型必然会出现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh

1/2/2024 3:19:00 PM

机器之心

美图视觉大模型MiracleVision（奇想智能）将向公众开放

1月2日，美图公司宣布自研AI视觉大模型MiracleVision(奇想智能)通过《生成式人工智能服务管理暂行办法》备案，将面向公众开放。美图自研视觉大模型也是目前福建省唯一通过备案的大模型。美图AI视觉大模型MiracleVision(奇想智能)于2023年6月进行内测，研发之初，美图将其定义为“懂美学”的视觉大模型，搭建了基于机器学习的美学评估系统，并邀请艺术家、设计师等专业人士参与到大模型的训练中。MiracleVision(奇想智能)具备强大的视觉表现力和创作力，为美图秀秀、美颜相机、Wink、美图设计室、

1/2/2024 3:15:00 PM

新闻助手

AI研究也能借鉴印象派？这些栩栩如生的人竟然是3D模型

创建逼真的动态虚拟角色，要么在训练期间需要准确的 3D 配准，要么在测试期间需要密集的输入图像，有时则两者都需要，也许 D3GA 是你需要的。在 19 世纪，印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行，其特点是以「短小的、断断续续的笔触，几乎不传达形式」为特征，就是后来的印象派。简单来说印象派笔触未经修饰而显见，不追求形式的精准，模糊的也合理，其将光与色的科学观念引入到绘画之中，革新了传统固有色观念。在 D3GA 中，作者的目标反其道而行之，是希望创建像照片般逼真的表现。在 D3GA 中，作者对高斯泼溅（G

1/2/2024 2:49:00 PM

机器之心

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片从浏览到交互：DroidRun凭借自我修复机制，打造智能手机自动化标杆 OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达人形机器人 Transformer 百度 AI视频苹果深度学习模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型