AI资讯列表 - AI在线

Meta教你5步学会用Llama2：我见过最简单的大模型教学

本文是 Meta 官网推出的 Llama2 使用教学博客，简单 5 步教会你如何使用 Llama2。在这篇博客中，Meta 探讨了使用 Llama 2 的五个步骤，以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源，并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码，参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%，上下文长度也多一倍，并且 Llama 2 在

全网都在模仿的「科目三」，梅西、钢铁侠、二次元小姐姐马上拿下

来自阿里的研究团队提出了一种名为 Animate Anyone 的方法，只需一张人物照片，再配合骨骼动画引导，就能生成动画视频。最近一段时间，你可能或多或少的听到过「科目三」，摇花手、半崴不崴的脚，配合着节奏鲜明的音乐，这一舞蹈动作遭全网模仿。如果相似的舞蹈，让 AI 生成会怎样？就像下图所展示的，不管是现代人、还是纸片人，都做着整齐划一的动作。你可能猜不到的是，这是根据一张图片生成的舞蹈视频。人物动作难度加大，生成的视频也非常丝滑（最右边）：让梅西、钢铁侠动起来，也不在话下：还有各种动漫小姐姐。上述效果是如何做到

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

视频 PS 可以灵活到什么程度？最近，微软的一项研究提供了答案。在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的视频，而且人物的表情、动作都是可以通过文字进行控制的。比如，如果你给的指令是「张嘴」，视频中的人物就会真的张开嘴。如果你给的指令是「伤心」，她就会做出伤心的表情和头部动作。当给出指令「惊讶」，虚拟人物的抬头纹都挤到一起了。此外，你还可以给定一段语音，让虚拟人物的嘴型、动作都和语音对上。或者给定一段真人视频让虚拟人物去模仿。如果你对虚拟人物动作有更多的自定义编辑需求，比如让他们点头、转头或歪头

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

微软提出使用人手运动视频直接教机器人完成任务的新方法，这种方法使用 GPT-4V 分解视频中的动作，结合大语言模型生成对应的行为表述并作为任务列表，训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程，展示出了强大的灵活性，而且对不同机器人硬件更具适应性，并增强了系

专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域，多模态大模型已经充分展示了其卓越的性能。然而，对于工作中经常需要处理的图表理解与生成任务，现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色，但由于缺乏语言理解和输出能力，它们无法胜任更为复杂的问答任务。另一方面，基于大语言模型训练的多模态大模型的表现也不尽如人意，主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上持续进步。近期，腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集，

微软教小模型推理进阶版：Orca 2性能媲美10倍参数模型，已开源

站在巨人的肩膀上会让你看的更远，而通过让大规模语言模型来「教」较小规模的语言模型进行推理，也会是事半功倍的效果。如你我所见，像 GPT-4、PaLM 等前沿语言模型已经展现了出色的推理能力，例如回答复杂问题、生成解释，甚至解决需要多步推理的问题，这些能力曾被认为是 AI 无法达到的。这样的能力在较小的语言模型中并不明显，因此现在的挑战就是如何利用对大型语言模型不断增长的知识，进而提升较小模型的能力。之前微软研究院推出了 Orca，它是拥有 130 亿参数的语言模型，通过模仿更强大 LLM 的逐步推理过程，展现了强大

智加科技获全国首张重卡无人驾驶开放道路测试牌照

2023年12月1日，智加科技获得苏州市智能网联汽车无人化测试牌照。该牌照也是江苏省及国内首张无人重卡开放高速公路全路段全场景全息路网（S17苏台高速）道路测试牌照。该重卡无人驾驶开放道路测试牌照，经由苏州市智能网联汽车联席小组及产业专家评审决议颁出，企业可以在指定路段展开无人重卡的自动驾驶测试。此牌照的发放是苏州市大力推进智能车联网产业的重要举措，旨在为未来无人重卡的商业化运营提供有力支撑。此前，智加科技无人重卡已在中国首条满足车路协同式自动驾驶等级的全息感知智慧高速公路苏台高速S17上完成了全球首次示范运营。搭

国科大&首师大合作综述，「白盒」张量网络：增强量子机器学习的可解释性和效率

编辑 | 紫罗深度机器学习在 AI 的各个领域取得了显著的成功，但同时实现高可解释性和高效率仍然是一个严峻的挑战。张量网络（Tensor Network，TN）是一种源自量子力学的成熟数学工具，在开发高效的「白盒」机器学习方案方面显示出了其独特的优势。近日，首都师范大学的冉仕举和中国科学院大学的苏刚从量子力学中汲取灵感，综述了一种基于 TN 的创新方法，为协调深度机器学习的可解释性和效率这一长期挑战提供了一个有前景的解决方案。一方面，TN ML 的可解释性可以通过基于量子信息和多体物理的坚实理论基础来实现。另一方面

不服、愤怒....Sam Altman首次回应重返岗位经过，完善OpenAI治理结构需要时间

机器之能报道编辑：Sia在一场持续了五天的董事会政变之后，Sam Altman 昨日正式重返 OpenAI 首席执行官一职。该公司最大的投资者微软也在董事会中占有一个无投票权的席位。除了一封致全体员工的公开信，重返岗位的 Altman 还为一度因潜在利益冲突而遭外界猜疑但仍留任董事会的 Adam D'Angelo（也是 Quora CEO）进行了澄清，信任他会恪职尽责，「Quora 是 OpenAI 的大客户，董事会中有客户代表很有帮助。」甚至在社交平台上与之互动。同时，Ilya 在 OpenAI 的存在方式仍然不

IDC MarketScape2023年分布式数据库报告：OceanBase位列“领导者”类别，产品能力领先

12月1日，全球领先的IT市场研究和咨询公司IDC发布《IDC MarketScape：中国分布式关系型数据库2023年厂商评估》（Document number:# CHC50734323）。报告认为，头部厂商的优势正在扩大，OceanBase（蚂蚁集团旗下的自研原生分布式数据库）位列“领导者”类别。作为一款原生分布式数据库，OceanBase在产品能力上表现突出，处于领先地位。IDC MarketScape厂商评估模型旨在为特定市场中信息和通信技术（ICT）厂商的竞争力提供一个概述。研究方法采用严格的定性和定量

720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑

目前，通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型，以及跨语言、图像、语音等多种模态的多款开源模型。「Qwen-72B 模型将于 11 月 30 日发布。」前几天，X 平台上的一位网友发布了这样一则消息，消息来源是一段对话。他还说，「如果（新模型）像他们的 14B 模型一样，那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时，这个模型在多个权

踹不倒！国产人形机器人整活，售价不到9万美元

最近，一个人形机器人过障碍的视频火了。视频中，人形机器人顺利走过木板、圆盘形成的障碍：被踹一脚会踉跄一下，但是跌倒是不可能跌倒的：负重 30kg，行走速度有所放缓：上几节台阶再一步下来，一气呵成：加点难度，来个人往前拉、往后推，照样可以在障碍上行走自如：最后再表演个前进后退，脚下障碍一样能过：这款人形机器人是国内知名机器人公司宇树科技推出的通用人形机器人 H1。相比于 8 月发布的首个版本，这次爆火视频中的人形机器人是宇树科技最新推出的 2.0 升级版。外形上，H1 身高约 1.8 米，体重约 47 kg。和其他独

微软亚洲研究院韦福如：人工智能基础创新的第二增长曲线

本文为微软亚洲研究院全球研究合伙人韦福如的分享，讲述了他对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。从人工智能的发展历程来看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性，并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。然而，人工智能的科研工作者们不会满足于此。从某种意义上来说，大模型只是人工智能漫长研究道路上一个精彩的「开局」。但当我们满怀雄心壮志迈向下一个里程碑时，却发现仅仅依赖现有的技术

最强的GPT-4V都考不过？基于大学考试的测试基准MMMU诞生了

目前最好的大型多模态模型 GPT-4V 与大学生谁更强？我们还不知道，但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索，如下排行榜所示。看起来，GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生，而是为了提供一个兼具深度与广度的多模态 AI 测试基准，助力人工智能系统的开发，尤其是通用人工智能（Artificial General Intelligence，AGI）。随着大型语言模型（LLM）快速发展，人们对 AGI 这一颇具争议的概念进行了

昆仑万维发布「天工 SkyAgents」平台，零代码打造AI智能体

12月1日，昆仑万维正式发布「天工SkyAgents」平台，助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台，基于昆仑万维「天工大模型」打造，具备从感知到决策，从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”。并且将不同任务模块化，通过操作系统模块的方式，实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。在「天工SkyAgents」平台上，用户可以通过自然语言和简单操作，无需代码编程，即可在几分

用 AI 生成的图像享有著作权吗？法院判决结果出来了！

大家好，这里是和你们一起去探索 AI 绘画的花生~ 自 AI 绘画出现以来，关于其生成图片版权问题的争论就一直存在。最近，国内首个 AI 文生图著作权案的审判结果出来了，法院判决原告享有对涉案 AI 图片的著作权，这对之后 AI 绘画作品著作权的裁量和认定具有重要意义。参与讨论：案件的起源要追溯到今年 2 月份，原告李某某用 AI 绘画工具 Stable Diffusion WebUI 生成了一张人物图片，并将该图片以“春风送来了温柔”为名发布在自己的小红书账号上，打上了 AI 相关标签，图片也有平台自动附上的

达摩院的AI研究，让人类首次实现了大规模胰腺癌早筛

用人工智能挑战最致命的癌症。日常生活中，我们经常会与人工智能进行互动，从解锁手机，使用搜索引擎到地图导航……AI 正在为我们带来越来越多的便利。不过在临床医学中，AI 技术的应用速度要慢得多，绝大多数诊断和治疗建议仍然完全基于人类判断。直到最近，AI 在医疗影像的新突破，让事情有了变化。上周，最新一期自然杂志子刊《自然医学》（Nature Medicine）上一个名为「PANDA」（PAncreatic cancer Detection with AI）的胰腺癌早筛 AI 模型正式亮相，成为了人们热议的话题。该研究

Altman正式重掌CEO大权，微软获董事会观察员席位，辞任独董罕见发文回应

机器之能报道编辑：吴昕OpenAI 今天在官网正式宣布 Sam Altman 回归担任 OpenAI CEO 。Mira Murati 继续担任 CTO。Greg Brockman 继续担任总裁。一个多礼拜之前该公司已经就 Altman 回归达成原则性协议，但直到今天才正式完结。微软也在周三宣布，将在控制 OpenAI 的非营利组织董事会中获得一个没有投票权的观察员席位。由于决定突然解雇 Altman 的四名董事会成员中的三名现已离职，OpenAI 的新董事会由主席 Bret Taylor、Larry Summer