资讯列表

专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代

作为一名创投背景的学术带头人,朱晓蕊刚刚迎来她的47岁人生。 从学术成就看,1977年出生的朱晓蕊,先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位,2006年,她在美国犹他大学获得博士学位,具有机电一体化和机械工程多重背景;学成归来后,朱晓蕊进入哈尔滨工业大学(深圳)任教,2011年被破格评为博士生导师,2014年被评为正教授。 在她担任哈工大教授的14年中,作为项目负责人主持了不少国家级项目,总经费超过千万,并多次参与组织了机器人领域的全球顶级学术会议,曾被IEEE评价为“机器人领域的杰出女性”。

揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

至此已成艺术的 Sora,是从哪条技术路线发展出来的?最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。               

Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开

Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点:  规模和比

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

这项研究为语言模型更好地理解物理世界铺平了道路。最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好的理解世界吗?我们就拿 Sora 来说,该模型在给大家带来惊叹的同时,却不能很好的模拟复杂场景的物理原理,如一位健身的男子倒着跑跑步机。不仅 Sora,现如今大模型虽然发展迅速,然而其自身也存在缺点,比如在现实世界中不

盘点如何用AI做动画,还有各种工具等你取用

图像生成、视频生成、整合语音合成的人脸动画、生成三维的人物运动以及 LLM 驱动的工具…… 一切都在这篇文章中。生成式 AI 已经成为互联网的一个重要内容来源,现在你能看到 AI 生成的文本、代码、音频、图像以及视频和动画。今天我们要介绍的文章来自立陶宛博主和动画师 aulerius,其中按层级介绍和分类了动画领域使用的生成式 AI 技术,包括简要介绍、示例、优缺点以及相关工具。他写道:「作为一位动画制作者,我希望一年前就有这样一份资源,那时候我只能在混乱的互联网上自行寻找可能性和不断出现的进展。」本文的目标读者是

Windows、Office直接上手,大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的突破。                                AI助手贾维斯近期,吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《S

后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式

如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?MBZUAI和Meta的研究者给出了答案。一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂,从早期的 ConvNets 到 Vision Transformers,可用模型的种类已大幅增加。同样,训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而

GPDRP:基于图 Transformer 和基因通路的药物反应预测多模态框架

编辑 | X在计算个性化医学领域,药物反应预测(DRP)是一个关键问题。但是,现有的研究通常将药物描述为字符串,这种表示与分子的自然描述不符。此外,忽略了基因通路(pathway)特异性组合含义。近日,来自河南科技大学的研究人员提出了基于药物图和基因通路的药物反应预测方法(GPDRP),这是一种新的多模态深度学习模型,用于预测基于药物分子图和基因途径活性的药物反应。在 GPDRP 中,药物由分子图表示,而细胞系则以基因途径活性评分描述。该模型使用具有图 Transformer 和深度神经网络的图神经网络(GNN)分

Sam Altman7万亿美元芯片计划被怼,“硅仙人”:我只用不到1万亿

机器之能报道编辑:Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻,背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他,正在推动一个旨在提高全球芯片制造能力的项目。为此,他需要筹集 5 万亿至 7 万亿美元,并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示,“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性,我们将继续向美国政府通报情况,并期待

真·降维打击,Sora与Runway、Pika的对比来了,震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域,恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天,OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区,其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已,直呼「好莱坞的时代结束了」。仅仅一年时间,文本生成视频的效果迎来了质的飞跃。                              图源:,随着 Sora 加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后,很多人认为,S

OpenAI允许员工出售股份,交易后估值超800亿,Altman在线招人

今日,《纽约时报》援引三位知情人士消息,OpenAI 已经完成一项允许员工出售公司股份的交易。这家旧金山 AI 公司估值也因此水涨船高至 800 亿美元或更高(彭博社报道的估值是 860 亿美元)。去年 4 月,OpenAI 曾以近 300 亿美元的估值完成了首轮股票出售。当时,风险投资公司 Thrive Capital、红杉资本、Andreessen Horowitz 和 K2 Global 同意收购 OpenAI 的股票,对该公司的估值约为 290 亿美元。如今不到 10 个月的时间里,OpenAI 估值几乎翻

第二波!2024年2月精选实用设计工具合集

大家好,这是 2024 年 2 月的第 2 波干货合集!这一期干货合集包含最新的 AI 文生视频工具 Sora 的案例合集,最新的设计师作品分享和求职社区推荐,新晋在线幻灯片制作工具和字体设计工具,以及最新的抠图工具和免费的 LOGO 设计素材。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、SORA 文生视频内容案例合集 Open AI 近期推出的文生视频王炸产品 SORA,这让很多视频创作者提供了新的素材来源和近乎无限的创作空间。这个名为 Soravideos.ai

Galileo 1.0 公测开放!一键生成高保真UI设计,可导入Figma 编辑

大家好,我是花生~ 一年前我向大家介绍过一款 AI 设计工具 Galileo,它是首批提出 “Text to UI” 概念的产品之一,可以根据文本生成高质量的 UI 设计原型,不过产品一直以来都是内测状态,所以使用范围不是很广。最近 Galileo 推出了新的 Galileo 1.0 模型,并对所有人开发测试,今天我们就一起来看看新模型的效果如何。 相关推荐:Galileo 1.0 Galileo AI 官网: Galileo 目前主要有两大功能,通过文本生成 UI 设计和通过图像生成 UI 设计。官网的 Exp

手把手教程!教你从零开始设计雨水节气海报

2024 年 2 月 19 日,二十四节气——雨水。大地即将苏醒,万象正在更新,也标志着整个行业的春天正在来临(这是大家的憧憬),一切都开始朝着积极的方向有条不紊的方向运行。 企业或品牌方如果借此机会通过设计创意来展示一些愿景和理念,必定能够有效传达出该企业的正能量。 今天的文章,我们来探索一下「雨水节气」主题相关的创意设计,再通过以 Midjourney 为代表的 AIGC 工具输出一些海报设计样例,以闭环整个文章链路。一、学会用思维导图进行概念拆解 我比较喜欢用思维导图的方式进行概念拆解和延伸,我们来看看「雨水

5条实用经验,教你如何用AI轻松开发产品!

用 AI 能开发产品吗? 我的回答是:完全可以。全民爱画就是一款用 AI 开发的产品。全民爱画是一个 AI 装饰画创作和实物画订购工具,它利用 AI 技术完成了产品的核心功能,包括 AI 绘画,用户账号和订单支付等。产品大部分的前后端开发工作都由 AI 完成,而我的主要工作是进行产品架构设计、UI 设计、代码调试和产品部署。简单来说,就是让 AI 来完成开发过程中的前后端工作,这样可以极大降低开发难度,提高开发效率,让你更轻松地实现自己的产品想法。 更多干货:利用 AI 进行产品开发,其实质是通过人机交互来解决问题

CVPR 2024 Workshop | AIGC质量评价挑战赛启动!

NTIRE (New Trends in Image Restoration and Enhancement) 是近年来计算机视觉领域中具有广泛影响力的全球性研讨会之一,其涵盖了绝大部分底层视觉任务并提供了相应挑战赛。其中,NTIRE 2024 AIGC质量评价挑战赛由上海交通大学刘笑宏、闵雄阔、翟广涛教授团队与华为技术有限公司共同主办。第九届NTIRE研讨会将于2024年6月18日(暂定)与CVPR 2024一同举行。大赛背景:随着生成式人工智能的兴起,近年来涌现了大量文生图、文生视频模型。 此类算法的主要目标是

科学家用分子动力学和AlphaFold,揭示了转运蛋白的未解结构

编辑 | 萝卜皮转运蛋白改变其构象以携带其底物穿过细胞膜。构象动力学对于理解运输功能至关重要。日本国立自然科学研究院(National Institutes of Natural Sciences)和冈山大学(Okayama University)的合作团队研究了草酸转运蛋白(OxlT),这是一种来自产酸草酸杆菌的草酸:甲酸逆向转运蛋白,对于避免肾结石形成具有重要意义。OxlT 的原子结构最近已在向外开放和封闭状态下得到解决。然而,向内开放的构象仍然缺失,阻碍了研究人员对转运蛋白的完整理解。在最新的研究中,该团队进