资讯列表

比 Sora DiT 架构早两个月的 U-ViT,由这家中国 AIGC 公司提出

「Sora 出来之后,团队就开始连轴转,没休息过。 」这是 AI 科技评论了解到的,目前国内诸多 AIGC 创业公司的现状。 Sora 的确让世界范围内的创业公司措手不及。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

通用计算机控制信息革命产生了数字世界,数字世界为大模型的诞生提供了数据,也最容易实现通用人工智能(AGI)。向数字世界 AGI 迈进,北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。为此,研究团队提出通用计算机控制

首个AI软件工程师上线!已通过公司面试抢程序员饭碗,华人创始团队手握10块IOI金牌

前段时间,英伟达 CEO 黄院士发出惊人言论:「都别学编程了,以后交给 AI 就行了,以后人人都是软件工程师。」当时还有很多人反对,说「AI 永远不会取代程序员。」没想到,首个人工智能软件工程师 Devin 一发布,程序员的饭碗可能真要被 AI 端走了。在 SWE-Bench 基础测试中,无需人类协助,Devin 就可以解决 13.86% 的问题。而目前的 SOTA 模型,在没有人类帮忙的情况下,只能完成 1.96% 的任务。仅从评测结果看,Devin 解决真实世界软件问题的能力要远好于当前的 GPT-4 和 Cl

GPT-4.5 Turbo意外曝光,官方网页被扒出,网传明天就上线

虽然没等到 GPT-5 的消息,但我们离 GPT-4.5 不远了。Claude 3 一经推出,AI 初创公司 Anthropic 被推上了大模型浪潮顶端。这一波压力立马给到了 OpenAI。不少网友调侃,GPT-5 呢?由于 OpenAI 每次都能给我们超乎想象的 AI 体验惊喜,大家不由得对他们的实力有着更高期待。GPT-5 的发布时机或许还扑朔迷离,但我们离 GPT-4.5 的发布可能真的不远了。最新消息显示,OpenAI 的 GPT-4.5 Turbo 在 Bing 和 DuckDuck Go 等搜索引擎已经

专为训练Llama 3,Meta 4.9万张H100集群细节公布

只想知道 Llama 3 何时能来?生成式大模型给人工智能领域带来了重大变革,人们在看到实现通用人工智能(AGI)希望的同时,训练、部署大模型的算力需求也越来越高。刚刚,Meta 宣布推出两个 24k GPU 集群(共 49152 个 H100),标志着 Meta 为人工智能的未来做出了一笔重大的投资。这是 Meta 雄心勃勃的基础设施路线图中的一步。Meta 会持续扩大基础设施建设,到 2024 年底将包括 350000 个 NVIDIA H100 GPU,其计算能力将相当于近 600000 个 H100。Met

AI图片橡皮擦来了,清华&阿里合作推出「概念半透膜」模型,还能改头换面

一只橘猫,减去「猫」,它会变成什么?第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」,画出一只长得很像面包的猫猫,然后用概念半透膜 SPM 技术,将猫猫这个概念擦掉,结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个概念后的结果。                                图 1 概念半透膜 SPM 针对不同的「猫」图擦除猫概念后的效果下图 2 到图 6 展示了更多的示例。                                图 2 失去梦想变成一只面包表情包

万物皆可《毁灭战士》,专家利用 GPT-4V 模型运行该游戏

英国约克大学研究员 Adrian de Wynter 近日发表研究论文《Will GPT-4 Run DOOM?》,探讨了如何让 GPT-4V 模型来玩《毁灭战士》游戏。de Wynter 为此设计了一个系统,使用 GPT-4V(GPT4 的多模态衍生版本,可以接收图像作为输入)捕捉游戏引擎的画面截图,并返回游戏状态的结构化描述。他设计了一个 Agent 模型,根据视觉输入信息,并对比此前历史记录作出决策,并将其反应转化为《毁灭战士》游戏可以理解的按键命令。简单地说,系统会截取游戏截图,并利用这些截图找出游戏中发生

全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug

初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin

这 2 个工作流网站,让 Stable Diffusion 新手一秒变大神!

大家好,这里是和你们一起探索 AI 的花生~很多小伙伴在学习完 Stable Diffusion WebUI 和 ComfyUI 的基础操作后,都在问我如何能实现更高级的应用,比如创意摄影、AI 换装、图像风格转换、AI 视频制作等。今天就为大家推荐 2 个资源网站,上面有很多 AI 大神分享的优质工作流,下载后导入到自己的工具中就能一键复刻同样的效果,实现 Stable Diffusion 新手快速生成酷炫效果图的梦想,一起来看看吧~ 相关推荐:一、Lightflow Lightflow 社区网址: Light

微软 Copilot 全面升级 OpenAI GPT-4 Turbo 模型,包括免费用户

在经过一系列工作之后,微软现已针对 Copilot 用户群全面升级为 OpenAI 最先进的 GPT-4 Turbo 模型。IT之家提醒,Copilot Pro 用户如果不习惯的话还可以切换回标准 GPT-4 模型,但免费用户是没有选择权的。微软 Copilot 最初是作为 Bing Chat 聊天机器人推出的一款产品,早期迭代依赖于 GPT-3.5 模型,后来升级到 GPT-4 后有了大幅改进,而现在又升级到了 GPT-4 Turbo 模型,这意味着 Copilot 功能又一次实现飞跃。GPT-4 Turbo 以

多家日本车企陆续使用生成式 AI 开发新车,有望使策划、设计所需时间减半

据日经新闻今日报道,日本各大汽车企业已陆续在开发新款车型时使用生成式 AI,包括丰田、马自达、斯巴鲁、本田等车企。据悉,AI 可通过导出零部件的组合等来提高工作效率,有望使策划和设计所需时间减半。具体来看,各车企的行动如下:丰田:已开始在美国的研发子公司 Toyota Research Institute(丰田研究院,TRI)使用图像生成式 AI, 由 AI 根据汽车的外形设计图计算出空气阻力,并对设计进行调整。其目标是在兼顾设计性、功能性的同时,提高开发效率。本田:本田、索尼对半出资的 Sony Honda Mo

阿尔特曼、老黄齐预测:AGI 五年内降临,代替 95% 工作!但马斯克断言 AGI 将被电力卡脖子

感谢IT之家网友 lemon_meta 的线索投递!【新智元导读】突然间,AGI 已经成为了一个新的「5 年内实现」的未来技术。从 Altman 到老黄,都在不同场合表示,达到人类智能水平的 AI 将很快到来。而技术路径和未来可能出现的能源短缺,可能是达到 AGI 过程中的最大变数。Claude 3、Sora、Gemini 1.5 Pro 的纷纷出现,以及或许今年内就会被放出的 GPT-5,让所有人都不约而同地隐隐感觉:我们似乎离 AGI 似乎越来越近了。OpenAI CEO Sam Altman 坚定地认为,AG

Midjourney 能让角色保持一致了!网友实测称直呼“改变游戏规则”

Midjourney 发布新功能,网友直呼“不可思议”!现在你可以让生成的图像几乎保持角色一致,belike:所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用:保持同一风格,感觉配上文字可以讲一个故事了:面部、着装、发型可调控,换装玩法 get:新功能名为角色参照(Character Reference),和之前的风格参照类似,不过这次不是保持风格一致,而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了,纷纷表示这是迄今为止 Midjourney 最大的更新:还有网友认为生成式 AI

机器人ChatGPT来了,80亿参数、前OpenAI人员经数年打造

机器之能报道编辑:吴昕严格地说,是“拾取与放置任务”版本的ChatGPT来了。除了自然语言交流,还能像Sora一样生成视频。有了机器人基础模型RFM-1,使用简单英语就能指导机器人完成拣选工作。机器人 AI 公司 Covariant CEO Peter Chen 坐在一个聊天机器人面前,界面和 ChatGPT 的很像。“给我看看你面前的运送箱,” 他输入一段文本。然后出现了一段视频,一个机械臂悬在一个装有各种物品的运输箱上——里面有一双袜子、一管薯条和一个苹果。聊天机器人可以和你讨论它看到的物品,也可以操纵它们。接

Nature子刊综述:储层计算未来的新机遇和挑战,华为联合复旦等发布

储层计算可能发挥重要作用的应用领域。编辑 | 紫罗尽管深度学习在处理信息方面取得了巨大成功,但其依赖于训练大型神经网络模型,限制了其在常见应用中的部署。因此,人们对开发能快速推理和快速适应的小型轻量级模型的需求日益增长。作为当前深度学习范式的替代方向,神经形态计算研究引起了人们的极大兴趣,其主要关注开发新型计算系统,这些系统的能耗只有当前基于晶体管的计算机的一小部分。在神经形态计算中,一个重要的模型家族是储层计算(RC),储层计算起源于 21 世纪初,它在过去的二十年中取得了重大进展。为了释放储层计算的全部功能,为

兼具精度与效率,微软基于AI的新电子结构计算框架登Nature子刊

编辑 | ScienceAI编者按:为了使电子结构方法突破当前广泛应用的密度泛函理论(KSDFT)所能求解的分子体系规模,微软研究院科学智能中心的研究员们基于人工智能技术和无轨道密度泛函理论(OFDFT)开发了一种新的电子结构计算框架M-OFDFT。这一框架不仅保持了与KSDFT相当的计算精度,而且在计算效率上实现了显著提升,并展现了优异的外推性能,为分子科学研究中诸多计算方法的基础——电子结构方法开辟了新的思路。相关研究成果已在国际知名学术期刊《自然-计算科学》(Nature Computational Scie

「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资

近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股

真实的商战:文生图 AI 平台 Midjourney 禁止 Stability AI 员工使用其服务

感谢Midjourney 和 Stability AI 是当前文生图 AI 领域的其中两家头部企业,然而“不是冤家不聚头”,据 The Verge 北京时间今日凌晨的报道,Midjourney 宣称已禁止 Stability AI 的员工使用其服务,并指责后者员工在本月早些时候尝试抓取 Midjourney 数据时,导致系统出现故障。早在 3 月 2 日,Midjourney 就在其 Discord 频道公告,承认服务器出现故障的时间延长导致用户无法获得生成图像。随后在 3 月 6 日,Midjourney 在其电