应用
SiFive 推出 Intelligence XM 系列 RISC-V 架构 AI 数据流处理器
RISC-V 设计企业 SiFive 当地时间昨日宣布推出 Intelligence XM 系列 AI 数据流处理器。这一系列属于 SiFive 的 Intelligence 智能处理器 IP 核家族,该家族还包括 X390 等产品。SiFive 表示 Intelligence XM 系列搭载同时具有扩展性和高效能的 AI 计算引擎,并延续了 SiFive IP 产品在计算密集型应用中优秀的每瓦性能表现。AI在线了解到,SiFive Intelligence XM 系列的基本单元是 XM 集群,每个 XM 集群包含
型号齐全,智元发布全系列灵巧手,挑战高自由度
8月18日智元年度新品发布会上,智元机器人发布了19自由度(12主动)视触觉灵巧手,至此智元机器人已经形成全系列灵巧手产品,包含12自由度五指灵巧手、6自由度五指灵巧手、二指夹爪、OmniPicker。下面我们来回顾一下这一系列产品。1. 视触觉五指灵巧手,挑战高自由度高自由度五指灵巧手始终是学术界和工业界的关注焦点,结构和功能上与人手相仿,为通用任务而生。智元机器人此次发布的视触觉灵巧手包含19个自由度,其中主动自由度12个,集成基于MEMS原理的触觉感知和视触觉感知技术,升级后的灵巧手在物体操作和感知上都展现出
阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”,黄仁勋表示“给你加速 50 倍”
AI 界最有影响力的两个人,同时出现在一场活动:OpenAI CEO 阿尔特曼,暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋,则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”,不过最近几个月就会有重大改进,新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同,大家还没找到该怎么用这些模型,我们也没决定该为 App 继续添加什么功能。不过最
传音与联发科共建人工智能联合实验室,聚焦手机端侧 AI 技术创新
9 月 13 日,传音控股与联发科共建的人工智能联合实验室在深圳揭牌。双方将整合人工智能领域的优势技术资源,加速推进 AI 技术在智能终端的应用和普及。传音控股高级副总裁张祺、TEX AI 中心总经理史团委,联发科技计算与人工智能技术事业群副总经理陆忠立博士、无线产品软件开发部协理李绍鼎共同为实验室揭牌。据传音控股官方介绍,此次成立的人工智能联合实验室,将聚焦大型语言模型、Agent 智能体、AI 语音、影像等领域在手机端的应用创新,提供更多生成式 Al 的端侧部署和优化方案,共同探索面向大众的 AI 智能体服务和
阿里通义万相视觉生成大模型升级,支持文生视频、图生视频等
在今日的 2024 云栖大会上,阿里云发布了通义万相 Wanx 视觉生成大模型的新升级,能力全面进化。通义万相除了此前的文生图能力,现已支持文生视频、图生视频等,还有插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化能力。据阿里云官方透露,通义万相累计创作图片数已达 7500 万 ,累计用户数已达 93 万 。通义万相官网显示,全新发布自研 AI 视频生成大模型,具备“强大的画面视觉动态生成能力”,擅长概念理解与组合生成,优化中式元素表现,同时支持多语言与可变分辨率生成。AI在线附体验链接:
阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama
感谢在今天的 2024 云栖大会上,阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5,其中,旗舰模型 Qwen2.5-72B 号称性能超越 Llama 405B。Qwen2.5 涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架 100 多个模型。Qwen2.5 语言模型:0.5B、1.5B、3B、7B、14B、32B 以及 72B;Qwen2.5-Coder 编程模型:1.5B、7B 以及即将推出的 32B;Qwen2.5-Math 数
字节音乐大模型炸场!Seed-Music发布,支持一键生成高质量歌曲、片段编辑等
高质量音乐生成、高灵活音乐编辑,Seed-Music 再次打开了 AI 音乐创作的天花板。放假期间,本 i 人又领教了被 e 人支配的恐惧。跟 e 人朋友出门玩,先被拉去饭局尬聊,再和陌生人组队打本,下面这首歌真是唱出了 i 人心声。后两天假期就舒服多了。通关了黑神话悟空还不过瘾,我在家补经典 86 版的《西游记》。无论多少次重温,还是会被大圣的魅力吸引。 这歌怎么样,是不是感觉斗战胜佛活灵活现,如在眼前?实际上,两首歌都并非真人所作,而是全靠字节最新发布的音乐大模型 ——Seed-Music。Seed-Music
硕博招生将启!AI排名跻身前15,全球首所人工智能大学MBZUAI实力大增
全世界第一所人工智能大学 MBZUAI 全球招贤纳才。自 2019 年 10 月成立以来,全球第一所人工智能大学 MBZUAI 便吸引了整个学术界的关注,并已在多个 AI 领域取得亮眼的成果。今年 5 月,MBZUAI 建立了 Institute of Foundation Models,继去年 10 月份和 G42 共同开发了最先进的阿拉伯语大模型之后,又独立开发了领先的 K2 开源模型,成为全世界唯一一个能够自行训练开发 65B 规模大模型的大学,引领了新一代基础模型的研究。同时,计算生物学方向的生命大模型研究
图森未来无人车:转型 AIGC 游戏是为了活下去
“最近出现了大量不实言论和报道,给图森未来造成很大影响”。时隔数年图森高层首次集体现身,包括陈默、吕程、郝佳男 —— 分别是董事长、CEO 和中国区 CEO。也是图森目前“硕果仅存”的领导层。今年年初以来,昔日无人驾驶第一股曝出一系列动向:2 月,失去所有国内自动驾驶合作伙伴;3 月,被曝停止所有研发和商业化活动;5 月,前 CTO 也是创始团队之一王乃岩被曝离职,加入小米汽车;图森也在此时和北美监管机构达成和解协议;8 月,图森发布公告,转向 AIGC 影视动画赛道;9 月,一封股东匿名举报信流出,直指现在的领导
阿里 CEO 吴泳铭:AI 算力需求渗透率超 50%,最大的想象力不在手机屏幕
感谢今日举办的 2024 云栖大会开幕式上,阿里巴巴集团董事兼 CEO、阿里云智能集团董事长兼 CEO 吴泳铭表示,“在新增的算力市场和算力需求中,超过 50% 以上的需求现在都由 AI 驱动产生,AI 算力的需求渗透已经超过 50%,已经占据主导地位,未来这一趋势还会持续地扩大。”“AI 计算正在加速演进,成为整个计算体系的主导,无论是端侧的计算还是云端的计算,这都是一个非常明显的趋势,生成式 AI 对数字世界和物理世界的重构,将带来计算架构的根本性变化。”吴泳铭表示,“过去几十年 CPU 主导的计算体系,正在加
全球首个多模态地理科学大模型“坤元”发布,中国科学院打造
中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位 9 月 19 日正式发布全球首个多模态地理科学大模型“坤元”(Sigma Geography)。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力。研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2
门板上做研究的首席科学家:Jeff Dean解密谷歌和Gemini背后的故事
“最开始我就知道谷歌相当有希望,谷歌能发展到现在的规模不过是水到渠成。 ”这位谷歌首席科学家在谷歌度过了近乎一半的人生,对谷歌的喜爱不减反增,到现在还依然坚守着谷歌最初的愿景并为此奋斗:组织全球信息并使其普遍可用和有用Jeff Dean 还记得刚加入谷歌的时候,每到周二的流量高峰期就开始担心系统会不会崩溃,还好后来及时增加了设备,对代码和搜索功能做了更多优化,谷歌搜索这才步入了正轨。 后来吴恩达在谷歌担任顾问,Jeff Dean 和他商定了大型神经网络的研究目标,最终促成了 Google Brain 团队的成立。
“终结者”雏形将登场,英伟达预测未来 2-3 年机器人领域迎来“GPT-3 时刻”
科技媒体 The Decoder 昨日(9 月 18 日)发布博文,报道称英伟达高级科学家 Jim Fan 预测,未来几年机器人领域将迎来“GPT-3 时刻”。Jim Fan 简介Jim Fan 在斯坦福大学视觉实验室获得了博士学位,师从李飞飞教授。他的研究领域十分广泛,包括了多模态基础模型、强化学习以及计算机视觉,曾实习于谷歌云 AI、OpenAI、百度硅谷人工智能实验室等知名组织。Jim Fan 目前在英伟达公司领导 AI 相关研究,其团队正致力于开发“Project Groot”,这是公司为创建人形机器人基础
OpenAI ChatGPT 新增自动模式,基于提示词复杂度灵活选择合适 AI 模型
科技媒体 testingcatalog 昨日(9 月 18 日)报道,OpenAI 面向所有用户在多种设备上,为 ChatGPT 推出了“Auto”自动模式。AI在线注:用户切换选择 Auto 之后,会自动根据用户输入的提示词复杂程度,自动选择最合适的 AI 模型。对于复杂的提示,它会选用最先进的模型,而对于较简单的提示,则采用更快的模型以节省时间。许多用户反馈表示,在大多数情况下,他们更倾向于与最先进的模型进行交互。然而,在某些特定场景下,能够选择优化速度被视为一项有价值的功能。
Anthropic 暗示将推新 Claude AI 桌面应用
科技媒体 testingcatalog 昨日(9 月 18 日)发布博文,报道称 Anthropic 公司正准备推出全新的 Claude AI 桌面应用。AI在线援引消息源报道,该桌面应用内部称为“Claude Nest”,官方近期已经在 Claude AI 网页界面新增了下载按钮,但尚未放出下载链接。除了桌面应用外,Anthropic 还在开发一项针对 artifacts 的新功能,可能允许用户通过一个独立的扩展直接将他们的 artifacts 导出到 VSCode 中。此功能可能与 artifact remix
新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式
科技媒体 testingcatalog 昨日(9 月 18 日)发布博文,报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式,甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道,OpenAI 公司已更新高级语音模式 FAQ 页面,在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串,
YouTube 将推出 AI“一站式服务”:可生成创意、标题、完整视频
据 The Verge 报道,在当地时间周三(今天)举行的“Made on YouTube”特别活动上,谷歌宣布为 YouTube 带来一系列 AI 相关功能,有望改变视频制作的方式乃至视频本身。据悉,谷歌为 YouTube 创作者中心带来了新的“灵感”选项卡,其由 AI 驱动,主要功能就是“告诉”创作者应该制作的东西 —— 推荐视频的概念,提供标题和缩略图,甚至可以编写视频的大纲。YouTube 将其定位为一个“有作用的头脑风暴工具”,但用户也可以使用该工具构建整个视频项目。YouTube 还推出了一款名为 Ve