应用

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。

大模型进入「实用」时代!腾讯助力「销冠」量产,5 分钟创建智能助手

今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机至关重要,每个人都应该学会编程。但事实恰恰相反,我们的工作是创造计算技术,让大家都不需要编程,编程语言就是人类语言。」编程,是为了不再编程,这一愿景由来已久,而且在大模型出现之后逐渐成为可能。但在现阶段,直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如,你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站,也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。十几个小时前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释。该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,

首个GPU高级语言,大规模并行就像写Python,已获8500 Star

最多可支持 10000 个并发线程。经过近 10 年的不懈努力,对计算机科学核心的深入研究,人们终于实现了一个梦想:在 GPU 上运行高级语言。上周末,一种名为 Bend 的编程语言在开源社区引发了热烈的讨论,GitHub 的 Star 量已经超过了 8500。GitHub:,它仍处于研究阶段,但提出的思路已经让人们感到非常惊讶。使用 Bend,你可以为多核 CPU/GPU 编写并行代码,而无需成为具有 10 年经验的 C/CUDA 专家,感觉就像 Python 一样!                     

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容,还

OpenAI CEO下场回应「封口协议」,争议还是到了股权利益上,奥特曼:我的锅

自从 Ilya 和 超级对齐负责人 Jan 离职后,OpenAI 内部还是心散了,后续也有越来越多的人离职,同时也引发了更多的矛盾。昨天,争议的焦点来到了一份严格的「封口协议」。OpenAI 前员工 Kelsey Piper 爆料,任何员工的入职文件说明中都包含一项:「在离开公司的六十天内,你必须签署一份包含『一般豁免』的离职文件。如果你没有在 60 天内完成,你的股权获益将被取消。」这份引发风浪的文件截图,让 OpenAI CEO 迅速下场回应:「我们从未收回任何人的既得权益,如果人们不签署分离协议(或不同意不贬

消息称苹果首席运营官威廉姆斯访问台积电,探讨 AI 芯片开发

台媒《经济日报》消息,苹果公司首席运营官杰夫・威廉姆斯(Jeff Williams)低调拜访台积电,台积电总裁魏哲家亲自接待。双方主要讨论了苹果自研 AI 芯片的开发,以及台积电使用先进制程技术生产芯片等事宜。苹果需要更多半导体先进技术支持,此前苹果已包下台积电 3 纳米首批产能,若后续预定 2 纳米乃至更先进制程的首批产能,台积电营收将继续增加,今年有机会创新高,预计可达 6000 亿元新台币(IT之家备注:当前约 1350 亿元人民币)。苹果首席财务官卢卡・梅斯特里(Luca Maestri)在财报会议上表示,

AI在用|与书对话!微信读书上线「AI问书」,你问书答

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。微信读书(App)给自己上了一个大分:「AI 问书」!阅读中有看不懂的地方?没关系,标记出来,AI 立马解释给你听。古人说,书中自有颜如玉,现在美人能和你对话了。打开微信读书,选本书试试。比如金宇澄的《繁花》,前言里就

用好这 3 款 3D 建模工具,让你的 AI 出图质量轻松提升200%

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 Adobe 推出了一个新的在线 3D 建模工具 Project Neo,旨在通过便捷的 3D 元素搭建,来提升 2D 插画、特别是等距插画的创作效率。虽然新工具上线不过半个月,但是相关社区内已经涌现了很多优秀的设计作品。Projext Neo 制作的内容可以导出为 JPEG、SVG 和透明底 PNG 三种格式,方便用户导入 Adobe Ps 或 Ai 中进行进一步编辑处理。 Project Neo 网站直达: :Project Neo 的界面与 Ps 类似,因

大厂实战案例!如何做好电商AI数字人直播的体验设计?

电商 AI 数字人直播解决方案是什么? 随着以 ChatGPT、文心一言为代表的大语言模型相继涌现,AI 电商也带来新的购物体验和新的经营模式。 「电商 AI 数字人直播解决方案-慧播星」依托自研 StyleSync 技术/音频自恢复预训练技术/文心一言/自研 PicGen 技术等,实现 AI 复刻/定制优质主播、稳定 7*24 小时在线开播。低成本搭建多元直播场景,专家级商品讲解、实时互动问答、丰富的互动形态精准传达信息,既让消费者获得全新的购物体验,也赋能中小商家零门槛、零成本一键创建商品售卖直播间、助推 GM

自己声音被拿来训练 AI,美国两位配音演员对初创公司 Lovo 提起诉讼

感谢据《纽约时报》报道,美国两名配音演员 Paul Skye Lehrman 和 Linnea Sage 近日声称,AI 初创公司 Lovo 在未经自己许可的情况下,“复制”了他们的声音,并对该公司提起诉讼。事情的起因,是去年夏季两人在驾车时听到一个播客节目,其内容是“AI 的兴起”,并谈到了 AI 对作家、演员和其他娱乐界从业者的生活将构成威胁。而在这期节目中,主持人“采访”了一个名叫 Poe 的聊天机器人,他的音色听上去就像 Paul 的原声。图源 PixabayPaul 表示,当时的情景就像主持人在采访“自己

日本东京地方法院驳回 AI“发明”专利申请:发明人仅限于人类

感谢据 NHK 报道,当地时间周五,日本东京地方法院就 AI“发明”的设备是否能获得专利一事作出裁决 —— 以“发明人必须是人类”为由,裁定不为其授予专利。据报道,居住在美国的原告为人工智能自主发明的设备申请专利,发明人的名字却是“自主发明本产品的人工智能 DABUS”。早在三年前,专利局就已经驳回了该申请,当时就已经明确表示“发明人必须是人类”。原告不服并提起诉讼,要求撤销该决定。图源 Pexels东京地方法院审判长中岛基至在近期的判决中指出,《知识产权基本法》对发明的定义是“人类活动创造的产物”。即使放眼全球,

月之暗面 Kimi 智能助手加入“给 Kimi 加油”付费选项:可获得高峰期优先使用权益

感谢月之暗面 Kimi 智能助手现已上线“给 Kimi 加油”付费选项,可获得高峰期优先使用权益。目前只有电脑网页端可以支付支持,提供以下六种档位:送 Kimi 一朵花:5.2 元 / 4 天,折合 1.3 元 / 天给 Kimi 加鸡腿:9.99 元 / 8 天,折合约 1.25 元 / 天请 Kimi 喝咖啡:28.8 元 / 23 天,折合约 1.25 元 / 天给 Kimi 充充电:49.9 元 / 40 天,折合约 1.25 元 / 天请 Kimi 吃顿饭:99.0 元 / 93 天,折合约 1.06 元

OpenAI 回应“封嘴”离职条款:从未回收过任何员工股权

OpenAI 首席执行官阿尔特曼在 X (推特)上就此前“封嘴”离职条款传闻进行回应:公司从来没有收回任何人的既得股权,哪怕人们没有签署离职协议(或不同意非贬低协议),也不会采取上述做法。阿尔特曼表示,“这是我的责任,是我在管理 OpenAI 过程中为数不多的几次真正尴尬的事情之一。我不知道会发生这种事,但我本应该知道。”在过去一个月左右的时间里,该团队已经开始修复标准离职文件。如果任何签署了这些旧协议的前雇员对此感到担心,他们可以联系我,我们也会解决这个问题。对此感到非常抱歉。在 OpenAI 此前的离职文件中,

如何用MJ和SD,解锁转盘抽奖界面设计?

本文通过分析MJ和SD分别在转盘抽奖页面设计中的应用,旨在分享设计思路和实用技巧,促进交流与学习。示例中H5页面的下半部分引用了其他App界面,特此声明仅作学习之用,无任何商业意图。 更多MJ教程:

OpenAI解散Ilya重要团队,前高管怒斥,宫斗第二季

奥特曼的激进策略,现在不受控制了?没有想到,OpenAI 在本周发布 GPT-4o,技术再次大幅度领先之后,随之迎来的却是一系列坏消息。本周,OpenAI 联合创始人、首席科学家 Ilya Sutskever 官宣离职,与 Ilya 同步宣布离开的,还有超级对齐团队的共同领导者 Jan Leike。                              山姆・奥特曼、 Ilya Sutskever 和 Jan Leike。Ilya 与 Jan 是 OpenAI 超级对齐团队的领导者,该团队的任务是确保人工智能与

谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍

谷歌表示,Gemini 1.5 相比 Claude 3.0 和 GPT-4 Turbo 实现了代际提升。今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。本周五,Google DeepMind 正式发布了 Gemini 1.5 的技术报告,内容覆盖 Flash 版等最近升级,该文档长达 153 页。技术报告链接:,谷歌介绍了 Gemini 1.5 系列模型,它是代表了下一代高计算效率的多

大模型研究获最佳论文,WWW 2024奖项出炉

本次公布的获奖论文中,有多位华人作者。The Web Conference(前身为 International World Wide Web Conference,WWW)会议是万维网领域的顶会,由图灵奖得主 Tim 创办,被中国计算机协会将其认证为 CCF-A 类会议,每年举办一次。目前大会公布了最佳学生论文奖、最佳论文奖以及时间检验奖。最佳论文奖WWW 2024 最佳论文颁给了和大模型相关的研究。标题:Mechanism Design for Large Language Models论文地址::Paul Dü