资讯列表

实测国内首个AI播客!有点意思,但NotebookLM还是大爷

AI好好用报道编辑:杨文谷歌NotebookLM 这座高峰仍不可逾越。 一个月前,谷歌推出了一款免费强大的工具 ——NotebookLM 。 其中最出圈的一个功能就是音频概览,俗称 AI 播客。

超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法,名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本,无需任何中间设备。 传统的手写文字识别技术主要依赖于光学字符识别 (OCR),但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路,通过模仿人类学习阅读的过程,即通过不断地重写文本,来学习整个单词的外观和含义。

OpenAI CEO 阿尔特曼预测 AGI 可在 5 年内实现,但短期社会影响不大

OpenAI CEO 萨姆・阿尔特曼(Sam Altman)一直对通用人工智能(AGI)充满热情,并表示公司正在积极追求这一雄心勃勃的目标。 在最近的一次 Reddit AMA 中,阿尔特曼声称,使用现有的硬件就有可能实现 AGI。 虽然他没有明确说明具体需要什么,但此前他曾表示,实现他的 AI 愿景需要 7 万亿美元和多年的时间来建造 36 个半导体工厂和更多的数据中心。

手搓AI大模型应用获25万用户,果断辞职创业,结果收入不如摆摊

创业中最危险的一句话:「我以后会赚钱」。 我开发的 AI 应用有 25 万用户,我感觉要起飞了,于是辞掉工作,准备大干一番。 结果没想到开局即巅峰,突然就完蛋了。

AI 赋能好莱坞:《此心安处》通过实时 AI 换脸技术让演员“逆生长”

索尼影业出品的《此心安处》(Here)上周末大规模公映,该片由罗伯特・泽米吉斯执导,耗资 5000 万美元(AI在线备注:当前约 3.55 亿元人民币)。 值得一提的是,该片利用了实时生成式 AI 面部变换技术,让汤姆・汉克斯和罗宾・怀特两位演员跨越了 60 年的年龄跨度,是好莱坞首部围绕人工智能视觉特效打造的长篇电影之一。 该片改编自 2014 年的同名漫画小说,主要场景设定在新泽西州的一个客厅,跨越多个时间段。

极智嘉发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案,在设备内完成所有深度计算

极智嘉(Geek )昨日(11 月 4 日)宣布,携手英特尔发布全球首款搭载英特尔视觉导航模块的纯视觉机器人方案。 ▲ 纯视觉机器人在仓储场景的实际应用AI在线获悉,极智嘉成立于 2015 年,公司总部位于北京。 极智嘉纯视觉机器人方案包含 M600 和 MP1000R 两款产品,将在 11 月 5~8 日首次亮相 2024 CeMAT 亚洲物流展极智嘉展台。

AI Agent智能代理如何快速变现

AI Agent,即人工智能代理,是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。 它基于大语言模型,能够通过独立思考、调用工具来逐步完成给定目标的计算机程序。 AI Agent的核心在于其自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。

用 PyTorch 构建神经网络的 12 个实战案例

用PyTorch构建神经网络是机器学习领域中非常热门的话题。 PyTorch因其易用性和灵活性而受到广大开发者的喜爱。 本文将通过12个实战案例,带你从零开始构建神经网络,逐步掌握PyTorch的核心概念和高级技巧。

腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

腾讯今日宣布推出 Hunyuan-Large 大模型,官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型,拥有 3890 亿总参数(389B)和 520 亿激活参数(52B)。 腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。 并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。

视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024

视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。 随着多模态推理系统的普及,如视觉问答和图像描述,视觉定位的重要性愈加凸显。 已有的研究大致可以分为三类:两阶段方法、单阶段方法和基于Transformer的方法。

AI技术:制造业的未来还是泡沫幻影?

在探讨制造业的未来时,一个不可忽视的趋势是高科技制造业对人工的依赖正在逐渐减少。 传统观念中,人工操作往往被视为生产过程中的污染源,如呼吸、皮肤屑、头发等都会对精密制造构成威胁,同时人工操作也伴随着各种错误和失误的风险。 因此,全自动化的生产车间,依托人工智能技术的强大支撑,正逐步崛起为制造业发展的新航标。

手机秒拍动画大片,高级运镜效果惊人!Runway两弹更新,火得一塌糊涂

前几天,Runway宣布更加灵活逼真的AI摄像头控件上线,开始实现3D化! 该功能Gen-3 Alpha Turbo视频生成模型可用。 而就在一个多星期前,10月23日,Runway还宣布了Gen-3 Alpha的新功能Act-One。

重大突破!AI首次发现内存安全漏洞

近日,谷歌宣布其大语言模型(LLM)项目“Big Sleep”成功发现了一个SQLite数据库引擎中的内存安全漏洞,这是人工智能首次在真实软件中发现可利用的内存安全漏洞(且该漏洞无法通过传统的模糊测试检测到)。 AI首次发现内存安全漏洞谷歌的“Project Naptime”项目旨在评估LLM在进攻性安全研究方面的能力,后来该项目演变为“Big Sleep”,由谷歌Project Zero和DeepMind团队共同参与。 Big Sleep项目致力于探索AI在发现软件漏洞中的潜力,特别关注高危漏洞的检测与利用。

要创造商业价值,利用AI来利用公司的数据

用专有数据训练大型语言模型能为你带来竞争优势吗?尽管我们生活在一个日益数据驱动的世界中,但大多数公司并未采用数据驱动的商业模式。 像Alphabet、Meta和亚马逊这样的企业凭借网络效应形成的良性循环而取得成功,但这种模式对于销售传统产品和服务的组织来说却难以实现,然而,如今已能广泛获取各种工具来充分利用日常业务流程中生成的专有数据,这些工具可能帮助你的公司形成竞争优势。 随着市场竞争的加剧,利用数据构建防御性护城河至关重要。

1000个智能体打造《我的世界》,北大校友35页技术报告揭秘

北大校友打造的1000个智能体「我的世界」,背后原理揭晓了! 团队全新公开35页技术报告,详尽解密AI智能体如何产生专业化分工、社交互动、甚至传播虚拟宗教……其中最精彩的,当数团队整活儿:让牧师NPC引入虚拟宗教,最后发现该宗教在500个智能体(横跨6大城乡)中进行了广泛传播。 据介绍,项目整体由一个名为PIANO的架构提供支持,它核心解决多智能体交互问题,用于确保多个输出流的一致性。

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。 那么,有没有更轻松的优化方法呢? 就在最近,卡内基梅隆大学(CMU)的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——通过大语言模型自动调整自然语言提示词,使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

复刻OpenAI o1推理大模型,开源界传来最新进展:LLaMA版o1项目刚刚发布,来自上海AI Lab团队。 简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略 价值评估)。 在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。

AI圈卷疯了!xAI、Anthropic同日上线API:Grok免费公测,Claude 3.5 Haiku价格暴涨

就在刚刚,Anthropic宣布,Claude 3.5 Haiku已经可以通过API访问。 图片与此同时,就在今天,Grok API也官宣正式开启公测。 图片Claude 3.5 Haiku正式开放APIClaude 3.5 Haiku现已在Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI上提供。