工具

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

很多大模型的官方参数都声称自己可以输出长达32K tokens的内容,但这数字实际上是存在水分的? ? 最近,陈丹琦团队提出了一个全新的基准测试工具LONGPROC,专门用于检测长上下文模型处理复杂信息并生成回复的能力。

奥特曼年终总结,明确AGI如何实现,2025奔向超级智能

刚刚,奥特曼发布了自己的年终总结。 图片有过去创业经历的回溯:这些年是我迄今为止人生中最有价值、最有趣、最好、最有意思、最累、最有压力的几年,尤其是最近两年,也是段最不愉快的时光。 他回顾一年多以前毫无征兆被炒鱿鱼的经历,当时他在酒店房间视频电话突然被通知解雇,“就像是一场梦境破灭了”。

字节整活!1.58比特FLUX:手机也能流畅运行的顶尖AI画图神器来了

自字节跳动和POSTECH的研究团队发布了一项名为“1.58-bit FLUX”的突破性研究成果,该成果成功将最先进的文本到图像(T2I)生成模型FLUX.1-dev的权重参数量化至1.58比特,同时保持了生成1024x1024图像的质量,为在资源受限的移动设备上部署大型T2I模型开辟了新的道路,这项研究成果已发布在arXiv上,并配有开源代码库(代码目前还没有上传)AI画图模型也能“减肥”? 简单来说,就是把 FLUX(由Stable Diffusion作者团队成立的黑森林实验室Black Forest Lab推出) 的超强AI画图模型进行了“压缩”。 大家都知道,现在的AI画图模型,像DALLE 3、Stable Diffusion 3、Midjourney等,展现出强大的图像生成能力,在现实应用中潜力巨大。

解码通用 AI Agent:七步构建你的智能系统

LLM Agent 高层次概述(图片由原文作者提供)为什么要构建通用 Agent? 因为这是一个很好的工具,可以为我们的目标使用场景提供原型,并为设计我们自己的定制 Agent 架构奠定基础。 在我们继续深入之前,先快速介绍一下 LLM Agent。

Ilya宣判:预训练即将终结!NeurIPS现场沸腾

继李飞飞、Bengio、何恺明之后,在刚刚的NeurIPS 2024中,Ilya Sutskever最新演讲也来了。 虽然时长仅有15分钟左右,但内容依旧看头十足。 例如这一句:Pre-training as we know it will end.我们所熟知的预训练即将终结。

原来机器学习那么简单—SVR

一、算法介绍       支持向量回归(SVR)是一种监督学习算法,用于解决回归问题。 其核心思想是找到一个超平面,这个超平面能够以最小的误差包含所有的训练样本。 与支持向量机处理分类问题类似,支持向量回归的目标是确保尽可能多的数据点位于由超平面决定的边界内。

MidJourney 上线 Patchwork:用户化身“造物主”,AI 构造故事宇宙

Midjourney 公司最新推出名为“Patchwork”的全新叙事工具,将业务拓展至 AI 图像创作和编辑以外的领域,目标打造 AI 驱动的沉浸式故事世界。

让AI一键写系统性综述,难!Nature专栏:ChatGPT远远不够,一百年以后再看看

网络的普及,加上文献数量的爆炸式增长,如今的科研人员要面临的一个主要难题就是,尽管可能已经收集了足够的数据来帮助理解某个复杂的领域或系统,但由于信息量的巨大,人类无法全面地阅读和理解所有文献。 就像是面对一个巨大的图书馆,虽然每本书都包含了宝贵的知识,但没有人能够阅读所有的书籍并从中获得一个完整的认知。 因此,尽管科学的进步为我们提供了大量的数据,但如何有效地整合和理解这些数据仍然是一个亟待解决的问题。

吴恩达开源大模型套件:11个模型平台一种方式调用,已获星标超1.2K

吴恩达发布的开源大模型套件aisuite,不到半天就斩获了1200 星标。 它把11家知名大模型平台集中到了一起,统一了接口,可以用相同的方式调用不同模型。 切换模型时,只需要改动一个字符串,不用在不同的API之间摸不着头脑了。

Nature:谷歌学术正在被AI工具颠覆

曾经每天都用谷歌学术的科学家们,正在转向新的AI工具。 就在谷歌学术迎来20岁生日之际,Nature却担忧发文:谷歌学术能否在人工智能变革中活下来? 没错,每月访问量超过1亿次的谷歌学术,正在被AI工具悄然颠覆。

AI自动操作VS Code,自然语言搞定各种配置,来自阿里通义智能计算实验室 | 开源

国产AI已经学会直接操纵编程软件了! 阿里通义智能计算实验室在推出了一款专门针对VSCode的AI助手工具——SmartVscode。 通过自然语言指令,不仅可以让它帮你编程,还能搞定各种配置的控制和修改。

谷歌推出安全分析 AI 工具 Big Sleep,实战告捷抓出 SQLite 堆栈缓冲区下溢漏洞

谷歌于 10 月 31 日公布了一项基于 AI 的漏洞分析工具 Big Sleep,该工具号称能够模仿人类安全专家“系统性地发现和分析安全漏洞”。 谷歌声称,研究人员已利用该工具发现了 SQLite 的一项堆栈缓冲区下溢漏洞,而这一漏洞实际上用现有的分析工具均无法发现,因此谷歌认为这一工具有较高的实用性。 ▲ 图源谷歌(下同)据介绍,谷歌 Big Sleep 分析工具源于谷歌 Project Zero 团队今年 6 月发布的 Naptime 项目,该项目旨在评估大语言模型(LLM)在安全漏洞研究中的潜力。

填补 AI 安全空白:谷歌上线安全人工智能框架风险评估工具

感谢谷歌公司于 10 月 24 日发布博文,宣布推出 SAIF 风险评估工具,旨在帮助人工智能开发者和组织评估其安全态势,识别潜在风险,并实施更强的安全措施。 SAIF 简介AI在线注:谷歌去年发布了安全人工智能框架(SAIF),旨在帮助用户安全、负责任地部署 AI 模型,SAIF 不仅分享了最佳实践,还为行业提供了一个安全设计的框架。 为了推广这一框架,谷歌与行业伙伴共同成立了安全人工智能联盟(CoSAI),以推动关键的 AI 安全措施。

研究发现 AI 工具对学生来说是“双刃剑”,需谨慎使用

瑞典研究人员对人工智能工具的使用与学龄儿童的执行功能之间的关联进行了调查。研究发现,人工智能工具的使用对学龄儿童的学习既有潜在的好处,也有潜在的风险。图源 Pexels该研究重点关注人工智能工具在学校作业中的使用与执行功能(EF)之间的关系。

Meta 发布新 AI 模型:利用 AI 来评估 AI 的能力,无需人类参与

据路透社报道,Meta 当地时间周五宣布,其研究团队推出了一系列新的 AI 模型,其中包括一个名为“自我训练评估器”的工具。该工具有望推动 AI 开发过程中减少对人类干预的依赖。这个工具早前在 8 月的论文中首次亮相,其使用与 OpenAI 新发布的 o1 模型类似的“思维链”技术,让 AI 对模型的输出做出可靠判断。

AI 驱动的「科学搜索引擎」如何加速你的课题进度

编辑 | 白菜叶人工智能 (AI) 工具正在改变我们的工作方式。许多产品试图通过帮助研究人员整理大量文献来提高科学研究的效率。这些科学搜索引擎基于大型语言模型 (LLM),旨在筛选现有研究论文并总结关键发现。

英国警方测试 AI 工具:可短时间分析大量数据,为破获悬案带来新希望

英国警方正在测试一款新的 AI 工具,有望帮助侦探们破获数十年前的悬案。据AI在线了解,这款名为 Söze 的工具由澳大利亚 Akkodis 公司开发,目前正在英国 Avon and Somerset 警方进行试验。该技术能够在数小时内分析多年的数据,包括视频、财务记录和社交媒体,从而为侦探们节省大量的时间。评估发现,Söze 仅用 30 个小时就审查了 27 个复杂案件的证据,而人类则需要数十年才能完成这项工作。英国国家警察局长委员会主席 Gavin Stephens 明确表示,AI 在悬案中的潜力巨大,因为大量

Ideogram 倒逼 Midjourney“拔剑”,开放网页版后再向免费用户开放 AI 文生图提示词描述工具

科技媒体 testingcatalog 昨日(8 月 23 日)发布博文,或许是 Midjourney 感受到来自 Ideogram 最新模型的压力,在昨日开放网页版,并附赠 25 张文生图试用额度之外,还向免费用户推出了“Tools with the Lab”工具。AI在线注:该功能此前已经向购买 Pro 专业版订阅的用户开放,现在向免费用户也开放体验,用户点击后会进入“Describe”页面。用户可以上传任意照片,然后该工具就会提供 4 种不同的描述,之后用户可以将其作为提示词,通过 Midjourney 创建