数据

数据不够?Meta刚刚发布的Llama 3.3正好拿来搞定!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)7日凌晨,Meta 推出了 Llama 3.3。 虽然参数没有太高,只有700亿参数,但与之前开源的Llama 3.1 4050亿参数模型性能相当,而推理、部署成本却降低了很多。 例如,输入成本降低了10倍,输出成本降低了近5倍。

白话告诉你大模型到底是怎么工作的

图片本文转载自微信公众号「程序反思录」,作者程序反思录 。 转载本文请联系程序反思录公众号。 前言2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。

陶哲轩对谈OpenAI高管:AI也能做数据稀疏推理,“也许很快OpenAI就能证明陶哲轩是错的”

“也许很快OpenAI将能证明陶哲轩是错的。 ”好家伙! 隔着屏幕都能闻到“硝烟”味了(bu shi~事情是这样的。

快速学会一个算法,卷积神经网络!!!

今天给大家分享一个强大的算法模型,卷积神经网络。 卷积神经网络(CNN)是一类专门用于处理具有网格结构数据(如图像)的深度学习模型,广泛应用于图像处理、计算机视觉等领域。 CNN 通过模仿生物视觉系统的结构,通过层级化的卷积和池化操作,自动从输入数据中提取特征并进行分类或回归。

Andrej Karpathy 首次公开私人邮件:揭秘Transformer 注意力机制真相

近年来,Transformer 成为深度学习领域的绝对主角,而支撑其核心的“注意力”机制更是掀起了一场革命。 但这项改变 AI 格局的技术究竟是如何诞生的? Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人邮件,首次披露了这段被误解和简化的历史。

让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命

在实际应用中,数据集的数据分布往往随着时间而不断变化,预测模型需要持续更新以保持准确性。 时域泛化旨在预测未来数据分布,从而提前更新模型,使模型与数据同步变化。 然而,传统方法假设领域数据在固定时间间隔内收集,忽视了现实任务中数据集采集的随机性和不定时性,无法应对数据分布在连续时间上的变化。

谷歌推出 Caravan MultiMet,利用各种气象数据增强水文预报

编辑 | KX大样本水文学致力于解决紧迫的全球挑战,例如气候变化、洪水预测和水资源管理。 通过利用不同地区的大量水文和气象信息数据集,研究人员开发了预测与水有关的现象的模型。 这有助于保护社区和生态系统免受与水有关的挑战。

超越GPT-4o!开源科研神器登场,4500万篇论文检索增强生成靠谱回答

只需几秒钟,开源模型检索4500篇论文,比GPT-4o还靠谱! 这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型OpenScholar。 它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。

AI智能体失控时,谁来负责?

保护AI堆栈中的数据意味着了解数据流向何处以及防止滥用。 译自Who’s Responsible When AI Agents Go Rogue?,作者 Vrajesh Bhavsar。 无论您身处科技界还是与家人共进晚餐,如今都无法逃脱AI的影响。

指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务

在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。

20种复杂Excel操作一句话搞定!北大ChatExcel全新升级,所有人免费可用

AI做Excel表,现在next level了——北大团队ChatExcel最新升级,一句话搞定线性分析,图表、文字总结全都有。 比如分析各地区数据增长与时间之间是否存在相关性。 它清晰列出具体步骤计划:先对数据预处理,计算每年增长率,绘制各地区增长率和时间的折线图,最后进行分析。

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接外部数据源,检索增强生成(RAG)技术也逐渐获得业内的关注。 但并不是接入外部数据即可万事大吉,有很多用户查询非常难处理,从检索相关数据、准确解释用户意图,再到充分利用LLMs的推理能力都需要进行优化处理,才能得到一个相对满意的RAG系统来执行复杂任务,并不存在一种万能的解决方案。 在实践中,如果RAG效果不佳,通常是由于未能准确识别任务的核心问题,或者是因为该任务本身就需要混合多种技术才能解决,必须将复杂任务拆解开才能获得更好的表现。

让模型预见数据分布变化,东京大学等提出时态域泛化全新框架

在数据分布持续变化的动态环境中,如何进行连续模型泛化? 东京大学等高校的研究人员提出了名为Koodos的新框架,可以基于在一些随机时间点观测的数据分布,在任意时刻生成当下适用的神经网络。  尽管数据随时间持续发生变化,但是泛化的模型能在连续时间中与数据分布始终保持协调一致。

量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了,SU哈佛亚马逊最新研究引热议

4-bit量化,能让现有反学习/机器遗忘技术失灵! 也就是大模型在人类要求下“假装”忘记了特定知识(版权、私人内容等),但有手段能让它重新“回忆”起来。 最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在reddit、Hacker News上引起热议。

即插即用ChatTracker:多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。

两位本科生一作,首次提出「持续学习」+「少样本」知识图谱补全 | CIKM 2024

知识图谱(Knowledge Graphs)是一种结构化的,用于展示和管理信息,组织现实世界知识的形式。 其通常被表达为三元组形式(头实体,关系,尾实体)。 KGs 为问答系统、推荐系统和搜索引擎等各种实际应用提供了极其重要支持。

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队! HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。 通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

文本属性图Text-Attributed Graphs(TAGs)是一种在节点上有丰富文本信息的图结构, TAGs 广泛应用于社交网络(social network)、引用网络(citation network)和推荐系统(recommendation system)等实际场景中。 由于其强大且通用的表达能力,该领域近年来得到了快速发展。 然而目前TAGs面临三大挑战:现有的TAGs数据集一般仅在节点上包含文本信息,而边的信息往往被简化为二元或分类属性。