白话告诉你大模型到底是怎么工作的
图片本文转载自微信公众号「程序反思录」,作者程序反思录 。 转载本文请联系程序反思录公众号。 前言2022年底“大模型”在国内突然遍地开花,不管你身处什么行业,都或多或少听说或使用过大模型相关的工具,也听说过大模型训练是一件超级烧钱的事情。- 976
- 0
陶哲轩对谈OpenAI高管:AI也能做数据稀疏推理,“也许很快OpenAI就能证明陶哲轩是错的”
“也许很快OpenAI将能证明陶哲轩是错的。 ”好家伙! 隔着屏幕都能闻到“硝烟”味了(bu shi~事情是这样的。- 975
- 0
快速学会一个算法,卷积神经网络!!!
今天给大家分享一个强大的算法模型,卷积神经网络。 卷积神经网络(CNN)是一类专门用于处理具有网格结构数据(如图像)的深度学习模型,广泛应用于图像处理、计算机视觉等领域。 CNN 通过模仿生物视觉系统的结构,通过层级化的卷积和池化操作,自动从输入数据中提取特征并进行分类或回归。- 975
- 0
Andrej Karpathy 首次公开私人邮件:揭秘Transformer 注意力机制真相
近年来,Transformer 成为深度学习领域的绝对主角,而支撑其核心的“注意力”机制更是掀起了一场革命。 但这项改变 AI 格局的技术究竟是如何诞生的? Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人邮件,首次披露了这段被误解和简化的历史。- 971
- 0
让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命
在实际应用中,数据集的数据分布往往随着时间而不断变化,预测模型需要持续更新以保持准确性。 时域泛化旨在预测未来数据分布,从而提前更新模型,使模型与数据同步变化。 然而,传统方法假设领域数据在固定时间间隔内收集,忽视了现实任务中数据集采集的随机性和不定时性,无法应对数据分布在连续时间上的变化。- 978
- 0
解释器模型首创!Tilde打破提示工程局限,让AI推理更精准
可解释性是人工智能领域中的一个核心挑战,也是一个备受关注的问题。 随着AI模型(尤其是深度学习模型)的规模和复杂性不断增长,模型内部的计算过程变得越来越难以理解。 但一直以来,模型的可解释性好像不如模型的性能那般受重视,往往不是新产品发布的宣传重点。- 975
- 0
谷歌推出 Caravan MultiMet,利用各种气象数据增强水文预报
编辑 | KX大样本水文学致力于解决紧迫的全球挑战,例如气候变化、洪水预测和水资源管理。 通过利用不同地区的大量水文和气象信息数据集,研究人员开发了预测与水有关的现象的模型。 这有助于保护社区和生态系统免受与水有关的挑战。- 975
- 0
超越GPT-4o!开源科研神器登场,4500万篇论文检索增强生成靠谱回答
只需几秒钟,开源模型检索4500篇论文,比GPT-4o还靠谱! 这就是由华盛顿大学和艾伦人工智能研究所(Ai2)打造的最新模型OpenScholar。 它还是首个从论文到数据集、模型检查点都完全开源的科研助手模型。- 975
- 0
AI智能体失控时,谁来负责?
保护AI堆栈中的数据意味着了解数据流向何处以及防止滥用。 译自Who’s Responsible When AI Agents Go Rogue?,作者 Vrajesh Bhavsar。 无论您身处科技界还是与家人共进晚餐,如今都无法逃脱AI的影响。- 980
- 0
指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)…- 974
- 0
20种复杂Excel操作一句话搞定!北大ChatExcel全新升级,所有人免费可用
AI做Excel表,现在next level了——北大团队ChatExcel最新升级,一句话搞定线性分析,图表、文字总结全都有。 比如分析各地区数据增长与时间之间是否存在相关性。 它清晰列出具体步骤计划:先对数据预处理,计算每年增长率,绘制各地区增长率和时间的折线图,最后进行分析。- 976
- 0
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势
受参数量和知识更新的限制,大模型在执行很多真实场景下的任务时,都需要连接外部数据源,检索增强生成(RAG)技术也逐渐获得业内的关注。 但并不是接入外部数据即可万事大吉,有很多用户查询非常难处理,从检索相关数据、准确解释用户意图,再到充分利用LLMs的推理能力都需要进行优化处理,才能得到一个相对满意的RAG系统来执行复杂任务,并不存在一种万能的解决方案。 在实践中,如果RAG效果不佳,通常是由于未能…- 977
- 0
让模型预见数据分布变化,东京大学等提出时态域泛化全新框架
在数据分布持续变化的动态环境中,如何进行连续模型泛化? 东京大学等高校的研究人员提出了名为Koodos的新框架,可以基于在一些随机时间点观测的数据分布,在任意时刻生成当下适用的神经网络。 尽管数据随时间持续发生变化,但是泛化的模型能在连续时间中与数据分布始终保持协调一致。- 970
- 0
量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了,SU哈佛亚马逊最新研究引热议
4-bit量化,能让现有反学习/机器遗忘技术失灵! 也就是大模型在人类要求下“假装”忘记了特定知识(版权、私人内容等),但有手段能让它重新“回忆”起来。 最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在reddit、Hacker News上引起热议。- 972
- 0
即插即用ChatTracker:多模态大模型重塑目标跟踪
写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。- 979
- 0
两位本科生一作,首次提出「持续学习」+「少样本」知识图谱补全 | CIKM 2024
知识图谱(Knowledge Graphs)是一种结构化的,用于展示和管理信息,组织现实世界知识的形式。 其通常被表达为三元组形式(头实体,关系,尾实体)。 KGs 为问答系统、推荐系统和搜索引擎等各种实际应用提供了极其重要支持。- 972
- 0
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
空间智能版ImageNet来了,来自斯坦福李飞飞吴佳俊团队! HourVideo,一个用于评估多模态模型对长达一小时视频理解能力的基准数据集,包含多种任务。 通过与现有模型对比,揭示当前模型在长视频理解上与人类水平的差距。- 980
- 0
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024
文本属性图Text-Attributed Graphs(TAGs)是一种在节点上有丰富文本信息的图结构, TAGs 广泛应用于社交网络(social network)、引用网络(citation network)和推荐系统(recommendation system)等实际场景中。 由于其强大且通用的表达能力,该领域近年来得到了快速发展。 然而目前TAGs面临三大挑战:现有的TAGs数据集一般仅在…- 973
- 0
GPT-4o加钱能变快!新功能7秒完成原先23秒的任务
OpenAI出了个新功能,直接让ChatGPT输出的速度原地起飞! 这个功能叫做“预测输出”(Predicted Outputs),在它的加持之下,GPT-4o可以比原先快至多5倍。 以编程为例,来感受一下这个feel:为啥会这么快?- 970
- 0
英伟达团队机器训练新方法:仅 5 次演示让机器生成 1000 个新 demo
人类只需要演示五次,就能让机器人学会一项复杂技能。 英伟达实验室,提出了机器人训练数据缺乏问题的新解决方案 ——DexMimicGen。 五次演示之后,DexMimicGen 就可以直接模仿出 1000 个新的 demo。- 9
- 0
车道线再出发!SinLane:孪生Transformer如何破局(上交&浙大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 & 笔者的个人理解车道检测是自动驾驶系统中一项重要但具有挑战性的任务。 基于Visual Transformer的发展,早期基于Transformer的车道检测研究在某些场景下取得了有前景的结果。- 972
- 0
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
Transformer自问世后就大放异彩,但有个小毛病一直没解决:总爱把注意力放在不相关的内容上,也就是信噪比低。 现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。 论文中介绍,整体思路类似差分放大电路或降噪耳机,用两个信号的差值来滤除共模噪声。- 969
- 0
Claude AI 上线新工具:分析、可视化 CSV 文件中的数据
科技媒体 NeoWin 昨日(10 月 24 日)发布博文,报道称 Anthropic 公司在更新 Claude 3.5 Sonnet 并推出全新的 Claude 3.5 Haiku 后,还推出了全新的分析工具,可以编写和运行 JavaScript 代码,实现处理数据、进行分析并生成实时洞察。 此分析工具将作为 Claude.ai 的新内置功能提供,类似于 ChatGPT 的代码解释器,它能够编…- 8
- 0
中国移动上海产业研究院:金融领域 AI 大模型渗透率过半,系行业最高
据《北京商报》周日报道,在 2024 金融街论坛年会“AI 金融赋能数字金融新篇章”平行论坛上,中国移动上海产业研究院副总经理陈豫蓉介绍,金融领域是大模型渗透率最高的行业,渗透率超过 50%。智慧销售、智能问答和智能风控是现阶段金融行业最热门,也是应用成熟度最高的 AI 大模型应用场景。AI在线从报道获悉,金融业具备大规模、高质量的数据资源和多维度、多元化的应用场景,被视为大模型技术应用的最优行业…- 20
- 0
数据
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!