资讯列表
NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。 CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。 然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。
国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单
? ? 一直低调行事的国内初创公司,旗下模型悄悄地跃升成国内第一、世界第五(仅排在o1系列和Claude 3.5之后)!
史上最严“中文真实性评估”:OpenAI o1第1豆包第2,其它全部不及格
新的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。 近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五个特性,用于评估语言模型回答简短问题的真实性能力。 研究人员表示,中文简短问答能够指导开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。
前端已经进化到这种程度了吗?
近年来,AI 技术的迅猛发展催生了众多高效能的 AI 开发工具,极大地加速了开发进程。 与此同时,浏览器技术亦在持续演进,其中Chrome 浏览器也在逐步融入多项 AI 功能,显著提升了开发、调试体验。 本文将简要介绍几款热门的 AI 开发工具,并深入探讨 Chrome 浏览器在 AI 领域的最新进展!
三星多模态 AI 模型 Gauss 2 登场,赋能 Galaxy 智能生态
三星公司今天(10 月 21 日)发布博文,在韩国举办的开发者大会上,宣布推出第二代生成式 AI 模型 Samsung Gauss2。
一个AI浣熊账号的高开癫走:仅靠82篇帖子、4个月涨粉近14万!
AI好好用报道编辑:Sia以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。 因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。 我们也欢迎读者投稿亲自实践的创新型用例。
知乎创始人周源:AI 搜索在场景侧的深入程度还远远不够,消费者还没有完全习惯
周源还认为 AI 搜索整体来说还在一个比较早期的阶段,不管是国内还是全球范围内,所使用的人数频次和它所能够覆盖的场景,依然还在一个比较早期的阶段。
无卷积骨干网络:金字塔Transformer,提升目标检测/分割等任务精度(附源代码)
论文地址::,最近还激发了Transformer式架构设计的出现,并在众多计算机视觉任务中取得了具有竞争力的结果。 如下是之前我们分享的基于Transformer的目标检测新技术! 链接:ResNet超强变体:京东AI新开源的计算机视觉模块!
收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 | NeurIPS 2024
混合专家模型(MoE, Mixture of Experts)是一种通过动态激活网络的部分结构来提升计算效率的架构,可以在保持相对稳定的计算成本的前提下大幅增加参数量,从而有效提升模型性能。 这一特性使得MoE能够兼顾模型的规模与效率,已广泛应用于各种大规模任务。 然而,MoE模型通常需要在大型数据集上预训练以获得理想性能,导致其对时间和计算资源的需求极高,这也限制了其在深度学习社区中的普及性。
终于把统计学中的抽样方法搞懂了!!!
大家好,我是小寒今天给大家介绍统计学中的一个关键概念,抽样抽样是一种从总体中选取部分个体(样本)以获得关于总体的信息的方法。 由于在大多数情况下直接研究整个总体的每一个个体并不实际,因此抽样为我们提供了在不完全观测总体的情况下推断总体特征的手段。 抽样的理论和技术被广泛用于统计学、社会科学、市场调查和其他需要分析数据的领域。
消息称 AI 创企边塞科技被蚂蚁集团收购:公司会独立运营,投资人已退出
有消息称蚂蚁集团近日已成立强化学习实验室,边塞科技创始人吴翼已入职,担任该实验室首席科学家。(蓝鲸新闻)
405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+
生产级大模型应用线性注意力的方法,来了。 线性Attention(包括RNN系列),再也不用困在几B参数的范围内娱乐了。 一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!
微调大型语言模型(LLM)的五个技巧
译者 | 李睿审校 | 重楼数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。 为什么微调至关重要大型语言模型(LLM)配备了处理广泛任务的通用能力,包括文本生成、翻译、提取摘要和回答问题。 尽管LLM的性能表现非常强大,但它们在特定的任务导向型问题或特定领域(例如医学和法律等)上仍然效果不佳。
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
官方表示,该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。
“成都造”天行者人形机器人 12 月 30 日发布:将“入职”柔性产品制造业企业
四川具身人形机器人科技有限公司旗下的“成都造”人形机器人——天行者将于12月30日面世,目前原型机将开始进行行走训练,并且完成了算法验证。第一代本体已进入生产制造环节,预计12月初可进行整机组装测试。
经典手游 IP“实体化”在即,第一代汤姆猫 AI 机器人产品拟明年春节首批上市
汤姆猫接受机构调研时表示,公司目前在研发的AI产品包括汤姆猫AI语音机器人、AI讲故事App、AI游戏等系列产品。其中,第一代汤姆猫AI机器人产品计划于(明年)春节前实现第一批产品的上市。
快手 CEO 程一笑:可灵 AI 目前服务用户已超 500 万,商业化单月流水超千万
11 月 18 日,可灵 AI 宣布 API 能力免费升级,号称“加量不加价”。