技术
文档解析技术指南:从传统Pipeline到端到端大模型
众多文档,如技术手册、历史档案、学术论文和法律文件,往往以扫描件或图片形式存在。 这对检索增强生成(Retrieval-Augmented Generation, RAG)、内容提取以及文档解读等后续处理工作构成了极大的挑战。 文档解析技术应运而生,它能够识别并提取文档中的多种元素,如文字、公式、表格和图片,同时保持它们之间的结构联系。
千寻智能高阳:RobotGPT-1阶段已至,4年后达到3.5阶段 | MEET 2025
我对于具身智能的定义很简单,就是能帮人类做各种事,比如帮我们的爷爷奶奶养老。 ……现在定义具身智能的L1-L5级没有意义,核心标准还是我们的机器人能解决哪些实际问题。 具身智能趋势大热,敢于给断言的人不多,高阳是一个。
李彦宏的全员信:AI原生应用将迎来井喷式增长!走在技术的最前沿:风险更大、承受高于同行的失败概率、忍受白眼,还要耐得住寂寞!
2025,新年的第一天,李彦宏发布了全员信! 在信中,他肯定了百度2024年在AI领域的成就,重点提到了萝卜快跑、秒哒、百度文库等产品的发布和改进。 并坚定地认为,AI仍将是百度在新一年的关键词!
奥特曼公布OpenAI新年目标:AGI/Agent排前列,4o/Sora要更新,还有……
狂奔的2024年进入最后一天,奥特曼新年目标来了~坏消息:没有GPT-5,开源依旧不在考虑范围内……前几日奥特曼发帖子收集大伙儿愿望,引得420万网友围观,评论区留下1万个心愿单。 你希望OpenAI在2025年开发/修复什么? 图片就在刚刚,参考大家建议后,OpenAI新年目标公布了。
G行人工智能与大模型技术的应用与发展
一、人工智能与大模型技术在银行业的普遍应用1. 客户服务和智能客服客户服务是人工智能应用的核心领域之一。 传统银行客户服务依赖专业的人工客服,虽然能提供较高的情感交互,但因响应时间较长、服务覆盖面有限以及成本较高,难以满足现代客户对高效、便捷服务的需求。
2024年人工智能年终总结报告|Artificial Analysis
临近年末,在人们都开始着手于年终总结的时候,Artificial Analysis也给出了关于2024年AI变革式发展的回顾。 令人欣喜的是,我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。 毫无疑问的是,2024年对于AI的发展是里程碑式的一年。
政务如何借助AI完成智能化升级?从架构到应用
政务大模型的背景源于数字化转型的深入推进和智能化治理的迫切需求。 随着大数据、人工智能等技术的快速发展,政府亟需通过技术手段提升治理效率和服务质量。 政务大模型作为AI技术在公共管理领域的创新应用,能够整合多源数据,优化决策流程,提供精准化、个性化的政务服务。
首篇「角色扮演AI」综述!复旦等提出大模型三层人格分类框架:群体、角色、个性化 | TMLR
角色扮演AI系统体现了数字生命的理念,通过交互形式将不同角色带入现实。 这些系统模拟指定角色的能力,长期以来一直存在于人类想象中,体现了我们创造和与具有智能的人工生命互动的渴望。 近期,得益于GPT-4、LLaMA等大语言模型(LLMs)的突破性进展,基于文本的角色扮演AI(Role-Playing Language Agents,RPLAs)正在从科幻走进现实。
3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)
写在前面 && 笔者理解传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。 比如下图1(a)所示,起重机被一个3D边界框完美包围。 但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。
微软Phi-4封神,14B小模型数学击败GPT-4o!合成数据占比40%,36页技术报告出炉
140亿参数,40%合成数据,年度SLM之王诞生! 最近,微软下一代小模型Phi-4正式亮相。 在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、Gemini Pro 1.5。
一键生成万字专利!中科院发布多智能体框架AutoPatent,含1933个「草稿-专利」数据对
在科技日新月异的今天,专利作为保护创新成果的重要法律工具,其撰写过程却往往繁琐且耗时,传统的专利撰写工作通常由熟悉专利法律和技术领域的专利代理人完成,这一过程耗时费力,且效率较低。 因此,开发一种能够自动化生成高质量专利文档的方法,对于提高专利撰写的效率和准确性具有重要意义。 最近,来自中科院深圳先进院和大连理工大学的研究团队联合开发了一个名为AutoPatent的自动化的多智能体专利生成框架,能够在十分钟左右的时间依据发明人的专利技术底稿生成一篇完整的专利文档。
沃顿商学院教授发文解析o1:能力仍有短板,「人机协同智能」或成AGI最重要难题
o1 preview问世3个月后,满血版的o1 Pro终于在上周以每月200美元的身价正式上线,奥特曼号称其为「当今世界上最智能的模型」。 所以,这个正式的o1 Pro究竟强大到了什么程度? 可以肯定的是,它远远不是一个走到AGI终点的灭霸,但这是scaling law之后的又一个里程碑吗?
用上AI,升职提前4年?清华等分析6790万篇论文:科学界收缩,不用AI的领域无人问津
ChatGPT发布以来,各种大模型层出不穷,对各行各业的文字、脑力工作者来说绝对是一个效率神器,产出量大大提升。 比如最近的研究成果,清华大学、芝加哥大学、Google的研究人员利用AI工具(模型性能F1值为0.876)分析了六大主要学科的6790万篇研究论文,结果发现,采用AI工具的科学家发表的论文数量增加了67.37%,获得的引用次数是未使用AI工具的科学家的3.16倍,并且还能提前4年成为团队领导者。 论文链接:。
谷歌逆风翻盘暴击OpenAI,90天王者归来!44页报告押注25年三大技术前沿
逆袭之战开启,谷歌用90天重回巅峰! 短短90天,谷歌就从业内笑柄,逆袭成突破最大、产品最颠覆的科技大公司。 用AI初创创始人Ole Lehmann的话说,「我们正在见证2024年最大的科技转变」。
AI大模型时代,人才的需求已经变了
什么是 AI 发展的第一驱动力? 最近,全球科技大厂都在用行动告诉我们:人才。 本月初,谷歌 NotebookLM 的核心团队共同宣布离职创业,他们新公司的网站已经进入了「建设中」的状态。
Meta公布黑科技:戴上腕带即可隔空打字,引领神经接口AR革命
每一个新的计算平台都带来了我们与设备互动方式的范式转变。 鼠标的发明为今天主导PC世界的图形用户界面(GUIs)铺平了道路,而智能手机直到触摸屏的出现才开始真正获得影响力。 同样的规则也适用于可穿戴设备和AR,想象一下,在晨跑时只需轻轻一触指尖就能拍照,或者用几乎察觉不到的手部动作来导航菜单。
每月3500的AI码农Devin,还是140的编程神器Cursor?实测来了
以下是评测结果,我整理总结了一下分享给大家Devin 主要基于 Slack 工作流:Devin 主要通过 Slack 交互,而非 IDE 集成。 用户在 Slack 中标记 @devin 并提出请求,例如更新代码、修复 bug 等。 Devin 的界面包括远程服务器、浏览器、VS Code 编辑界面和计划器,用户可以逐步查看 Devin 的操作和进度Devin 的实际测试:Steve首先测试了一个可以在消费级硬件上运行的小型图像生成模型。
在大模型时代,智能化推荐怎么做呢?
自2022年11月30日OpenAI发布ChatGPT以来,大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域(如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等)取得了比之前算法好得多的成绩,很多方面都超越了人类专家的水平,特别是人机对话具备了一定的共情能力,这让AI领域的工作者和普通大众都相信AGI(Artificial General Intelligence,通用人工智能)时代马上就要来临了。 大模型除了对话能力达到了跟真正互动的水准,更厉害的是当模型参数规模达到一定量(100B ,这里B是billion,十亿的意思)时,会涌现出新的能力,即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力,这在之前的机器学习范式中是从没见到过的。