数据

第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024

近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果(乱序数据流中实现主动误差补偿的流式窗口连接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作为常规研究论文录取。SI

腾讯科技Hi Tech Day暨2023数字开物大会:智能涌现将通往无数的未来

腾讯科技讯 12月14日,以“智能涌现 数开万物”为主题的腾讯科技Hi Tech Day暨2023数字开物大会在北京国家会议中心召开,腾讯科技邀请知名院士、知名经济学家、知名大学教授、研究院院长、产业大咖、互联网大厂高管、知名科技领域头部企业高管、产业数字化转型企业高管等共话AI趋势。大会开场,腾讯新闻运营总经理黄晨霞发表主办方致辞。她回顾了2023年新技术的涌现发展,并提出如何让这些新技术打开真正的产业变革之门,为人类社会创造更多的福祉的思考。黄晨霞表示,在应用落地的路上,我们要厘清大模型的基础还有哪些卡点、AI

为通用人工智能提速,蚂蚁图计算连续四次打破权威测评世界纪录

近日,国际关联数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图计算引擎TuGraph Analytics在30TB规模的数据集上成功完成了基准测试,数据规模和性能打破了此前美国某图数据库厂商的公开纪录,关键指标中的并发吞吐量提升至2.84倍,查询能力提升至1.86倍。 LDBC官方公布蚂蚁LDBC SNB-BI测评新纪录在本次测评中,测试产品需要快速导入和分析30TB 规模的数据,处理多达72

哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

哈工大与腾讯团队合作开发:一种专门针对蛋白质组数据设计的深度学习反卷积方法

编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,

1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下

大规模语言模型(LLM)使用户可以借助提示和上下文学习来构建强大的自然语言处理系统。然而,从另一角度来看,LLM 在特定自然语言处理任务上表现存在一定退步:这些模型的部署需要大量计算资源,并且通过 API 与模型进行交互可能引发潜在的隐私问题。为了应对这些问题,来自卡内基梅隆大学(CMU)和清华大学的研究人员,共同推出了 Prompt2Model 框架。该框架的目标是将基于 LLM 的数据生成和检索方法相结合,以克服上述挑战。使用 Prompt2Model 框架,用户只需提供与 LLM 相同的提示,即可自动收集数据

3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了

今年四月诞生的多模态大型语言模型 MiniGPT-4 不仅能看图聊天,还能利用手绘草图建网站,可以说是功能强大。而在预训练之后的微调阶段,该模型使用了 3000 多个数据。确实很少,但上海交通大学清源研究院和里海大学的一个联合研究团队认为还可以更少,因为这些数据中大部分质量都不高。他们设计了一个数据选择器,从中选出了 200 个数据,然后训练得到了 InstructionGPT-4 模型,其表现竟优于微调数据更多的 MiniGPT-4!这究竟是如何做到的?

预测热门歌曲成功率 97%?这份清单前来「打假」

单看数据结果是不够的,要仔细判断这些数据的可靠性。

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

企业数据,大语言模型和矢量数据库

随着 ChatGPT 的推出,通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者,而不是以往的开发者寻找市场。

分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应用

LLM 面临哪些挑战又有哪些应用?系统性的综述论文来了。

大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案

大模型的影响力正在深入各行业,对各厂商而言,既是机遇也是挑战。2023年世界人工智能大会期间,超过30家大模型厂商在上海亮相,有人在大炼模型,也有人迅速找到场景落地,事实上在大模型出现之前就已经有一些天然的场景需求。在数据总量越来越大的今天,数据存储、数据管理、数据xx的重要性正在B端企业凸显。换句话说数据已经成为企业的有形资产,数据治理正在成为新经济增长的重要方向之一。越来越多数据厂商正在思考——如何用大模型赋能数据治理。2023世界人工智能大会期间,爱数在“大模型时代的领域认知智能”论坛上宣布,全面升级AnyS

获星1.9k,LLM微调神器Lamini上演速度与激情,免费可用

LLM 微调不再头疼。

单细胞生物学基础大型语言模型scGPT更新版来了,在超3300万个细胞上进行预训练

编辑 | 紫罗就在前不久,多伦多大学研究团队发布首个单细胞生物学基础大型语言模型:scGPT,其在超 1000 万个细胞上进行预训练。现在,该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文:「令人兴奋的 scGPT 更新:自 4 月份发布以来,受到社区的极大关注,我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio

大语言模型做数据助手,浙大Data-Copilot高效调用、处理、可视化数据

Data-Copilo:大型语言模型,做你最贴心省事的数据助手。

想给业务松松绑,又怕数据泄漏隐患? 动态脱敏了解一下!

极盾·觅踪的数据动态脱敏系统提供脱敏前的策略分析决策、脱敏实施中的灵活配置脱敏规则和脱敏后的持续运营调优,形成一套完整的脱敏运营体系。

电信及互联网行业数据安全内控审计建设实践 | 盾见

一站式解决数据安全合规审计、使用过程安全监测、动态脱敏防护等问题,为电信及互联网企业数字化建设保驾护航。

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。 关键词:机器学习 数据集