数据

Hologres揭秘:深度解析高效率分布式查询引擎

Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供实时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查询引擎是一个完全自研的执行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查询,并做到极致查询性能。为了做到这一点,我们借鉴了各

融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系

本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景,内容包括: 湖仓一体的架构 Flink/Hudi/Kylin 介绍与融合 T3 出行结合湖仓一体的实践

百分点大数据技术团队:ClickHouse国家级项目性能优化实践

编者按ClickHouse自从2016年开源以来便备受关注,主要应用于数据分析(OLAP)领域,各个大厂纷纷跟进大规模使用。百分点科技在某国家级项目建设中完成了多数据中心的ClickHouse集群建设,日增千亿数据量,在此基础上进行优化与性能调优,能够更好地解决部署规模扩大和数据量扩容等问题。本文结合项目的数据规模及业务场景,重点介绍了百分点大数据技术团队在ClickHouse国家级项目建设中的性能优化实践。一、概览2020年4月,百分点大数据技术团队结合某国家级多数据中心的Clickhouse集群建设,发表了“C

Hologres揭秘:高性能原生加速MaxCompute核心原理

Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供实时决策的能力,让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologres底层技术原理揭秘系列,从

经济学家看「数据」,何谓数据资产时代?

「数据是一切的起点,中国又是数据大国,这使得数据运作在中国变得非常重要。」在昨日举行的2021BAAI智源大会首日全体大会上,清华大学国家金融研究院院长朱民发表了题为《数据资产时代》的主题演讲,剖析了数据的经济学属性和资产特性,阐释了数据资产化的意义和必要性,解读了数据资产化转型将面临的挑战和应对策略。本文整理了朱民博士演讲的部分内容,并在文末附有相关演讲资料。整理报道 | 齐健数据在今天的社会中无处不在,随着数据规模的扩大,数据应用的加深,人们开始愈发重视数据的经济学特征。数据的虚拟特性,使其可重复使用,且转移成

吴恩达那场十万人观看的讲座,如今有了专项课程

如果你看过那个一小时的演讲,而且觉得意犹未尽,这门课程可能适合你。

百分点科技杜晓梦:数据科学的下一片“战场”

编者按:如今在科技领域,越来越多的女性从业者成为行业中坚力量,“她智慧”不同视⻆的思维方式,以及她们对事物的敏感度和包容性,使得这些女性领导者在企业管理过程中具有敏锐的洞察力、缜密的思辨力和透彻而深入的分析能力。2021年,数字商业时代联合中国网开展了2021年度专题策划:科技创新中的“她观点”,以女性的视角专业解读科技创新源动力,百分点科技首席数据科学家杜晓梦受邀接受采访,以独特的视角解读了何为数据科学,它的下一片“战场”在哪里?每秒超过1.7兆的新信息,这是现阶段数据时代为经济社会变革而提供的基础环境,伴随技术

【征稿】IJCAI 2021联邦学习与迁移学习国际研讨会

数字时代,隐私和安全正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐私保护相关法律法规越来越严格,给大数据和人工智能带来了新的挑战。例如欧盟的《通用数据保护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户授权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业联合香港科技大学、新加坡南洋理工大学、普林斯顿大学等国际知名高校及科研院所,将在第30届人工智能国际

矩阵元获批“上海市分布式隐私人工智能技术创新中心”

近日,上海市科学技术委员会发布了《关于2020年度上海市技术创新中心建设立项的通知》,为贯彻落实《关于进一步深化科技体制机制改革 增强科技创新中心策源能力的意见》,推进重点产业领域技术创新,经专家评审论证,确定将“上海市特种数控装备技术创新中心”等18家技术创新中心列入2020年度上海市技术创新中心建设立项计划。矩阵元全资子公司上海阵方科技有限公司将承担“上海市分布式隐私人工智能技术创新中心”的建设工作。党的十九届四中全会提出将数据与资本、土地、知识、技术和管理并列作为可参与分配的生产要素,这体现出数据在国民经济运

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

百分点科技:媒体数据中台建设方法论和落地实践

编者按媒体融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒体数据产品和服务,继而完成数智化转型,已成为媒体行业当前最为关注的问题。本文围绕当前媒体机构的转型需求,百分点科技大数据技术团队系统地介绍了百分点科技媒体数据中台建设方法论及实践成果。一、媒体数据中台建设背景以报纸、出版、广播电视等为代表的传统媒体,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒体产品,无论是呈现方式、传播途径,还是建设目标、技术体系都大不相同,这就导致了系统建设重复浪费、各应用系统和发布渠道各自为政,出现业务

百分点大数据技术团队:数据治理“PAI”实施方法论

编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。近年来,推动数据治理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数

抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场

「作为数据科学家,我还有机会吗?」不,你更应该成为数据工程师。