数据

15年软件架构师经验总结:在ML领域,初学者踩过的5个坑

如果你要构建你的第一个模型,请注意并避免这些问题。

可信AI的驱动力——隐私计算

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

谷歌请印度标注员给Reddit评论数据集打标签,错误率高达30%?

去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。

宏景智驾CEO刘飞龙:利用「众筹法」接近自动驾驶终局

作者 / 曹锦2018年,一支源自Cruise的初创团队准备在中国成立一家L4级自动驾驶公司。但是很快,他们就将定位由「Robotaxi量产公司」改为「L1-L4级智能驾驶方案服务商」。这是因为,当他们做了Robotaxi样车之后,却发现不管从法规还是市场接受度来看,L4级自动驾驶都还没迎来恰当的时机。之后的故事大家可能已经知道了,这家名为宏景智驾的公司,在刚成立三年半的时候,就实现了2亿元的营收,今年上半年的订单额更是高达4.9亿元。(左:宏景智驾创始人兼CEO刘飞龙,右:Auto Byte负责人 曹锦)在上海疫

[研究问卷] AI数据获取与开放的现状调查

你是AI从业者或学习者吗?缺少数据做 AI 训练或测试?中国情境和语言的数据太少?那就来参与调研,一同改变现状吧!关于问卷我们是《AI 数据开放的现状与标杆案例报告》研究团队,由上海白玉兰开源开放研究院与开放数据中国联合组成。我们的成果预期于 2022 年世界人工智能大会期间,由木兰开源社区和白玉兰开源联名发布。你或许记得我们在 2021 年为了规范和促进 AI 数据开放所发布的「木兰-白玉兰开放数据协议」,而我们当前的研究工作则旨在排摸当前供 AI 训练、测试所使用的的AI 数据的获取与开放情况,从而进一步推出「

CVPR 2022 | 联邦学习审计隐私新手段,田纳西大学等提出生成式梯度泄露方法GGL

本文提出一种利用生成模型作为图片先验的梯度攻击方法GGL,由来自美国田纳西大学,美国橡树岭国家实验室,和谷歌共同完成,论文已被 CVPR 2022 接收。

关键点检测项目代码开源了!

作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛  ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:

观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的底层逻辑和场景化实践

2021年12月30日,由中国人工智能产业发展联盟和中国信息通信研究院联合举办的 “AI数据治理技术沙龙”通过腾讯会议进行。格物钛智能科技产品专家李薇对非结构化数据平台的底层逻辑和场景化实践进行了介绍,分享了自己的见解与思考。

技术博客丨原来模型训练可以不用标注?一文全解四大机器学习方法

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机器学习核心概念:监督式学习、半监督学习、非监督学习和自监督学习,并将用实例简介它们试图解决的问题。

Alluxio宣布获得新一轮5000万美元融资

新设中国区总部,开启全球扩张新征程

阿里云贾扬清:用4S标准带领团队锻造大数据+AI产品体系「阿里灵杰」

10 月 20 日,在 2021 云栖大会上,阿里巴巴集团副总裁、阿里云计算平台事业部负责人、达摩院 AI 平台负责人贾扬清发布大数据 AI 产品体系“阿里灵杰”。“时至今日,我们可以越来越清晰的看到算力、算法、数据和场景的融合,尤其是 AI 和数据。没有数据,AI 是留在实验室里的火花;而没有 AI,数据就是堆在那里的一堆成本”,贾扬清提到,“阿里灵杰是我们在过去几年思考实践的过程中所沉淀下来的基于 Scale、Speed、Simplicity 和 Scenario 这样的 4S 标准的产品的体系。它不是一个

阿里数据中台底座的12年建设实践

文/阿里云智能计算平台事业部研究员 关涛阿里巴巴数据平台发展的四大阶段构建数据中台,一个强大的数据平台作为底座必不可少。 阿里巴巴数据平台发展的四个阶段,一定程度上其实也是阿里巴巴数据中台发展的四个阶段。这四个阶段里,你可以看到阿里巴巴对自身数据的商业价值的萃取,对原有分而治之的数据系统的聚合,对计算数据资产化和数据高效应用的新思路以及对数据平台治理过程中面临的组织变革等。阶段一:业务百花齐放,发现数据价值2009年到2012年,阿里巴巴电商业务进入爆发期,涌现出非常多有名的业务团队,比如淘宝、1688、AliEx

DataWorks赋能企业一站式数据开发治理能力

简介: 企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。 第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

DataWorks数据建模 - 一揽子数据模型管理解决方案

作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据治理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据治理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地进行数据开发与数据治理的好帮手。此次发布的数据建模,是对已有数据治理领域能力的补齐,为用户带来了在数据开发前,实施事前治理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别类地放置;如

快手基于 Flink 构建实时数仓场景化实践

一、快手实时计算场景快手业务中的实时计算场景主要分为四块:公司级别的核心数据:包括公司经营大盘,实时核心日报,以及移动版数据。相当于团队会有公司的大盘指标,以及各个业务线,比如视频相关、直播相关,都会有一个核心的实时看板;大型活动实时指标:其中最核心的内容是实时大屏。例如快手的春晚活动,我们会有一个总体的大屏去看总体活动现状。一个大型的活动会分为 N 个不同的模块,我们对每一个模块不同的玩法会有不同的实时数据看板;运营部分的数据:运营数据主要包括两方面,一个是创作者,另一个是内容。对于创作者和内容,在运营侧,比如上

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

只需要把公式图片用鼠标拖动到工具内,就能一键转成 LaTex 公式。

Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?

作者 | 阿里云计算平台研究员关涛、阿里巴巴项目管理专家王璀任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的技术。回首来看,大数据发展初期涌现了非常多开源和自研系统,并在同一个领域展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming

数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式

数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。