数据

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

GhatGPT的爆火带给了全世界一个热点问题:「人工智能真的能替代人力吗?」在目前仍依靠规模人力方式的数据标注领域,自动驾驶数据服务公司恺望数据给出了一个双面答案——「能,但还不完全能替代。」2月17日,一场聚集了自动驾驶圈内技术专家、汽车自动驾驶及智能网联领域投资人参加的闭门交流会在北京举行。会上恺望数据透露,基于「自动化产线 规模化人力」为核心的「恺望自动化数据产线」已经启用。据透露,该自动化数据产线以数字驱动方式打造自动驾驶数据生产的全流程系统,并充分考虑「人机交互」的适配场景,通过SaaS平台、算法、各板块

蚂蚁集团被独立研究机构列入《2023Q1亚太企业反欺诈市场格局》第一梯队

近日, 国际权威研究机构Forrester发布《 2023年第一季度亚太企业欺诈管理格局报告》(The Enterprise Fraud Management Landscape In Asia Pacific, Q1 2023),蚂蚁集团被列入第一梯队,即近一年收入规模超3000万美金的厂商。本次报告通过地理重点、行业重点和产品类型等维度概述了亚太地区24家反欺诈供应商的能力,并以收入规模为指标划分供应商梯队。《报告》认为,在亚太地区高度的数字化渗透率和经济逆风助推下,经受骗者授权的支付欺诈和政策滥用欺诈等新型欺

中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错

分享了 在CCL汉语学习者中文语法纠错任务赛道二的亚军方案,重点介绍“基于多轮机制的中文语法纠错任务”。

Lidar 3D传感器点云数据与2D图像数据的融合标注

2D&3D融合以自动驾驶场景为例,自动驾驶汽车需要使用传感器来识别车辆周围的物理环境,用来捕获2D视觉数据,同时在车辆顶部安装雷达,用以捕捉精确目标定位的3D位置数据。激光雷达生成的点云数据可用于测量物体的形状和轮廓,估算周围物体的位置和速度,但点云数据缺少了RGB图像数据中对物体纹理和颜色等信息的提取,无法精确地将对象分类为汽车、行人、障碍物、信号灯等。所以需要将包括丰富的语义信息2D视觉图像和可以提供精确的目标定位3D点云数据进行融合,使自动驾驶系统能够精确地了解周围环境,准确做出判断,让自动驾驶功能得以广泛应

如何实现数据高效管理并反哺赋能业务?这场自动驾驶闭门会要聊点实的

随着自动驾驶向着高阶迭代,汽车的定位由交通工具转向“智能移动终端 第三空间”,车企及自动驾驶企业的核心竞争力转向软件及服务能力。伴随汽车数智升级而来的是数据体量和算力需求的指数级增长,要真正应对智能网联趋势下的技术瓶颈和业务赋能挑战,建立一套贯穿数据应用和管理全流程的有机数据闭环,在汽车全生命周期内最大程度挖掘数据价值至关重要。为快速打造基础设施、打通数据闭环,车企纷纷开启上云进程。在后续汽车数智化军备竞赛中,如何高效完成数据从工具到核心资产、数据应用管理从基础能力进阶竞争壁垒的转变,并实现降本增效,云服务能力

一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白预测和插补的集成

编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的表达,已广泛应用于生物医学研究,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算挑战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据集中的蛋白质面板可能仅部分重叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

ECCV 2022 | 赵天成博士OmLab团队斩获ODinW开放域目标检测双料冠军等多项荣誉并受邀进行主题报告

日前,浙江大学滨江研究院Om人工智能研究中心主任、联汇科技首席科学家赵天成博士团队 OmLab 在国际顶会ECCV 2022 ODinW 挑战赛中获得 Full-Shot(全量数据学习)赛道与Few-Shot(小样本数据学习)赛道双料冠军、在 Zero-Shot 赛道获得第四排名的佳绩。基于全新目标检测框架 OmDet 的先进性和创新价值,赵天成博士受邀发表主题报告演讲。ECCV(European Conference on Computer Vision,欧洲计算机视觉国际会议)是计算机视觉方向的世界范围三大顶级

中科院图协作学习模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使研究人员能够获得对组织结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特征的计算开发严重阻碍了组织异质性的阐明。在这里,中国科学院的研究团队提出了 stMVC,这是一种多视图图协作学习模型,它在通过注意力分析 SRT 数据时集成了组织学、基因表达、空间位置和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别学习组织学相似性图或空间位置图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st

15年软件架构师经验总结:在ML领域,初学者踩过的5个坑

如果你要构建你的第一个模型,请注意并避免这些问题。

可信AI的驱动力——隐私计算

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

谷歌请印度标注员给Reddit评论数据集打标签,错误率高达30%?

去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。

宏景智驾CEO刘飞龙:利用「众筹法」接近自动驾驶终局

作者 / 曹锦2018年,一支源自Cruise的初创团队准备在中国成立一家L4级自动驾驶公司。但是很快,他们就将定位由「Robotaxi量产公司」改为「L1-L4级智能驾驶方案服务商」。这是因为,当他们做了Robotaxi样车之后,却发现不管从法规还是市场接受度来看,L4级自动驾驶都还没迎来恰当的时机。之后的故事大家可能已经知道了,这家名为宏景智驾的公司,在刚成立三年半的时候,就实现了2亿元的营收,今年上半年的订单额更是高达4.9亿元。(左:宏景智驾创始人兼CEO刘飞龙,右:Auto Byte负责人 曹锦)在上海疫

[研究问卷] AI数据获取与开放的现状调查

你是AI从业者或学习者吗?缺少数据做 AI 训练或测试?中国情境和语言的数据太少?那就来参与调研,一同改变现状吧!关于问卷我们是《AI 数据开放的现状与标杆案例报告》研究团队,由上海白玉兰开源开放研究院与开放数据中国联合组成。我们的成果预期于 2022 年世界人工智能大会期间,由木兰开源社区和白玉兰开源联名发布。你或许记得我们在 2021 年为了规范和促进 AI 数据开放所发布的「木兰-白玉兰开放数据协议」,而我们当前的研究工作则旨在排摸当前供 AI 训练、测试所使用的的AI 数据的获取与开放情况,从而进一步推出「

CVPR 2022 | 联邦学习审计隐私新手段,田纳西大学等提出生成式梯度泄露方法GGL

本文提出一种利用生成模型作为图片先验的梯度攻击方法GGL,由来自美国田纳西大学,美国橡树岭国家实验室,和谷歌共同完成,论文已被 CVPR 2022 接收。

关键点检测项目代码开源了!

作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛  ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:

观点分享 | 格物钛智能科技产品专家李薇:非结构化数据平台的底层逻辑和场景化实践

2021年12月30日,由中国人工智能产业发展联盟和中国信息通信研究院联合举办的 “AI数据治理技术沙龙”通过腾讯会议进行。格物钛智能科技产品专家李薇对非结构化数据平台的底层逻辑和场景化实践进行了介绍,分享了自己的见解与思考。

技术博客丨原来模型训练可以不用标注?一文全解四大机器学习方法

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机器学习核心概念:监督式学习、半监督学习、非监督学习和自监督学习,并将用实例简介它们试图解决的问题。

Alluxio宣布获得新一轮5000万美元融资

新设中国区总部,开启全球扩张新征程