标注

支持中英双语及 40 种方言任意混说,中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院(TeleAI)在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。 与传统的有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进行预训练,再通过少量有标注数据进行微调。

当LLM遇到Database:阿里达摩院联合HKU推出Text-to-SQL新基准​

在新基准 BIRD 上,ChatGPT 仅能达到 40.08%,相比人类 92.96% 还有很大差距。

恺望数据发布自动化数据产线,称「95%以上自动驾驶数据仍需人工标注」

GhatGPT的爆火带给了全世界一个热点问题:「人工智能真的能替代人力吗?」在目前仍依靠规模人力方式的数据标注领域,自动驾驶数据服务公司恺望数据给出了一个双面答案——「能,但还不完全能替代。」2月17日,一场聚集了自动驾驶圈内技术专家、汽车自动驾驶及智能网联领域投资人参加的闭门交流会在北京举行。会上恺望数据透露,基于「自动化产线 规模化人力」为核心的「恺望自动化数据产线」已经启用。据透露,该自动化数据产线以数字驱动方式打造自动驾驶数据生产的全流程系统,并充分考虑「人机交互」的适配场景,通过SaaS平台、算法、各板块

Lidar 3D传感器点云数据与2D图像数据的融合标注

2D&3D融合以自动驾驶场景为例,自动驾驶汽车需要使用传感器来识别车辆周围的物理环境,用来捕获2D视觉数据,同时在车辆顶部安装雷达,用以捕捉精确目标定位的3D位置数据。激光雷达生成的点云数据可用于测量物体的形状和轮廓,估算周围物体的位置和速度,但点云数据缺少了RGB图像数据中对物体纹理和颜色等信息的提取,无法精确地将对象分类为汽车、行人、障碍物、信号灯等。所以需要将包括丰富的语义信息2D视觉图像和可以提供精确的目标定位3D点云数据进行融合,使自动驾驶系统能够精确地了解周围环境,准确做出判断,让自动驾驶功能得以广泛应

谷歌请印度标注员给Reddit评论数据集打标签,错误率高达30%?

去年,谷歌发布了 GoEmotions 数据集,该数据集包含 58K 人工标注的 Reddit 评论,其中涉及 27 种情绪。

华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩

这个 BLIP 模型可以「看图说话」,提取图像的主要内容,不仅如此,它还能回答你提出的关于图像的问题。

技术博客丨原来模型训练可以不用标注?一文全解四大机器学习方法

本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机器学习核心概念:监督式学习、半监督学习、非监督学习和自监督学习,并将用实例简介它们试图解决的问题。

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业
  • 1