标注

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级
中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进…
应用
- 16
- 0
沛霖（实习）11月3日
当LLM遇到Database：阿里达摩院联合HKU推出Text-to-SQL新基准
在新基准 BIRD 上，ChatGPT 仅能达到 40.08%，相比人类 92.96% 还有很大差距。
AI
- 28
- 0
机器之心23年6月6日
恺望数据发布主动化数据产线，称「95%以上主动驾驭数据仍需人工标注」
GhatGPT的爆火带给了全世界一个热点问题：「人工智能真的能替代人力吗？」在当前仍依靠领域人力方式的数据标注畛域，主动驾驭数据服务公司恺望数据给出了一个双面答案——「能，但还不完全能替代。」2月17日，一场聚集了主动驾驭圈内技巧专家、汽车主动驾驭及智能网联畛域投资人参加的闭门交流会在北京举行。会上恺望数据透露，基于「主动化产线领域化人力」为核心的「恺望主动化数据产线」已经启用。据透露，该主动化…
AI
- 14
- 0
机器智行23年2月20日
Lidar 3D传感器点云数据与2D图象数据的交融标注
2D&3D交融以主动驾驭场景为例，主动驾驭汽车必要使用传感器来鉴别车辆周围的物理环境，用来捕获2D视觉数据，同时在车辆顶部安装雷达,用以捕捉切确指标定位的3D位子数据。激光雷达生成的点云数据可用于测量物体的形状和表面，估算周围物体的位子和速度，但点云数据缺少了RGB图象数据中对物体纹理和颜色等信息的提取，无法切确地将对象分类为汽车、行人、障碍物、信号灯等。所以必要将包括丰富的语义信息2D视…
AI
- 15
- 0
倍赛BasicFinder22年12月20日
google请印度标注员给Reddit谈论数据集打标签，差错率高达30%？
去年，google发布了 GoEmotions 数据集，该数据集包含 58K 人为标注的 Reddit 谈论，其中涉及 27 种心情。
AI
- 9
- 0
机器之心22年7月19日
华人一作统一「视觉-谈话」理解与生成：一键生成图象标注，完成视觉问答，Demo可玩
这个 BLIP 模型可以「看图说话」，提取图象的主要内容，不仅如此，它还能回答你提出的关于图象的问题。
AI
- 9
- 0
机器之心22年2月6日
技术博客丨原来模型训练可以不用标注？一文全解四大机械进修步骤
本文将用通俗的方式，为大家介绍耳熟能详却分辨不清的四个机械进修核心概念：监视式进修、半监视进修、非监视进修和自监视进修，并将用实例简介它们试图解决的问题。
AI
- 17
- 0
格物钛Graviti22年1月11日
百分点认知智能实行室：基于不完全标注样本集的信息抽取实践
编者按信息抽取是从文本数据中抽取一定信息的一种手艺，命名实体识别（Named Entity Recognition, NER）是信息抽取的基础任务之一，其目标是抽取文本中具有基本语义的实体单元，在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等体系中都有广泛应用。基于监督学习的NER体系通常需要大规模的细粒度、高精度标注数据集，一旦数据标注质量下降，模型的表现也会急剧下降。利用不完全标注的数…
AI
- 12
- 0
百分点科技21年3月25日