支持中英双语及 40 种方言任意混说,中国电信 TeleAI 星辰语音大模型升级
中国电信人工智能研究院(TeleAI)在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。 与传统的有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进…- 16
- 0
恺望数据发布主动化数据产线,称「95%以上主动驾驭数据仍需人工标注」
GhatGPT的爆火带给了全世界一个热点问题:「人工智能真的能替代人力吗?」在当前仍依靠领域人力方式的数据标注畛域,主动驾驭数据服务公司恺望数据给出了一个双面答案——「能,但还不完全能替代。」2月17日,一场聚集了主动驾驭圈内技巧专家、汽车主动驾驭及智能网联畛域投资人参加的闭门交流会在北京举行。会上恺望数据透露,基于「主动化产线 领域化人力」为核心的「恺望主动化数据产线」已经启用。据透露,该主动化…- 14
- 0
Lidar 3D传感器点云数据与2D图象数据的交融标注
2D&3D交融以主动驾驭场景为例,主动驾驭汽车必要使用传感器来鉴别车辆周围的物理环境,用来捕获2D视觉数据,同时在车辆顶部安装雷达,用以捕捉切确指标定位的3D位子数据。激光雷达生成的点云数据可用于测量物体的形状和表面,估算周围物体的位子和速度,但点云数据缺少了RGB图象数据中对物体纹理和颜色等信息的提取,无法切确地将对象分类为汽车、行人、障碍物、信号灯等。所以必要将包括丰富的语义信息2D视…- 15
- 0
google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?
去年,google发布了 GoEmotions 数据集,该数据集包含 58K 人为标注的 Reddit 谈论,其中涉及 27 种心情。- 9
- 0
技术博客丨原来模型训练可以不用标注?一文全解四大机械进修步骤
本文将用通俗的方式,为大家介绍耳熟能详却分辨不清的四个机械进修核心概念:监视式进修、半监视进修、非监视进修和自监视进修,并将用实例简介它们试图解决的问题。- 17
- 0
百分点认知智能实行室:基于不完全标注样本集的信息抽取实践
编者按信息抽取是从文本数据中抽取一定信息的一种手艺,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等体系中都有广泛应用。基于监督学习的NER体系通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数…- 12
- 0
标注
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!