标注

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

论文有两位共同一作。何秉翔，清华大学博士一年级，研究方向为大语言模型对齐、强化学习。张文斌，哈尔滨工业大学博士一年级，研究方向为自然语言处理。

4/15/2025 10:51:00 AM

机器之心

Nature子刊 | 光镜电镜通用，Meta「分割一切」模型用到显微镜图像上了

编辑丨coisini识别显微镜图像中的对象，例如光学显微镜（LM）下的细胞和细胞核是生物学图像分析中的关键任务之一。由于显微镜成像方式的多样性和不同维度（二维 / 三维，时间维度）的存在，这些识别任务具有挑战性，目前需要采用不同的方法来解决。基于深度学习的方法在过去几年中显著改善了 LM 下的细胞和细胞核分割，电子显微镜（EM）下的细胞、神经元和细胞器分割。

3/7/2025 1:14:00 PM

ScienceAI

抖音集团拟寻求AI数据标注供应商注册资本不低于百万

3月6日，抖音集团在其官方采购平台上发布则征询意向公告，宣布将招募优质的 AI 数据标注供应商，以满足其快速增长的业务需求。公告中提到，此次招募主要针对拥有丰富垂直资源的供应商，特别是在医疗、法律、教育等领域的企业，不限地域参与。根据公告，参与报名的公司必须是在中国境内依法注册成立的独立法人，且需具备良好的社会信誉和企业资信，注册成立时间不得少于六个月。

3/6/2025 11:40:00 AM

AI在线

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

11/3/2024 9:37:53 AM

沛霖（实习）

当LLM遇到Database：阿里达摩院联合HKU推出Text-to-SQL新基准

在新基准 BIRD 上，ChatGPT 仅能达到 40.08%，相比人类 92.96% 还有很大差距。

6/6/2023 4:30:00 PM

机器之心

恺望数据发布自动化数据产线，称「95%以上自动驾驶数据仍需人工标注」

GhatGPT的爆火带给了全世界一个热点问题：「人工智能真的能替代人力吗？」在目前仍依靠规模人力方式的数据标注领域，自动驾驶数据服务公司恺望数据给出了一个双面答案——「能，但还不完全能替代。」2月17日，一场聚集了自动驾驶圈内技术专家、汽车自动驾驶及智能网联领域投资人参加的闭门交流会在北京举行。会上恺望数据透露，基于「自动化产线规模化人力」为核心的「恺望自动化数据产线」已经启用。据透露，该自动化数据产线以数字驱动方式打造自动驾驶数据生产的全流程系统，并充分考虑「人机交互」的适配场景，通过SaaS平台、算法、各板块

2/20/2023 7:25:00 PM

机器智行

Lidar 3D传感器点云数据与2D图像数据的融合标注

2D&3D融合以自动驾驶场景为例，自动驾驶汽车需要使用传感器来识别车辆周围的物理环境，用来捕获2D视觉数据，同时在车辆顶部安装雷达,用以捕捉精确目标定位的3D位置数据。激光雷达生成的点云数据可用于测量物体的形状和轮廓，估算周围物体的位置和速度，但点云数据缺少了RGB图像数据中对物体纹理和颜色等信息的提取，无法精确地将对象分类为汽车、行人、障碍物、信号灯等。所以需要将包括丰富的语义信息2D视觉图像和可以提供精确的目标定位3D点云数据进行融合，使自动驾驶系统能够精确地了解周围环境，准确做出判断，让自动驾驶功能得以广泛应

12/20/2022 3:30:00 PM

倍赛BasicFinder

谷歌请印度标注员给Reddit评论数据集打标签，错误率高达30%？

去年，谷歌发布了 GoEmotions 数据集，该数据集包含 58K 人工标注的 Reddit 评论，其中涉及 27 种情绪。

7/19/2022 2:32:00 PM

机器之心

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

这个 BLIP 模型可以「看图说话」，提取图像的主要内容，不仅如此，它还能回答你提出的关于图像的问题。

2/6/2022 12:54:00 PM

机器之心

技术博客丨原来模型训练可以不用标注？一文全解四大机器学习方法

本文将用通俗的方式，为大家介绍耳熟能详却分辨不清的四个机器学习核心概念：监督式学习、半监督学习、非监督学习和自监督学习，并将用实例简介它们试图解决的问题。

1/11/2022 9:30:00 AM

格物钛Graviti

百分点认知智能实验室：基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术，命名实体识别（Named Entity Recognition, NER）是信息抽取的基础任务之一，其目标是抽取文本中具有基本语义的实体单元，在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集，一旦数据标注质量下降，模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立，越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议（NLPCC 2020）针对此业

3/25/2021 2:12:00 PM

百分点科技

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

标注

什么样的偏好，才叫好的偏好？——揭秘偏好对齐数据的「三驾马车」

Nature子刊 | 光镜电镜通用，Meta「分割一切」模型用到显微镜图像上了

抖音集团拟寻求AI数据标注供应商 注册资本不低于百万

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

当LLM遇到Database：阿里达摩院联合HKU推出Text-to-SQL新基准​

恺望数据发布自动化数据产线，称「95%以上自动驾驶数据仍需人工标注」

Lidar 3D传感器点云数据与2D图像数据的融合标注

谷歌请印度标注员给Reddit评论数据集打标签，错误率高达30%？

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

技术博客丨原来模型训练可以不用标注？一文全解四大机器学习方法

百分点认知智能实验室：基于不完全标注样本集的信息抽取实践

抖音集团拟寻求AI数据标注供应商注册资本不低于百万

当LLM遇到Database：阿里达摩院联合HKU推出Text-to-SQL新基准