欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |21
辽 宁 省 地 方 标 准
DB21/T 4417—2026
数据标注工程造价测算规范
Specificat ion for cost est imat ion of data annotat ion eng ineer ing
2026 - 04 - 01 发布 2026 - 05 - 01 实施
辽宁省市场监督管理局 发 布
参考文献 .............................................................................. 15
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由辽宁省数据局提出并归口。
本文件起草单位:沈阳师范大学、辽宁省电子信息产品监督检验院、沈阳市数字经济企业协会、辽宁邮电规划设计院有限公司、沈阳盛科元工开物科技有限公司、沈阳东软智能医疗科技研究院有限公司、辽宁宏图创展测绘勘察有限公司、山西同方知网数字出版技术有限公司、沈阳天眼智云信息科技有限公司、筑梦(辽宁)文化科技有限公司。
本文件主要起草人:李航、马非、戚丁文、陈伟昌、赵楚、王加驰、司雨昌、王俊吉、陈驰、张培松、韩褀、孙阳、孟磊、陈海峰、陈蕊、李率赫、彭成宝、邱文旭、冯雪、刘莉萍、韩国超、袁铭阳、张阳、黄泽鑫,王宏昭、王长征、薛俊杰、饶兵。
本文件发布实施后,任何单位和个人如有问题和意见建议,均可以通过来电和来函等方式进行反馈,有关单位将及时答复并认真处理,根据实际情况依法进行评估及复审。
归口管理部门和联系电话:辽宁省数据局(辽宁省沈阳市皇姑区崇山中路109号) ,联系电话: 024-86916223。
文件起草单位和联系电话:沈阳师范大学(辽宁省沈阳市皇姑区黄河北大街253号),联系电话: 024-86592995。
数据标注工程造价测算规范
1 范围
本文件规定了数据标注工程造价测算的费用组成、核心测算方法、特殊场景处理、质量保证与控制的要求。
本文件适用于辽宁省数据标注工程造价测算。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
数据标注 Data Annotation
给数据样本指定目标变量和赋值的过程。
[来源:GB/T 42755-2023,3.1]
3.2
数据标注工程 Data Annotation Engineering
指系统化、流程化地组织与实施数据产品(数据集)制造的过程,它涵盖了数据采集、处理、标注、质检、验收交付等多个环节。
3.3
标注规范 Annotation Specification
指导标注人员进行标注操作的详细文档,包括标注流程、标注工具使用方法、标注标准以及质量控制要求。
3.4
数据标注人员 Data Annotator
承担数据标注任务的各类人员的统称。
注:包括标注执行人员、标注审核人员、标注仲裁人员、标注监督人员等。
[来源:GB/T 45674-2025,3.9]
3.5
数据标注员 Annotator
执行标注任务、产出标注内容的人员。
[来源:GB/T 45674-2025,3.10]
3.6
标注质量审核员 Annotation Quality Auditor对初始化标注结果进行质量控制的人员。
[来源:GB/T 45674-2025,3.11]
3.7
标注项目经理 Annotation Project Manager
负责数据标注项目的整体规划、组织、协调、以及控制,确保项目按时、按质、按量完成。
3.8
标注工具 Annotation Tool
辅助标注人员进行标注操作的软件或平台,提供标注功能、数据管理功能以及质量控制功能。
4 费用组成
数据标注工程费用组成是指在数据标注各个环节的所有成本之和,包括直接成本、间接成本和风险成本(见表1)。
表 1 数据标注工程全要素费用构成
4.1 直接成本
4.1.1 直接人力成本
4.1.1.1 标注人员工资
根据不同数据标注类型(图像分类、包围框、多边形、语义分割、关键点、车道线、立体框、点云、语音分类、语音转录、实体提取、关系抽取、文本分类、文本翻译),以及复杂度等级、技能等级、质量要求等维度,建立详细的工资标准矩阵。
4.1.1.1.1 计酬方式精细化
针对不同类型的标注任务,设置合理的计件单价,充分考虑任务难度、质量要求,以及标注对象的密度(例如,图像中目标越多,单价越高)。可引入目标密度系数对单价进行动态调整。
4.1.2 直接非人力成本
4.1.2.1 标注工具和软件许可费用:
图像标注工具、文本标注工具、语音标注工具等工具软件的许可费用,进行成本拆解和精细化管理。
4.1.2.2 硬件设备维护费用:
考虑服务器、计算机等硬件设备的数量、维护频率等因素对维护费用的影响。
4.1.2.3 数据传输和存储费用:
根据数据量、存储时间、访问频率等因素,选择合适的存储方案(例如云存储、对象存储)。
4.1.2.4 数据获取成本:
对于涉及版权问题的数据集,应支付版权费用。
4.2 间接成本
4.2.1 间接人力成本
4.2.1.1 质量控制人员工资:
设立初检、复检、终检等多级质检流程,并根据质检人员的技能水平、工作量等因素,确定合理的工资标准。
4.2.1.2 技术支持人员工资:
编写和维护数据清洗、转换、格式化等脚本的成本。
4.2.2 间接非人力成本
4.2.2.1 标注规范制定成本:
制定详细、清晰的标注规范,确保标注质量的一致性。
4.2.2.2 抽样检查成本:
对标注结果进行抽样检查,评估标注质量。
4.2.2.3 客诉处理成本:
处理客户投诉,并对标注结果进行修改和完善。
4.3 风险成本
4.3.1 数据安全风险
对原始数据进行脱敏处理,保护用户隐私。
4.3.2 项目延期风险
延期可能由多种因素导致,例如:
a) 需求变更:客户提出新的标注需求或修改原有需求。
b) 数据质量问题:原始数据质量差,需要进行清洗和修复。
c) 标注工具问题:标注工具出现故障或性能问题,影响标注效率。
d) 人员变动:标注人员离职或请假,导致标注资源不足。
e) 不可抗力因素:例如自然灾害、疫情等。
延期成本估算: 延期成本包括:
a) 人力成本:因延期而增加的标注人员工资、项目管理人员工资等。
b) 设备租赁成本:因延期而增加的设备租赁费用。
c) 违约金:因延期而需要支付的违约金。
延期风险应对:采取措施降低延期风险:
a) 明确需求:在项目启动前与客户充分沟通,明确标注需求。
b) 评估数据质量:在项目启动前对原始数据进行评估,及时发现并解决质量问题。
c) 选择稳定可靠的标注工具:选择性能稳定、功能完善的标注工具,并进行充分测试。
d) 建立备用人员机制:建立备用标注人员名单,确保在人员变动时能够及时补充。
e) 制定应急预案:针对可能发生的风险制定应急预案,例如数据备份、工具切换等。
4.3.3 质量不达标风险
质量问题分析:
a) 标注错误:例如标注框位置不准确、文本分类错误等。
b) 标注不一致:不同标注人员对同一数据单元的标注结果不一致。
c) 标注遗漏:漏标某些对象或属性。
d) 标注规范不统一:标注人员对标注规范理解不一致。
质量成本估算:
a) 质检成本:质检人员的工资、质检工具的费用等。
b) 返工成本:对不合格的标注结果进行返工的成本。
c) 客户投诉成本:处理客户投诉,并对标注结果进行修改和完善的成本。
d) 信誉损失成本:因标注质量问题导致的信誉损失。
质量风险控制:
a) 制定详细的标注规范:制定清晰、明确、可操作的标注规范,并对标注人员进行培训。
b) 建立多级质检流程:设立初检、复检、终检等多级质检流程,确保标注质量。
c) 实施标注一致性评估:定期对标注人员进行一致性评估,发现并解决一致性问题。
d) 引入自动化质检工具:使用自动化质检工具,提高质检效率和准确性。
5 数据标注工程核心测算方法
5.1 需求分析阶段
5.1.1 明确标注目标
5.1.1.1 标注类型确定
明确需要使用哪些标注类型(图像分类、包围框、多边形等等),并确定每种类型的具体标注内容和要求。
5.1.1.2 标注属性
除了标注类型,还应明确标注属性,例如包围框的类别、多边形的材质、关键点的名称等。
5.1.2 确定数据规模
5.1.2.1 数据量统计
统计需要标注的数据总量,例如图像数量、文本字数、语音时长等。
5.1.2.2 标注对象密度
评估每个数据单元中标注对象的密度,例如每张图像中目标的数量、每段文本中实体的数量等。
5.1.3 确定质量要求
5.1.3.1 质量指标量化
将质量指标细化为可操作的评估标准,例如标注框的IOU阈值、文本情感分类的正确率、关键点的像素误差等。
5.1.3.2 一致性协议
制定标注一致性协议,确保不同标注人员的标注结果一致。
5.1.4 确定项目周期
5.1.4.1 任务分解与 WBS
使用工作分解结构(WBS)将项目分解为更小、更可管理的任务。例如:数据收集、数据预处理、标注规范制定、标注人员培训、标注执行、质量控制、结果导出、项目管理等。WBS 可以帮助更清晰地了解项目所需的所有工作。
5.1.4.2 任务依赖关系分析
识别任务之间的依赖关系,确定哪些任务必须在其他任务开始之前完成(例如,标注人员培训必须在标注执行之前完成)。使用甘特图或其他项目管理工具可视化任务依赖关系。
5.1.4.3 资源分配
考虑资源的可用性和成本,确定每个任务所需的资源,包括标注人员、质检人员、项目管理人员、标注工具、硬件设备等。
5.1.4.4 时间估算
根据任务的工作量和可用资源,估算每个任务的持续时间。可以使用各种时间估算技术,例如专家判断、类比估算、参数估算等。考虑风险因素,例如数据质量问题、工具故障、人员变动等,并预留一定的缓冲时间。
5.1.4.5 制定项目进度计划
将所有任务、依赖关系、资源分配和时间估算整合到一个项目进度计划中。使用甘特图或其他项目管理工具可视化项目进度计划。确定项目的关键路径,即影响项目总工期的最长任务序列。制定项目里程碑,用于跟踪项目进展情况。
5.1.4.6 项目周期优化
审查项目进度计划,寻找可以缩短项目周期的机会。例如,可以并行执行某些任务,或者优化资源分配。权衡项目周期、成本和质量之间的关系,找到最佳平衡点。
5.1.4.7 时间单位
根据项目规模和复杂程度,选择合适的时间单位,例如小时、天、周、月等。保持时间单位的一致性,便于进行计算和比较。
5.1.4.8 基准数据参考
参考历史项目数据,例如类似项目的实际工期、平均生产率等。使用基准数据作为参考,可以提高时间估算的准确性。
5.1.5 确定人员要求
某些标注任务需要具备专业背景,例如医学图像标注需要医学知识,法律文本标注需要法律知识。
5.1.6 确定工具要求
5.1.6.1 工具选型
根据项目需求,选择合适的标注工具。
5.1.6.2 工具定制
如果现有工具无法满足需求,需要进行定制开发。
5.1.6.3 自动化辅助
考虑使用自动化标注工具,例如目标检测算法、语义分割算法等,提高标注效率。自动化标注工具需要人工审核,但可以大大减少人工标注量。
5.2 规模估算阶段
5.2.1 功能点估算法
将数据标注任务分解为若干个功能点,例如数据导入、预处理、标注工具操作、质量检查、结果导出等。根据功能点的复杂度,赋予不同的权重。计算总的功能点数,作为规模估算的依据。
5.2.2 类比估算法
参考历史数据标注项目的规模和成本。根据当前项目的特点,进行调整和修正。
5.2.3 参数估算法
建立数据规模与工作量之间的数学模型。通过输入数据规模,计算所需的工作量。
5.3 工作量估算阶段
5.3.1 人工工时估算
a) 标注类型基准时间:为每种标注类型设定基准时间,反映其基本难度。这些数据应通过大量实践和统计得出。
b) 复杂度系数:根据具体任务的复杂程度调整基准时间。
c) 密度系数:反映标注对象在数据单元中的密集程度。密度系数可以按下式计算:
D = 1 + log …………………………(1)
式中:
D ——密度系数;
N ——实际目标数量;
N0——平均目标数量。
公式确保密度增加时,系数呈对数增长,避免密度过高导致系数过大。该密度系数亦可用于调整计件单价。
d) 质量要求系数:反映不同质量标准对时间的影响。
e) 工具效率系数:反映不同标注工具对效率的影响。
f) 人员经验系数:反映标注人员经验对效率的影响。
综合计算公式如下:
T = T0 × cC × cd × cq × ct × cp …………………………(2)
式中:
T——单个数据单元标注时间
T0——基准时间
cC ——复杂度系数
cd——密度系数
cq——质量要求系数
ct——工具效率系数
cp——人员经验系数
总标注时间为每个数据单元标注时间之和,即:
Ttotal = Σ= 1 Ti …………………………(3)
式中:
Ttotal——总标注时间;
Ti ——每个数据单元的标注时间。
这个详细的人工工时估算方法考虑了多个影响因素,可以更准确地预估数据标注项目的工作量。在实际应用中,这些参数需要根据具体项目和团队情况进行微调。
5.4 造价测算
基于时间估算、规模估算和工作量估算的结果,结合各类数据标注基准单价和不同地区、不同技能人员的人工时单价进行测算。测算公式如下:
C = Ttotal × R …………………………(4)
式中:
C ——工程造价;
Ttotal——总标注时间;
R ——人工时单价。
6 特殊场景处理
6.1 多模态数据融合标注
对于涉及多种数据类型(例如:图像+文本、视频+语音)的标注项目,需要综合考虑各种数据类型的特点和难度,采用加权平均的方法计算标注单价和难度系数。
6.2 增量标注/迭代标注
对于需要在已有标注数据的基础上进行新增标注或修改标注的项目,可以适当降低标注单价,但需要考虑数据一致性的影响,并增加质量控制的投入。
6.3 高精度/高一致性标注
对于需要达到极高精度或一致性的标注项目(例如:医疗影像、自动驾驶),“需提高质量控制投入(如质检比例提升至 30%-50%以上),并可能涉及领域专家评审,成本通常为标准项目的 1.5-2.5 倍。
6.4 冷启动标注
对于缺乏先验知识的新领域标注项目,需要进行探索性标注,并根据实际情况调整标注规范和流程,造价会相对较高。
6.5 小样本学习标注
针对小样本学习的标注任务,由于样本数量有限,标注质量要求更高,需要更加精细的标注和审核,成本也会相应增加。
6.6 众包标注
使用众包平台进行标注,需要考虑平台服务费、质量控制成本、以及数据安全风险等因素。
6.7 境外数据标注
考虑到不同国家和地区的经济发展水平、劳动力成本、数据安全法规等因素,境外标注项目的造价与国内项目存在差异,需要增加合规审查和数据传输的成本。
6.8 紧急项目
对于需要在短时间内完成的紧急项目,可以适当提高标注单价,以吸引更多的标注人员参与,并测算加班费。可在测算基础上设置紧急项目系数,通常为1.2-1.8,具体取决于紧急程度和资源调度的难度。
6.9 敏感数据标注
涉及个人隐私、商业秘密、国家安全等数据时,应考虑在安全合规(附录A)方面的特殊要求和成本增量(如专用安全环境、更高等级的审计与加密)。
7 质量保证与控制
7.1 标注规范制定
制定详细、清晰、可执行的标注规范,并对标注人员进行培训,确保他们理解和掌握规范内容。
7.2 标注工具选择与定制
选择合适的标注工具,并根据项目需求进行定制开发,提高标注效率和质量。
7.3 标注流程设计
设计合理的标注流程,包括数据预处理、标注、自检、互检、以及抽检等环节,确保每个环节都有明确的质量控制标准。
7.4 质量审核团队建设
建立专业的质量审核团队,负责对标注数据进行全面、细致的检查和评估,发现并纠正错误。
7.5 质量监控与反馈
建立质量监控体系,实时跟踪标注质量指标,并及时向标注人员反馈问题,帮助他们改进标注质量。
7.6 区块链技术应用(可选)
引入区块链技术,对标注过程进行全流程记录,确保数据可溯源、防篡改,提升数据可信度。
7.7 建立标注质量评估模型
结合标注准确率、一致性、完整性等指标,构建标注质量评估模型,对标注数据进行量化评估,客
观反映标注质量水平。
附 录 A (资料性)
各类数据标注基准单价参考(仅供参考,实际价格会根据市场情况、项目规模等因素有所浮动)
表A.1各类数据标注基准单价参考表
附 录 B (资料性)
人工时单价制定参考(仅供参考,实际价格因地区、经验、技能而异)
表B.1各类数据标注基准单价参考表
附 录 C (资料性)
数据安全要求
数据安全是数据标注工程中非常重要的一个环节,需要采取一系列措施来保护数据的安全性和隐私性,具体要求如下:
a) 数据分类分级:对数据进行分类分级,根据敏感程度采取不同的安全措施。
b) 数据加密:对敏感数据进行加密存储和传输,防止数据泄露。
c) 数据脱敏:对个人身份信息、医疗信息、金融信息等敏感数据进行脱敏处理,防止数据滥用。
d) 访问控制:严格控制对数据的访问权限,只允许授权人员访问相关数据。
e) 安全审计:对数据的访问、修改、删除等操作进行审计记录,便于追溯问题。
f) 安全存储:采用安全可靠的存储介质和技术,防止数据丢失或损坏。
g) 合规审查:定期进行数据安全合规审查,确保符合相关法律法规和行业标准。
h) 应急响应:建立数据泄露应急响应机制,及时发现和处理安全事件。
i) 安全培训:对标注人员进行安全意识培训,提高他们的安全意识和技能。
j) 签署保密协议:与标注人员签署保密协议,明确双方的权利和义务
附 录 D
(资料性)
常用评估指标公式
(1) 准确率(Accuracy) :
Accuracy = (TP + TN)/ (TP + TN + FP + FN)
(2) 精确率(Precision) :
Precision = TP/(TP + FP)
(3) 召回率(Recall) :
Recall = TP/(TP + FN)
(4) F1 值(F1-Score) :
F1 = 2 ∗ Precision ∗ Recall/(Precision + Recall)
(5) 平均精度均值(MeanAveragePrecision,mAP) :
mAP = Σ (AP)/N其中AP 为每一类的平均精度,N 为类别总数。
(6) 交并比(IntersectionoverUnion,IoU) :
IoU = Area(Intersection)/Area(Union) TP:真正例,TN:真反例,FP:假正例,FN:假反例。
参 考 文 献
[1] GB/T 36344-2018 信息技术 数据质量评价指标
[2] GB/T 36964-2018 软件工程 软件开发成本度量规范
[3] GB/T 39335-2020 人工智能 数据标注平台技术规范
[4] GB/T 42755-2023 人工智能 面向机器学习的数据标注规程 3 术语和定义
[5] GB/T 45654-2025 网络安全技术 生成式人工智能服务安全基本要求
[6] GB/T 45674-2025 网络安全技术 生成式人工智能数据标注安全规范 第3部分 术语和定义
[7] ISO/IEC 27001 :2013 信息安全管理标准体系
[8] SJ/T 11623-2016 信息技术服务 从业人员能力规范