欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |21
辽 宁 省 地 方 标 准
DB21/T 4418—2026
多源异构医学图像数据标注规范
Annotation standard for multisource heterogeneous medical image data
2026 - 04 - 01 发布 2026 - 05 - 01 实施
辽宁省市场监督管理局 发 布
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由辽宁省数据局提出并归口。
本文件起草单位:沈阳大学、沈阳市妇婴医院、中国医科大学附属盛京医院、中国医科大学附属第一医院、中国医科大学、东北大学、沈阳市市场监管事务服务中心(沈阳标准化研究院)、沈阳市口腔医院、沈阳工业大学、沈阳速影科技有限公司、沈阳东集威森机械设备有限公司、东北大学机器视觉与智能感知实验室。
本文件主要起草人:邵一川、张志涛、孙洁、曹勇、尹红艳、刘柳、张禹、赵奇、勾颖、张丹、芦婷婷、王磊、崔笑宇、马腾、齐瑞群、孙海静、张乐、宋克臣、刘晓、孙妍、林艳、高媛、顾敏、李新星、郑继慧、周新佳、李勇男、赵骞、冯时、杨晓东、张尧、芦婷婷、吴微、赵天辰、郭爽、李佳阳、武刚、 肖倩、孙雁鸣、李精振、薛飒旻、张帅卿、杜颖、王娜。
本文件发布实施后,任何单位和个人如有问题和意见建议,均可以通过来电和来函等方式进行反馈,我们将及时答复并认真处理,根据实际情况依法进行评估及复审。
归口管理部门通讯地址: 辽宁省数据局(辽宁省沈阳市皇姑区崇山中路109号) ,联系电话: 024-86916223。
标准起草单位通讯地址:辽宁省沈阳市沈阳大学(辽宁省沈阳市大东区望花南街21号),联系电话: 024-62268721。
多源异构医学图像数据标注规范
1 范围
本文件规定了多源异构医学图像数据标注的基本原则、标注流程、技术要求、质量控制与验证等要求,明确了多源异构数据融合标注与标注质量指标评价的技术规则。
本文件适用于CT、MRI、PET、超声、消化内窥镜图像、全景病理切片等多源异构医学图像的数据标注工作,可作为多模态医学AI模型训练、多模态大模型构建及临床智能辅助诊断系统开发的依据。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 42755—2023 人工智能 面向机器学习的数据标注规程
GB/T 45574—2025 数据安全技术 敏感个人信息处理安全要求
YY/T 1833.1 人工智能医疗器械质量要求和评价 第1部分:术语
YY/T 1833.2 人工智能医疗器械质量要求和评价 第 2 部分:数据集通用要求
YY/T 1833.3 人工智能医疗器械质量要求和评价 第3部分:数据标注通用要求
3 术语和定义
GB/T 42755—2023、YY/T 1833.1、YY/T 1833.2、YY/T 1833.3界定的以及下列术语和定义适用于本文件。
3.1
多源异构医学图像数据 Multi-Source Heterogeneous Medical Imaging Data
指来源于同一受试者(或同一病例/同一次检查)且包含两种及以上医学图像模态的数据集合。
注:模态可包括但不限于 CT、MRI、PET、US(超声)、内窥镜图像、全景病理切片等。
3.2
感兴趣区域 Region of Interest:ROI
在医学图像数据,为完成特定标注任务而选定的、具有明确空间范围或语义边界的区域。
3.3
质量控制 Quality Control
为确保标注数据满足既定规范与任务要求,对标注过程与标注结果实施的系统性检查、复核、纠错与验证活动。
4 缩略语
下列缩略语适用于本文件。
CT:计算机断层成像(Computed Tomography)
DICOM:医学数字成像和通信(Digital Imaging and Communications in Medicine)
Dice:Dice相似系数(Dice Similarity Coefficient)
HD:豪斯多夫距离(Hausdorff Distance)
IoU:交并比(Intersection over Union)
JSON:数据交换格式(JavaScript Object Notation)
MRI:磁共振成像(Magnetic Resonance Imaging)
NIfTI:医学图像技术倡议格式(Neuroimaging Informatics Technology Initiative)
PET:正电子发射断层成像(Positron Emission Tomography)
ROI:感兴趣区域(Region of Interest)
WSI:全景病理切片(Whole Slide Image)
5 基本原则
5.1 合规性原则
应严格保护患者隐私,确保数据采集、使用、存储等环节合法合规。
5.2 精准性原则
标注内容应严格遵循临床诊断标准、医学图像诊断规范及本文件要求,准确反映图像中的客观信息,
误差控制在允许范围内。
5.3 一致性原则
多源异构数据标注的语义、空间、逻辑应保持一致性。
5.4 完整性原则
应全面覆盖多源异构图像中与模型训练目标、临床应用需求相关的所有关键信息。
5.5 安全性原则
应对标注过程中的个人健康信息和敏感医学数据进行全程脱敏和安全管控,防止数据泄露。
5.6 可追溯性原则
应完整记录标注过程中的关键信息(如标注人员、标注时间、审核意见、修改记录等),确保标注
结果可追溯、可核查。
5.7 兼容性原则
支持主流医学影像格式(DICOM/NIfTI等)及AI模型适配需求。
6 标注流程
6.1 总体流程
数据标注总体流程符合图 1 所示。
图 1 多源异构医学图像数据标注流程图
6.2 项目立项与任务定义
6.2.1 开展标注工作前,应明确项目目标、使用场景(模型训练、科研分析、系统验证等)、数据范围与主要风险点。
6.2.2 应由负责人牵头,联合医学专家与技术人员,明确标注范围、标签体系、标注粒度、空间要求、操作规则及预期输出格式,多源异构数据还应明确配准方式、坐标体系选择及不同模态间的对应关系。
6.2.3 任务定义应以书面文档形式记录,应至少包含任务目标、数据模态、标注对象与输出、对齐映射规则、质量控制与追溯要素等内容,多源异构医学图像数据标注任务描述的示例见附录 A。
6.3 数据接收
6.3.1 数据接收应核对病例数量、模态类型、文件格式、图像序列完整性、文本/结构化字段可用性与配对关系一致性,数据基础要求应符合本文件 7.1 和 7.2 要求。
6.3.2 发现缺失、损坏、格式异常、配对失败或关键元数据不一致时,应登记记录。
6.3.3 应对接收数据进行安全检查,防止恶意代码、病毒或非法数据混入标注系统。
6.4 数据脱敏与登记
6.4.1 在进入标注系统前,应按照 7.3 要求对含有患者身份信息的图像数据及相关附属文件进行脱敏或匿名化处理。
6.4.2 应建立统一的数据编号与登记制度,为每一病例或每一图像序列分配唯一标识符,确保标注文件与原始图像一一对应。
6.4.3 脱敏和登记操作应形成日志记录,并限制访问权限,确保隐私保护和数据可追溯性。
6.5 数据预处理
6.5.1 应按照 7.4 要求对图像进行去噪、重采样、配准等必要的预处理操作。
6.5.2 预处理后的数据应保留必要的空间信息(如体素间距、方向矩阵、配准矩阵等),并确保与后续标注坐标系完全一致。
6.5.3 预处理参数、软件版本及处理日志应记录并归档。
6.6 标注任务配置与标签模板加载
6.6.1 标注前,应导入经批准的标签体系、层级结构和属性定义,生成标准化标注模板。
6.6.2 应根据病例数量、任务难度和标注人员能力,将标注任务合理分配给相应人员或小组,明确每个任务的完成时限和质量控制要求。
6.6.3 如采用模型辅助标注,应在此环节配置模型版本、推理参数及输出格式。
6.7 初始标注
6.7.1 标注人员应依据任务定义和标签体系开展标注,标注方式包括点标注、线标注、框标注、多边形标注、像素级或体素级分割,具体方式根据标注精度需求确定。
6.7.2 采用模型辅助标注时,应由模型生成初始标注结果,再由人工审核、校正与确认后形成初始标注结果。
6.7.3 初始标注过程中发现的特殊病例、疑难病变或工具异常等情况,应按任务说明文档规定进行不确定性标记并进入复核流程。
6.8 标注审核
6.8.1 重要任务或关键病种的标注结果应至少经过一名具备相应资质的复核人员进行复核,高风险或疑难病例宜由两名及以上人员交叉复核。
6.8.2 当标注结果存在较大分歧或超出预设一致性阈值时,应提交医学专家进行审核,由专家给出最终标注意见并形成记录。
6.8.3 复核与审核结论应更新到标注数据中,并保留原始标注版本,确保全过程可追溯。
6.9 质量控制与一致性评估
6.9.1 应按照第 10 章要求,制定组批原则、抽检比例或全检策略,对标注数据进行一致性、准确性评估。
6.9.2 宜采用定量指标及定性评审相结合的方式,对不同标注人员、不同批次的标注质量进行统计分析。
6.9.3 对不合格数据应明确返工要求,重新进入相应标注或复核环节,并记录返工原因、修订内容与复验结论。
6.9.4 发现系统性偏差或重大风险时,应触发专项复核或扩大抽检范围,必要时暂停交付并执行异常处理与回退。
6.10 数据导出、归档与反馈
6.10.1 定版后的标注数据宜采用独立于图像文件的结构化标注文件形式(JSON、NIfTI 等),按任务说明文档与附录 B 规定的数据结构、文件类型、字段与命名规则导出。
6.10.2 标注数据、 日志记录、质量控制报告、配准与预处理参数、模型版本信息等应统一归档和备份,保存期限应符合相关法律法规及机构管理要求。
6.11 异常情况处理与流程回退
6.11.1 在数据接收、脱敏、预处理、标注或质量控制过程中发现严重问题(如数据错误、标注系统故障、大规模标注偏差等)时,应立即中止相关环节,启动异常处理流程。
6.11.2 异常处理流程应明确问题识别、原因分析、风险评估、整改措施和恢复条件等内容,并在必要时将流程回退至对应环节(如从质量控制环节回退至初始标注或复核环节)。
6.11.3 所有异常事件及处理结果应形成记录,用于预防同类问题再次发生。
7 数据要求
7.1 数据来源要求
多源异构医学图像数据及相关文字描述数据应来源于合法合规的医疗机构或科研机构,数据采集过程应符合医学伦理要求,并遵守相关法律法规及数据隐私保护规定。
7.2 数据结构要求
多源异构医学图像数据在符合YY/T 1833.2要求的基础上,适用时应满足以下要求:
a) 结构完整:图像数据应包含完整的 DICOM 或 NIfTI 文件结构,结构格式见附录B;
b) 方向矩阵(Direction)明确:图像方位必须以矩阵形式明确记录,方向矩阵必须能够唯一确定图像坐标系方向;
c) 体素间距(Spacing)精确:提供三维体素间距,且单位明确;
d) 图像原点(origin)记录完整:记录图像在物理空间中的原点坐标;
e) 序列连续性:所有切片应按正确的空间位置排序,不得出现丢片、重复片、顺序错误或方向翻转;
f) 像素值有效性:图像像素值应符合临床成像标准,如CT值单位(H)应正确,MRI图像应无严重偏场伪影或信号中断;
g) 图像质量可接受:图像应具有足够分辨率、对比度及信噪比,以满足标注精度要求;
h) CT/MRI/PET 等放射图像文件宜采用 DICOM;WSI 宜采用 OpenSlide 兼容格式或项目约定格式并提供金字塔与倍率元数据; 内窥镜/超声视频或多帧数据宜采用项目约定的可解析格式,并提供帧索引与时间戳规则。
7.3 数据脱敏要求
7.3.1 进入标注系统的多源异构医学图像数据数据及其附属信息,在不影响标注任务和科研目的的前提下,应进行脱敏或匿名化处理,去除或屏蔽能够直接或间接识别患者真实身份的信息。
7.3.2 图像数据的脱敏处理应符合 GB/T 45574-2025 中 6.4 的要求。
7.4 数据预处理要求
7.4.1 去噪要求
应在不改变真实病理结构、不模糊关键边界、不引入伪特征的前提下,抑制设备噪声、散射噪声及偏场伪影等影响。
注:可采用经验证的高斯滤波、非局部均值、小波去噪、N4BiasFieldCorrection 等方法,具体算法与参数应记录。
7.4.2 重采样要求
应统一或规范不同批次、不同设备和不同模态的体素间距或空间分辨率,如将 CT 重采样至近似 1mm ×1mm×1mm 体素或采用项目约定的等距体素设置,并同步更新NIfTI 的 affine 矩阵或DICOM 中的空间信息,确保三维坐标系一致。
7.4.3 配准要求
数据在标注前应完成空间配准,使不同模态的解剖结构位置尽可能一致。配准宜优先采用刚体或仿射配准,对存在明显形变的情况可采用B 样条或其他经验证的非线性配准算法,并评估配准误差。
8 标注核心要求
8.1 标注类型与范围
数据标注任务宜根据下列维度进行分类:
——按模态分类:CT、MRI、PET、超声、 内窥镜、全景病理切片等;
——按标注对象分类:器官定位标注、病变区域标注、特征描述标注、关联关系标注;
——按标注维度分类:二维切片标注、三维体数据标注、时间序列标注、配准后联合标注等。
8.2 标签体系
应基于图像数据“标签统一、扩展标签可添加 ”的原则,至少包含以下核心元素:
a) 标签编码:每个解剖结构与病灶标签必须具有唯一编码,可采用英文化命名(如liver, lung_upper_lobe, brainstem, tumor_hcc),并可根据层级形式构建树状结构;
b) 语义定义:具有清晰的医学定义,如结构名称、组织学特征、功能意义、临床指征等,以确保标注人员理解一致;
c) 结构属性:如器官类型(实质性器官/空腔器官)、解剖层级(系统 /器官/子结构)、边缘特征(清晰/模糊)等;
d) 扩展字段:如病灶强化特征、病理类型、分级(BI-RADS、NI-RADS)、时间序列特征(进展稳定)等。
注:图像标注标签体系示例见附录 C。
8.3 标注粒度
标注粒度应采用分层级设计,以适应不同标注任务的复杂度。层级结构一般分为三级或四级,可根据器官、病灶类型进行扩展:
a) 一级(系统级):如消化系统、神经系统、呼吸系统;
b) 二级(器官级):如肝脏、胰腺、脑、心脏、肺;
c) 三级(子结构):如肝段(S1 –S8)、肺叶(左上叶/右中叶)、脑区;
d) 四级(微结构或特征级):如病灶坏死区、强化边缘区、软化区、动脉期强化区域。
注1: 病灶标注粒度可分为图像级标签(weak label)、区域级(bbox/ROI)、边界级(polygon)、体素级分割(mask)。
注2:模型训练与临床场景一般要求体素级分割,需严格控制粒度一致性。
9 质量检查指标
9.1 定量指标
9.1.1 准确性
标注结果应与参考标准结论一致。评价指标包括但不限于:
——检测/定位任务:F1值、精确度、召回率等;
——分割任务:如 Dice 系数、Conformity 系数、交并比、Hausdorff 距离、Pearson相关系数;
——分类/判别任务:灵敏度、特异度、准确率等。
注:评价指标计算方法见附录 D。
9.1.2 一致性
标注人员之间的一致性,可使用Kappa系数描述,该系数说明应符合附录D。
注1: 对于模型辅助标注,应评估AI预测与人工校正的偏差,包括AI初始mask的边界偏移、漏标率、过标率、区域错配等。
注2: 具体指标及阈值应在标注任务说明或质量控制方案中明确,并与抽检比例、判定规则一并固化。
9.2 定性指标
定性指标应该至少包括:
a) 规范性:标签体系、命名规则、坐标系/空间参考、字段编码等应符合本文件及任务要求;
b) 完整性:标注对象、属性字段、映射关系无缺失;
c) 合理性:标注边界、属性取值与医学常识应一致,无明显逻辑冲突;
d) 可追溯性:标注人员、审核意见、修改记录、版本信息、模型辅助标注记录等应齐全;
e) 可用性:标注结果应满足模型训练、科研分析或系统验证等预期用途。
10 质量控制与评价
10.1 质量控制
标注过程中质量控制应符合 GB/T 42755—2023 中 6.2 的要求。
10.2 质量指标评价
10.2.1 定量指标评价
10.2.1.1 通过抽样检验的方式对标注结果进行评价,计算任务规定的指标,应满足9.1的要求。
10.2.1.2 一致性评价应在不同标注员之间进行,并记录在质量控制文件中。
10.2.1.3 对于一致性较差的区域(如Dice<0.75),需进入专项审核流程,并根据错误类型重新标注或修正标签体系。
10.2.2 定性指标评价
宜结合专家审查与规则检查开展,由审核组或专家组根据审核记录、典型案例和质量控制报告,进行定性评价,作为综合评价的重要组成部分,定性评价应满足9.2的要求。
10.2.3 综合评价
应建立综合评价规则,将定量指标和定性意见结合形成评价结论,包括综合评价结论应指出优势和不足,明确是否“可用于预期应用场景 ”“可在限定条件下使用 ”或“需整改后方可使用 ”等。
附 录 A
(资料性)
多源异构数据标注任务描述举例
A.1 任务概述
A.1.1 任务目标
面向多模态模型训练/验证,完成甲状腺结节在超声图像中的定位/勾画,并与同次检查报告的关键描述建立图像—文本对应关系。
A.1.2 数据模态
内容包含如下:
——医学图像: 甲状腺超声静态图像(必要时含关键帧序列);
——文字描述:对应检查报告文本及结构化字段(如部位、大小、征象描述、结论/分级字段等)。 A.1.3 标注方式
模型辅助(半自动)+ 人工确认/修订。
A.1.4 交付内容
内包含如下:
——图像端:结节 ROI 轮廓/掩膜;
——文本端:报告字段抽取或实体/片段标注(按任务约定);
——分级端:按既定规则体系形成分级标签(示例:ACR TI-RADS 1~5 类)。
A.1.5 结果组织
图像标注文件 + 结构化字段(JSON/表格)+ 对齐映射 + 清单/校验信息(manifest),并与样本ID、版本号、人员信息关联。
A.2 关键标注规则
A.2.1 勾画规则
模型输出仅作候选提示(如中心点/初始轮廓/掩膜),最终轮廓由标注人员修订确认;多发结节按任务约定编号并分别输出;边界不清/伪影遮挡等情况按任务约定策略处理,并记录异常标记。
A.2.2 分级规则
在勾画确认后执行;分级取值范围与依据应明确;分级仅用于记录既有分级结论,不用于生成新的医学诊断结论。
A.2.3 文本标注规则
字段定义、取值集合、缺失/不确定编码方式应明确;结构化字段与自由文本不一致时,按任务约定优先级处理并记录依据。
A.2.4 一致性监控
可采用抽样复标/交叉复核方式监控人员间一致性与自身一致性,并记录差异与整改结果(频次与比例由任务定义约定)。
A.2.5 角色与职责
内容包含如下:
——角色配置:
. 至少包括勾画标注、勾画审核、分级标注、分级仲裁;
. 涉及文本与对齐时应设置文本标注/审核(可兼任但职责应分离描述);
——能力要求:
. 勾画标注人员应具备相应判读能力并完成规则与工具培训;
. 审核/仲裁人员应具备更高资质与复核能力,负责确认与争议裁决;
——上岗要求:可设置岗前考核与复测机制(指标与阈值由任务定义约定)。
A.3 工具与环境
A.3.1 工具能力
支持超声图像读取显示、半自动勾画、人工编辑、审核流转、导出与版本记录;支持分级录入、文本字段标注/抽取、对齐映射建立、冲突提示与导出;支持权限与日志留存。
A.3.2 环境要求
终端显示与交互满足任务需求(示例:分辨率不低于 1920×1080) ;在受控网络与分级授权条件下访问数据,满足数据安全与保密要求。
A.4 数据准备与样本约束
内容包含如下:
a) 采集与合规信息:记录采集时间范围、采集机构/设备与合规性信息,并明确数据来源人群范围;
b) 清洗与剔除:剔除不完整、严重伪影遮挡、分辨率显著不足、带有影响标注的文字测量标记等样本,并记录剔除原因;
c) 去重与关联:开展去重核验(维度由任务定义约定);确保图像与报告在检查级(或约定粒度)可正确关联,关联失败样本隔离并记录处理结果。
附 录 B
(资料性)
常用数据结构示例
B.1 DICOM格式
在 实 际 使 用 中 , DICOM 文 件 应 保 留 完 整 Header 信 息 , 包 括 ImagePosition (Patient) 、 Image0rientation (Patient)、Pixel Spacing、Slice Thickness、Frame of Reference UID 等字段,。若 DICOM 文件被错误压缩或头信息被删除,将导致图像无法重建正确三维结构。以下为一个正确的DICOM头信息示例(节选),展示关键结构字段 :
(0020,0032)Image Position (Patient) : [-158.0,-158.0,-240.0]
(0020,0037)Image 0rientation (Patient) : [1.0,0.0,0.0,0.0,1.0,0.0]
(0028,0030)Pixel Spacing: [0.742,0.742]
(0018,0050)Slice Thickness :1.000
(0020,1041)Slice Location:-240.0
(0020,000E)Series Instance UID : 1.2.840.113619.2.55.3.604688234.652.159976
(0020,0052)Frame of Reference UID : 1.2.840.113619.2.55.2.1234567890
该示例包含完整的空间矩阵信息,可保证图像在三维物理空间中正确定位。
B.2 NIfTI格式
对于科研数据或AI 模型训练,常使用NIfTI 格式(.nii 或.nii.gz)。NIfTI 文件将三维图像存储为一个整体,同时在Header 中包含 affine 矩阵,用于描述坐标系统、体素间距与方向信息。为了确保模型训练端与标注端的一致性,affine 矩阵必须正确记录,尤其是在重采样、图像旋转、切割等操作后必须同步更新。以下为一个正确的NIfTI affine 矩阵示例 :
Affine :
[[0.742,0.000,0.000,-158.0]
[0.000,0.742,0.000,-158.0],
[0.000,0.000,1.000,-240.0].
[0.000,0.000,0.000,1.000]]
其中
a) 左上角 3x3 矩阵表示方向(与 DICOM 0rientation 对应);
b) 最后一列前三项为 origin;
c) 对角线表示体素间距(spacing);
B.3 JSON格式
所有标注结果应独立存为结构化标注文件,推荐使用JSON格式。JSON中必须包含图像引用(如UID或文件名)、标签编码(如liver、tumor)、标注类型(mask、polygon、bbox)、空间坐标(pixel 或
voxel 坐标)、属性信息(如形态描述、组织学特征)以及版本号、标注者信息等元数据。以下提供一个完整的JSON标注文件示例:
{
"image_id" : "CT_00123",
"spacing" : [0.742, 0.742, 1.0],
"origin": [-158.0, -158.0, -240.0],
"direction" : [[1,0,0], [0,1,0], [0,0,1]],
"annotations" : [ {
"label" : "liver",
"type" : "mask",
"mask_file" : "CT_00123_liver.nii.gz",
"attributes": {
"organ_system" : "digestive", "level" : "organ"
}
},
{
"label" : "tumor",
"type" : "mask",
"mask_file" : "CT_00123_tumor_01.nii.gz",
"attributes": {
"lesion_type" : "HCC",
"shape" : "irregular",
"enhancement" : "arterial hyperenhancement" }
}
],
"annotator" : "doctor_A",
"version" : "1.0",
"timestamp" : "2025-03-12T10 :25 :00" }
此示例展示了完整的图像空间信息、标注文件路径、标签体系信息及属性标签,是AI模型训练与标注审核系统所需要的标准化结构。
附 录 C
(资料性)
多源异构标注标签体系示例
C.1 标签体系示例(节选)
本文件采用“类别(category)—标签编码(label_code)—标注类型(type)—属性(attributes)”的结构组织标注信息。标签体系可按器官、病灶、病例级属性等维度分层扩展:
a) 器官类(organ):如 LUNG_LEFT、LUNG_RIGHT;
b) 病灶类(lesion):如 PNEUMONIA_GGO、PNEUMONIA_CONSOLIDATION;
c) 属性类(attribute):如 CASE_LEVEL(病例级诊断、分级、评分等)。
注:标签命名宜采用英文大写/下划线形式,保持跨机构一致性;如需本地化显示,可在工具层做映射,不影响机器
可读编码。
C.2 多源异构标注数据 JSON Schema(结构要点)
多模态标注数据建议采用 JSON(或 JSON Lines)组织,基本结构如下:
a) task_id:任务唯一标识;
b) image:图像对象信息(至少包括 u id、modality、shape、spacing、origin、direction 等);
c) annotations []:标注对象列表(器官/病灶/属性等);
d) metadata:标注、复核、软件、时间戳、质量控制、版本与审计信息。
C.3 annotations 对象字段(最小字段集)
每条标注对象宜至少包含:
a) id:标注对象唯一 ID;
b) category:类别(organ / lesion / attribute / …);
c) label_code:标签编码;
d) type:标注类型(mask / bbox / polygon / point / attribute);
e) data:几何或属性载荷;
. mask_file(mask 类型)
. bbox(bbox 类型)
. polygon + slice_index(2D polygon)
. attributes(属性类/补充字段)
. cross_modal_links[](用于图像—图像、图像—文本、图像—结构化字段的对应,可选)
C.4 metadata(追溯与质量控制字段要点)
为满足可追溯性,建议在 metadata 中记录:
a) annotator / reviewer / institution;
b) software.name / software.version / software.ai_model(可选);
c) timestamps.start / timestamps.end;
d) qc.status / qc.issues(可选);
e) version:数据包版本号;
f) audit[]:关键操作流水(创建、模型建议、人工修订、复核确认等)。
C.5 示例(片段)
以下为示例片段(仅展示结构,不代表唯一实现):
{
"task_id" : "TASK_CT_LUNG_000001",
"image" :
{"u id" :" ","modality" :"CT","shape": [512,512,320],"spacing": [0.7,0.7,1.0]}, "annotations" : [
{"id" :"ORG_LUNG_LEFT","category":"organ","label_code" :"LUNG_LEFT","type":"mask","mask_fil e" :"masks/xxx.nii.gz"},
{"id" :"LESION_01","category":"lesion","label_code" :"PNEUMONIA_GGO","type" :"bbox","bbox" :[.
],"cross_modal_links" :["TXT_SPAN_01"]} ],
"metadata" : {"annotator":" ","reviewer" :" ","version" :"v1.0"} }
附 录 D
(规范性)
标注质量评价指标计算方法
D.1 总则
本附录给出多源异构医学图像数据标注中常用的评价指标与计算方法。
D.2 召回率
被正确检测出的目标数量占所有目标数量的比例,计算方法见式(D.1)
式中:
Rec ——召回率;
TP_object ——正确检测目标数;
FN_object ——漏检目标数。
D.3 精确度
被正确检测出的目标数量占所有被检出对象的比例,计算方法见式(D.2)
Pre
式中:
Pre ——精确度;
FP_object ——误检目标数。
D.4 Dice 系数
用于计算两个分割区域的重合度,计算方法见式(D.3)
Dice=2 × ....................................(D.3)
式中:
A ——真实分割区域;
B ——预测分割区域。
D.5 Conformity系数
错误分割的像素数与正确分割目标区域像素数之间的比例关系,计算方法见式(D.4)
Conformity 式中:
FP_pixel ——错误分割像素数;
TP_pixel ——正确分割像素数。
D.6 交并比
评价预测的分割区域与真实分割区域的重合程度,计算方法见式(D.5)
IoU ................................(D.5)
式中:
IoU——交并比。
D.7 Hausdorff 距离
描述两个分割区域轮廓的距离,双向 Hausdorff 距离计算方法见式(D.6)
dH(X,Y)= max式中:
max min d(x y) max min d(x y) .......................(D.6)
dH (X, Y) ——双向 Hausdorff 距离;
X ——预测的分割区域;
Y ——人工标注的分割区域;
d (x, y) ——X、Y 两个区域任意两点之间的距离。
D.8 Pearson 相关系数
两个变量的协方差除以其标准差乘积
ρ(X,Y)= =E[(X − μX)(Y − μY)]/ (σX σY)...................(D.7)式中:
ρ (X, Y) ——Pearson 相关系数;
μX ——X 的平均值;
μY ——Y 的平均值;
σX ——X 的标准差;
σY ——Y 的标准差;
E ——期望(即平均值)。
Pearson 相关系数的绝对值越大,相关性越强;
相关系数越接近于 1 或 一1,相关度越强;
相关系数越接近于 0,相关度越弱。
D.9 灵敏度
Sen 式中:
Sen ——灵敏度;
TP_sample——真阴性样本数量;
FN_sample——假阳性样本数量。
D.10 特异度
Spe 式中:
Spe ——特异度;
TN_sample ——真阴性样本数量;
FP_sample ——假阳性样本数量。
D.11 准确率
准确率用Acc 表示,计算方法见公式(D.10):
Acc ..................................(D.10)
式中:
Nij——泛指混淆矩阵第 i 行、第 j 列的元素;
Nji——泛指混淆矩阵第 j 行、第 i 列的元素;
D.12 Kappa 系数
k .................................(D.11)
其中 :
pe 式中:
Nij ——泛指混淆矩阵第 i 行、第 j 列的元素;
Nji ——泛指混淆矩阵第 j 行、第 i 列的元素;
Acc——准确率。
参 考 文 献
[1] GB/T 1.1—2020.标准化工作导则 第1部分:标准的结构和编写规则[S].北京:中国标准出版社, 2020.
[2] GB/T 22239—2019.信息安全技术 网络安全等级保护基本要求[S].北京:中国标准出版社,2019.
[3] GB/T 35273—2020.信息安全技术 个人信息安全规范[S].北京:中国标准出版社,2020.
[4] GB/T 43697—2024.数据分类分级规则[S].北京:中国标准出版社,2024.
[5] 国家卫生和计划生育委员会.WS 445—2014 医学图像诊断中心基本标准[S].北京:中国标准出版社,2014.
[6] 国家卫生健康委员会.WS 519—2018 医学图像诊断中心管理规范[S].北京:中国标准出版社,2018.
[7] National Electrical Manufacturers Association (NEMA).Digital Imaging and Communications in Medicine (DICOM) Standard[S].Rosslyn, VA : NEMA, 现行版本.
[8] Neuroimaging Informatics Technology Initiative (NIfTI) . NIfTI-1 Data Format Specification [S].Bethesda, MD : National Institutes of Health, 现行版本.
[9] Radiological Society of North America (RSNA) . RadLex Radiology Lexicon[EB/OL].https://www.rsna.org/radlex.
[10] International Health Terminology Standards Development Organisation (IHTSDO).SNOMED CT : Systematized Nomenclature of Medicine—Clinical Terms [S].London : IHTSDO, 现行版本.
[11] Regen strief Institute . LOINC : Logical Observation Identifiers Names and Codes [S].Indianapolis: Regen strief Institute, 现行版本.
[13] Health Level Seven International (HL7) . FHIR: Fast Healthcare Interoperability Resources [S].Ann Arbor, MI : HL7, 现行版本.
[13] 全国人民代表大会常务委员会.中华人民共和国数据安全法[S].北京:人民出版社,2021.
[14] 全国人民代表大会常务委员会.中华人民共和国个人信息保护法[S].北京:人民出版社,2021.
[15] 全国人民代表大会常务委员会.中华人民共和国网络安全法[S].北京:人民出版社,2017.
[16] 国家卫生健康委员会. 电子病历管理规范[S].北京:国家卫生健康委员会,现行版本.
[17] 国家卫生健康委员会.医疗质量管理办法[S].北京:国家卫生健康委员会,现行版本.
[18] 国家卫生健康委员会.国家智慧医疗标准体系建设指南[S].北京:国家卫生健康委员会,现行版本.
[19] 国家医学图像数据库(NIMI)建设工作组.国家医学图像数据库(NIMI)技术体系与数据规范[S].北
京:国家卫生健康委员会,现行版本.