欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |ICS 35.240.80 CCS L 76
T
团 体 标 准
T/SIGA 006—2026
人工智能辅助医保医用耗材分类系统
通用要求
General specification for AI-assisted medical insurance consumables
classification system
2026-03-30 发布 2026-03-31 实施
上海市图像图形学学会 发 布
T/SIGA 006-2026
T/SIGA 006-2026
前 言
本文件按照 GB/T 1.1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由上海市图像图形学学会提出并归口。
本文件起草单位:万达信息股份有限公司、华东师范大学、上海交通大学、上海健康医学院。
本文件主要起草人:戴永亮、闫锦成、周黎、张晶菁、陶思旭、朱佳杰、徐兆峰、周雨晴、王晨林、施振东、邵慧力、张磊、陆爱君、袁其文、肖湘、项冬冬、姚思琼、郭景振、胡孟晗、翟广涛。
T/SIGA 006-2026
引 言
随着医保相关业务的不断发展,医保医用耗材分类在耗材管理和业务衔接中的基础性作用日益凸显。
在实际应用中,医保医用耗材分类涉及对多来源业务信息的综合分析和判定,分类过程对数据处理能力、分类逻辑一致性以及结果可追溯性等方面提出了较高要求。仅依赖人工方式开展分类,难以在准确率与稳定性方面满足规模化应用需求。
在此背景下,有必要针对人工智能辅助医保医用耗材分类系统的建设提出统一的通用要求。本文件围绕分类系统的准入模块、预处理模块、分类模块、存储模块的共性需求提出相应要求,为相关分类系统的建设和应用提供参考,促进医保医用耗材分类工作的规范化和智能化发展。
T/SIGA 006-2026人工智能辅助医保医用耗材分类系统通用要求
1 范围
本文件规定了人工智能辅助医保医用耗材分类系统的架构、准入模块、预处理模块、分类模块、存储模块、结果输出性能要求和测试方法。
本文件适用于人工智能辅助医保医用耗材分类系统(以下简称“分类系统 ”)的开发和建设。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 41867—2022 信息技术 人工智能 术语
3 术语和定义
GB/T 41867—2022 界定的以及下列术语和定义适用于本文件。
3.1
分类目录 classification catalogue
按照既定规则和层级结构,对医保医用耗材进行分类管理所采用的目录体系。
3.2
规则库 rule base
由业务专家基于历史经验制定的结构化定义集合,包含各品类的筛选流程、筛选标准及特征描述,是连接一次分类结果与二次分类的核心纽带。
3.3
置信度 confidence score
用于表征自动分类结论正确性可能性的数值化指标;数值越高表示在当前阶段采信该结论的把握越大。
3.4
加权 F1 分数 weighted F1-score
以各分类目录的业务占比为权重,对各类别 F1 分数进行加权平均后得到的系统整体分类质量评价指标。
3.5
宏 F1 分数 macro-F1 score
平权对待所有候选目录,对各类别 F1 分数进行算术平均后得到的评价指标,用于衡量系统对所有品类的全覆盖判定能力。
3.6
医疗保障 medical insurance consumables
医保
由国家或社会依法建立的提供经济补偿与医疗服务的社会保障制度。
T/SIGA 006-2026
3.7
医用耗材 medical insurance consumables
在医疗服务过程中使用,具有明确功能用途和管理属性的医用耗材。
3.8
医保医用耗材分类系统 medical insurance consumables
基于医疗保障管理需求,通过人工智能、大数据等技术手段,对医用耗材进行分类管理的分类系统。
4 分类系统架构
4.1 分类系统由准入模块、预处理模块、分类模块及存储模块组成。分类系统整体架构见图 1。
图 1 分类系统架构图
4.2 准入模块负责根据既定规则和业务逻辑对申报数据进行初步筛选、任务智能分流和语义逻辑校验。
4.3 预处理模块负责对多源异构数据进行跨模态附件处理、语义映射标准化和关键字段提取。
4.4 分类模块负责通过混合推理机制和多级分流策略,对耗材类别进行判定。
4.5 存储模块负责分类结果的入库、置信评分输出以及决策链路的全流程溯源存证。
5 准入模块
5.1 数据初步匹配筛选
对于编码与分类目录存在稳定映射关系的耗材类别,分类系统应执行直接匹配筛选,具体要求如下:
a) 应依据实际业务建立“直接分类编码清单”,明确映射关系,作为准入判定的基础依据;
b) 若匹配成功,分类系统应直接输出分类结果,并记录匹配依据为“可直接分类 ”。
5.2 任务分流
对于申报编码未包含在直接分类清单内,且无法通过编码单一维度进行分类的耗材,分类系统应执行分流机制。具体要求如下:
a)应自动将耗材分流入后续的分类流程;
b)应记录当前处理环节的流转状态。
5.3 语义逻辑校验
对于申报编码未包含在直接分类清单内,但可根据特定规律执行判定的耗材,分类系统应执行专项校验逻辑。具体要求如下:
T/SIGA 006-2026
a) 应根据实际业务实践总结出特定规律;
b) 若不符合特定规律要求,分类系统应判定为不可直接分类,并执行流程中断。
6 预处理模块
6.1 多模态附件处理
应对非结构化文档的获取、比对及转换进行规范化处理,具体要求如下:
a) 应具备从服务器存储系统中调取申报相关原始附件的能力;
b) 应具备校验附件完整性的能力;
c) 应支持附件增量更新;
注:增量更新是指通过识别附件状态,仅针对新增或发生变更的附件执行处理的过程。
d) 应具备对非结构化附件执行格式规范化转换的能力,且转换后的附件应符合后续模型的处理要求;
e) 转换后的附件应按业务类型执行分类存储。
6.2 语义映射标准化
应对根据 6.3 提取要求提取出的结构化数据字段的定义与映射建立统一标准,具体要求如下:
a) 处理的字段应涵盖核心业务、分类目录、物理属性、时间与状态以及核心描述等数据维度,字段示例见附录 A;
b) 应具备对多源提取字段的语义整合能力,确保代表同一内容的原始数据映射至统一的标准化字段;
c) 应预设标准化的结构化输出模板,确保最终生成的结构化数据文件字段结构完整;
d) 对于未识别到有效内容的字段,应予以保留并采用空值填充。
6.3 关键字段提取
应按以下要求从多源提取耗材分类所需关键字段:
a) 应具备从结构化与非结构化数据中抽取耗材分类所需关键字段,并存储为结构化字段的能力;
b) 在处理附件等非结构化数据时,应支持对其进行自动校正与版面分析,具备对文本、表格等不同逻辑模块的识别与结构化还原能力;
c) 应具备对文档图像与文本内容的联合语义理解能力,能够依据预设指令从复杂信息中关联并整合关键字段;
d) 提取过程应严格遵循“证据导向 ”原则,确保提取结果与原始资料一致,不应捏造不存在的信息。
7 分类模块
7.1 分类
7.1.1 分类流程见图 2。
T/SIGA 006-2026
图 2 分类流程图
应依据预处理阶段生成的结构化字段执行分类判定,具体流程如下:
a) 数据输入:接收预处理模块提取的结构化字段,作为判定的初始输入;
b) 一次分类模型推理:启动一次分类模型对输入特征执行初次推理,生成一次分类结果及置信度;
c) 置信度判定(置信度决策分流):根据推理置信度判定是否达标。未达标样本应进入候补分类方案进行重新分类;
d) 候补分类方案:结合知识库检索结果与大模型推理实现分类;
e) 二次分类判定(二次分类决策分流):分类系统根据一次分类或候补分类方案的结论执行二次分类准入核验。针对命中“二次分类目录清单 ”的样本,启动二次分类深度判定流程;
f) 二次分类模型推理:调用多模态模型执行特征提取,并结合判定决策模型完成二次分类(具体要求见 7.3.2);
g) 返回分类结果:汇总多路径判定产生的证据、匹配度及结论,最终返回标准化的分类结果。
7.2 判定
7.2.1 置信度判定
应对推理结果的置信度判定建立标准,具体要求如下:
a) 宜采用分类模型在执行推理任务时同步生成的置信度分值作为判定的核心依据;
b) 宜设定量化的置信度阈值作为分流界限。该阈值的具体数值应基于人工比对测试结果、模型性能分布统计以及业务容错率进行科学取值;
c) 当模型输出的最高置信度指标未达到预设阈值时,应判定为“不达标”,分类系统应自动调用候补分类方案执行判定,以保障判定的可靠性。
T/SIGA 006-2026
7.2.2 二次分类判定
应对特定目录的深度判定机制设定标准,具体要求如下:
a) 应基于业务规则与专家经验总结,动态维护一份“二次分类目录清单”;
b) 当一次分类结果命中上述清单范围时,分类系统应强制转向二次分类流程。此过程应调用具备深层语义理解能力的多模态大模型,基于一次分类结果和附件证据执行再次判定;
7.3 模型要求
7.3.1 一次分类模型
分类系统应选用符合应用场景的判别式模型,其训练与性能要求如下:
a) 训练:
1) 数据集要求:训练数据集应源于经医保医用耗材分类专家审核的历史分类样本;数据集应涵盖实际业务所需的特征字段及其对应的标准分类标签;
2) 数据质量控制:应对训练数据执行严格的清洗与去噪处理,确保样本标签的准确性,避免模型因噪声数据产生语义歧义;
3) 微调策略标准:应采用领域自适应微调技术及参数高效微调方法,使基础模型深度理解医用耗材领域的专业术语与语义逻辑;微调过程应侧重于提升模型对耗材技术特征与医保分类目录之间映射关系的捕捉能力;
4) 类别均衡优化:针对医保耗材目录存在的品类分布不均现象,训练算法应集成样本权重调节机制或不平衡采样策略,以提升模型对小样本类别的识别准确率;
5) 特征交互理解:模型架构应具备多维特征关联分析能力,能够深度解析耗材结构化数据中各字段间的内在逻辑关联;
6) 持续学习机制:模型训练架构宜支持增量学习或定期重训练机制,以快速适配医保耗材目录的动态更新与新增品类的分类需求。
b) 性能:
1) 语义识别能力:模型应具备对耗材多维属性的理解能力,能够准确识别不同表述方式下的语义关联,确保属性相近或同类的耗材特征被准确归类;
2) 分类准确率指标:模型应支持返回预测概率最高的单项判定结果;
3) 置信度有效性:模型输出的置信度评分应能真实反映判定结果的可信程度,评分分值的高低应与实际预测准确率保持正相关;
4) 识别稳健性:模型应对耗材目录中的稀疏类别具备稳定的识别能力,并能容忍申报数据中的字段缺失等常见噪声干扰。
7.3.2 二次分类模型
7.3.2.1 特征提取
二次分类过程中的特征提取逻辑应由业务规则驱动,具体要求如下:
a) 应由业务专家基于历史分类样本与实际业务经验,人工总结并制定“二次分类目录清单 ”。针对清单内每一类别,应预先制定对应的筛选流程与分类依据,并将其存储于结构化的规则库中,作为后续特征提取的核心基准。规则库结构应符合附录 B 的规定;
b) 在执行提取任务时,分类系统应根据判定的目标类别,从规则库中实时检索对应的相关特征的描述。这些信息应作为动态约束参数注入模型指令中,指导模型在海量原始资料中定向定位关联证据;
c) 分类系统应根据业务附件的不同属性配置差异化的指令引导。应通过精准的逻辑对齐,确保模
T/SIGA 006-2026
型在处理不同来源图像时具备明确的甄别重心,防止跨领域无效搜索,从而提升特征提取的聚焦度与准确性;
d) 模型应具备对文本、图表、图像及公式等多模态信息的综合解析能力。提取逻辑应支持适当的语义类比,不仅能够捕捉关键词原文,还应识别语义相关的描述。对于识别到的疑似特征,应同步给出可信度评价分级(如:高、中、低),为后续决策提供量化参考;
e) 在处理包含多个型号或规格的复杂业务图像时,模型应具备特定对象的约束能力。分类系统应能接收特定的型号或规格限制指令,确保模型优先且仅提取与目标对象相关的技术特征,避免因多对象信息混淆而导致判定偏离;
f) 模型应将提取到的特征信息与原始资料中的文本片段或视觉证据进行关联映射。最终产出的内容应包含完整的特征描述、原文证据以及匹配度评分,确保判定过程中的每一个特征点均具备可追溯的业务依据。
7.3.2.2 判定决策逻辑
基于特征提取结果执行路径选择的决策逻辑应符合以下要求:
a) 判定过程应以 7.3.2.1 产出的内容为核心输入,结合从规则库中检索到的筛选流程和筛选标准,在预设的候选空间内执行逻辑比对。分类系统应确保判定依据完全来源于前期提取的客观证据,不应脱离证据链进行主观推测;
b) 应对提取的特征内容执行全方位评估。判定决策应涵盖原文一致性核验、语义关联性匹配以及业务逻辑合理性验证,确保判定结论具备多层次的证据支撑,并能有效区分直接证据与辅助佐证;
c) 应建立严密的量化评分机制,对证据与候选类别的契合度进行梯度评价。评价标准应涵盖从“完全匹配(特征完全吻合且无反证)”到“完全无关 ”的梯度(如基本匹配、近似匹配、可能匹配等),并根据证据的充分性与排他性给出百分比形式的匹配度评分;
d) 在判定过程中,应同步检索是否存在与候选类别定义相悖的反面证据。若出现证据冲突,分类系统应具备异议识别能力,并在决策过程中明确记录异议点及其对匹配度评分的影响,确保判定过程的严谨性;
e) 分类系统应基于各候选类别的综合评估分值,自动优选匹配度最高或最符合业务逻辑的类别作为最终结论。判定过程应具备回溯能力,能够清晰地展示从“原始特征提取”到“分级证据分析 ”再到“最终决策输出 ”的完整逻辑路径;
f) 最终判定的结论应以标准的结构化文件产出。输出内容应包含最终选定的类别名称、详细的推理逻辑说明、是否存在异议及其原因,以及最终的准确度百分比评分,以满足分类系统入库与后期人工审计的需求。
7.3.3 候补分类模型
在候补路径中执行最终逻辑判别与结果生成的模型应符合以下要求:
a) 模型应具备将预处理提取的字段与 7.4 知识库生成的参考候选类别进行关联分析的能力。模型应在限定的参考范围内,通过逻辑比对选出最符合该耗材特征的单一分类结论;
b) 模型应对判定结论同步产出量化的置信度分值,用以支撑后续的自动化入库决策;
c) 模型应针对最终选择的分类结果给出明确的推理依据。推理理由应清晰地阐述耗材特征与所选类别之间的匹配逻辑,确保判定过程透明且可供追溯。
7.4 知识库要求
候补分类路径所依赖的知识库构建及检索应符合以下要求:
T/SIGA 006-2026
a) 知识库的底层数据应源自官方发布的医保医用耗材分类目录及经专家审核的历史分类样本;
b) 知识库应采用向量索引与关键词索引相结合的混合模式,确保待判定样本能与库中语义高度相关的标准条文执行精准匹配;
c) 知识库检索返回的内容应包含候选分类结果、置信度及检索时参考的字段,为 7.3.3 模型最终判定结论提供有效的上下文参考信息。
8 存储模块
分类判定结果在业务数据库中的持久化逻辑应符合以下要求:
a) 分类系统输出内容应涵盖:
1) 分类结论:包含经判定的分类结果及对应的编码;
2) 质量指标:包含判定结论的置信度评分;
3) 存证信息:包含支撑判定结论的审核依据。
b) 分类系统应将上述输出内容以结构化形式存储于业务主表。
9 结果输出性能要求
分类判定模型在全量业务场景下的分类效能应符合以下要求:
a) 用加权F1指标评价分类系统的整体分类质量。应以各分类目录的业务占比为权重计算加权F1分数,其结果数值宜在0.85 以上;
b) 用宏平均 F1 指标评价分类系统的全覆盖能力。分类系统应平权对待所有候选目录计算宏平均F1分数,确保对冷门品类的判定效力,其结果数值宜在0.85 以上;
c) 分类系统输出的置信度评分应能真实反映判定可靠性。高置信度区间样本的性能应显著优于全量样本的平均水平,其性能偏差值应不低于0.05。
10 测试方法
10.1 测试样本准备
10.1.1 样本量应具有统计学意义并覆盖全量待分类目录。针对少见品类应执行专项采样,确保每个类别均有支撑数据。
10.1.2 应记录样本在业务中的自然发生频率,作为计算“加权 F1分数 ”时各类别权重的唯一依据。
10.1.3 应组织不少于两名专家执行人工判定与交叉核校。专家共识结论作为分类系统评价的唯一基准。
10.2 测试流程
10.2.1 测试应在受控环境下执行全路径自动化推理,不应有人工中途干预。应记录各逻辑节点的原始输出结果。
10.2.2 由分类系统提取各阶段的判定结论并与专家分类结果执行逐项对齐,分类统计判定一致、判定错误及漏判的情况,作为指标计算的基础数据。
10.3 测试结果分析
10.3.1 加权 F1 分数
T/SIGA 006-2026
按照附录 C 中 C.2.1 的方法计算分类系统全链路及各阶段的加权F1 分数,核验测试结果是否达到第 9 章 a)的要求。
10.3.2 宏 F1 分数
按照附录 C 中 C.2.2 的方法,计算分类系统全链路及各阶段的宏F1 分数,核验测试结果是否达到第 9 章 b)的要求。
10.3.3 置信度分层校验
10.3.3.1 应按置信度区间切分测试结果。将置信度分值在0.8(含)~1.0(含)范围内的样本定义为高置信度区间。
10.3.3.2 按照附录 C 中 C.2.3 的方法,分别计算高置信度区间样本与全量测试样本的性能指标。核验其性能偏差值是否符合第9 章 c)的要求。
T/SIGA 006-2026
附 录 A
(资料性)
核心字段示例
表 A.1 给出了核心字段示例。
表 A.1 核心字段示例
T/SIGA 006-2026
附 录 B
(规范性)
规则库结构定义
规则库是连接一次分类结果与二次分类的核心纽带。它由耗材分类业务专家基于历史经验制定,包含对各品类的结构化定义。表 B.1 规定了规则库应包含的核心构成要素及其描述要求。
表 B.1 规则库结构定义
T/SIGA 006-2026
附 录 C
(规范性)
性能指标计算方法
C.1 单类别指标计算
C.1.1 查准率按式(C.1)计算。
pi 100%·······································(C.1)
式中:
pi —— 类别 i 的查准率;
Tpi —— 真正例,真实类别为 $i$ 且系统预测类别也为 i 的样例数;
Fpi __ __ 假正例,真实类别不为 $i$ 但系统预测类别为 i 的样例数。
C.1.2 查全率按式(C.2)计算。
Ri
式中:
Ri —— 类别 i 的召回率;
Tpi —— 真正例,真实类别为 $i$ 且系统预测类别也为 i 的样例数;
FNi __ __ 假反例,真实类别为 $i$ 但系统预测类别不为 i 的样例数。
C.1.3 F1 度量按式(C.3)计算。
F1i ···········································(C.3)式中:
F1i —— 类别 i 的 F1 分数;
pi —— 类别 i 的查准率;
Ri —— 类别 i 的查全率。
C.2 系统综合指标计算
C.2.1 加权 F1 分数计算:先按式(C.4)计算真实样例总数,再按式(C.5)计算加权F1 分数。
ni =Tpi + FNi ·············································(C.4)
式中:
ni —— 属于分类类别 i 的真实样例总数;
T/SIGA 006-2026
TPi —— 真正例,真实类别为 $i$ 且系统预测类别也为 i 的样例数;
FNi __ __ 假反例,真实类别为 $i$ 但系统预测类别不为 i 的样例数。
F1weighted = Σ=1 . F1i) ··········································· (C.5)
式中:
F1weighted —— 整体的加权 F1 分数;
ni —— 属于分类类别 i 的真实样例总数;
N —— 测试集涉及的所有样例总数;
F1i —— 类别 i 的 F1 分数;
k —— 所有分类类别总数;
C.2.2 宏 F1分数计算: 先按式(C.6)和式(C.7)计算各类别查准率和查全率的算术平均值,再按式(C.8)计算宏 F1 分数。
macro __ P Pi … … … … … … … … … … … … … … … … … … …
式中:
macro __ P —— 各类别查准率的算术平均值;
k —— 所有分类类别数;
Pi —— 类别 i 的查准率。
macro __ R Ri … … … … … … … … … … … … … … … … … … …
式中:
macro __ R —— 各类别查全率的算术平均值;
k —— 所有分类类别数;
Ri —— 类别 i 的查全率。
macro __ F
式中:
macro __ F1 —— 整体的宏F1 分数;
macro __ P —— 各类别查准率的算术平均值;
macro __ R —— 各类别查全率的算术平均值;
C.2.3 性能偏差值按式(C.9)计算。
注:本指标为基于 F1 度量衍生出的可靠性核验指标,用于通过比较高置信度样本与全量样本的性能差异,验证分类系统判定的可信度。
Δ = F1high __ F1all ···················································(C.9)
T/SIGA 006-2026式中:
Δ —— 性能偏差值;
F1high —— 高置信度区间内样本的加权F1 分数,计算方法参考式(C.5);
F1all —— 全量样本的加权F1 分数,计算方法参考式(C.5)。
T/SIGA 006-2026
参 考 文 献
[1] 周志华.机器学习[M].北京:清华大学出版社,2016.