欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |ICS 35.240 CCS L 70
37
山 东 省 地 方 标 准
DB37/T 3523.2—2025代替DB37/T 3523.2—2019
公共数据开放 第 2 部分:数据处理指南
Public data opening—Part 2:Data processing guidelines
2025 - 12 - 29 发布 2026 - 01 - 29 实施
山东省市场监督管理局 发 布
DB37/T 3523.2—2025
目 次
前言 II
引言 III
1 范围 1
2 规范性引用文件 1
3 术语和定义 1
4 总则 2
5 数据清洗比对 2
5. 1 处理流程 2
5. 2 处理规则 2
6 数据脱敏 2
6. 1 处理流程 2
6. 2 处理规则 3
7 数据水印 3
7. 1 处理流程 3
7. 2 处理规则 4
8 隐私保护计算 4
8. 1 处理流程 4
8. 2 技术框架 4
9 数据处理评价改进 4
附录 A(资料性) 数据脱敏方法及示例 6
参考文献 7
I
DB37/T 3523.2—2025
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是DB37/T 3523《公共数据开放》的第2部分。DB37/T 3523已经发布了以下部分:
——第 1 部分:基本要求;
——第 2 部分:数据处理指南;
——第 3 部分:开放评价指标;
——第 4 部分:核心元数据;
——第 5 部分:数据使用规范。
本文件代替DB37/T 3523.2—2019《公共数据开放 第2部分:数据脱敏指南》, 与DB37/T 3523.2— 2019相比,除结构调整和编辑性改动外,主要技术变化如下:
a) 将“基本原则”更改为“总则”,补充了数据处理原则(见第 4 章,2019 年版的第 4 章);
b) 增加了“数据清洗比对”一章(见第 5 章);
c) 将“脱敏规划”“脱敏流程”更改为“数据脱敏”(见第 6 章,2019 年版的第 5 章、第 6 章),保留并概括原脱敏处理流程内容,细化脱敏规则内容;
d) 增加了“数据水印”一章(见第 7 章);
e) 增加了“隐私保护计算”一章(见第 8 章);
f) 增加了“数据处理评价改进”一章(见第 9 章)。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由山东省大数据局提出并组织实施。
本文件由山东省大数据标准化技术委员会归口。
本文件起草单位:山东省大数据局、山东省大数据中心、浪潮云信息技术股份公司、山东新一代标准化研究院有限公司。
本文件主要起草人:桓德铭、李晓彤、何敬明、石伟、石俊龙、孙亮、张昭、王坤、王溪、李晨、李杨。
本文件及其所代替文件的历次版本发布情况为:
——2019 年首次发布为 DB37/T 3523.2—2019;
——本次为第一次修订。
II
DB37/T 3523.2—2025
引 言
为促进和规范公共数据开放,提高社会治理能力和公共服务水平,推动数字经济发展,山东省先后印发《山东省公共数据开放办法》(省政府令第344号)、《山东省公共数据开放工作细则》(鲁数发〔2025〕1号)、《关于加快推进数据要素市场化配置改革的实施意见》(鲁政办字〔2024〕124号)等一系列政策文件,对全省公共数据的开放和使用提出要求。
为进一步规范和促进山东省公共数据开放工作,针对当前公共数据开放的平台建设、数据处理、开放评价指标、核心元数据、开放数据使用等工作中存在的问题,结合本省实际,制定DB37/T 3523《公共数据开放》系列标准。DB37/T 3523拟由以下五个部分构成。
——第 1 部分:基本要求。目的在于规范公共数据开放工作的基本原则和要求。
——第 2 部分:数据处理指南。目的在于提供公共数据开放工作中数据处理的指导和建议。
——第 3 部分:开放评价指标。目的在于规范公共数据开放的评价指标的方法和要求。
——第 4 部分:核心元数据。目的在于规范公共数据开放中核心元数据描述方法和描述内容。
——第 5 部分:数据使用规范。目的在于规范公共数据开放中公共数据使用的流程和要求。
III
DB37/T 3523.2—2025
公共数据开放 第 2 部分:数据处理指南
1 范围
本文件确立了公共数据开放中数据处理的总则,给出了数据清洗比对、数据脱敏、数据水印、隐私保护计算、评价改进等方面建议。
本文件适用于指导公共数据开放主体对开放数据的处理。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 36344 信息技术 数据质量评价指标
GB/T 45574 数据安全技术 敏感个人信息处理安全要求
DB37/T 3523.1 公共数据开放 第1部分:基本要求
DB37/T 3523.3 公共数据开放 第3部分:开放评价指标
DB37/T 4646.2 公共数据 数据治理规范 第2部分:数据清洗比对
3 术语和定义
DB37/T 3523.1界定的以及下列术语和定义适用于本文件。
3. 1
敏感数据 sensitive data
由权威机构确定的受保护的信息数据。
注:敏感信息数据的泄露、修改、破坏或丢失会对人或事产生可预知的损害。
[来源:GB/T 39477—2020,3.7]
3. 2
数据脱敏 data desensitization
通过一系列数据处理方法对原始数据进行处理以屏蔽敏感数据(3.1)的一种数据保护方法。
[来源:GB/T 37988—2019,3.12]
3. 3
数据水印 data watermark
从原始环境向目标环境进行敏感数据(3.1)交换时,通过一定的方法向数据中植入水印标记,同时保留目标环境业务所需的数据特性或内容的数据处理过程。
3. 4
隐私保护计算 privacy-preserving computation
在保证不泄露原始数据的前提下,对数据进行分析计算的一类信息技术。
注:隐私保护计算的数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。
1
DB37/T 3523.2—2025
4 总则
4, 1 宜确保数据处理后的安全可控性,经数据处理后,公共数据利用主体获取满足使用需求的原始数据信息,且原始数据中敏感信息已被移除,无法还原敏感数据的原始信息。
4.2 宜确保数据处理后数据的真实性、可用性,处理后的数据宜真实地体现原始数据的特征,且保留原始数据中的有意义信息。在开展数据处理工作时,宜注意内容主要包括:
a) 保持原数据的格式;
b) 保持原数据的类型;
c) 保持原数据间的依存关系;
d) 保持引用完整性;
e) 保持数据的统计、聚合等特征;
f) 保持频率分布;
g) 保持唯一性。
4. 3 宜确保数据处理工作的高效经济性,通过程序自动化实现数据处理,并可重复执行。
4,4 宜确保数据处理工作的稳定可靠性,在同样的处理方法下,保证对相同的原始数据,在各输入条件一致的前提下,无论处理多少次,最终结果相同。
4.5 宜确保数据处理工作的可配置性和灵活性,按照输入条件不同生成不同的处理结果,按照数据使用场景选择数据处理方法,为公共数据利用主体提供不同的处理数据。
5 数据清洗比对
5.1 处理流程
公共数据开放中数据清洗比对是对开放数据进行数据探查、数据质量检查、问题数据修正和转化,提升数据质量,宜按照如下流程开展数据清洗比对。
a) 数据探查:对开放数据的数据库表结构、数据字典等进行探查,形成数据探查清单。
b) 数据质量检查:按照 GB/T 36344 中数据质量评价指标制定数据检查规则,并根据数据质量检查规则进行数据质量检查,生成数据质量检查报告。
c) 问题数据修正:对于存在数据质量问题的开放数据,根据数据质量检查报告选择合适的数据修正方法,包括缺失值修正、违规值修正、重复值修正、冲突值修正等。
d) 数据转换:对通过数据质量检查和问题数据修正的开放数据进行数据格式转换和代码转换等。
5.2 处理规则
公共数据开放中数据清洗比对的处理规则宜参考DB37/T 4646.2内容。
6 数据脱敏
6. 1 处理流程
公共数据开放中数据脱敏是在开放数据中移除敏感数据,并且确保移除敏感数据后的开放数据无法还原敏感数据,宜按照如下流程开展数据脱敏。
a) 识别敏感数据:
1) 对公共数据开放平台内公共数据进行数据内容识别;
2
DB37/T 3523.2—2025
2) 根据识别出的数据内容,梳理并总结开放数据敏感数据特征,形成开放数据的敏感数据识别模板;
3) 识别开放数据在汇聚、关联分析等操作过程中可能产生的敏感数据。
b) 标识敏感数据:
1) 根据公共数据分类分级情况,标识开放数据中敏感数据所属类别和敏感程度;
2) 开放数据中敏感数据识别方法不宜删除和篡改。
c) 确定脱敏场景:在标识敏感数据基础上,确定开放数据脱敏场景为单一应用场景或复杂应用场景,根据脱敏场景确定处理规则(见 6.2)。
d) 选择脱敏方法:依据开放数据脱敏场景和处理规则选择数据脱敏方法(见附录 A)。
e) 定义脱敏规则:依据已选择的数据脱敏方法,结合开放数据的敏感数据实际情况,定义开放数据脱敏规则,并对常用开放数据脱敏规则进行固化,避免重复定义:
1) 开放数据脱敏规则覆盖所有敏感数据,且表述明确,具备可执行性和可转述性;
2) 脱敏规则制定降低对业务系统的影响,且不存储原始数据。
f) 执行脱敏操作:根据已定义的数据脱敏规则执行脱敏操作,遵循个人隐私保护、数据安全保护等相关法规、行业监管规范或标准,个人敏感信息安全符合 GB/T 45574。
g) 评估脱敏效果:在开放数据脱敏工作完成后,利用测试工具评估和人工评估相结合的方式,对开放数据脱敏情况,以及敏感数据对应用系统功能、性能等方面的影响,根据评估情况优化开放数据脱敏规划,评估内容主要包括:
1) 数据特征是否变化;
2) 已知敏感数据是否去除;
3) 逆向恢复敏感数据的执行难度;
4) 数据结构和统计特征是否存在敏感性;
5) 脱敏后的数据是否满足使用需求。
6.2 处理规则
公共数据开放中数据脱敏主要包括以下处理规则。
a) 静态脱敏:对原始开放数据进行一次脱敏后,脱敏后的结果数据可多次使用,宜适用于单一应用场景。
b) 动态脱敏:针对不同公共数据利用主体需求,对开放数据进行屏蔽处理的数据脱敏方式,宜制定安全措施确保公共数据利用主体不能绕过数据脱敏层次直接接触敏感数据,适用于公共数据利用主体需求不确定、应用场景复杂的场景。
7 数据水印
7.1 处理流程
数据水印是在开放数据中植入水印标记,实现公共数据开放中数据泄露的溯源,宜按照如下流程添加数据水印。
a) 确定使用场景:确认公共数据开放中数据使用的场景。
b) 选择水印算法:根据确认的开放数据使用场景,确定开放数据水印处理规则(见 7.2.1)。
c) 执行水印操作:根据已确定的开放数据水印规则执行添加水印操作。
d) 评估水印效果:在水印添加完成后,利用测试工具评估开放数据添加水印后对应用系统功能、性能等方面的影响,并根据验证情况优化数据水印处理流程。
3
DB37/T 3523.2—2025
7. 2 处理规则
7.2.1 公共数据开放中开放数据水印主要包括以下处理规则。
a) 无痕:在开放数据中随机嵌入不可见字符,改变数据形态,不影响开放数据的展示。
b) 改行:对符合敏感类型的一行或多行进行数据更改,更改后的开放数据保持与原开放数据同样的类型和格式。
c) 伪行:在开放数据库表增加非真实数据元组,即增加的行数是伪造出来的,与原始开放数据类似的数据,并在增加的数据元组中嵌入可提取的水印规则信息。
d) 伪列:伪造新的属性列,包括数据属性列和类型属性列,生成的伪列宜和该关系表的其他属性相关,不易被察觉,然后将水印规则嵌入至伪造新列中。
7.2.2 对于发生泄露的开放数据,宜通过导入泄漏的开放数据样本或者文件到水印系统,解析出水印信息并确定泄露源,进行溯源定责。
8 隐私保护计算
8. 1 处理流程
隐私保护计算是在不泄漏原始开放数据的前提下,实现开放数据的安全流通,达到“原始数据不出域,数据可用不可见”的效果,宜按照如下流程开展隐私保护计算。
a) 数据对接:公共数据开放主体对接开放数据需求,明确提供数据的开放属性,识别确认不予开放数据。
b) 节点分配:公共数据开放主体选择隐私保护计算数据技术框架(见 8.2),按照确定的隐私保护计算节点软件部署方案部署隐私保护计算节点。
c) 数据接入:公共数据开放主管部门通过隐私保护计算平台接入开放数据资源,公共数据利用主体通过隐私保护计算平台接入内部数据资源。
d) 模型部署:公共数据利用主体在隐私保护计算节点创建部署开放数据隐私保护计算模型,并发布服务模型。
e) 计算实施:公共数据利用主体根据已发布服务模型实施计算并获取相应结果。
f) 效果评估:公共数据利用主体定期反馈数据利用中发现的各类数据安全风险和质量问题等情况、数据利用成果与效益产出情况至公共数据开放主管部门和公共数据开放主体,公共数据开放主体根据反馈情况持续优化开放数据隐私保护计算规划。
8. 2 技术框架
公共数据开放中隐私保护计算主要包括以下技术框架。
a) 多方安全计算:利用隐私数据参与保密计算,在参与者在不泄露各自隐私数据情况下,共同完成某项计算任务,适用于性能和规模要求都较高的建模场景。
b) 联邦学习:实现在本地原始数据不出库的情况下,通过对中间加密数据的流通与处理来完成多方联合的机器学习训练,适用于安全性要求高的场景。
c) 可信执行环境:通过软硬件方法在中央处理器中构建一个安全的区域,保证其内部加载的程序和数据在机密性和完整性上得到保护,适用于有复杂计算需求的场景。
9 数据处理评价改进
9. 1 宜定期开展开放数据处理评价,评价过程主要包括:
4
DB37/T 3523.2—2025
a) 组建开放数据评价团队,制定开放数据处理评价总体要求;
b) 明确评价范围,包括但不限于应用场景、技术应用、工具技术、执行人员等;
c) 制定评价指标,围绕数据处理流程、数据处理规则、数据处理效果等过程进行评价,按照 DB37/T 3523.3 制定评价指标;
d) 选择评价方式,采用多种方式组织开展评价工作,包括资料查阅、人员访谈、功能演示、技术检测等;
e) 开展评价,收集并整理相关证明材料并开展评价,组织召开会议确认评价结果,输出评价报告。
9.2 宜根据数据处理评价结果,对公共数据开放中数据处理的流程和规则等进行优化和改进。
5
DB37/T 3523.2—2025
附 录 A
(资料性)
数据脱敏方法及示例
数据脱敏方法及示例见表A.1。
表A.1 数据脱敏方法及示例
序号
脱敏方法
方法描述
示例
1
掩码
用通用字符替换原始数据中的部分信息,掩码后的数
据长度与原始数据一样
将手机号码“ 13500010001 ”经过掩码
得到“ 135****0001 ”
2
规整
将数据按照大小规整到预定义的多个档位
将客户资产按照规模分为高、中、低三
个级别,将客户资产数据用这三个级别
代替
3
替换
以虚构的数据代替真实的数据
将姓名“张三 ”替换为“王二 ”
4
乱序
对敏感数据进行重新随机分布,混淆原有值和其他字
段的联系
将金额“ 13526 ”乱序为“65123 ”
5
均化
针对数值型的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值
将65、75、90、50均化为79、61、85、
55
6
散列
对原始数据取散列值,使用散列值来代替原始数据
将“ 1234567”取散列值为“0100110 ”
7
数据截断
直接舍弃业务不需要的信息,仅保留部分关键信息
将手机号码“ 13500010001 ”截断为
“135 ”
8
日期偏移取整
按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间
将时间“20180101 01:01:09 ”按照5 s
粒度向下取整得到“20180101
01:01:05 ”
9
限制返回行数
仅返回可用数据集合中一定行数的数据
商品配方数据,只有在拿到所有配方数
据后才具有意义,可在脱敏时仅返回一
行数据
10
限制返回列数
仅返回可用数据集合中一定列数的数据
查询人员基本信息时,对于某些敏感列,不包含在返回数据集中
11
数据分割
将敏感数据拆分为多个部分,并分别存储在不同的物
理或逻辑位置,通过分散存储降低单一攻击导致数据
泄露的风险
将用户的姓名、地址、电话等信息分别
存放在不同的表或字段中,设置严格的
访问控制规则,确保只有在特定条件下
才能关联查看完整信息
12
数据扰动
数据扰动是一种基于统计学原理的脱敏方法,通过在数据集中引入微小、随机的变化,使个体数据点难以被识别,但保持整体数据分布、相关性和趋势不变
扰动技术包括差分隐私、加噪(如拉普
拉斯噪声、高斯噪声)
6
DB37/T 3523.2—2025
参 考 文 献
[1] GB/T 37988—2019 信息安全技术 数据安全能力成熟度模型
[2] GB/T 39477—2020 信息安全技术 政务信息共享 数据安全技术要求
7