欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |ICS 03.180 CCS A 18
34
安 徽 省 地 方 标 准
DB34/T 5379—2026
面向终身学习的用户画像技术要求
Technical requirements for user profiling in lifelong learning
2026 - 01 - 05 发布 2026 - 02 - 05 实施
安徽省市场监督管理局 发 布
前 言
本文件按照 GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由科大讯飞股份有限公司提出。
本文件由安徽省工业和信息化厅归口。
本文件起草单位:科大讯飞股份有限公司、湖南大学、北京交通大学、中国科学技术大学、西安电子科技大学、长沙理工大学、安徽省质量和标准化研究院、合肥高新技术产业开发区市场监督管理局。
本文件主要起草人:陈恩红、李鑫、刘淇、闵芳、黄振亚、曹嵘晖、吴一鸣、惠治儒、徐军玲、赵官豪、于峻浩。
面向终身学习的用户画像技术要求
1 范围
本文件规定了面向终身学习的用户画像的流程、要求和数据安全。
本文件适用于面向终身学习的用户画像。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 35273—2020 信息安全技术 个人信息安全规范
GB/T 37988—2019 信息安全技术 数据安全能力成熟度模型
GB/T 43782 人工智能 机器学习系统技术要求
3 术语和定义
下列术语和定义适用于本文件。
3. 1
用户画像 user profiling
通过收集、汇聚、分析个人信息, 对某特定自然人个人特征,如职业、经济、健康、教育、个人喜好、信用、行为等方面作出分析或预测,形成某个人特征模型的过程。
注:直接使用特定自然人的个人信息,形成该自然人的特征模型,称为直接用户画像。使用来源于特定自然人以外的个人信息,如其所在群体的数据,形成该自然人的特征模型,称为间接用户画像。
[来源:GB/T 35273—2020,3.8]
3. 2
终身学习用户 lifelong learning user
使用各类学习平台或系统通过正式教育、非正式教育及自我学习等多种途径, 不断提升知识、能力与素养实现终身学习的个体。
4 缩略语
下列缩略语适用于本文件。
API:应用编程接口(Application Programming Interface)
CSV:逗号分隔值(Comma-Separated Values)
JDBC:Java数据库连接(Java Database Connectivity)
ODBC:开放数据库连接(Open Database Connectivity)
XML:可扩展标记语言(Extensible Markup Language)
5 流程
终身学习用户画像的流程分为数据采集、数据预处理、数据分析、画像输出、验证和更新迭代。终身学习用户画像的流程见图1。
图1 终身学习用户画像流程图
6 要求
6. 1 数据采集
6.1.1 数据采集输入数据的类型包括但不限于:
a) 用户注册信息:用户在平台注册时提供个人信息,包括姓名、年龄、性别、学历、联系方式等结构化数据;
b) 课程基本信息:用户在平台所选课程的基础信息,包括课程编号、名称、类别、所属学科、授课教师等结构化数据;
c) 知识点与学习资源:记录用户在课程学习过程中接触到的知识点和学习资源,包括但不限于讲义、教学视频、教学音频、练习题、自测题等非结构化数据;
d) 课程学习数据:
1) 学习时长:包括但不限于在线学习视频观看时间、在线学习页面浏览时长、作业完成时长等结构化数据;
2) 学习次数:记录用户在课程上学习的次数,包括但不限于登录次数、课程点击次数、视频浏览次数、页面浏览次数等结构化数据;
e) 学习反馈数据:
1) 师生互评评语:用户和教师之间的互相评价和反馈信息,包括但不限于用户学习态度评语、作业完成情况,课堂表现等半结构化数据;
2) 阶段测试成绩:用户在学习后进行自测的成绩,包括但不限于自测分数等结构化数据;
f) 互动数据:用户在课程社区中发布的帖子数量;用户在课程发布的帖子内容,包括但不限于提出问题、讨论、笔记等文字内容; 用户在课程中学习过程中产生的视频和音频数据等非结构化数据。
6.1.2 数据采集数据源接入的方式包括但不限于:
a) 数据库直连:通过 JDBC、ODBC 等标准协议直接访问源数据库;
b) 接口调用:通过调用 API、Web Service 等数据接口以同步或异步方式获取数据;
c) 文件解析:支持导入并解析 CSV、JSON、XML 等文件;
d) 人工录入:提供系统界面供用户手动填写或批量导入数据。
6. 2 数据预处理
6.2.1 通用预处理要求
针对可直接处理的结构化数据,数据预处理的方式包括但不限于:
a) 数据解析:支持从原始数据中解析出目标字段或特征;
b) 格式标准化:统一数据格式、编码与命名规范;
c) 异常值处理:检测并处理数据中的异常值或无效数据;
d) 去重操作:识别并移除重复的数据记录或样本。
6.2.2 非结构化、半结构化数据预处理要求
针对非结构化及半结构化数据,除满足6.2.1的通用要求外,其预处理还宜依据数据类型,分别符合下列特定要求:
a) 音频数据预处理宜符合下列要求:
1) 预处理对象:包括知识点与学习资源中的教学音频以及互动数据中的音频;
2) 预处理方式:采用梅尔频率倒谱系数作为主要语音特征,支持配置帧长、帧移、滤波器组数等参数;
3) 数据标准化:提取结果统一为定长定维格式,支持静音段剔除、幅度归一化处理。
b) 视频与图像数据预处理宜符合下列要求:
1) 预处理对象:包括知识点与学习资源中的视频以及互动数据中的视频、图像截图、学习任务截图、界面截屏等视频或图像格式数据;
2) 预处理方式:对视频类数据执行关键帧提取,采用内容变化检测、图像差值法等方法提取信息代表帧;
3) 数据标准化:对图像和视频帧进行尺寸统一、格式转换、去噪、亮度归一、色彩标准化等操作;每帧图像应保留与原始数据关联的标识信息(如帧时间戳、视频编号)。
c) 文本数据预处理宜符合下列要求:
1) 预处理对象:包括用户评论、搜索关键词、教学问答、学习笔记、对话内容等原始文本数据;
2) 预处理方式:支持分词、去停用词、词干还原、特殊字符清除、拼写纠错等基础清洗流程,并支持命名实体识别、情感分析等语义增强模块;
3) 数据标准化:统一编码格式,支持向量化输出形式。
6. 3 数据分析
6.3.1 数据分析方法宜包括三大类方法:统计类、算术规则类以及机器学习类。
6.3.2 对于学习时长、学习进度等直接画像特征,宜采用统计方法进行分析;对于个人关键词分析等
间接画像特征,宜运用算术规则方法进行解析;而对于知识掌握程度预测、学习性格评估等更为复杂的间接画像特征,宜采用机器学习方法进行深入的学习分析。具体要求如下:
a) 统计规则类模型宜符合下列设计要求:
1) 模型范畴:包括频率统计、比例分析、加权均值、中位数、标准差、变化率等基础统计类方法;
2) 数据依赖:直接作用于清洗与聚合后的预处理数据或画像维度数据,支持批处理与增量更新模式;
3) 时序支持:支持基于时间窗口的滑动计算与对比分析;
4) 精度与可追溯性:保留计算来源与时间戳,支持结果溯源与二次验证;
5) 异常处理能力:设有缺失值补全、极端值排除、归一化等前置机制,保证统计模型鲁棒性。
b) 算术规则类模型宜符合下列设计要求:
1) 模型范畴:采用基于特征字段的加权评分、区间映射、规则匹配等预设数学模型;
2) 规则来源:规则设定基于专家经验、业务逻辑或调研问卷,具备可解释性与人工校验能力;
3) 规则管理:支持规则模块化配置、版本控制与策略更新机制;
4) 结果透明性:每条规则触发记录具备完整日志,输出结果可标注来源规则、计算过程及所依赖维度;
5) 冲突检测与优先级机制:当多条规则可适配同一数据时,支持冲突检测与优先级判定机制,确保结果一致性。
c) 机器学习类模型设计宜符合 GB/T 43782 的相关规定,并遵循以下设计要求:
1) 模型范畴:树模型(如决策树、随机森林、梯度提升决策树) 适用于需高可解释性、特征重要性明晰的结构化数据分类、回归场景, 如用户知识掌握程度预测;神经网络模型适用于从非结构化或高维数据(如学习反馈与互动数据)中通过表征学习自动提取复杂模式的场景;
2) 训练要求:具备明确的模型评价函数以指导训练过程,如平均绝对值误差、交叉熵损失等;
3) 权限管理:具备严格的模型全生命周期权限控制机制。实现对模型训练、调参、部署、推理及下线等操作的角色权限管理,并对核心模型参数、结构及训练数据进行安全访问管控,防止未授权访问与泄露。
6.4 画像输出
6.4.1 输出内容
画像输出宜包含用户基本信息与学习过程成绩等特征模型,特征模型的示例见附录A。
6.4.2 输出接口
输出接口宜符合下列要求:
a) 数据源定义:支持按用户账号、标签维度、时间窗口等条件查询;
b) 接口规范:响应格式应进行统一,字段命名清晰、结构扁平或嵌套可配置;
c) 实时性能:接口支持高并发访问;
d) 接口权限控制:支持多重访问控制机制,防止非法调用。
6.4.3 输出展示
输出展示宜支持多种终端与系统的接入需求,满足画像在不同业务系统中的可视化展示与智能调用:
a) 输出形式:支持 Web 前端系统展示、移动端应用集成、第三方系统拉取等输出方式;
b) 数据展示适配:支持主流可视化图表库,将用户画像结果格式化为图表(如雷达图、热力图)、标签列表、指标评分等结构化展示格式;
c) 数据导出功能:支持将画像数据供分析或归档使用;
d) 调用频率控制:对不同级别用户(系统内部、第三方平台) 设定日调用次数限制和访问速率上限。
6.5 验证
6.5.1 验证原则
进行用户画像后,宜对其输出的特征模型进行验证以确保准确性与可用性。评估验证宜遵循以下原则:
a) 用户中心原则:直接或间接地以目标用户为根本依据,确保画像评估结果源于用户实际而非内部假设;
b) 多方印证原则:采用多种验证方法和信息来源进行交叉比对,以提高验证结果的可靠性与有效性。
6.5.2 验证指标
6.5.2.1 准确性
准确性的指标计算:若一次用户画像所输出的特征模型,与用户的自我认知一致,则可判定此次用户画像是准确的。计算公式见式(1):
Acc
式中:
Acc —— 画像准确性;
M —— 准确画像次数;
N —— 总画像次数。
6.5.2.2 可用性
可用性的指标计算:若在用户画像后,基于其输出的特征模型对用户进行学习干预后,用户在同一标准测试中的成绩获得提升,则可判定此次用户画像过程是有效的。其有效性可通过用户画像价值系数衡量,计算公式见式(2):
U ········································································ (2)
式中:
U —— 画像可用性;
X —— 画像前的测试成绩;
Y —— 画像后的测试成绩。
6.6 更新迭代
6.6.1 迭代内容
迭代内容宜包括:
a) 直接信息:个人基础信息、总体学习成绩、总体学习时长、总体学习进度、阶段学习成绩等;
b) 间接信息:师生印象、学习投入度、学习心情、学习性格、个人词云、知识掌握程度等。
6.6.2 迭代触发机制
画像迭代机制宜包括:
a) 即时级:实时更新用户学习行为、反馈等数据, 增量更新其总体学习成绩、总体学习时长、总体学习进度;
b) 周期级:按天/周/月更新用户阶段性学习成绩、个人词云、知识掌握程度、学习心情、学习投入度、师生印象等;
c) 人生阶段级:当用户因核心社会角色(如成为父母)、关键生活状态(如毕业、退休) 或生活重心发生根本性转变时,触发个人基础信息等特征整体性、结构性重置。
7 数据安全
7. 1 基本原则
用户画像个人数据处理应遵循 GB/T 35273—2020 中第4章的基本原则,包括但不限于以下要求:
a) 目的明确与最小必要:每个阶段的数据处理有明确、合理的业务目的, 并仅限于实现该目的所必需的最小范围和数据粒度;
b) 数据分类分级:对所有涉及的数据(特别是个人信息和敏感数据)进行分类分级,并根据级别实施相应的安全管控措施;
c) 权限管控与职责分离:实施访问控制策略,遵循最小权限原则。确保数据采集、处理、分析、输出等关键角色的权限分离;
d) 安全审计与日志留存:所有关键操作(如数据访问、查询、导出、模型修改) 记录完整、防篡改的审计日志,日志留存时间不少于法定期限;
e) 人员安全:对所有接触数据的员工、外包人员进行背景审查、安全培训并签订保密协议。
7.2 全周期数据安全
用户画像中数据采集、数据预处理、数据分析、画像输出、验证、更新迭代的数据安全,应符合 GB/T 37988—2019 中第6-10章规定的各周期数据安全要求。
附 录 A
(资料性)
用户特征模型示例
用户特征模型示例见表A.1。
表A.1 用户特征模型示例