欢迎访问学兔兔标准下载网,学习、交流 分享 !

返回首页 |
当前位置: 首页 > 资料下载>地方标准规范 > DB21/T 4416-2026 多维影视剧元数据智能标注要求

DB21/T 4416-2026 多维影视剧元数据智能标注要求

收藏
关键词:标注   智能   数据   多维   影视剧
资源简介

  21

  辽 宁 省 地 方 标 准

  DB21/T 4416—2026

  多维影视剧元数据智能标注要求

  Requ irements for intell igent annotat ion of mult id imens ional fi lm/tv

  metadata

  2026-04-01 发布 2026-05-01 实施

  辽宁省市场监督管理局 发 布

  前 言

  本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》 的规定起草。

  请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

  本文件由辽宁省数据局提出并归口。

  本文件起草单位:集镁科技集团有限公司、中国联合网络通信有限公司沈阳市分公司、沈阳市市场监管事务服务中心(沈阳标准化研究院)。

  本文件主要起草人:苏振宇、夏云鹏、姜楠、刘春龙、文博识、王磊、勾颖、黄尹、张洋、耿建伟、赵龙、张华刚。

  本文件发布实施后,任何单位和个人如有问题和意见建议,均可通过来电、来函等方式进行反馈,有关单位将及时答复并认真处理,根据实际情况依法进行评估及复审。

  归口管理部门和联系电话: 辽宁省数据局(辽宁省沈阳市皇姑区崇山中路109号) ,联系电话: 024-86916223。

  标准起草单位和联系电话: 集镁科技集 团有 限公司(沈阳市浑南 区创新一路5号) , 联系电话 :024-31335400

  多维影视剧元数据智能标注要求

  1 范围

  本文件规定了多维影视剧元数据智能标注的要求,面向影视剧及其周边内容在人工与机器协同条件下的元数据生成、标注与管理活动,主要包括元数据的分类、各类元数据字段要求,以及适用于智能标注应用的相关管理要求。

  本文件适用于电影、电视剧、网络剧、综艺、纪录片、动画片等各类影视剧及其周边信息在元数据层面的标注与管理。本文件不涉及具体算法模型或实现方案,也不涉及影视内容制作、内容审查或播控许可等业务。

  2 规范性引用文件

  GB/T 42755—2023 人工智能 面向机器学习的数据标注规程

  GY/T 261—2012 广播电视数字版权管理元数据规范

  ISO/IEC 9834 信息技术标识和编码规范

  3 术语和定义

  下列术语和定义适用于本文件。

  3.1

  元数据 metadata

  描述数据的数据,是对内容元素及其关系、形式、相关使用规则、义务和其他事项的结构化描述,可以嵌入内容元素或与之相关联。

  [来源:GY/T 261—2012,3.1]

  3.2

  数据标注 data labeling

  给数据样本指定目标变量和赋值的过程。

  [来源:GB/T 42755—2023,3.1]

  3.3

  多维元数据 multi-dimensional metadata

  从多个维度、多层级、多视角对数据对象进行结构化描述与属性标注的元数据集合,用于完整刻画数据的内容、质量、来源、结构、业务、安全、使用场景等综合信息,支撑数据理解、检索、治理、智能应用与全生命周期管理。

  3.4

  智能标注 intelligent labeling

  利用人工智能技术(包括机器学习、 自然语言处理、计算机视觉等)辅助或自动化完成数据标注任务的过程。

  4 基本要求

  多维影视剧元数据智能标注应采用人工与机器协同的方式开展,做到不漏标、正确标注、理解需求,确保数据质量。

  5 元数据标注的分类要求

  5.1 基础元数据标注

  基础元数据标注是对影视剧的作品标识类、演职人员类和作品属性类元数据进行标注。

  5.1.1 作品标识类标注

  作品标识类元数据标注内容分为以下类别:

  1) 源名称: 由片方或版权方提供的原始作品名称,用于溯源;

  2) 中文名称:影视剧在中国境内使用的正式名称;

  3) 英文名称:影视剧的英文名称(如有);

  4) 别名:影视剧在不同地区或平台使用的译名、 曾用名或宣传名称等,可为多值;

  5) 唯一标识符:系统内部用于唯一标识影视剧作品的编码,应符合唯一性要求;

  6) 平台标识符:公共数据库、行业平台或业务平台中用于标识影视剧作品的内容标识符(如豆瓣、 IMDb 等,仅为示例),用于跨平台关联;平台类型和范围可根据实际业务需要扩展,示例不构成限定。

  5.1.2 演职人员类标注

  演职人员类元数据标注内容分为以下类别:

  1) 导演:影视剧作品的导演信息,可为多个;

  2) 编剧:影视剧作品的编剧信息,包括原创、改编或联合编剧等,可为多个;

  3) 制片人:影视剧作品的主要制片人信息;

  4) 演员:出演影视剧主要角色的演员信息;

  5) 配音演员:为作品主要角色提供配音的演员信息;

  6) 摄影、灯光、剪辑、美术、服装、化妆、音乐等制作人员:根据作品实际情况记录主要制作工种人员信息。

  5.1.3 作品属性类标注

  作品属性类元数据标注内容分为以下类别:

  1) 主类型:影视剧作品所属的主要类型,如爱情、犯罪、动作、科幻、灾难、纪录片等;

  2) 亚类型:影视剧作品所属的细分类型,如西部、公路、青春、童话等;

  3) 制片国家/地区:影视剧作品制作时所属的国家或地区,可为多值;

  4) 语言:影视剧作品的主要对白语言,可为多语种,包括方言;

  5) 上映日期:影视剧作品的首映日期或平台上线日期等;

  6) 上映地区:影视剧作品进行院线放映、影展放映或上线发布的主要国家、地区或平台;

  7) 片长:影视剧作品的时长信息,单位为分钟;

  8) 集数:影视剧作品的总集数信息,适用于电视剧、网络剧、动画剧集等分集播出的作品;

  9) 剧情简介:对影视剧作品主要情节、核心冲突和整体基调的简要描述;

  10) 分级信息:影视剧作品在不同国家或地区的官方分级信息;

  11) 出品方:影视剧作品的主要出品或联合出品单位。

  5.2 深度元数据标注

  深度元数据标注,是标注影视剧作品在内容层面的语义特征和叙事属性,以支持对作品内容的结构化表达。

  5.2.1 故事背景类标注

  故事背景类元数据标注内容分为以下类别:

  1) 故事发生时间:作品中故事发生的公元纪年、年代、朝代、时期、季节、节日等;

  2) 故事发生地点:作品中故事主要发生的国家、城市、地区、 自然环境、人文环境或地标等;

  3) 故事发生期限:作品中故事情节所覆盖的时间长度,如“一夜之间 ”“数日 ”“多年 ”等。

  5.2.2 人物设定类标注

  人物设定类元数据标注内容分为以下类别:

  1) 主人公设定:主人公在作品中的身份、职业、年龄、家庭角色等基本设定;

  2) 主人公关系设定:作品中主要人物之间呈现的关系类型,如亲属关系、师生关系、合作关系等。

  5.2.3 题材与主题类标注

  题材与主题类元数据标注内容分为以下类别:

  1) 题材:作品所围绕的主要情节内容或事件类型,如爱情故事、警匪对抗、体育竞技等;

  2) 主题:作品在整体叙事中所表达的核心思想或价值取向。

  5.2.4 风格与情绪类标注

  风格与情绪类元数据标注内容分为以下类别:

  1) 作品风格:从整体氛围、叙事节奏或表现方式等方面对作品风格进行概括;

  2) 观众情绪:概括作品在整体观感上可能引发的情绪体验。

  5.3 周边元数据标注

  周边元数据标注,是标注影视剧周边的关联信息,包括宣传推广物料类、官方信息渠道类、 口碑与数据类、荣誉与榜单类元数据。

  5.3.1 宣传推广物料类标注

  宣传推广物料类元数据标注内容分为以下类别:

  1) 拍摄地点:影视剧作品拍摄的主要城市、区域或场景信息;

  2) 花絮:与影视剧作品制作过程相关的幕后资料或花絮信息;

  3) 看点:对影视剧作品中具有吸引力内容或特征的概括性描述;

  4) 经典台词:影视剧作品中被观众广泛认知的代表性台词;

  5) 海报: 以视觉化设计为核心的影视剧宣传物料;

  6) 剧照:从影视剧拍摄素材或正片中截取的静态画面;

  7) 预告片:影视剧作品上映或播出前制作的宣传短片;

  8) 原著:影视剧作品创作所依据的原始文本作品;

  9) 原声音乐:为影视剧作品创作或选配的音乐作品集合,包括主题曲、插曲、片尾曲或配乐等。

  5.3.2 官方信息渠道类标注

  官方信息渠道类元数据标注内容分为以下类别:

  1) 官网地址: 由影视剧作品发行方或相关单位设立的官方网站地址;

  2) 流媒体播放地址:影视剧作品在流媒体平台上的播放访问路径。

  5.3.3 口碑与数据类标注

  口碑与数据类元数据标注内容分为以下类别:

  1) 评分信息:主流影视剧社区平台上的评分数值和评分人数(如豆瓣、IMDb 等,仅为示例);

  2) 点赞数量:影视剧作品在公开渠道中获得的点赞数量;

  3) 评论数量:主流影视剧社区平台上的评论数量(如豆瓣、IMDb 等,仅为示例);

  4) 评论内容:具有代表性的专业评论或获奖评语等;

  5) 票房数据:影视剧作品在公开渠道披露的票房收入信息。

  5.3.4 荣誉与榜单类标注

  荣誉与榜单类元数据标注内容分为以下类别:

  1) 获奖情况:影视剧作品在国内外主要颁奖活动中获得的奖项或荣誉;

  2) 榜单排名:影视剧作品入选的榜单及其对应排名信息。

  5.4 扩展元数据标注

  在实际应用中,元数据标注内容可由使用单位根据自身业务需求或行业特定需求进行定义,但应保持字段命名规范、结构清晰、取值可控,并与本标准规定的总体元数据标注体系保持一致性。扩展元数据标注应符合以下要求:

  1) 不得破坏现有字段体系结构;

  2) 字段命名应符合统一的命名约定,不得与已有字段冲突;

  3) 字段应具备明确的数据类型、含义、取值范围及约束要求;

  4) 扩展字段应可被独立识别,并与标准字段区分;

  5) 扩展字段的启用、禁用或修改过程应记录相应的版本信息;

  6) 新增或删除扩展字段时,应记录修改时间和版本号;

  7) 扩展字段应与标准字段采用统一的数据交换格式。

  6 智能标注要求

  6.1 需求对接与标注方案制定

  6.1.1 需求对接

  需求对接应符合以下要求:

  1) 明确影视剧元数据标注场景,区分电影、 电视剧、综艺、纪录片等不同影视类型标注需求;

  2) 明确标注对象为影视剧基础、深度、周边、扩展元数据,确定各类型元数据字段精度要求、交付格式及交付周期;

  3) 明确影视剧元数据标注特殊规则、边界案例、拒标条件及核心字段标注优先级。

  6.1.2 标注方案制定

  标注方案制定应符合以下要求:

  1) 结合影视剧类型特征制定专属标注方案,明确各元数据字段的智能标注算法匹配方式与人工复核要点;

  2) 组织标注团队、质检团队、需求方开展影视剧元数据标注方案评审与专项培训,确保掌握影视行业专属标注规则。

  6.2 数据获取、清洗与入库

  6.2.1 数据获取

  数据获取应符合以下要求:

  1) 影视剧原始数据来源合法,具备版权及信息使用授权证明,禁止使用无版权、涉密、隐私数据;

  2) 对影视剧中涉及的演职人员个人隐私信息执行脱敏处理,对影视版权信息做加密保护。

  6.2.2 数据清洗

  数据清洗应符合以下要求:

  1) 剔除影视剧原始数据中损坏、模糊、重复、无效的信息;

  2) 统一影视剧数据格式,对作品名称、时长、集数等字段做标准化命名与单位换算,按影视类型、制作地区完成数据分组与唯一编号;

  3) 校验影视剧元数据核心字段的完整性,对缺失关键信息的影视数据做标记并反馈需求方。

  6.2.3 数据入库

  将清洗后的影视剧原始数据按类型、批次上传至标注平台,完成影视剧数据加密存储、权限隔离及标注批次分配,建立影视剧数据唯一索引。

  6.3 智能预标注

  6.3.1 执行条件

  执行条件应符合以下要求:

  1) 具备适配影视剧元数据标注的预训练模型和自动标注算法;

  2) 针对影视剧不同元数据字段设定差异化置信度阈值,基础元数据置信度阈值≥80%可自动标注,深度元数据与周边元数据置信度阈值≥75%可自动标注,低于阈值直接进入人工标注。

  6.3.2 操作规范

  操作规范应符合以下要求:

  1) 对影视剧数据执行批量智能预标注, 自动生成基础元数据、深度元数据、周边元数据等;

  2) 系统自动标记影视剧低置信度标注数据,高亮提示待人工复核;

  3) 禁止直接将影视剧元数据智能预标注结果作为最终交付数据,所有预标注信息均需经人工复核确认。

  6.3.3 结果输出

  将影视剧元数据预标注结果按影视类型、标注批次同步至人工标注工位,附带各字段标注置信度、智能标注算法日志及低置信度字段标记。

  6.4 人工标注与修正

  6.4.1 人工标注

  人工标注应符合以下要求:

  1) 标注员需完成影视剧元数据标注专项培训并通过考核,熟悉影视行业术语、各元数据字段规则、边界案例及标注工具操作;

  2) 标注过程中禁止主观臆测,不得随意修改标注信息;

  3) 确保影视剧元数据与内容严格匹配,层级关系、属性信息填写完整,字段序号、命名统一,无乱码、空值及错误格式;

  4) 对无法判断的影视剧元数据信息按规则标记为“未知 ”或“拒标”;

  5) 实行“一人一任务一批次 ”的标注模式,禁止交叉篡改、重复标注影视剧元数据。

  6.4.2 修正

  修正应符合以下要求:

  1) 对影视剧元数据智能预标注结果逐一审定,修正错标信息、补全漏标字段、调整低置信度字段标注结果;

  2) 将影视剧元数据标注中的高频错误反馈至算法侧,优化影视剧专属预标注模型参数。

  6.5 质量检测

  建立三级质检体系,针对影视剧基础元数据、深度元数据和周边元数据的不同特征设定差异化质检标准,确保影视剧元数据标注整体合格率≥98%。

  6.5.1 一级质检(自检)

  标注员完成单批次影视剧元数据标注后开展自我检查,重点复核核心字段的标注准确性,修正明显错误, 自检合格率要求≥95%。

  6.5.2 二级质检(专检)

  二级质检应符合以下要求:

  1) 专职质检员按不低于20%的比例对影视剧元数据进行抽检,对低置信度、标记为“未知 ”或“拒标 ”的影视剧数据执行全检;

  2) 质检内容涵盖:影视剧各元数据字段标签准确性、影视类型与题材匹配度、演职人员信息完整性、数据格式统一度及合规性;

  3) 对质检发现的错误影视剧元数据做分类记录,退回标注员限期修正,并统计各标注员的错误类型与频次。

  6.5.3 三级质检(抽检)

  三级质检应符合以下要求:

  1) 项目负责人对影视剧元数据标注结果进行最终抽检,基础元数据执行100%全检,深度元数据和周边元数据抽检比例不低于30%,整体合格率达标后方可进入交付环节;

  2) 对院线电影、热门电视剧等重点影视项目的元数据标注结果执行100%全量质检。

  6.6 数据封装与交付

  6.6.1 数据封装

  数据封装应符合以下要求:

  1) 按需求输出影视剧元数据标注结果,支持JSON、XML、CSV、TXT等常用格式,适配影视行业数据管理平台的对接要求;

  2) 标注结果中需包含元数据字段标签、标注置信度、标注人、标注时间、批次信息。

  6.6.2 交付

  交付应符合以下要求:

  1) 交付包目录结构清晰,分为影视剧原始数据、元数据标注结果、标注日志文件、专项说明文档等四个模块;

  2) 文件名按统一规则命名:影视类型_项目名_标注批次_ 日期_文件类型;

  6.6.3 交付校验

  交付前对影视剧元数据标注结果执行全维度校验,包括格式校验、核心字段完整性校验、空值校验、影视信息冲突校验,确保无校验错误后再交付。

  6.7 数据归档与项目复盘

  6.7.1 数据归档

  数据归档应符合以下要求:

  1) 将影视剧原始数据、元数据标注结果、标注日志、质检报告等全部资料加密存储,留存周期符合影视版权法规与合同要求;

  2) 按影视类型、制作年份、标注批次建立影视剧元数据标注档案索引,支持数据快速检索、复用与溯源,便于影视行业数据管理与二次开发。

  6.7.2 项目复盘

  项目复盘应符合以下要求:

  1) 统计各批次影视剧元数据标注效率、不同字段错误率、智能预标注准确率,梳理影视行业专属标注的问题案例;

  2) 结合复盘结果,优化影视剧元数据标签体系、行业专属标注规则、智能标注工具流程及预标注模型参数。

  6.8 数据安全与人员保密

  6.8.1 数据安全

  数据安全应符合以下要求:

  1) 影视剧元数据在传输、存储、标注全流程执行加密处理,禁止外传、拷贝、截图、泄露影视版权信息、演职人员隐私信息及标注结果;

  2) 标注设备禁用外网、U盘、截图工具及剪贴板外传功能,仅开放影视剧标注平台的专属访问权限。

  6.8.2 人员保密

  人员保密应符合以下要求:

  1) 所有参与影视剧元数据标注的人员均需签署保密协议,按标注工作内容设定最小权限;

  2) 人员离岗后立即回收标注平台权限,删除本地缓存的所有影视剧数据与标注信息。

下载地址
DB21/T 4416-2026 多维影视剧元数据智能标注要求资源截图