欢迎访问学兔兔标准下载网,学习、交流 分享 !

返回首页 |
当前位置: 首页 > 资料下载>团体标准规范 > T/ZZB 3985-2025 手语数字人

T/ZZB 3985-2025 手语数字人

收藏
关键词:手语   数字   ZZB   3985   2025
资源简介

  ICS 35.240 CCS L 70

  团 体 标 准

  T/ZZB 3985—2025

  手语数字人

  Sign Language Digital Human

  2025 - 12 - 20 发布 2025 - 12 - 31 实施

  浙江省质量协会 发 布

  T/ZZB 3985—2025

  T/ZZB 3985—2025

  前 言

  本文件按照GB/T 1.1—2020 《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。

  请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。

  本文件由浙江省质量协会归口。

  本文件主要起草单位:之江实验室。

  本文件参与起草单位:浙江大学、浙江特殊教育职业学院。

  本文件主要起草人:李萌坚、许知涯、钱志锋、刘彦林、薛轶天、朱晓伟。

  本文件评审专家组长:陆品。

  T/ZZB 3985—2025

  手语数字人

  1 范围

  本文件规定了手语数字人的术语和定义、缩略语、基本要求、技术要求、测试方法、检验规则、交付资料和质量承诺。

  本文件适用于手语数字人的开发与测试。

  2 规范性引用文件

  下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

  GB/T 24435—2009 中国手语基本手势

  YD/T 4393.1—2023 虚拟数字人指标要求和评估方法 第 1 部分:参考框架

  3 术语和定义

  GB/T 24435—2009、YD/T 4393.1—2023界定的以及下列术语和定义适用于本文件。 3.1

  数字人 digital human

  基于现实世界设计、通过计算机生成、再借助真人或计算驱动、在多终端输出设备呈现的虚拟人物。 [来源:YD/T 4393.1—2023,3.1.1]

  3.2

  手语 signed languages

  以手的动作为主,配以身体姿势、表情及口形进行交流的语言表达形式。

  [来源:GB/T 24435—2009,2.1.1] 3.3

  手语数字人 sign language digital human

  能将语音、文本或带有文本的图片作为输入,翻译成手语,并以动作序列及视频作为输出对用户展示的数字人。

  3.4

  穿插 interpenetration

  指两个或多个几何体在空间中相互穿透,在体积上发生了不合理的重叠。

  3.5

  焊接 welding

  指将空间位置相同或接近的顶点合并为一个顶点,使网格在拓扑上连成一体。

  T/ZZB 3985—2025

  3.6

  部署检验 deployment verification

  系统、程序或组件被部署到目标环境之后,对其运行状态进行验证与检查。

  4 缩略语

  ASR:自动语音识别(Automatic Speech Recognition)

  FPS:帧率(Frame Per Second)

  OCR:光学字符识别(Optical Character Recognition)

  5 基本要求

  5.1 设计研发

  5.1.1 手语数字人系统宜包括输入模块、预处理模块、手语驱动表达模块、人物形象生成模块四个部分。手语数字人技术框架见附录 A。

  5.1.2 宜采用三维建模、动画制作软件、渲染设计等相关工具,实现手语数字人仿真模拟。

  5.1.3 设计时手语动作规范应符合 GB/T 24435—2009 的规定,不应表达带有攻击性、歧视性的手势。

  5.2 技术支撑

  应包括高质量手语视频、详细的手势动作标注、准确的翻译信息。数据集样本量应不低于2000个,应涵盖广泛的手语词汇和句子结构,并确保各类手语动作、词汇和句子样本数量平衡。用户将语音、文本、带有文本的图片输入至手语数字人系统,系统通过ASR、OCR技术将待翻译内容转换为待翻译文本,手语数字人将待翻译文本生成手语动作序列,并将动作序列渲染为视频展示给用户。

  5.3 开发保障

  手语数字人的开发应有清晰的责任分工,为每项需求和关键模块指定责任人。应明确技术方案和架构设计,并经评审确认留存记录。应建立规范、可控的开发流程和进度管理机制,确保开发活动可追溯。

  5.4 检验检测

  应具备手语数字人外观形象、质量、性能等项目的检验工具、系统、平台及相应的测试能力。

  6 技术要求

  6.1 外观形象

  6.1.1 完好性

  应形象完好,不存在下列任意一种情况。

  ——变形;

  ——穿插;

  ——没焊接的点;

  ——破面;

  ——色盲用户不可识别区域;

  T/ZZB 3985—2025

  ——其他破损情况。

  6.1.2 画面完整性

  不应出现跳帧。

  6.1.3 形象舒适性

  形象应自然,不应出现明显的感官不适。

  6.2 质量

  6.2.1 精细度

  精细度指标见表1。

  表1 手语数字人精细度评价指标

  6.2.2 输入方式

  应支持语音、文本和带有文本的图像作为输入。

  6.2.3 视频合成实时率

  视频合成实时率指合成耗时与输出视频时长比值。手语数字人视频合成实时率应不高于1。

  6.2.4 流畅度

  流畅度应不低于24帧/秒,不应出现卡顿。

  6.3 性能

  6.3.1 规范程度

  每个手语动作应符合GB/T 24435—2009所述的动作要求。使用关键点平均误差衡量手语动作规范程度,关键点平均误差应不低于10 cm。

  6.3.2 情感匹配率

  应准确传递出自然语言所表达的情感。本文件将情感分为六类,包括中性、愤怒、恐惧、高兴、悲伤、惊讶。手语动作情感匹配率应不低于50%。

  6.3.3 理解度

  采用主观评价,手语翻译理解度应不低于70%。

  6.3.4 平均交互响应时间

  T/ZZB 3985—2025

  指从用户发出指令到手语数字人响应的平均时间,分为语音识别平均响应时间、文字识别平均响应时间和翻译平均响应时间。语音识别平均响应时间应小于0.5 s,文字识别平均响应时间应小于1 s,翻译平均响应时间应小于1 s。

  7 测试方法

  7.1 测试环境设定

  测试环境设定见表2。

  表2 测试环境设定

  7.2 外观形象

  给定输入使手语数字人生成五段不低于10 s的视频,目视检查每段视频,应同时符合6.1.1、6.1.2、 6.1.3的要求。

  7.3 质量

  7.3.1 精细度

  通过审查产品说明书、技术文档等材料,获取人物模型曲面数量、人物贴图分辨率、人物手部模型点数、人物手部骨骼数量、映射分辨率,应符合6.2.1的要求。

  7.3.2 输入方式

  分别给定文本、语音、带有文本的图像作为输入,查看手语数字人输出,应符合6.2.2的要求。

  7.3.3 视频合成实时率

  视频合成实时率定义为:

  R ........................................ (1)

  式中:

  R ——视频合成实时率;

  tg ——视频合成耗时,单位为秒(s);

  to ——输出视频时长,单位为秒(s);

  T/ZZB 3985—2025

  给定输入使手语数字人生成五段的视频,按照式(1)计算视频合成实时率,每段视频均应符合6.2.3的要求。视频时长t0应分别满足以下区间:t0 ≤5s、5s60s。

  7.3.4 流畅度

  给定输入使手语数字人生成三段不低于5 s的视频,获取每段视频的FPS值,均应符合6.2.4的要求。

  7.4 性能

  7.4.1 手语动作规范程度

  测试方法如下:

  a) 对待评测手语数字人进行关键点标定,具体标定位置见附录 B;

  b) 对待测评手语数字人做出的动作进行归一化,使其尺度、旋转方向等与测试集保持一致,归一化操作的具体方法为:

  1)使待测评手语数字人和原语测试集的数字人处于 T 型姿势的姿态,分别计算待测评手语数字人相对原语测试集数字人的宽度和高度方向的缩放尺度;

  2)将待测评手语数字人的关键点在宽度和高度所对应的坐标轴分别乘以相应的缩放尺度;

  c) 采用 GB/T 24435—2009 作为测试数据集,让待测评手语数字人逐一做出相应动作;

  d) 计算单个动作待测评手语数字人与测试集所有原语关键点之间的误差,计算公式为:

  ................................. (2)

  式中:

  ——待测评手语数字人与测试集所有关键点之间误差;

  spi ——待测评手语数字人第个原语关键点在空间中的坐标;

  ——原语测试集第个原语关键点在空间中的坐标。

  ll-Il ——空间中向量的模。

  e) 对测试集所有动作的误差取平均,得到平均误差,应符合 6.3.1 的要求

  7.4.2 手语动作与情感匹配度

  测试要求如下:

  a) 抽取或由专家拟定至少 20 条语句,每条语句的情感为正面、负面、中性三者其一,手语数字人根据内容生成手语视频。

  b) 由至少 3 名评测人员(测评人员数量应为奇数)对手语视频逐个投票决定情感是否准确。

  c) 使用以下公示计算情感评估准确率:

  ACCs ...................................... (3)

  式中:

  ACCs ——情感计算准确率;

  NSc ——情感测试正确个数;

  NSTC ——情感测试总个数。

  T/ZZB 3985—2025

  ACCs 应符合6.3.2的要求。

  7.4.3 手语翻译理解度

  测试要求如下:

  d) 抽取或由专家拟定至少 20 条语句,手语数字人根据内容生成手语视频

  e) 由至少 3 名评测人员对手语视频逐个判断是否可理解,计算每名测评人员的可理解度。

  f) 不低于三分之二的测评人员的可理解度应满足 6.3.3 的要求。

  7.4.4 平均交互响应时间

  7.4.4.1 平均响应时间定义

  平均响应时间定义为:

  式中:

  T ——平均响应时间;

  Tsi ——系统开始反馈的时间点,单位为秒(s);

  Tei——用户输入信息结束的时间点,单位为秒(s);

  N ——测试总次数;

  7.4.4.2 语音识别平均响应时间

  给定五段测试语音,按照式(4)计算平均响应时间,均应符合6.3.4的要求。测试语言时长t1 分别应满足t1 ≤5s、5s60s。

  7.4.4.3 文字识别平均响应时间

  给定五段测试文本,按照式(4)计算平均响应时间,均应符合6.3.4的要求。测试文本长度l1 分别应满足l1 ≤8、8512。长度计算中文以字符为计数单位,英文符号等西文以单词为计数单位。

  7.4.4.4 翻译平均响应时间

  给定五段测试文本,按照式(4)计算平均响应时间,均应符合6.3.4的要求。测试文本长度l2 分别应满足l2 ≤127、12816383。长度计算中文以字符为计数单位,英文符号等西文以单词为计数单位。

  8 检验规则

  8.1 检验分类

  本文件规定的检验为部署检验和型式检验。检验项目见表3。

  表3 检验指标项

  T/ZZB 3985—2025

  表 3 (续)

  8.2 部署检验

  所检的项目符合对应的要求,手语数字人部署检验合格,出具相关的证明材料,准许交付客户。

  8.3 型式检验

  8.3.1 检验项目为本文件第 6 章所包括的技术要求。

  8.3.2 当有下列情况之一时,应进行型式检验:

  ——手语动作集有新增、删除或修改时;

  ——系统设计模块有重大变化时;

  ——手语功能实现方法有明显改动时;

  ——客户要求时。

  8.3.3 型式检验结果应符合本文件的第 6 章规定的全部要求,则判定型式检验合格。

  9 交付资料

  部署检验合格相关的证明材料及用户手册。用户手册应至少包含系统介绍、安装方式、基本操作说明及联系方式。

  10 质量承诺

  10.1 交付后应按照合同约定提供技术支持、系统维护及升级。

  10.2 收到客户问题反馈后,服务商宜在 4 小时内给予响应,3 个工作日内完成修复。

  T/ZZB 3985—2025

  附 录 A

  (资料性附录)

  手语数字人技术框架

  本附录给出一个典型的手语数字人技术框架,见图A.1

  图A.1 手语数字人技术框架图示

  T/ZZB 3985—2025

  附 录 B

  (规范性附录)

  手语数字人关键点标定

  本附录规定手语数字人面部、肢体、手部的关键点标定方法,用于手语动作规范程度测试。以F为前缀的点表示面部关键点,以B为前缀的点表示肢体关键点,以RH为前缀的点表示右手关键点,以LH为前缀的点表示左手关键点,手语数字人关键点名称见表B.1,标定位置见图B.1-B.3。

  表 B.1 关键点名称

  T/ZZB 3985—2025

  表 B.1(续)

  T/ZZB 3985—2025

  表 B.1(续)

  T/ZZB 3985—2025

  图 B.1 面部关键点标定

  T/ZZB 3985—2025

  图 B.2 身体关键点标定

  图 B.3 手部关键点标定

  T/ZZB 3985—2025

  参 考 文 献

  [1] LOPER M, MAHMOOD N, ROMERO J, et al. SMPL: A skinned multi-person linear model[J]. ACM Transactions on Graphics, 2015, 34(6): 248.

  [2] ISO/IEC 19774-1:2019, Information technology — Computer graphics, image processing and environmental data representation — Part 1: Humanoid animation (HAnim) architecture.

下载地址
T/ZZB 3985-2025 手语数字人资源截图