欢迎访问学兔兔标准下载网,学习、交流 分享 !
返回首页 |T/SDTS 002-2025
茶树基因型与表型关联建模技术规范
2025-06-05 发布 2025-07-05 实施
山 东 省茶 叶 学会 发布
T/SDTS 002-2025
前 言
本文件按照 GB/T 1. 1—2020《标准化工作导则 第 1 部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利 。本文件的发布机构不承担识别专利的责任。
本文件由山东省茶叶学会提出并归口。
本文件起草单位: 山东省农业科学院茶叶研究所、青岛农业大学。
本文件主要起草人 :丁兆堂、王玉 、孙立涛 、申加枝 、范凯、钱文俊。
T/SDTS 002-2025
茶树基因型与表型关联建模技术规范
1 范围
本文件规定了茶树基因型与表型关联建模的技术要求 ,包括数据预处理 、群体遗传结构分析、关联分析方法 、环境因素校正及结果解读等内容。
本文件适用于茶树品种选育、抗逆性研究及品质改良等领域。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款 。其中 ,注日期的引用文件 ,仅该日期对应的版本适用于本文件 ;不注日期的引用文件 ,其最新版本(包括所有的修改单)适用于本文件。
无相关引用文件。
3 术语和定义
3.1
基因型
指茶树个体或群体在基因水平上的遗传构成。
3.2
表型
指茶树在特定环境条件下表现出的形态、生理 、生化及产量相关特征。
3.3
关联分析
研究基因型与表型性状之间的统计关系 ,主要方法包括全基因组关联分析(GWAS) 和数量性状位点(QTL)分析。
4 数据预处理
4.1 基因型数据
采用高通量测序(如 WGS 、GBS)获取 SNP 数据。
4.1.1 质量控制 :使用 FastQC 检查数据质量 ,Trimmomatic 去除低质量序列。
4.1.2 比对参考基因组 :使用 BWA 或 HISAT2 对序列比对至茶树参考基因组。
4.1.3 变异检测 :采用 GATK 、SAMtools 进行 SNP/INDEL 检测 ,筛选质量值≥30 、覆盖深度≥
10 的高质量变异位点。
4.1.4 缺失数据填补 :使用 BEAGLE 或 Impute2 处理缺失基因型数据。
T/SDTS 002-2025
4.2 表型数据
4.2.1 采用标准化方法(Z-score 或 Min-Max 归一化)处理连续变量。
4.2.2 计算最佳线性无偏预测值(BLUP) 降低环境误差。
4.2.3 采用 PCA 或 MDS 去除异常值 ,确保数据质量。
5 群体遗传结构分析
5.1 采用 PCA(主成分分析)、MDS(多维尺度分析)评估群体结构。
5.2 计算 LD 衰减(连锁不平衡衰减),优化标记选择策略。
5.3 使用 STRUCTURE 、ADMIXTURE 软件推测茶树种质的遗传背景。
6 关联建模分析
6.1 全基因组关联分析(GWAS)
6.1.1 单标记分析(SMA):采用广义线性模型(GLM),适用于简单性状。
6.1.2 混合线性模型(MLM):结合 PCA 和亲缘关系矩阵 ,适用于复杂性状。
6.1.3 FarmCPU :结合固定效应和随机效应 ,提高检测效能。
6.1.4 MLMM :适用于多基因控制性状 ,提高检测效率。
6.2 QTL 作图分析
6.2.1 采用连锁分析或全基因组关联分析进行 QTL 作图。
6.2.2 结合 GWAS 与 QTL 作图进行联合分析 ,提高候选基因识别精度。
7 环境因素校正与多变量分析
7.1 采用 LMM(线性混合模型)或 BLUP 方法剔除非遗传变异。
7.2 多环境关联分析(ME-GWAS)提高基因鉴定的稳定性。
7.3 结合机器学习方法( XGBoost 、随机森林)优化基因-表型预测模型。
8 结果解读与育种应用
8.1 结合 GWAS 和 QTL 分析筛选候选基因 ,并进行功能注释。
8.2 采用基因共表达网络分析(WGCNA)挖掘功能相关基因模块。
8.3 结合标记辅助选择(MAS),优化茶树品种选育策略。
8.4 通过 CRISPR/Cas9 基因编辑进行功能验证。
9 附录
附录内容包括实验方法 、数据格式示例、统计分析参数等。
9.1 实验方法
9.1.1 高通量测序实验方法
DNA 提取 :采用 CTAB 法或商业化 DNA 提取试剂盒 ,从茶树叶片或嫩梢中提取高质量的
T/SDTS 002-2025
基因组 DNA 。提取的 DNA 应经过浓度测定和质量评估 ,确保其纯度和完整性满足高通量测序的要求。
文库构建:根据所选用的高通量测序技术,对提取的 DNA 进行片段化、末端修复 、连接测序接头等操作 。构建的文库应通过 QPCR 或生物分析仪等方法进行大小和浓度的验证 , 以确保其符合测序平台的要求。
测序 :将构建好的文库加载到合适的高通量测序仪上进行测序 。根据研究目的和基因组大小 ,选择合适的测序深度和读长 。在测序过程中 ,应严格按照仪器的操作手册进行操作 ,并记录相关的测序参数和质量控制信息。
9.1.2 表型数据采集方法
形态特征测量 :对于茶树的形态特征 ,如株高、冠幅 、叶面积、叶片厚度等 ,采用标准的测量工具和方法进行测量 。测量时应注意选择具有代表性的测量部位和测量时间 , 以减少测量误差。
生理指标测定 :对于茶树的生理指标 ,如光合速率 、蒸腾速率 、叶绿素含量等 ,采用相应的仪器和方法进行测定。测定过程中应按照仪器的操作说明进行操作,并记录相关的环境参数,以便对测定结果进行校正和分析。
生化成分分析 :对于茶树的生化成分 ,如茶多酚 、儿茶素、氨基酸、咖啡碱等 ,采用高效液相色谱(HPLC)、气相色谱-质谱联用(GC-MS)等分析方法进行测定 。在分析过程中,应严格按照标准操作流程进行样品的提取 、分离和检测 ,并使用标准品对仪器进行校准 , 以确保分析结果的准确性和可靠性。
9.2 数据格式示例
9.2.1 基因型数据格式示例
9.2.2 表型数据格式示例
9.2.3 环境数据格式示例
T/SDTS 002-2025
9.3 统计分析参数示例
9.3.1 全基因组关联分析(GWAS)参数示例
模型选择 :广义线性模型(GLM)或混合线性模型(MLM)。
显著性阈值 :p 值 < 1e-5 或经过 Bonferroni 校正后的 p 值 < 0.05。
连锁不平衡(LD)窗口大小: 100 kb。
群体结构参数 :主成分分析(PCA) 的前 3 个主成分。
9.3.2 数量性状位点(QTL)分析参数示例
作图方法 :连锁分析或全基因组关联分析。
显著性阈值 :lod 值 > 3.0。
置信区间: 1.5 Mb。
环境因子校正 :采用线性混合模型(LMM)或最佳线性无偏预测值(BLUP)方法。
9.3.3 多变量分析参数示例
机器学习方法 :XGBoost 或随机森林。
训练集和测试集比例 :70%和30%。
交叉验证次数 :5 折或 10 折。
评价指标 :准确率 、召回率 、F1 值、均方误差(MSE)等。