中国农业科学院作科所提出基于深度学习的全基因组选择新方法--行业动态--农业生物技术科普平台

中国农业科学院作科所提出基于深度学习的全基因组选择新方法

发布日期：2022-11-28 来源：中国农业科学院作物科学研究所作者：李慧慧浏览次数：108

核心提示：近日，中国农业科学院作物科学研究所/三亚南繁研究院大数据智能设计育种创新团队联合多家单位提出利用植物海量多组学数据进行全基因组预测的深度学习方法（Deep Neural Network for Genomic Prediction, 简称DNNGP），可以实现育种大数据的高效整合与利用，将助力深度学习在全基因组选择中的应用，为智能设计育种及平台构建提供有效工具。

　　近日，中国农业科学院作物科学研究所/三亚南繁研究院大数据智能设计育种创新团队联合多家单位提出利用植物海量多组学数据进行全基因组预测的深度学习方法（Deep Neural Network for Genomic Prediction, 简称DNNGP），可以实现育种大数据的高效整合与利用，将助力深度学习在全基因组选择中的应用，为智能设计育种及平台构建提供有效工具。相关研究成果在《分子植物（Molecular Plant）》上在线发表。

　　全基因组选择作为新一代育种技术，通过构建预测模型，根据基因组估计育种值进行早期个体的预测和选择，从而缩短育种世代间隔，加快育种进程，节约成本，推动现代育种向精准化和高效化方向发展。统计模型作为全基因组选择的核心，极大地影响了全基因组预测的准确度和效率。传统预测方法基于线性回归模型，难以捕捉基因型和表型间的复杂关系。相较于传统模型，非线性模型（如深度网络神经）具备分析复杂非加性效应的能力，人工智能和深度学习算法为解决大数据分析和高性能并行运算等难题提供了新的契机，深度学习算法的优化将会提高全基因组选择的预测能力。

　　研究团队以玉米、小麦和番茄四种不同维度的群体数据为测试材料，通过创新深度学习算法框架开发了全基因组选择新方法DNNGP。与其他五种主流预测方法（即：基于线性模型的GBLUP；基于机器学习的LightGBM和SVR；基于深度学习的DeepGS和DLGWAS）相比，DNNGP有以下优点：可以利用多组学数据开展全基因组预测；算法设计中包含批归一化层、回调函数和校正线性激活函数等结构，可以有效降低模型错误率，提高运行速度；预测精度稳健，在小型数据集上的表现与目前主流预测模型相当，在大规模数据集上预测优势更加明显；计算时间与传统方法相近，比已有深度学习方法提速近10倍；超参数调整对用户更加友好。DNNGP针对具有复杂结构的海量数据进行高效数学建模，实现了育种大数据的高效整合与利用，将助力深度学习在全基因组选择中的应用，为智能设计育种及平台构建提供有效工具。

　　作科所已毕业硕士研究生王轲麟为本文第一作者，团队首席李慧慧研究员为通讯作者。研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室和中国农业科学院科技创新工程等项目资助。

　　论文链接：

　　https://doi.org/10.1016/j.molp.2022.11.004

关键词： 基因