网站分析案例,网页设计理念及设计思路,优化网站排名方法教程,网站建设验收总结讲话Pan-transcriptome analysis provides insights into resistance and fruit quality breeding of pear (Pyrus pyrifolia)
全转录组分析为梨#xff08;Pyrus pyrifolia#xff09;的抗性与果实质量育种提供了新的见解
比较转录组学方法推断基因共表达网络及其在玉米和水稻…Pan-transcriptome analysis provides insights into resistance and fruit quality breeding of pear (Pyrus pyrifolia)
全转录组分析为梨Pyrus pyrifolia的抗性与果实质量育种提供了新的见解
比较转录组学方法推断基因共表达网络及其在玉米和水稻叶片转录组中的应用 TO-GCN时序分析-文献精读-8-CSDN博客
CYP76AKs的功能分化塑造了鼠尾草属中松香烷型二萜化合物的化学多样性-比较转录组-文献精读12_functional divergence of cyp76aks shapes the chemo-CSDN博客
比较转录组分析揭示了116种山茶属(Camellia)植物的深层系统发育和次生代谢物演化-文献精读分享1_泛转录组-CSDN博客 多组学研究揭示梨果实代谢中DNA甲基化的调控机制-文献精读84_multi-omics provide insights into the regulation o-CSDN博客 亮点
首次构建了沙梨全转录组使用了来自不同组织的506个Pyrus pyrifolia样本共包含156,744个转录本其中新转录本在防御反应中表现出显著富集。 揭示了基于表达存在/缺失变异ePAVs的表型之间的内在关系以及育种过程中对抗病性的选择。 共表达网络分析表明梨的石细胞形成、花青素合成和抗病性受到多个模块和基因的共同调控
摘要
Pyrus pyrifolia常被称为沙梨是温带地区重要的经济水果树种拥有丰富的遗传资源有助于梨的果实品质改良。然而关于梨等水果物种在抗性与果实质量性状之间关系的研究仍然有限。全转录组能够有效捕捉编码区域的遗传信息并反映个体之间基因表达的变化。在本研究中我们基于来自沙梨不同组织的506个样本构建了全转录组并探讨了表型之间的内在关系以及基于表达存在/缺失变异ePAVs在育种过程中对抗病性的选择。研究中的全转录组包含156,744个转录本其中新转录本在防御反应中表现出显著的富集。值得注意的是抗病基因在梨的地方品种中高度表达但在该多年生树种的改良过程中已被选择去除。我们发现遗传多样的地方品种可分为两大亚群并推测它们经历了不同的扩散过程。通过共表达网络分析我们确认了梨中石细胞形成、果实花青素合成和抗逆能力之间的相互关系。它们共同受到多个模块的调控且调控基因的表达与这三种过程具有显著的相关性。此外我们还发现了可能影响糖分含量的候选基因HKL1并且该基因在参考基因组中缺失。本研究为复杂果实性状之间的关联提供了新的见解同时也为梨的抗病性和果实质量育种提供了数据库资源。
1. 引言
梨Pyrus属于蔷薇科杏亚科的雄果族是温带地区最受欢迎的水果作物之一Wu et al. 2018。Pyrus属至少包含22个物种超过5000个种质资源但仅有五个物种被广泛栽培Wu et al. 2013。沙梨Pyrus pyrifolia原产于中国西南部现已广泛分布于韩国、日本和中国长江以南的亚热带季风气候地区Song et al. 2014。这些地区复杂的气候和地理条件造就了众多具有独特特征的地方品种Jiang et al. 2009。至今这些高度多样的地方品种和栽培沙梨得到了很好的保护并在全球范围内栽培。
不同个体之间的显著表型差异在物种中普遍存在。随着下一代测序技术的发展越来越多的测序报告提供了大量的全基因组信息可以揭示物种内个体基因组的差异。目前国家生物技术信息中心NCBI参考序列RefSeq数据库中收录了来自1350个不同植物物种的3061个基因组。如此众多的参考基因组的发布推动了植物功能基因组学和群体遗传学的研究Sun et al. 2022。随着使用SNPSu et al. 2019Zhang et al. 2021、InDelsLiu et al. 2019Ou et al. 2020、CNVsPrunier et al. 2019和PAVsOu et al. 2018Lee et al. 2022进行的比较基因组学研究的深入我们逐渐意识到单一的参考基因组不足以捕捉物种内的多样性。
全基因组概念首次由Tettelin等人2005提出。全基因组整合了物种的遗传信息便于研究遗传差异但这些信息并不总是能够反映个体间基因表达的差异。全转录组这一术语最早由Hirsch等人2014在玉米中提出他们发现仅有16.4%的代表性转录本在所有样本中都有表达并且大部分表达差异未在参考个体中得到体现。与全基因组Golicz et al. 2016类似全转录组是一个物种在基因组编码区域的表达总和通常基于RNA-seq数据。与单一转录组相比全转录组能够反映群体中基因的表达特征。通过全转录组分析识别的ePAVs不仅能够反映基因组结构变异还能反映遗传调控元件的变异Jin et al. 2016。近年来已经为几种植物构建了全转录组如大麦Ma et al. 2019、番茄Liu et al. 2020和茶树Kong et al. 2022Wu et al. 2022。这些研究为树木植物全转录组的构建奠定了基础。
多年生果树比许多其他物种具有更高的杂合度和遗传多样性Khan和Korban 2022。然而目前还没有反映任何果树作物中基因表达多样性的全转录组。沙梨具有丰富的表型多样性包括石细胞含量、果皮颜色、可溶性固形物含量、果形和果香等特征。为了促进分子育种和基因鉴定研究人员对312个沙梨品种的8个果实品质性状和3个果实物候性状进行了全基因组关联分析GWAS并鉴定了与石细胞形成相关的新基因PbrSTONEZhang et al. 2021。最近一项系统的遗传学研究揭示了梨果实石细胞木质纤维素形成的调控机制并鉴定了能够调节多个参与石细胞形成的靶基因的PbrNSC基因Wang et al. 2021。在这两项研究中沙梨个体DNA序列数据对齐率较低的一个原因是仅有单一参考基因组这导致丢失了个体特异性序列信息从而降低了性状关联效率。构建一个能够代表梨的基因组信息多样性的全转录组有助于解决这一问题并捕捉基因表达的多样性从而为提高梨的果实品质提供基础。
抗性与品质性状之间可能存在一定联系Islam et al. 2003Moing et al. 2003但抗病品种通常表现出不利的品质特征Stoeckli et al. 2011。因此平衡抗病性和作物品质是育种中的一大挑战。了解不同种质的独特遗传信息有助于保护物种的遗传多样性并支持抗病性育种。梨的改良起步较晚育种中的抗病性研究也有限。研究表明当梨的防御机制被激活时病程相关基因、过氧化物酶基因POD木质素合成的关键酶和几丁质酶基因CHI花青素合成的关键酶的表达水平显著增加Sun et al. 2018Yan et al. 2018。然而梨的抗病性与石细胞形成或果色之间是否存在关联仍不明确。
在本研究中我们基于来自506个不同组织的RNA-seq数据集构建了沙梨的全转录组以克服单一参考基因组的局限性。通过识别ePAVs我们表征了群体中基因的表达模式从而为梨的基因挖掘提供了数据库。此外我们通过整合转录组学分析鉴定了梨的抗病性与果实品质性状之间基因表达模块的关联。进一步地我们构建了与糖合成相关基因的共表达网络为功能基因的探索奠定了基础。我们的结果为不同性状之间复杂的基因表达模式和关联提供了新见解有助于解决多年生果树育种中抗病性与果实品质改良之间的矛盾。
2. 材料与方法
2.1. RNA-seq 数据收集
从NCBI下载了481个沙梨P. pyrifolia组织的RNA-seq数据集包括果肉、果皮、叶子、花蕾和花粉。此外本研究还生成了来自40个额外品种的果肉组织的转录组数据附录A。我们在这些品种的果实成熟时采收并将其冻存于液氮中。使用TRIzol试剂提取总RNA并根据Illumina提供的说明构建配对末端RNA-seq文库并使用NovaSeq 6000平台进行测序获得150 bp的配对末端读取数据。
2.2. 全转录组构建
使用Trimmomaticv0.39Bolger et al. 2014对原始RNA-seq数据进行修剪参数设置为“ILLUMINACLIP:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50”。清理后的读取数据使用Trinityv2.8.5Grabherr et al. 2011进行de novo组装参数设置为“–jaccard_clip”。将每个样本的所有转录本使用GMAPWu和Watanabe 2005与参考基因组‘Nijisseiki’对齐进行参考转录本的过滤和去除。保留与参考基因组的相似度85%且覆盖度85%的序列并定义为非参考转录本。这些非参考转录本与GenBank核苷酸数据库2021年11月12日下载及植物线粒体或叶绿体基因组使用blastnCamacho et al. 2009进行对齐去除与绿色植物核基因组无关的序列参数设置为“-evalue 1e–5 -best_hit_overhang 0.25 -max_target_seqs 10”。使用TransDecoderv5.5.0预测每个个体转录本的开放阅读框ORF然后使用CD-HITLi和Godzik 2006去除冗余序列。
为获得每个个体的唯一非参考转录本进行了两步重映射附录B。第一步将非冗余的ORF与参考转录本合并作为索引。使用bowtie2v2.4.4Langmead和Salzberg 2012将对应的RNA-seq数据与索引对齐使用bamdstv1.0.9https://github.com/shiquan/bamdst计算覆盖度100%的序列并使用内部Python脚本https://github.com/biolittleboy/Pan-transcriptome/blob/main/Coverage100_select.py去除这些序列。第二步将上一阶段剩余的新序列使用blastn与参考转录本对齐参数为“-evalue 1e–5 -perc_identity 85 -qcov_hsp_perc 85”。将相似度≤85%、覆盖度≤85%且E值≤1e–5的序列定义为每个个体的非参考转录本。将每个样本中清理后的非参考转录本合并使用CD-HIT去除冗余序列参数设置为“-c 0.9”。最后将最终的非冗余新转录本序列与梨的参考转录本合并形成全转录组。
2.3. 基因注释和富集分析
基因功能注释通过使用DIAMONDBuchfink et al. 2015E值≤1e–5与Swiss-ProtJungo et al. 2012和NR数据库O’Leary et al. 2016进行比对。转录因子TFs使用植物转录因子数据库PlantTFDBJin et al. 2017进行注释。
基因本体GO注释使用InterProScan版本5.52-86.0Jones et al. 2014和InterPro数据库Blum et al. 2021。GO富集分析使用Fisher精确检验通过topGO包实现Alexa et al. 2006。功能类别使用REVIGOSupek et al. 2011结果可视化使用CirGoKuznetsova et al. 2019和ggplot2包Ginestet 2011。Kyoto基因与基因组百科全书KEGG通路和Pfam结构域注释使用EggNOG-mapper版本2.1.4Cantalapiedra et al. 2021。KEGG富集分析通过clusterProfiler包实现Yu et al. 2012。
2.4. ePAV识别与表征
在Trinity中使用align_and_estimate_abundance.pl脚本来计算与转录本对齐的序列片段数量。该脚本使用bowtie2将每个样本的读取与全转录本对齐并使用samtools转换文件格式。批次效应通过使用sva包Leek et al. 2012进行去除。 FPKM值通过以下公式计算 FPKM cDNA片段数 /已对齐片段数百万× 转录本长度kb。 在超过95%的样本中表达FPKM1的转录本定义为核心转录本在1-95%样本中表达的转录本定义为外壳转录本在5%样本中表达的转录本定义为稀有转录本。对于给定的样本大小范围为1-506进行了10,000次随机抽样并统计了抽样中表达的基因数。根据Tettelin等人2008的方法取中位数来拟合幂律分布。
2.5. 群体结构
在IQ-TREENguyen et al. 2015中基于ePAV数据以0/1表示构建了最大似然ML系统发育树并进行自助法检验1,000次重复。ML树在FigTreev1.4.4中进行可视化并使用分支图形转换FigTree。主成分分析PCA使用来自scikit-learn库的“sklearn.decomposition.PCA”函数About us — scikit-learn 1.7.0 documentation基于相同的ePAV数据进行。
2.6. 土著品种与改良品种中的差异表达基因DEGs识别
我们计算了土著品种和改良品种中每个基因的表达比例FPKM1。使用Fisher精确检验来确定土著品种与改良品种中每个基因的表达存在与缺失频率的显著性差异。然后所有基因的原始P值经过假发现率FDR修正。使用DESeq2Love et al. 2014在P值0.05和|log2fold change|≥2的标准下识别土著品种与改良品种之间的DEGs。基因表达的变异系数CV通过使用内部Python脚本https://github.com/biolittleboy/Pan-transcriptome/blob/main/CV_cal.py根据公式计算 CV FPKM标准差 / 平均FPKM。
2.7. 共表达模块识别
使用WGCNA包Langfelder和Horvath 2008将表达的基因平均FPKM1分配到具有相同表达模式的已识别模块。使用逐步网络构建和模块检测流程来识别梨的基因模块参数参考了我们之前的研究Wang et al. 2021。共表达网络使用Cytoscapev3.9.1Shannon et al. 2003和Gephiv0.9, Gephi - The Open Graph Viz Platform进行可视化。在线共表达网络已在NDExPillich et al. 2017上共享名称为“sugar_network”。
2.8. 表型相关性分析
从24个沙梨种质资源中收集了早期落叶病指数、果肉颜色和石细胞计数的表型数据这些数据来自我们之前的研究Zhang et al. 2021Shan et al. 2023。使用R进行Pearson相关性分析。
3. 结果
3.1. 沙梨全转录组
从包括果肉、果皮、叶子、花蕾和花粉在内的不同组织中生成并整理了506个沙梨样本的RNA-seq数据集并采用去新组装和参考基因组对齐的策略构建了全转录组附录A图1-A。在去除接头和低质量序列后共获得了240亿个读取数据每个样本的平均基因组大小为6,992,055,291个碱基对图1-B附录A。每个样本的转录组进行了去新组装总共获得了5700万个转录本每个样本平均获得113,129个转录本图1-C。所有组装的转录本都与参考基因组‘Nijisseiki’Shirasawa et al. 2021进行了比对以识别参考基因组中缺失的序列。每个样本约有90.67%的转录本可以与参考基因组对齐图1-D。这些对齐的转录本被排除在全转录组构建之外。经过去除污染物和叶绿体基因组序列的过滤后最终获得了391万个原始新转录本每个样本的平均原始新转录本数为7,725个。随后使用TransDecoder预测了每个样本的最佳候选ORF。为了确认筛选出的最佳候选ORF序列的准确性RNA-seq数据集重新映射到ORF和参考CDS的联合体上使用bowtie2选择覆盖度为100%的ORF序列。接着使用blastn进一步筛选和去除与参考转录组对齐的转录本。每个样本平均获得627个新转录本。然后将这些转录本合并去除冗余最终得到111,868个非冗余新转录本。最后将参考转录本与非冗余的新转录本合并获得了沙梨的全转录组共包含156,744个转录本。 图1. 沙梨全转录组的构建 A, 构建流程包括数据预处理、非参考转录本的组装和参考转录本与新转录本的合并。 B, 小提琴图显示每个样本的RNA-seq数据的清洁读取长度。 C, 小提琴图显示Trinity组装后的每个样本的转录本数量。 D, 去新组装转录本与参考基因组的比对比率统计以及在非参考转录本中识别非污染序列。 E, Venn图展示了在NR、Swiss-Prot、KEGG、Pfam和GO数据库中注释的基因数量。
3.2. 新转录本的注释
新转录本的平均长度为547 bp显著短于参考转录本的长度1,248 bp图2-A。分别使用GO、KEGG、NR、Swiss-Prot和Pfam数据库对42,767、38,285、89,281、56,031和63,888个新转录本进行了注释其中24,769个转录本在这五个数据库中都有识别图1-E附录C。在梨的全转录组中预测了转录因子其中MYB、ERF、bHLH、NAC、C3H、WRKY、bZIP和C2H2家族占据了最高比例图2-B。新转录本中有1,401个转录因子占所有转录因子的33%附录D。新转录本的平均变异系数CV为2.67显著高于参考转录本的1.62附录E。这些结果表明新转录本可能有助于沙梨的个体间差异。 图2. 沙梨全转录组注释 A, 参考转录本与新转录本长度的比较。 B, 在全转录组中识别的转录因子及其参考转录本和新转录本的分布。 C, 新转录本的KEGG富集分析。 D, 新转录本的GO富集分析。
KEGG富集分析显示新转录本在氨基酸代谢与降解、戊糖磷酸途径、不饱和脂肪酸的生物合成和光合作用等通路中显著富集图2-C。氨基酸、糖类和不饱和脂肪酸的代谢影响着香气的产生Schwab et al. 2008因此这些新转录本可能为果实品质性状的挖掘提供资源。GO富集分析显示新转录本在多种生物过程中的富集显著包括防御反应、DNA整合、细胞酰胺代谢过程、信号转导等图2-D。在新转录本中识别出了1,863个与防御反应相关的基因占所有防御反应相关基因的74.6%其中1,750个基因在Swiss-Prot数据库中有同源基因附录C。例如Nonrefgene086797是AtMLP28的同源基因附录FAtMLP28是由昆虫害虫白蝶Pieris rapae卵特异诱导的免疫反应基因Little et al. 2007。此外Nonrefgene006562与NtPR-4A附录G同源NtPR-4A是与烟草花叶病毒TMV致病相关的基因且该基因在感染TMV后表达显著增加Friedrich et al. 1991。这些结果表明不同的沙梨个体可能已经在不同的环境条件下进化出了额外的防御反应基因。因此全转录组的构建将通过应用这些抗性基因资源进一步促进梨的抗病虫育种进展。
3.3. 表达存在/缺失变异ePAVs发现与功能表征
ePAVs是群体转录组中的一种重要变异类型Liu et al. 2020。由于沙梨的高杂合度0.89%Gao et al. 2021选择了479个RNA-seq数据量较大的样本5 Gb进行ePAVs的调用附录A在这些479个样本中有132,546个转录本被表示。全转录组转录本根据其出现频率进行了分类得到了14.63%的核心转录本≥95%、42.76%的外壳转录本1-95%和42.61%的稀有转录本≤1%图3-A和C。稀有转录本占全转录组的近一半表明沙梨群体中具有较高的基因表达多样性。通过对样本进行迭代随机抽样的方式模型化全转录组转录本的数量表明从479个样本构建的全转录组已接近饱和图3-B。该图显示随着样本数量的增加全转录组大小的增长减缓表明大部分转录本ePAVs已经被捕捉。 图3. 沙梨种质中的ePAV基因 A, P. pyrifolia全转录组基因的基因数量和出现频率。 B, 表示479个P. pyrifolia样本中全转录本数量增加的饱和曲线模型。 C, 热图显示479个P. pyrifolia样本中基因的表达存在与缺失情况。 D, CirGO可视化显示核心转录本中富集的GO术语P0.01。 E, CirGO可视化显示外壳转录本中富集的GO术语P0.01。
梨经历了两次全基因组重复WGD事件并且在进化过程中发生了多拷贝基因丢失Wu et al. 2013。在对全转录组中的直系同源转录本进行聚类后发现97%的核心转录本是重复的而稀有转录本则具有最高比例的单拷贝基因29%附录H。这表明大多数核心转录本在WGD之后保持了多拷贝状态而稀有转录本在进化过程中更容易丧失多拷贝。核心转录本主要富集在一些关键功能中如RNA处理、细胞表面受体信号通路、磷脂运输、去磷酸化、从丝氨酸合成半胱氨酸以及细胞器组装因此它们在进化过程中可能对植物的生长和发育至关重要图3-D。外壳转录本则富集在防御反应、对外界刺激反应的调控、蛋白质磷酸化和细胞通讯等生物过程中图3-E。这突出了与抗性和环境适应相关的基因并不需要在每个品种中都有但它们分布在不同的样本中。
3.4. 基于ePAV的沙梨亚群系统发育关系
沙梨在Pyrus属中具有最高的核苷酸多样性Wu et al. 2018并且拥有大量的地方品种和改良品种。在479个样本中共表达了126,413个转录本其中74.8%来自新转录本表达率100%这些转录本用于构建系统发育树、主成分分析PCA和后续分析。这些样本代表了174个地方品种和215个改良品种附录A。
通过ePAV数据可以区分地方品种和改良品种图4-A。梨经历了较弱的驯化一些地方品种和改良品种未表现出明显的遗传差异这导致一些种质在系统发育树中聚集在一起图4-A。根据PCA结果改良品种被分为改良I组和改良II组图4-B。改良I组主要包括来自日本和韩国的种质第1组及其杂交后代作为亲本改良II组对应来自中国的改良品种第2组。地方品种被分为地方品种I组和地方品种II组图4-B。梨的传播途径有两个分别是从中国西南部经过长江流域向东传播以及通过珠江流域向南传播Chen et al. 2022。来自梨原产地附近的四川省和浙江、广东、广西等省份的样本被归为第5组。 图 4. 梨*Pyrus pyrifolia*的群体结构和通过ePVAs计算的改良过程中的转录组选择
A基于ePAV数据的系统发育树。橙色表示地方品种组天蓝色表示改良品种组浅灰色表示分类不清晰的样本。 B基于ePAV数据的479个样本的主成分分析。方块组1表示来自日本和韩国的改良样本三角形组2表示在中国培育的国内外衍生品种菱形组3表示来自中国湖北、贵州和云南的地方品种样本十字组4表示来自中国湖南、江西和福建的地方品种样本圆圈组5表示来自中国四川、广东、广西和浙江的地方品种样本。 C显示地方品种和改良品种中每个基因的表达频率的散点图。 D地方品种和改良品种中的差异表达基因DEGs热图。高表达水平用红色表示低表达水平用蓝色表示。 E新转录本的GO富集分析。 F地方品种和改良品种中防御反应基因数量的箱线图。显著性通过Wilcoxon检验计算。I荣山梨II温环梨III早熟梨IV脆杏梨V脆冠梨。
在流域的尽头所有样本聚集在地方品种I和II中图 4-B附录 I。来自中国云南、贵州和湖北省的样本组3聚集在地方品种I中。来自中国湖南、江西和福建省的样本组4沿长江流域聚集在地方品种II中。通过479个沙梨样本的ePAVs出现了两类沙梨地方品种。这两组沙梨种质经历了不同的传播过程最终在长江和珠江流域的尽头汇聚。
3.5. 改良后抗性基因表达较低
大多数为了提高产量而选择的现代作物品种对病原体的抗性较差Deng等2020。梨的改良主要发生在过去十年而且在改良过程中对抗性应激的关注较少Li等2019。地方品种和改良梨品种之间的群体结构差异明显图 4-A和B并且地方品种与改良品种之间的RNA-seq比对率存在差异附录J和K。
通过比较地方品种和改良品种是否表达基因确定了改良过程中选择的基因。对于每个比较表达频率在地方品种和改良品种之间存在显著差异P0.001的转录本被确定为选择的转录本并且这些转录本在防御反应的生物过程注释中显著富集图 4-C附录L。在改良品种中频率较高的转录本被认为处于正选择状态而频率较低的则被认为处于负选择状态。总的来说从改良过程中发现了4,139个和4,430个正负选择转录本附录M。在选择的转录本中共鉴定出396个防御反应基因其中82.3%来自新转录本。正选择和负选择下分别有1513.65%和2455.53%个防御反应转录本。根据Fisher确切检验正负选择下防御反应基因的数量存在显著差异P3.6e–05。这表明在改良过程中许多防御反应基因被负向选择。
为了评估表达水平的差异共鉴定了15,582个差异表达基因DEGs其中8,892个来自新转录本附录N。地方品种中有4,962个高表达基因而改良品种中有10,620个高表达基因图 4-D。这些DEGs在防御反应的生物过程也表现出富集图 4-E。地方品种中的防御反应基因高表达的数量显著高于改良品种P2.2e–16。这与地方品种比改良品种具有更强抗病性这一认识一致。
通过上述两种方法发现了18,095个基因附录O。基于构建的泛转录组更多的基因在地方品种和改良品种之间表现出差异表达。与改良过程相关的防御反应基因在表达数量和水平上均有所下降这些选择的防御反应相关基因主要来自新转录本。在每个样本中计算防御反应基因的数量地方品种中显著更多的防御反应基因相比于改良品种图 4-F。地方品种II中的抗病基因资源比地方品种I更多附录P。中国培育的改良品种相比于韩国和日本培育的品种有更多的防御反应基因这可能归因于丰富的地方品种种质资源。尽管改良品种的抗病基因总体上少于地方品种但仍有一些优良品种具备较强的抗病性。在改良品种中防御反应基因最多的品种为荣山梨、温环梨、早熟梨、脆杏梨和脆冠梨图 4-F附录Q。将这些品种作为杂交亲本进行品种改良可能有助于提高后代的抗性和环境适应性。
3.6. 不同梨性状之间的相关性
基因共表达网络可用于识别功能基因模块Ruan等2010并通过特征基因与性状进行关联Langfelder和Horvath2008。候选共表达模块是基于44,139个基因平均FPKM1通过WGCNA识别的其中42.1%来自新转录本。通过样本聚类分析去除了两个异常样本A167_1和SRR12614248剩余的477个样本用于后续分析附录R。通过大约无标度拓扑法计算得到软阈值β为4附录S。总共有41,204个基因被分为25个模块M1–M25图 5-A其余的2,935个基因被视为异常值。五个模块M2–M3和M20–M22与基本功能如mRNA处理相关这些模块中的参考转录本数量大于新转录本数量附录T。模块M17和M23分别富集于“花发育的负调控”和“长日照期调节、开花的正调控”因此这两个模块可能与花发育相关附录T。 图 5. 抗性和果实质量性状相关基因的加权基因共表达网络分析WGCNA
A模块与性状的关系。行代表模块M1–M25左侧的数字表示每个模块中包含的基因数量。每列对应影响梨的抗性和果实质量的基因。星号*表示在梨中已确认功能的基因。每个行列交点处包含模块与特征基因之间的相关系数和P值。红色表示正相关蓝色表示负相关。 B与抗性和果实质量性状相关模块的统计。黑色圆圈表示相关灰色圆圈表示不相关。右侧的柱状图表示相关模块的数量。在下方的热图中较深的红色表示模块与更多性状相关。 C与抗性和果实质量性状相关模块的韦恩图。
当梨的防御机制被触发时病理相关基因和防御相关基因如过氧化物酶POD的表达水平显著增加Sun等2018Yan等2018。作为木质素合成的关键酶POD对梨中石细胞的形成至关重要Xue等2019a。然而石细胞的形成是否与梨的抗病性相关仍然未知。因此我们选择了影响石细胞形成的基因包括POD和漆酶LAC、转录因子MYB和NSC以及影响梨抗性的基因如PR基因和防御反应相关基因来与共表达模块关联图5-A。与抗性相关的16个模块P≤0.01在防御反应M4, M7, M16, M18–M19, M24、系统获得性抗性M9-M10、先天免疫反应M25、过氧化物酶体组织M5和响应高光强M8等生物过程中富集图5-A和B附录T。与石细胞形成相关的11个模块P≤0.01在木质素分解过程M10–M11、半纤维素代谢过程M9、细胞壁修饰M25、微管基础的运动M2, M9、植物激素响应M8, M10, M24、光合作用M8和木聚糖生物合成过程M10等生物过程中富集图5-A和B附录T。九个模块与石细胞形成和抗性共同相关图5-B其中五个模块M8–M10, M24–M25共同富集了石细胞形成和抗性相关的功能附录T。相关性分析显示早期落叶病指数与石细胞数量之间存在正相关附录U和V表明随着病情的进展石细胞数量显著增加P0.05。这表明石细胞的形成可能与梨的抗病性相关。
酚丙烷生物合成途径控制木质素和花青素的合成且它影响梨果实石细胞的形成和色素的沉积Xue等2019bLiu等2021。共发现10个与花青素合成相关的模块P≤0.01图5-A。有趣的是这10个模块与石细胞形成相关的模块完全重合且其中8个模块也与梨的抗病性相关图5-B。相关性分析显示早期落叶病指数与果肉颜色之间存在正相关附录U和V表明随着病情的进展花青素含量显著增加P0.05。这表明花青素的合成也可能与梨的抗病性相关。
梨的一些香气成分来源于由糖类底物合成的二次代谢物Bood和Zabetakis2002。通过使用香气和糖合成基因的表达水平进行表型分析共发现9个模块与香气和糖合成共同相关图5-B。这些模块的基因富集在葡萄糖代谢过程M1、D-氨基酸分解过程M1、1,3-β-D-葡聚糖合成过程M21、脂肪酸合成过程M14、支链氨基酸代谢过程M19和二萜类生物合成过程M9等注释中。模块M2、M9和M19与抗性、石细胞形成、花青素、糖和香气合成相关图5-C这表明这三个模块中的基因可能对育种具有重要意义。
3.7. 糖合成通路中结构基因和转录因子的共表达网络
糖的组成和数量是影响梨果实质量的重要因素。糖合成涉及淀粉和蔗糖代谢通路map00500、半乳糖代谢map00052、果糖和甘露糖代谢map00051、戊糖和葡萄糖醛酸相互转化map00040以及氨基糖和核糖糖代谢map00520等。我们的分析发现糖合成网络中有56种酶Wu等2018Li等2022共涉及1,090个与糖合成相关的基因其中717个来自新转录本图6-A。新转录本中包含糖相关基因为未来梨果实质量研究提供了额外的数据资源。 图 6. 糖合成相关基因和转录因子的共表达分析
A参考转录本蓝色和新转录本粉红色中的糖合成相关基因。 B与蔗糖、葡萄糖、山梨醇和果糖含量相关的基因的韦恩图。 C参与糖合成和转录因子的基因网络。参考转录本中的基因以蓝色显示新转录本中的基因以粉红色显示。糖合成通路中的基因用三角形表示转录因子TFs用圆圈表示。 D共表达网络中糖合成相关基因和转录因子的数量柱状图。 EHKL1基因和转录因子的共表达关系。 FMYB17与糖合成相关基因的共表达关系。 GMYB34与ADG2葡萄糖-1-磷酸腺苷转移酶的共表达。 H地方品种和改良品种中HKL1基因表达水平的箱线图。 I和JHKL1中的两个SNPNonrefgene027455_273I和Nonrefgene027455_171J显示出在具有三种不同基因型的种质间HKL1表达水平的差异t检验。
通过基因表达与20个样本的糖含量之间的相关性分析共发现了泛转录组中的19,689个基因与果糖4,976个、山梨醇4,160个、葡萄糖4,119个和蔗糖9,798个含量显著相关P0.05图6-B附录W。其中有114个基因被注释为糖合成相关基因61个基因位于479个样本的共表达网络中附录W和X。糖合成相关基因与转录因子的共表达关系被提取自共表达网络图6-C1,268个糖相关基因和转录因子有共表达关系其中229个来自新转录本图6-D附录X。
Ppy11g2632.1EG1内切葡聚糖酶是网络中连接最多的结构基因在网络中有489个节点。GALα-半乳糖苷酶、INT肌醇转运蛋白和UGEUDP-葡萄糖4-表异构酶在糖的合成和运输中发挥作用Nicolai等2006Li等2015Arunraj等2020。来自新转录本的Nonrefgene011861.1GAL3、Nonrefgene007701.1INT1和Nonrefgene055723.1UGE3分别与238、229和205个转录因子共表达图6-C。HXK1可以调节果实中的糖含量并影响梨的生长发育Zhao等2019。作为己糖激酶基因注释的Nonrefgene027455.1HKL1出现在网络中并与九个转录因子共表达图6-E。在网络中共识别了162个MYB转录因子其中MYB17与20个糖合成相关基因有共表达关系其中5个基因来自非参考转录组图6-F。值得注意的是MYB34与Ppy16g1265.1ADG2葡萄糖-1-磷酸腺苷转移酶共表达图6-G。
在共表达网络中有16个26.23%糖相关基因的表达水平在梨的改良过程中发生了变化。其中Nonrefgene027455.1HKL1己糖激酶在地方品种中的表达水平显著高于改良品种图6-H附录N。我们在HKL1基因中发现了两个SNP包括与Nonrefgene027455_273对应的GG等位基因主要存在于地方品种中而GT/TT等位基因主要存在于改良品种中附录Y。与Nonrefgene027455_171对应的AA等位基因主要存在于改良品种中而AC/CC等位基因主要存在于地方品种中附录Z。这两个SNP显著影响了HKL1基因的表达图6-I和J这种联系可能是地方品种和改良品种之间HKL1基因表达差异的原因。Nonrefgene079849.1SS5淀粉合成酶和Nonrefgene009327.1BGLU11_1β-葡萄糖苷酶在改良品种中的表达水平显著高于地方品种附录N并且它们与MYB17共表达图6-F。这些新转录本可能是沙梨改良过程中甜度变化的原因之一。
4. 讨论
本研究组装了梨的第一个泛转录组包括了在参考基因组“ Nijisseiki”中未发现的111,868个新转录本。沙梨的泛转录组中新转录本的数量超过了玉米8,681个Hirsch等2014、番茄7,181个Liu等2020和茶树4,940个Kong等2022但少于大麦289,697个Ma等2019。沙梨中新转录本的平均长度547 bp短于参考转录本1,248 bp这与玉米中的发现一致Hirsch等2014。此外我们还观察到沙梨中新转录本的表达水平较低附录AA。低表达水平的基因通常具有较短的转录本长度这可能会引入对这些转录本的检测偏差Oshlack和Wakefield2009。Pyrus中的新转录本的长度和表达水平表现出类似的趋势。这些新转录本在响应生物和非生物胁迫的基因中富集并且作为非必需基因95%在沙梨种群中分布可能用于适应不同的环境条件。
由于基因表达的时空特异性通过RNA-seq数据构建的泛转录组不能像基因组重测序数据构建的泛基因组那样全面地包含物种多样性信息。然而泛基因组中的许多基因是未转录的Zhao等2018Gao等2019。泛转录组可以提供时空基因表达的证据这对于评估潜在的基因功能非常有价值。本研究并未观察到来自相同组织的沙梨样本的聚类附录AB。来自果肉组织以外的组织的RNA-seq数据有限阻碍了不同组织之间差异的比较。在沙梨的更多组织类型和更多生长阶段进行转录组测序将增强泛转录组的完整性并推进沙梨种群比较基因组学研究。沙梨的高遗传多样性对构建具有代表性的泛转录组构成了挑战。然而通过识别ePAVs和预测建模我们发现我们的泛转录组捕获了大多数基因表达的多样性。
沙梨的多样性和分布可能使不同个体中出现更多的ePAVs。在番茄的泛基因组中核心基因的比例高达74.2%Gao等2019而在番茄的泛转录组中核心转录本的比例较低仅有42.0%的基因在所有样本中表达Liu等2020。在与梨密切相关的另一个蔷薇科物种——苹果Malus domestica cv. Gala中核心基因仅占22.21%而外壳基因占65%稀有基因占12.75%Sun等2020。相比之下梨的泛转录组中稀有转录本的比例显著更高这表明基因表达的时空特异性导致了核心基因和外壳基因的表达差异因此不同梨品种之间外壳基因和稀有转录本的表达差异可能与相应的表型变化和环境适应性相关。沙梨泛转录组中的稀有转录本包括52,361个92.71%新转录本。约一半的新转录本仅在少数样本中表达表明新转录本可以为研究梨的个体间差异提供数据支持。
在长期的作物育种过程中研究人员发现不同性状之间存在统计相关性Cramer和Wehner2000do Rego等2011。例如梨果实中糖类和香气化合物的合成存在相关性Li等2018。梨石细胞形成相关基因以过氧化物酶POD为代表也参与梨的抗病性。POD基因对植物抵抗病原微生物非常重要Sun等2018Yan等2018它们也参与梨的木质素合成和石细胞聚集Cao等2016。然而石细胞的形成是否与梨的抗病性相关尚不明确。在梨的育种过程中抗性和果实质量无法有效平衡。我们发现在进行香气和糖含量的选择育种时抗性被排除在外而在选择石细胞性状时病害抗性和果色也被同时选择但未确定为正向选择或负向选择。本研究中果实质量性状与抗病性之间的相关性可以为抗病育种过程中亲本选择提供参考。
现代梨育种的目标是实现优良的果实质量、高水平的抗病性、自交兼容性以及降低收获期间的劳动成本Saito2016。在驯化和改良过程中育种者倾向于更多关注果实质量性状如果实大小、甜度、石细胞含量、香气和颜色。在番茄中过表达AtMYB12显著降低了主要糖类的含量Zhang等2015。在梨的泛转录组中发现了162个MYB转录因子其中MYB17与AtMYB12同源但尚未有关于MYB17调节梨糖合成的报道。CiMYB17是与梨中的MYB34同源的基因参与菊苣中的果聚糖合成和降解Wei等2017。在我们之前的研究中我们观察到MYB34的表达水平和果糖含量在梨果实发育过程中呈持续上升趋势Li等2016Zhao等2019。我们构建的结构基因与糖合成相关转录因子的共表达网络结合参考转录本和新转录本能为挖掘品质性状基因提供参考。
驯化和改良过程还导致了遗传多样性的减少尤其是在抗病性方面。火疫病、梨斑病、黑斑病和梨蚜是梨栽培过程中遇到的主要病害Li等2022。我们对不同样本的ePAVs分析表明梨园香、梨园黄和梨园城托在沙梨地方品种中含有更多的防御反应基因。在改良品种中脆冠梨由于其广泛的适应性和优良的果实质量包括薄皮、大果、脆爽、早熟以及甜美清新的口感成为中国流行的梨品种Wang等2015。我们发现脆冠梨表达的防御反应基因数量低于荣山梨、温环梨、早熟梨和脆杏梨。使用上述样本可以进一步提高梨的抗病性和环境适应性在未来的梨育种中通过挖掘泛转录组中的新转录本可以为果实质量育种和抗性育种提供新资源。
5. 结论
总之我们构建了第一个果树作物的泛转录组并建立了梨抗病性和果实质量育种的数据库资源。我们采用创新的转录组学方法揭示了梨个体间复杂的表达变异从而为了解多年生果树作物中的遗传多样性提供了宝贵的见解。