基于NGS基因组数据的西米棕榈SSR鉴定及标记开发外文翻译资料

 2023-01-07 04:01

基于NGS基因组数据的西米棕榈SSR鉴定及标记开发

摘 要

西米棕榈(Metroxylon sagu Rottb。)是生产碳水化合物最多的作物之一。不幸的是,只有有限的信息关于西米棕榈遗传学是可用的。本研究旨在使用西米棕榈NGS基因组数据开发简单序列重复(SSR)标记,并使用这些标记评估印度尼西亚西米棕榈的遗传多样性。从头组装部分西米棕榈基因组数据和SS的挖掘,确定了29953个重叠群,其中包含31659个完美的SSR位点和31578个重叠群,其中33576个不完美的SSR位点。完美的SSR位点密度为132.57/Mb,AG,AAG和AAAT是最常见的SSR基序。随机选取500个SSR位点,设计SSR引物,共鉴定出93对SSR引物。在使用水稻基因组序列进行同线性分析后,使用11个西米棕榈种质验证了20对引物,并且7个引物产生了多态性等位基因。使用多态性SSR位点对来自印度尼西亚各地的41个西米棕榈种质进行遗传多样性分析表明存在三个簇。这些结果证明了基于NGS基因组数据的西米棕榈SSR鉴定和标记开发的成功,可进一步用于未来西米棕榈育种。

西米棕榈(Metroxylon sagu Rottb。)是全球最具生产力的碳水化合物生产植物之一(Ishizaki 1997)。西米棕榈树的树干中大约可以积累100-300kg的淀粉(Dewi et al。2016)。此外,西米棕榈的淀粉产量是水稻的四倍(Karim等,2008)。因此,西米棕榈是即将发生的全球粮食危机的潜在解决方案(Abbas等人,2010)。该单子叶植物物种具有26个染色体(2n=2x=26)。它属于棕榈科和槟榔目家族(Flach 1997)。西米棕榈遍布东南亚地区。然而,Beccari(1918)提出印度尼西亚东部的北马鲁古省群岛是西米棕榈遗传多样性的中心。西米棕榈相对耐受非生物胁迫环境,特别是沼泽和水淹地区(Singhal等,2008)。此外,西米棕榈可以在含有高浓度金属化合物的酸性泥炭土壤中茁壮成长(Miyamoto等,2009)。目前大多数商业作物不太可能在这种次优条件下存活(Tajuddin等人,2007)。西米棕榈是一种必需的淀粉生产作物,具有良好的环境适应性(Tajuddin等人2007,Uthumporn等人2014,Wee)。最近,对这种作物的关注还不够(Karim等人,2008)。大多数商业生产商只从天然传奇森林中采集传奇棕榈树,对可持续利用的投资很少。尽管在西米棕榈的自然种群中存在表型变异,但仍然需要培育特定的表型和性状。不幸的是,对西米棕榈遗传学的理解也很有限(Wee和Roslan 2012)。因此,需要现代分子生物学方法来支持进一步阐明西米棕榈生物学和遗传学,以支持西米棕榈的大规模栽培。

一些研究人员报道了使用分子标记来阐明西米棕榈中的遗传信息。然而,这些报告中的大多数已经描述了有限数量的标记基因座,对于西米棕榈来源或样本,或两者兼而有之。Abbas等人(2009)使用RAPD标记来研究西米棕榈遗传学。在其他研究中,Kjaelig;r等人(2004)使用AFLPs和Abbas等人(2010)使用chloaelig;roplastDNA(cpDNA)标记来研究作物。更强大的分子标记将有助于提高对西米棕榈的理解遗传学。理解天然西米棕榈种群的遗传变异性对于支持未来的西米棕榈育种(Abbas等人,2010)和遗传资源保护计划(Kjaelig;r等人,2004)是必要的;然而,必须开发强大的遗传标记来支持这些重要的努力。不幸的是,能够提供有关西米棕榈基因组的高分辨率信息的标记并不容易可用。简单序列重复序列(SSR)或微卫星是重复的DNA序列,由分布在原核和真核基因组中的1-6bp基序组成(Grover等,2012,Guo等,2009,Kelkar等,2008,Sharma等,2007)。这种SSR可用于分子标记的开发,因为它们丰富,高度多态,多等位基因和共显性遗传。SSR已被广泛用作作物许多遗传研究的遗传标记(Ashkani等,2012,Geethanjali等,2017,Girichev等,2017,Kaur等,2016,Ott等,2011,Rauscher和Simko 2013,Zong等,2015)。尽管SSR标记具有许多优点,但一个缺点是标记开发成本高,因为它需要对目标植物基因组进行广泛的测序(Zalapa et al。2012)。这个限制阻碍了SSR标记用于有限基因组序列信息的作物,如西米棕榈。

下一代测序(NGS)等DNA测序技术的最新发展为获取非模式作物的大基因组序列,挖掘SSR标记序列和开发所需引物以产生SSR标记提供了新的途径(Zalapa等,2012)。最近在文献中已经有许多使用这种基因组数据进行非模式作物SSR标记发育的例子(Zalapa et al。2012)。虽然一些棕榈品种受到了NGS测序技术的高度关注,但不幸的是,西米棕榈已经不是本研究旨在利用Illumina GAIIx平台和配对末端基因组片段文库,从西米棕榈的部分基因组序列中鉴定和开发新的SSR标记。在从头组装原始读数之后,随后使用部分基因组序列数据来挖掘SSR序列,设计合适的引物并为西米棕榈开发特异性SSR标记。在对所开发的标记进行验证后,使用一些多态性标记来评估41个印度洋相棕榈种质的遗传多样性。据我们所知,本文首次报道了使用西米棕榈基因组序列进行SSR标记挖掘,并使用生成的标记来评估印度尼西亚不同的西米棕榈种质。

对于基因组测序和SSR标记开发,我们利用了印度尼西亚技术评估和应用机构(BPPT)的西米棕榈种质资源。对于初始SSR标记验证,我们使用了11个西米棕榈种质。随后,我们使用来自印度尼西亚不同地区的41种西米棕榈品种进行遗传多样性研究(图1)。从代表所有可用种源的BPPT 西米棕榈种质收集新鲜叶样品并用于DNA分离。此外,还收集了来自西米棕榈原产地的新鲜叶子样本。

总DNA分离,文库制备,NGS和基因组组装使用标准CTAB方法从西米棕榈的叶样品中分离总DNA,所述标准CTAB方法针对来自棕榈叶的DNA分离进行了修饰(Maskromo等人2016,Novero等人2012,Pesik等人,20152017,Tinche等人,2014)。我们使用llumina GAIIx仪器对从幼叶中提取的DNA进行西米棕榈基因组测序。配对末端基因组文库构建(272bp)进行了商业Nextera XT指数与TruSeq双指数测序引物盒试剂盒(https://www.illumina.com/products/by-type/sequencing-kits/cluster-gesequencing试剂/truseq双索引序列-primers.html). 在使用Trimmomatic对原始读数进行质量修剪后,我们使用了Ray软件(https://github.com/sebhtml/ray)用于从头组装。随后,我们使用组装的西米棕榈基因组序列进行SSR挖掘和标记开发。

来自部分西米棕榈基因组序列的SSR序列挖掘,我们使用组装的重叠群数据(至少200bp)来搜索至少20bp长度的SSR基因座的二,三,四和六核苷酸重复。我们使用了Phobos软件(http://www.ruhr-uni-bochum.de/ecoevo/cm/cm_phobos.htm)从组装的基因组序列中挖掘SSR基序。然后将鉴定的SSR位点分为完全或不完全的SSR,并指定为I类或II类SSR。根据SSR位点的频率和含有SSR的重叠群的总长度确定SSR位点密度。我们还评估了所选重复序列的基序长度,基因座数量,平均重复数和密度motifs.SSR引物设计和引物验证为了设计SSR引物,我们从Phobos软件的输出中选择了500个I类SSR位点,覆盖率至少为10倍。使用Primer3 Plus软件将含有选定SSR的重叠群用于SSR引物设计(http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi). SSR引物设计参数包括200-600bp扩增片段大小、18bp最佳引物大小、50c-60c引物熔融温度(Tm)和40%-60%引物GC内容。一旦鉴定了SSR引物,对含有SSR位点的重叠群进行了同线性分析。对可从Phytozome网站获得的水稻(Oryza sativa)染色体序列进行同线性分析(https://phytozome.jgi.doe.gov/pz/portal.html)以评估它们在水稻基因组中的可能位置分布。随后,我们选择了分布在11条水稻染色体上的20对引物PCR扩增和等位基因鉴定PCR扩增混合物由5micro;L 5x Taq聚合酶缓冲液,0.25micro;L KAPA Taq HotStart Extra(100单位/micro;L),1.5micro;L MgCl2(25mM),0.5micro;L dNTP(10mM),0.5mu;L正向和反向引物(100mM),用无菌ddH2O补足至25mu;L(http://catalog.takara-bio.co.jp/product/basic_info.php?unitid=U100004192)用于SSR标记扩增。首先,将DNA提取物在95℃下进行一个变性循环3分钟,然后在95℃下进行35个变性循环30秒,在适当的Tm下对每个引物对进行引物退火30秒,并在最后,在72°C下进行最后的延伸步骤60秒。对于SSR等位基因鉴定,我们使用垂直平板凝胶DNA测序仪(34times;45cm)在6%SB(1x)缓冲液聚丙烯酰胺凝胶(Brody and Kern 2004)中使用变性聚丙烯酰胺凝胶电泳(PAGE)。如Chevallet等人(2016)所述,等位基因可视化采用银染法。我们手动对标记进行评分,并选择多态性标记进行遗传分析。

西米棕榈遗传多样性和结构评估。我们使用简单匹配的不相似性指数,基于二倍体的等位基因数据计算了不相似性矩阵。相异矩阵的计算使用10000次迭代的自举分析。使用要编辑的41个轴的选项设置基于不相似性的主坐标分析(PCoA),并选择由PCoA确定的默认轴。我们通过加权邻接方法使用计算的相异矩阵进行树构造。使用WINDOWS(DARWin)软件版本6.05(Perrier和Jacquemoud Collet 2006;http://darwin.cirad.fr/darwin)。我们计算了群体遗传参数(等位基因数,He,Ho和PIC)使用CERVUS软件版本3.0(Kalinowski等人2007)和GENALEX软件版本6.501(Peakall和Smouse 2012)为每个SSR标记基因座。(Pritchard et al.2000,http://pritch.bsd.uchicago.edu/structure.html)用于分析种群结构并区分等位基因频率。为了计算估计理想数量的种群(K),我们在混合模型中运行每个K估计,其中K=1-10,每个K重复20次。我们实现了每个复制,每个复制的老化周期为100000步,随后是250000个蒙特卡罗马尔可夫链模型生成的复制。如Evanno等人(2005)所建议的,评估临时统计学以根据K值估计数据的对数概率的变化。基于使用STRUCTURE HARVESTER估计的最高K值(http://taylor0.biology.ucla.edu/struct_harvest/)(Earl和vonHoldt 2012)。NGS和部分西米棕榈基因组的组装在该研究中,使用Illumina GAIIx配对末端NGS系统(表1)产生总共315.56Mb的部分西米棕榈基因组序列数据的原始读数。总核苷酸组成分析结果表明,腺嘌呤是最常见的碱基(A=31.4%),其次是胸腺嘧啶(T=30.7%),胞嘧啶(C=18.4%)和鸟嘌呤(G=18.3%)。西米棕榈部分基因组序列中GC含量的百分比约为37%。从头组装后,我们确定了总共904670个重叠群(表1)。组装的重叠群的最小长度为100bp,最大长度为355487bp。组装重叠群的平均长度为263bp,而N50的平均长度为291bp(表1).SSR序列挖掘我们鉴定了29953个重叠群,其中包含31659个完美SSR位点和31578个重叠群,其中33576个不完全SSR位点(表2)。进一步分析还表明,12673个(40.03%)SSR位点为I类SSR(重复长度ge;20bp),密度为40.2 SSR/Mb,18986个(59.97%)为II类SSR(重复长度12-20bp),密度为60.2 SSR/Mb(补充图1A),二核苷酸(17376;55%)是SSR完美序列中最常见的类型六核苷酸。他的研究旨在为西米棕榈生成部分基因组序列,并根据这些数据开发SSR标记。在这里,我们成功地产生了部分西米棕榈草案基因组(315.56Mb),并基于组装的部分基因组展示了SSR标记的开发。鉴定的西米棕榈基因组约为Cocos nucifera(2.42 Gb,Xiao等人2017),Elaeis guineensis(1.8 Gb,Singh等人2013)和Arenga pinnata(1.75)报告大小的13%-18%。Gb,Rijzaani等,2017)。它也是报道的Phoenix dactylifera基因组大小的约50%(671.2Mb,Al-Mssallem等人,2013)。因此,可能需要更多数据来获得完整的西米棕榈基因组。已经报道了各种作物从产生的基因组开发SSR标记(Kale等,2012,Li等,2014,Silva等,2013,Sonah等,2011,Song等,2015,Xiao等,2016,Yang等,2015)。一个可能的原因可能是因为西米棕榈基因组测序仅运行一次,导致低分辨率NGS数据,并且组装的序列仅部分覆盖了西米棕榈基因组。在部分鉴定的西米棕榈基因组中,AG,AAG和AAAT重复单元分别是二核苷酸,三核苷酸和四核苷酸重复的最常见的SSR基序。对于油棕(Ting等人,2010,Zaki等人,2012),枣椰子(He等人,20

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[271373],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。