Asamblarea transcriptomului De Novo pe baza de ARN-Seq și descoperirea genei a tulpinii cărnoase de Cistanche Deserticola-Ⅰ

Jul 24, 2024

Fundaluri

Cistanche deserticola este o plantă parazită complet nefotosintetică, cu mare valoare medicinală și este distribuită în principal în deșertul din nord-vestul Chinei. Tulpina sa cărnoasă uscată este un tonic crucial înmedicina tradițională chinezăcu rol în principal de îmbunătățire a funcției sexuale masculine și de întărire a imunității, dar puține studii mecaniciste au fost efectuate parțial din cauza lipsei de resurse genomice și transcriptomice.

Natural cistanche tubulosa

NATURAL CISTANCHE TUBULOSA MEDICINA TRADITIONALA CHINEZA PHGS75% ECH 30% ACT 12%

Rezultate

În acest studiu, am efectuat secvențierea profundă a transcriptomului în tulpina cărnoasă a C. deserticola și aproximativ 80 milioane de citiri au fost generate folosind secvențierea perechii Illumina pe platforma HiSeq2000. Folosind asamblatorul trinity, am obținut 95.787 secvențe de transcriere cu lungimi de transcriere variind de la 200 bp la 15.698 bp, având o lungime medie de 950 de baze și o lungime N50 de 1.519 de baze. 63.957 de transcrieri au fost identificate ca fiind exprimate în mod activ cu FPKM Mai mare sau egal cu 0,5, în care 30.098 de transcrieri au fost adnotate cu descrieri ale genelor sau termeni de ontologie a genei prin analize de similaritate de secvență față de mai multe baze de date publice (Uniprot, NR și Nt la NCBI și KEGG) . În plus, am identificat gene cheie ale enzimelor implicate în biosinteza ligninei și a glicozidelor feniletanoide (PhGs) despre care se știe că sunt ingredientele active primare. Patru gene ale fenilalaninei amoniac-lază (PAL), prima enzimă cheie în biosinteza ligninei și PhG au fost identificate pe baza comparației secvențelor și analizei filogenetice. Două căi de biosinteză ale PhG au fost, de asemenea, propuse pentru prima dată.

Concluzii

În total, am finalizat o analiză globală a transcriptomului tulpinii cărnoase de C. deserticola folosind tehnologia ARN-seq. O colecție de gene enzimatice legate de biosinteza ligninei și a glicozidelor feniletanoide au fost identificate din transcrierile asamblate și adnotate și familia de gene a PAL a fost, de asemenea, prezisă. Datele de secvență din acest studiu vor oferi o resursă valoroasă pentru efectuarea viitoarelor cercetări de biosinteză a glicozidelor feniletanoide și studii genomice funcționale în această plantă medicinală importantă.

Introducere

C. deserticola este un gen la nivel mondial de plante perene de deșert din familia Orobanchaceae și este o specie complet nefotosintetică și crește de obicei o plantă holoparazită subterană. Este parazitată pe rădăcinile psammofitului Haloxylon ammodendron (Chenopodiaceae), care locuiește în principal în deșerturi și semi-deșerturi datorită toleranței sale ridicate la secetă și salinitate. C. deserticola prezintă o rezistență puternică la condițiile dure de mediu și este distribuită în principal în nord-vestul Chinei, în special în Mongolia Interioară, Gansu și Xinjiang. Este considerată a fi o specie sălbatică pe cale de dispariție în ultimii ani din cauza consumului crescut de către oameni. C. deserticola, care este adesea numit ginseng de deșert, este cunoscută în mod obișnuit sub denumirea de mături de deșert, iar tulpina cărnoasă uscată a fost folosită pe scară largă ca un tonic important în mod tradițional în China și Japonia de mulți ani. A fost înregistrată inițial în Shen Nong Ben Cao Jing (Dicționarul Chinezesc Materia Medica, 1977) cu aproximativ 1800 de ani în urmă și a fost considerată una dintre principalele surse alePlanta medicinala chinezeasca Cistanche.

Chinese cistanche tubulosa

TUBULOSĂ NATURALĂ DE CISTANCHE PENTRU ÎMBUNĂTĂŢIREA FUNCŢIEI SEXUALE PHGS75% ECH 30% ACT 12%

Extractele de C. deserticola posedă o gamă largă de funcții medicinale, în special pentru utilizarea în îmbunătățirea funcției sexuale, tonifiere rinichilor, protejarea ficatului, activitatea aperientă, îmbunătățirea memoriei, imunomodulare, activitate antioxidantă, activitate antiinflamatoare, antivirală etc. componentele bioactive majore ale C. deserticola sunt glicozidele feniletanoide (PheG, PhG). Până în prezent, din tulpina suculentă de C.deserticola au fost izolate peste 20 de glicozide feniletanoide. Printre ei,acteozid și echinacozidsunt două componente principale cu activități farmacologice semnificative și sunt documentate ca standarde de calitate ale C. deserticola în farmacopeea chineză (edițiile 2005 și 2010). Trei componente chimice ale PhG sunt acidul organic, zaharida și feniletanoidul, cu toate acestea, detaliile referitoare la căile de biosinteză ale feniletanoidului rămân slab înțelese în C.deserticola.

În ciuda importanței comerciale și medicinale a C.deserticola, datele genomice și transcriptomice ale acestei specii sunt foarte limitate. Nu există EST disponibile în baza de date NCBI și informațiile complete despre genom pentru această specie rămân indisponibile, cu excepția secvenței genomului cloroplast. Datele transcriptomice limitate împiedică studiul mecanismelor de biosinteză PhG. Tehnologia ARN-seq poate genera secvențe ale părților exprimate ale genomului vizat și poate identifica genele [18] folosind platformele tehnologice NGS (cum ar fi Applied Biosystems SOLiD, Illumina HiSeq și Roche 454). Devine din ce în ce mai popular în asamblarea transcriptomului de novo, deoarece este o abordare eficientă din punct de vedere al costurilor și puternică, cu rezoluție înaltă și gamă dinamică largă, mai ales că are un avantaj de a explora transcrierile cu abundență scăzută. Datorită diferitelor avantaje, ARN-seq este deosebit de atractiv pentru organisme non-model cu resurse genetice limitate. Cu toate acestea, nu există cercetări detaliate asupra transcriptomului C. deserticola prin ARN-seq.

În acest studiu, am secvențiat global transcriptomul stem pentru C. deserticola folosind platforma Illumina Hiseq2000 și am obținut date brute de 7,9 G. Prin asamblare și adnotare, am extras genele implicate în biosinteza PhG și genele responsabile pentru întreaga biosinteză a ligninei. Analiza noastră ARN-seq a generat primul transcriptom consensual al C. deserticola și a oferit noi perspective asupra unei înțelegeri cuprinzătoare a valorii medicinale a C. deserticola. În plus, metoda descrisă aici poate fi aplicată pe scară largă la transcriptomurile de profil pentru a facilita descoperirea genelor implicate în căile specifice de biosinteză a componentelor medicinale într-o altă plantă medicinală cu resurse genomice foarte limitate.

Materiale și metode

Colectarea materialului vegetal

Tulpina suculentă proaspătă pentru C. deserticola în etapa de excavare a fost colectată de la o bază de plante din BayanHot City of Alxa League din Inner Mongolia, în nord-vestul Chinei. Permisul de colectare a fost obținut de la proprietarul (HongKui CongRong Group) al bazei fabricii. Exemplarul de voucher a fost depus în Core Genomic Facility de la Institutul de Genomică din Beijing, Academia Chineză de Științe. După curățare, țesuturile suculente ale tulpinii au fost tăiate în bucăți mici și imediat congelate în azot lichid, apoi păstrate la grade -80 până la procesarea ulterioară.

Extracția ARN, construcția bibliotecii de ADNc și secvențierea Illumina

ARN-ul total a fost extras din tulpina suculentă folosind reactiv TRIzol (Invitrogen Inc., California, SUA) conform instrucțiunilor producătorului. Probele rezultate au fost tratate cu ADNază I pentru a îndepărta orice ADN genomic. ARN-urile extrase au fost cuantificate utilizând un bioanalizator Agilent 2100 (Agilent Technologies) și verificate pentru integritate utilizând electroforeză pe gel de agaroză denaturant cu colorare cu bromură de etidio. În analizele ulterioare au fost utilizate probe de ARN cu rapoarte A260/A280 între 1,9 și 2,1, rapoarte ARN 28S:18S mai mari de 1,0 și numere de integritate ARN (RIN) -8.5.

Bibliotecile ARN-seq au fost generate utilizând trusele de preparare a probelor de ARN Illumina Truseq. ARN-ul Poly(A)+ a fost izolat din ARN total folosind perle Dynal ligo(dT)25 conform instrucțiunilor producătorului. După purificare, a fost adăugat un tampon de fragmentare pentru a rupe ARNm în fragmente scurte. ADNc prima catenă a fost sintetizat folosind aceste fragmente scurte ca șabloane, împreună cu transcriptază inversă SuperScript III și primer hexamer aleatoriu N6. ADNc a doua catenă a fost apoi sintetizat folosind tampon, dNTP, RNazăH și ADN polimeraza I. ADNc dublu catenar rezultat a fost supus reparării finale folosind ADN polimeraza T4, ADN polimeraza I fragment Klenow și polinucleotid kinaza T4 și ligat la adaptoare care folosesc ADN ligaza T4. Fragmentele legate cu adaptor au fost purificate folosind un kit de extracție QiaQuick PCR și eluate cu tampon EB. După analiză folosind electroforeză pe gel de agaroză, fragmentele adecvate au fost selectate ca șabloane pentru amplificarea PCR. Secvențierea bibliotecii de ADNc rezultată a fost efectuată cu un sistem Illumina HiSeq 2000.

Asamblarea transcrierilor de novo și cuantificarea expresiei genelor

Citirile brute generate din secvențiere au fost curățate prin eliminarea secvențelor adaptorului (ATCTCGTATGCCGTC) folosind o metodă internă. Apoi am efectuat un proces strict de filtrare de calitate scăzută. În primul rând, bazele cu un scor de calitate phred mai mic de 20 ar fi tăiate de la sfârșitul 3 al secvenței, până la întâlnirea cu o bază cu o calitate mai mare (mai mare sau egală cu 20). Dacă lungimea de citire era mai mică de 50 bp, aceasta ar fi eliminată. În al doilea rând, citirile vor fi filtrate în continuare după criteriul conform căruia 70% dintre bazele dintr-o citire au scoruri de înaltă calitate (mai mare sau egală cu 20). În al treilea rând, pentru asamblarea ulterioară au fost folosite doar citirile cu sfârșitul pereche. Asamblarea transcripției de novo a fost efectuată utilizând versiunea Trinity_20130216 [30], care a constat din trei module software succesive: Inchworm, Chrysalis și Butterfly. Parametrii de asamblare au fost setați după cum urmează: -seqType fq-JM 300G -min_contig_lungime 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

Pentru a cuantifica abundența transcriptelor, citirile secvențiale de la sfârșitul perechilor au fost realiniate la transcrierile asamblate folosind un script în Trinity. Citirile mapate au fost utilizate pentru cuantificare prin software-ul RSEM (RNA-Seq by Expectation Maximization). Abundența genei sau a izoformelor a fost reprezentată de valoarea fragmentului pe kilobază de transcriere per milion de fragment mapat (FPKM), acele transcrieri cu valoare FPKM egală sau mai mare de 0.05 au fost definite așa cum sunt exprimate.

Adnotarea funcțională a transcrierilor exprimate

Nu există seturi de adnotări genetice ale C. deserticola, cu excepția genomului cloroplastei [1]. Am adnotat transcrierile exprimate comparându-le cu seturile de date actualizate Genbank Nt, Genbank Nr și TAIR10_ pep_20101214_, folosind programul BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Ontologia genelor și adnotarea căii KEGG Prin alinierea asemănării secvenței la baza de date Uniprot (adnotarea Gene Ontology (GO) a tuturor transcrierilor asamblate a fost obținută prin utilizarea unui fișier de asociere descărcat de la (ftp://ftp.ebi.ac.uk/pub/). databases/GO/goa/UNIPROT/gene_asociație goa_uniprot.gz a fost realizată gruparea de termeni GO a genelor exprimate folosind scripturi personalizate și am adnotat genele la al patrulea nivel. Categoriile CC, BP ​​și MF separat.

Informațiile despre calea KEGG au fost atribuite pentru toate secvențele de proteine ​​prezise folosind instrumentul online KAAS (KEGG Automatic Annotation Server) [34]. Secvențele în format fasta au fost trimise la cererea KAAS și fișierele rezultate ale tuturor informațiilor despre căile legate de transcriptomul stem C. deserticola au fost descărcate. 13 seturi de date genetice ale organismelor vegetale din KEGG au fost utilizate pentru adnotare folosind metoda BBH (bi-directional best hit).

cistanche tubulosa extract

NATURAL CISTANCHE TUBULOSA CISTANCHE EXTRACT PHGS75% ECH 30% ACT 12%

Analiza RT-qPCR

După digestia cu ADNază I, aproximativ 5 ug de ARN total au fost convertite în ADNc de primă catenă prin reacția de transcripție inversă cu primeri oligo(dT)15 și sistemul de transcripție inversă GoScript (Promega). Produsele cADN au fost apoi diluate de 10-ori cu apă deionizată fără nuclează înainte de a fi utilizate ca șablon în PCR în timp real. ADNc-urile specifice au fost amplificate de sistemul GoTaq 2-Step RT-qPCR (Promega) într-un volum de 20 ul. Amplificarea PCR a fost efectuată la temperatura de recoacere de 60 de grade cu sistemul 7500 Real-Time PCR Detection System (Applied Biosystems) conform instrucțiunilor producătorului. Abundența relativă a transcripției au fost calculate prin metoda pragului ciclului comparativ cu gena „comp10579_c0” ca standard intern, utilizând software-ul 7500 Manager.

Perechile de primeri pentru RT-PCR au fost proiectate pe baza unui software online (http://primer3.ut.ee/) și sunt enumerate în setul de date S1.

Rezultate

Secvențierea ARN și asamblarea transcriptomului de novo a tulpinii cărnoase de C. deserticola

Tulpina de C. deserticola a fost folosită pe scară largă ca un tonic important în mod tradițional în China și Japonia de mulți ani. Pentru a obține o privire de ansamblu asupra expresiei genelor în tulpina cărnoasă de C. deserticola, am colectat mostre de tulpini de C. deserticola din aceeași bază de plante în 2013, respectiv 2014. ARN-urile totale au fost extrase și ARN-urile poliA+ au fost purificate pentru construirea de biblioteci de ARN-seq de capăt perechi. 79.433.734 și 86,019.176 de citiri la capătul perechilor corespunzătoare la aproape 8 miliarde și 8,6 miliarde de baze ale secvenței au fost obținute folosind secvențierea Illumina HiSeq 2000

image

platformă în eșantioane de 2013-an și 2014-an (Tabelul 1). După eliminarea secvențelor adaptorului și filtrarea citirilor de calitate scăzută (a se vedea detaliile în Metode), 64.831.040 de citiri de înaltă calitate la sfârșitul perechii din eșantionul de 2013-an au fost utilizate pentru asamblarea transcriptomului de novo. Folosind asamblatorul de secvențe Trinity [30], au fost generate 51.719 gene și 95.787 secvențe de transcriere cu lungimi de transcriere variind de la 200 bp la 15.698 bp. Lungimea medie a transcrierilor asamblate este de 950 de baze, iar lungimea N50 este de 1.519 de baze. Numărul de transcrieri de lungimi diferite a arătat că 57,32% din transcrierile asamblate au fost de aproximativ 500 bp sau mai mult (Fig 1A). Citirile la sfârșitul perechilor de înaltă calitate din eșantionul de 2014-an au fost mapate la transcriptomul asamblat. În plus, am constatat că numărul de transcriere pentru fiecare genă asamblată a variat și 69% dintre gene cu o izoformă exprimată, în timp ce 31% dintre gene exprimau două sau mai multe transcrieri (Fig 1B).

Cuantificarea expresiei și adnotarea funcțională a transcrierilor asamblate

Abundența genelor sau a transcripției a fost cuantificată folosind pachetul RSEM, în care citirile secvențiate au fost realiniate la genele asamblate sau secvențele de transcriere folosind Bowtie, iar acele citiri mapate au fost utilizate pentru cuantificare. S-a calculat valoarea FPKM pentru fiecare genă sau transcriere și, în cele din urmă, am identificat 63.957 și 52.857 de transcrieri exprimate activ (valoarea FPKM mai mare sau egală cu 0,5) în mostre de tulpini cărnoase de C. deserticola în 2{{17} }13 și, respectiv, 2014. 44.776 de transcrieri (70,01% în eșantionul de 2013-an, 84,71% în eșantionul de 2014-an) au fost exprimate în mod obișnuit în cele două replici, iar corelația (coeficientul de corelație Pearson: 0,91979) a datelor lor de expresie a fost prezentate în Fig. S1. Datele brute de secvențiere au fost încărcate în baza de date NCBI SRA (numerele de acces: SRX857402 și SRX858938). Am folosit gene exprimate identificate în eșantionul de 2013-an pentru analize suplimentare. Informațiile de adnotare funcțională pentru toate transcrierile exprimate au fost obținute folosind două metode. În primul rând, toate transcrierile exprimate au fost aliniate la bazele de date cunoscute de nucleotide (GenBank nt) și secvențe de peptide (GenBank nr și peptida Arabidopsis) separat prin algoritmul BLAST. Din 63.957 de transcrieri exprimate,

image

29.220 (45,7%) au fost adnotate și au arătat omologie cu secvențele din oricare dintre cele trei baze de date cu subiecte cu limita de valoare E 1e-20. Între timp, regiunile de codificare candidate pentru toate secvențele de transcriere exprimate au fost prezise folosind software-ul TransDecoder, iar cele mai lungi ORF pentru fiecare transcriere au fost utilizate pentru căutarea domeniului Pfam. Ca rezultat, 21.358 (33,4%) transcrieri au fost adnotate pe baza bazei de date Pfam. În general, 30.098 (47,1%) transcrieri au fost corelate în mod semnificativ cu genele cunoscute din bazele de date publice prin combinarea celor două metode de mai sus. Lista completă a transcrierilor exprimate cu adnotarea funcției a fost afișată în date suplimentare (Setul de date S2).

Am chestionat primele 20 de transcrieri cu cea mai mare exprimare (Tabelul 2) care corespund la 18,99% din toate citirile de secvențiere și am constatat că majoritatea dintre ele sunt gene care răspund la abiotice.

image

stimul de stres. Dehidrina (DHNs), o clasă de proteine ​​de stres hidrofile și termostabile cu un număr mare de aminoacizi încărcați care aparțin familiei Grupului II de Abundență de Embriogeneză Târzie (LEA), este gena cea mai puternic exprimată. Trei transcrieri diferite de Dehyrin (comp28713_c0_seq1/2/4) au fost detectate ca fiind foarte exprimate în tulpinile cărnoase, care pot fi implicate în protejarea celulelor împotriva daunelor cauzate de stresul cauzat de secetă. Alte gene legate de stres, cum ar fi proteina de șoc termic, proteina legată de patogen și metalotioneina, au fost, de asemenea, găsite foarte exprimate, ceea ce poate fi legat de mediul său sever de supraviețuire. În plus, unele gene constitutive, inclusiv gena ARN ribozomal 26S (comp22329_c2_seq1), proteină reprimată cu auxină/asociată la repaus (comp{20999_c{0_seq1), Factorul de ribozilare ADP (comp20499_ c0_seq1) a fost, de asemenea, foarte transcris.

Cistanche tubulosa extract

TUBULOSĂ NATURALĂ DE CISTANCHE PENTRU ÎMBUNĂTĂȚAREA IMUNITĂȚII PHGS75% ECH 30% ACT 12%

drk-green-rounded-corner-button-buy-now-web


S-ar putea sa-ti placa si