Məlumat

Transkriptome assembler Oases -dən çox az transkript

Transkriptome assembler Oases -dən çox az transkript


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Transkriptom montajı üçün Oazasları işə salmağa çalışıram. Nəticə gözləniləndən çox uzaqdır, buna görə soruşmaq istərdim ki, bunu düzgün şəkildə aparırammı? Təşəkkürlər.

Budur mənim çalışan əmrim:

python scripts/oases_pipeline.py -m 25 -M 29 -o output -d "-strand_specific -shortPaired data/reads.fa" -p "-min_trans_lgth 100 -ins_length 300"

Kitabxanam zolağa xasdır və 67bp uzunluğunda cüt ucludur. Oxumalar belə qarışdırılır:

> 0 (left_mate_forwarded) ACTC…> 1 (right_mate_reverse_complemented) TATA…

Bəzi transkriptlər aldım, amma izahlı transkriptlərdən, Üçlüyün nəticəsindən çox uzağam. Oases -dən ən uzun contig ~ 2500bp -dir (manşetlərdən ~ 10000bp və Trinity -dən ~ 6000bp). N50 dəyəri də aşağıdır. O, yalnız Manşet Düğmelərindən bəzi transkriptlərin tam uzunluğunu əhatə edən 20 kontig olduğunu bildirir (ümumiyyətlə ~ 4000), Trinity isə ~ 650 məlumat verir.

İstifadə etdiyim verilənlər bazası alt hissəsidir S. pombe. Bunun əhəmiyyəti varmı?

Biri burada bir şeyin səhv olub olmadığını göstərməyimə kömək edə bilərmi?


TraRECo: konsensus matrisindən istifadə edərək oxunan səhvlərin düzəldilməsi ilə de novo transcriptome assambleyasına xəsis bir yanaşma

Yaxşı bir de novo transcriptome montajçısı inkişaf etdirərkən çətinliklər oxunuş səhvləri və ardıcıllıq təkrarları ilə necə məşğul olmağı əhatə edir. Demək olar ki, bütün de novo montajçılar de Bruijn qrafikindən istifadə edirlər ki, onunla mürəkkəblik xətalardan və təkrarlardan əziyyət çəkərək verilənlərin ölçüsü ilə xətti olaraq artır. Qrafikin topoloji quruluşunu yoxlayaraq səhvləri düzəldə bilsək də, budaqlar çox olduqda bu asan məsələ deyil. İki tədqiqat istiqaməti ya qrafikin etibarlılığını, ya da yol axtarışının dəqiqliyini artırmaqdır və bu işdə biz birinciyə diqqət yetirdik.

Nəticələr

Xətadan xəbərdar qrafik quruluşu istifadə edərək de novo montajına xəsis bir yanaşma olan TraRECo təqdim edirik. Təklif olunan yanaşmada, məsafə marjında ​​birbaşa oxunuş hizalanması ilə kontiglər qurduq və birləşdirici qrafiklər qurmaq üçün qovşaq axtarışını apardıq. Bunu edərkən, bir uzunluq parçası l 4 × ilə təmsil olunurdu l matris (konsensus matrisi adlanır), burada hər bir element indiyə qədər oxunanların əsas sayı idi. Konsensus matrisinin hər bir sütununda əksəriyyətin oxunması üçün uyğunlaşdırılması üçün istifadə olunmaqla təmsil ardıcıllığı əldə edilmişdir. Birləşdirmə qrafikləri əldə edildikdən sonra, nəzərəçarpan oxunuş dərinliyinə malik yolları tapmaq üçün IsoLasso -dan istifadə etdik. Həqiqi və simulyasiya edilmiş oxunuşlardan istifadə edilən təcrübələr göstərir ki, metod həssaslıqda əhəmiyyətli təkmilləşdirmə və həssaslıq və dəqiqliyi müqayisə edərkən orta dərəcədə yaxşı performans təmin etdi. Bu, konsensus matrisindən istifadə edərək səhvdən xəbərdar olan qrafik konstruksiyası ilə əldə edildi, onun köməyi ilə səhvləri olan oxunuşlar qrafikin qurulması üçün yararlı hala gətirildi (əks halda, onlar sonda ləğv edilə bilər). Bu, sonrakı yol axtarışı addımında istifadə olunan əhatə dairəsi dərinliyi məlumatının keyfiyyətini və nəhayət, qrafikin etibarlılığını yaxşılaşdırdı.

Nəticələr

De novo montajı əsasən kəşf edilməmiş izoformaları araşdırmaq üçün istifadə olunur və mümkün qədər çox oxunu səmərəli şəkildə təmsil edə bilməlidir. Bu mənada, TraRECo, hesablama yükü birdən çox olsa da, bizə qrafik etibarlılığını artırmaq üçün potensial bir alternativ təqdim edir. k-de Bruijn qrafiki yanaşması ilə.


De Novo Transcriptome Assambleyası

Mücərrəd
Ümumi məlumat Kivi [Actinidia deliciosa (A Chev) Liang et Ferguson] Çindən olan Actinidiaceae ailəsindən subtropik üzümdür. Bu növ, kivi meyvəsi adlanan bir klimakterik və ətli meyvə verən 174 xromosomda olan bir allohexaploid genomuna (diploid və autotetraploid valideynlərdən) malikdir. Hazırda bu növ haqqında çoxlu genomik və transkriptomik məlumat yoxdur. Bu aşağı molekulyar bilik kontekstində, bu işin əsas məqsədi vegetativ, çiçəkli və meyvəli bitkilər haqqında daha yaxşı məlumat əldə etmək üçün yeni faydalı verilənlər bazası əldə etmək üçün bu xüsusi toxumalar arasında diferensial ifadə təhlili yaradan toxumaya xas bir de novo transkriptom qurğusu qurmaqdır. Actinidia deliciosa cv-nin müxtəlif fenoloji vəziyyətləri. 'Hayward'.

Nəticələr Bu araşdırmada, RNA-seq istifadə edərək kivi içərisində 4 inkişaf mərhələsində (7,50,120 və DAF çiçəklənməsindən 160 gün sonra) tumurcuq, yarpaq, çiçək qönçəsi, çiçək və meyvədən fərqli bütün transkriptomları təhlil etdik. Biz iyirmi dörd kitabxananı ardıcıllıqla sıraladıq, Trinity proqram təminatı ilə yığılmış 604,735,364 oxunuş əldə etdik. Actinidia deliciosa de novo transcriptome -in ilk versiyasında 142,025 kontig (x̅ = 1,044bp, N50 = 1,133bp) var idi. CEGMA və BUSCO, eukaryot və bitkilər üçün 90.0% -ə yaxın (35.1% qismən) və 85.0% -dən çox (18.3% qismən) ultra konservləşdirilmiş genlərin alınmasının keyfiyyətinin qiymətləndirilməsi üçün istifadə edilmişdir. Annotasiya BLASTx ilə TAIR10 zülal verilənlər bazasına qarşı yerinə yetirildi və biz 35,6% (50,508) annotasiya nisbətini tapdıq və kontigs montajının 64,4% (91,517) annotasiyasız qaldı.

Nəticələr Bu nəticələr, yarpaq, çiçək və meyvə inkişafı ilə əlaqədar Actinidia deliciosa genlərinin məlumat bazasını yaradan allohexaploid kivi üçün istinad transkriptomunu təmsil edir. Beləliklə, bu tədqiqat müxtəlif bioloji proseslərdə və molekulyar funksiyalarda iştirak edən zülallarla əlaqəli bütün toxuma müqayisələri daxil olmaqla 20.000-dən çox eksklüziv geni müəyyən edən yüksək qiymətli məlumat verir. Transkriptomun yığılması və təmizlənməsi, həmçinin montajın metrik qiymətləndirilməsi bu növün ehtimal olunan məlumat bazası olmaq üçün kifayət qədər keyfiyyəti nəzərdə tutur və çox sayda ultra-konservləşdirilmiş zülal aşkar edilmişdir. Transkriptoma gəldikdə, kontiglərin 65% -ə yaxını heç bir zülalla uyğun gəlmir. Bu səbəbdən, toxumaya xas inkişaf haqqında daha yaxşı bir məlumat əldə etmək üçün gələcəkdə funksional annotasiya tələb olunacaq.


SEKVANSİYA VƏ ANALİZ SEÇİMİ

Ardıcıllıq texnologiyasının seçimi və məlumatların təhlili üçün yanaşma bir təcrübənin müvəffəqiyyəti üçün vacibdir. Sözügedən ardıcıllıq texnologiyalarının hər üçü də yüksək keyfiyyətli çoxlu miqdarda məlumat istehsal edir, lakin hər birinin xüsusi praktik tətbiqləri vardır. Illumina və SOLiD ardıcıllığı qısa, lakin yüksək dərinlikli məlumat dəstləri yaradır. Illumina ardıcıllığı üçün istifadəçi hal-hazırda 36 nt ilə 150 ​​nt aralığında bir DNT parçasının bir ucundan (bir uclu oxunuşlar) və ya bir DNT parçasının hər iki ucundan ( qoşalaşmış oxunuşlar). Daha uzun oxunuşlar və qoşalaşmış oxunuşlar adətən de novo montaj layihələrində seçilir, lakin daha qısa oxunuşlar bəzən istinad genomuna uyğunlaşdırılmaq üçün seçilir. Ardıcıllıqda verilmiş baza üçün etimad balı oxunma uzunluğu artdıqca azalır və bu, uyğunlaşmaya və aşağı axın təhlilinə mane ola bilər. Illumina ardıcıllıqla oxunan məlumatlar faktiki nukleotid ardıcıllığı kimi təmsil olunur və analiz birbaşa istinad genomuna və ya de novo montajına uyğunlaşmağa davam edə bilər.

SOLiD sistemində, istifadəçi hal-hazırda 35 nt-dən 75 nt-ə qədər oxu uzunluqlarını ya bir uclu, ya da cütlənmiş formatda seçə bilər. SOLiD sistemi eyni anda iki bazanı ardıcıllıqla sıralayır (beləliklə, sorğu üçün 16 mümkün kombinasiya var) və hər hansı tək baza bir mövqedə həqiqi ardıcıllığı müəyyən etmək üçün iki dəfə ardıcıllıqla sıralanmalıdır. Bu metodun ardıcıllıqdan sonrakı analizdə ardıcıllıq xətalarının müəyyən edilməsini təkmilləşdirdiyi düşünülür. Bununla birlikdə, referans genomu olmayan tədqiqatçılar üçün bu 2 əsaslı kodlaşdırma sistemi bir çatışmazlıqdır, çünki ortaya çıxan ardıcıllıq ədədi olaraq kodlanır və bir bioloq tərəfindən dərhal tanınmayacaq. Yalnız sonrakı analizlər nəticəsində SOLiD ardıcıllığının oxunmasının bioloji uyğunluğu bərpa olunur. Adətən SOLiD oxunuşları ardıcıllığı yenidən nukleotid məkanına çevirmək üçün 2 əsaslı kodlaşdırılmış formatda (“rəng məkanı” formatı adlanır) 2 əsaslı kodlaşdırma genomuna uyğunlaşdırılır, lakin istinad genomu olmadan məna vermək üçün əlavə informatika tələb oluna bilər. ardıcıllığından. Ardıcıllıq oxunuşlarının birbaşa çevrilməsi mümkündür, lakin tövsiyə edilmir, çünki rəng məkanında bir səhvdən sonra gələn bütün əsaslar oxunmanın bütün sonrakı əsaslarında xətalar yaradacaqdır. Oxucu ikiqat kodlaşdırmanın daha ətraflı izahı üçün istehsalçının veb saytına istinad edilir. Əgər model olmayan bir sistemdəki bir tədqiqatçı SOLiD sistemindən istifadə etməyi seçərsə, yaxın qohumun genomu aşağı analiz üçün ən birbaşa seçim ola bilər.

Illumina və SOLiD sistemlərinin oxunma uzunluğu paylanması çox vahiddir və oxunuşların əksəriyyəti tədqiqatçının tələb etdiyi uzunluqdadır. Roche'un 454 sıralamasında oxu daha geniş ardıcıllıq uzunluğuna malikdir və 454 oxu da normal nukleotid məkanında kodlanır. 454 oxunuşun əksəriyyəti indi 500 nt-dən artıqdır, rejimi təxminən 700 nt və maksimum uzunluğu 1000 nt-dən çoxdur. 454 sequencerin uzun müddət oxunması adətən yüksək keyfiyyətli transkriptom birləşmələri ilə nəticələnir, lakin bu məlumat dəstləri xərclənən sekvensiya dollarına görə daha aşağı dərinlikdədir. Yüksək dərinlikli qısa oxunmuş məlumatların təhlili aşağı dərinlikli uzun oxunuşların təhlilindən əsaslı şəkildə fərqlənir və buna görə də hesablama resursları və təhlil yanaşmaları platformanın seçimindən asılı olaraq çox fərqlənir. Qismən bu fərqlərin kökləri kitabxana hazırlığıdır.


Metodlar

Bitki materialı

zəfəran (C. sativus L.) bitkiləri Hindistanın Cammu və Kəşmir əyalətinin Pulwama bölgəsinin Pampore şəhərində yerləşən bir kəndin açıq əkin sahəsindən toplanmışdır. Corm, tepal, yarpaq, stigma və stamen daxil olmaqla müxtəlif toxumalar bitkilərdən toplandı və dərhal maye azotda donduruldu və daha sonra istifadə olunana qədər -80 ° C -də saxlanıldı.

RNT izolyasiyası və transkriptom sıralaması

Yuxarıdakı toxumalardan ümumi RNT TRI reagentindən (Sigma Life Science, ABŞ) istifadə etməklə üç bioloji təkrarda təcrid edilmişdir. Ümumi RNT-nin kəmiyyət və keyfiyyəti Nanodrop spektrofotometri (Thermo Fisher Scientific) və Bioanalyzer (Agilent texnologiyaları, Sinqapur) tərəfindən müəyyən edilmişdir. Ümumi RNT təmizliyi 260/280 və 260/230 nisbətində absorbans nisbəti və RNT bütövlük sayı (RIN) qiymətləndirilərək yoxlanılmışdır. Corm və damğa toxumalarından təcrid olunmuş ümumi RNT -nin keyfiyyəti Illumina sıralaması üçün minimum standarta cavab vermədi. Buna görə də, daha keyfiyyətli RNT əldə etmək üçün standart protokolu dəyişdirdik, RNT pelletinin RNazsız suda həll edilməzdən əvvəl 5 M NaCl (2-3 dəfə) ilə yuyulması daxildir. Hər nümunə üçün üç bioloji replikadan bərabər miqdarda toplanmış yüksək keyfiyyətli ümumi RNT (260/280, 1.8-2.0 260/230 & gt 2.0 RIN & gt 7.5), Illumina platformasından istifadə edərək 100 nt uzunluğunda cütləşmə yaratmaq üçün transkriptom sıralaması üçün istifadə edilmişdir. son oxunur. Üçün yüksək keyfiyyətli təmiz məlumatlar əldə etmək üçün de novo montaj, aşağı keyfiyyətli oxunuşları aradan qaldırmaq və daxili NGS QC Alət dəstimizdən (v2.3) istifadə edərək adapter kəsilməsini aradan qaldırmaq üçün ciddi keyfiyyət yoxlanışı aparıldı 42 .

Yeni transkriptom yığımı

Yüksək keyfiyyətli oxunuşlar Velvet (v1.2.01) 43 , Oases (v0.2.04) 44 , ABySS (v1.2.6) 45 , SOAPdenovo (v1.04) 46 kimi tez-tez istifadə olunan müxtəlif qısa oxunan montajçılardan istifadə etməklə kontiglərə yığılmışdır. , CLC Genomics Workbench (v4.7.2) və Trinity (v2012-05-18) 47. Transkriptom montajı əvvəllər təsvir edildiyi kimi iki fərqli yanaşma ilə həyata keçirildi 48. Birinci yanaşmada (ən yaxşı k-mer strategiyası), yüksək keyfiyyətli oxunuşlar müxtəlif vaxtlarda toplandı kVelvet, Oases, ABySS və SOAPdenovo istifadə edərək uzunluğu 39–99, CLC Genomics Workbench və Trinity proqramları isə standart parametrlərdə istifadə edilmişdir. İkinci yanaşmada (əlavə k-mer sonra TGICL), montaj üçün iki addımlı bir strategiya tətbiq edildi. Birincisi, hər kəs üçün yaradılan kontiglər k-Müvafiq assembler tərəfindən birləşdirildi və CD-HIT alətindən istifadə edərək artıqlıq aradan qaldırıldı. Daha sonra, minimum üst-üstə düşmə uzunluğu 40 və maksimum şəxsiyyət 90 olan TGICL suite (v2.0) 49 istifadə edərək, artıq olmayan kontiglər dəsti yığılmışdır. C. sativus transkriptom daxili perl skriptindən istifadə etməklə həyata keçirilmişdir.

Funksional annotasiya

Hər bir transkript üçün ehtimal funksiyasını təyin etmək C. sativus, BLASTX 50 istifadə edərək oxşarlıq axtarışı Arabidopsis və düyü proteomlarına qarşı aparıldı, ardınca NCBI qeyri-ehtiyatsız və UniRef90 verilənlər bazası ilə E.Hər bir transkript üçün ən yaxşı uyğunluğu tapmaq üçün ≤10 −5 dəyər kəsimi. Hər birinə GOSlim şərtləri təyin edildi C. sativus transkript, Arabidopsis zülalları ilə ardıcıllığı müqayisə edərək molekulyar funksiya, bioloji proses və hüceyrə komponentləri kateqoriyasına aiddir. Eyni şəkildə, təsnifat C. sativus müxtəlif funksional kateqoriyalardakı transkriptlər KOG verilənlər bazasından istifadə etməklə həyata keçirilmişdir. TF ailələrinin tanınması C. sativus transkriptom, gizli Markov modeli (HMM) profilinə (ya PFAM verilənlər bazasından alınmış, ya da qorunan domen hizalanmalarından əldə edilmiş) əsaslanaraq Bitki Transkripsiyası Faktoru Verilənlər Bazasında (http: //plntfdb.bio.uni-potsdam) verilən meyarlardan istifadə etməklə həyata keçirilmişdir. .de/v3.0/) əvvəllər təsvir edildiyi kimi 21.

SSR-lərin müəyyənləşdirilməsi

C. sativus transkriptom standart parametrlərdə 51 MISA (MicroSAtellite) istifadə edərək sadə təkrar ardıcıllıqların (SSR) olması üçün skan edilmişdir. Di-nukleotid üçün minimum təkrar vahidlərinin sayı altı idi, tri-, tetra-, penta- və heksa-nukleotidlər üçün, axtarış kriteriyalarında minimum təkrar vahidlərinin sayı beşdən çox idi.

Diferensial gen ifadə analizi

Fərqli toxuma nümunələrində hər bir transkriptin ifadə modelini qiymətləndirmək üçün, hər bir nümunədən yüksək keyfiyyətli oxunuşlar CLC Genomics Workbench istifadə edərək son transkriptom montajında ​​xəritələndi. Xəritəçəkmə üçün maksimum iki uyğunsuzluğa icazə verildi. Oxunma sayı, fərdi toxumalarda hər bir transkript üçün milyon kilobaz başına oxunma sayının (RPKM) hesablanması ilə normallaşdırıldı. Diferensial gen ifadə analizi mənfi binomial paylanma əsasında DESeq proqram təminatı (v1.10.1) 52 istifadə edərək həyata keçirilmişdir. A Ptranskriptlərin əhəmiyyətli diferensial ifadəsini müəyyən etmək üçün ən azı iki qat dəyişikliyi ilə birlikdə ≤ 0.05 dəyər kəsimi istifadə edilmişdir. Toxuma xüsusi ifadə nümunələrini göstərən istilik xəritəsi (log2 qat dəyişikliyi) müxtəlif yollarda iştirak edən transkriptlər üçün TIGR MultiExperiment Viewer (MeV, v4.8) vasitəsilə yaradılmışdır.

Real vaxtda PCR analizi

Real zamanlı PCR analizi üçün, genə xas olan primerlər (Cədvəl S5) Primer Express (v3.0) proqramı (Applied Biosystems, USA) istifadə edilərək hazırlanmışdır. Real vaxt rejimində PCR-lər üç müstəqil bioloji replikasiyada və hər bir toxuma nümunəsinin hər bioloji replikasiyası üçün üç texniki təkrarda həyata keçirildi 53 . Ubiquitin normallaşdırmaq üçün daxili nəzarət geni olaraq istifadə edilmişdir.

Məlumatların mövcudluğu

Bu tədqiqatda yaradılan ardıcıllıq məlumatları GSE65103 qoşulma nömrəsi altında Gen İfadəsi Omnibusunda saxlanılmışdır. Transkriptom montajı, funksional annotasiya, SSR-lər və gen ifadəsi məlumatları Saffron Transcriptome veb səhifəsində (http://nipgr.res.in/mjain.html?page=saffron) əldə edilmişdir.


Fon

Transkriptomlar indi ardıcıllıqla öyrənilə bilər. Bununla belə, istinad genomu olmadığı halda, de novo montajı çətin bir iş olaraq qalır. Əsas çətinlik, şübhəsiz ki, ardıcıllıqla oxunuşların qısa olması və transkriptomlar daxilində təkrarlanan ardıcıllığın oxunanlardan daha uzun ola biləcəyindən irəli gəlir. Bu qısa oxu/uzun təkrar məsələsi əlbəttə ki, transkriptomun ardıcıllığına xas deyil. Genom yığılması üçün ilk alqoritmlərdən bəri mövcud olan köhnə bir problemdir. Hər iki kontekstdə təkrarlanan problemlər oxşar olsa da, hər birinə xas olan bəzi xüsusiyyətlərə malikdir. Genom yığımında, təkrarlamalar daha uzun olur və daha çox nüsxədə olur. Transkriptom yığımında təkrarlar genlər içərisindədir və daha qısa və daha az nüsxədə olur. Bununla belə, bu sonuncu halda, əhatə dairəsi təkrarlara uyğun gələn kontigləri ayırd etmək üçün tətbiq edilə bilməz, çünki genomikada məsələn, istifadə etməklə ola bilər. Myers-in A statistikası [6, 7], çünki bir genin əhatə dairəsi yalnız onun genomdakı nüsxə sayını deyil, həm də əsasən ifadə səviyyəsini əks etdirir. Bəzi genlər yüksək ifadə olunur və buna görə də yüksək əhatə olunur, əksər genlər zəif ifadə olunur və buna görə də zəif əhatə olunur. Bu cür xüsusiyyətlər, transkriptomik kontekstə genomik təkrar həll strategiyasının tətbiqini çətinləşdirir.

Başlanğıcda, təkrarların RNT-seqdə əsas problem olmayacağı düşünülürdü, çünki onlar əsasən intronlarda və intergenik bölgələrdədir. Ancaq həqiqət budur ki, genetik olduğu düşünülən bir çox bölgə transkripsiya edilir [8] və mRNA -nın ardıcıllıqla toplanması üçün intronlar həmişə bir -birinə bağlanmamışdır [9]. Təkrarlamalar, xüsusən də nəql edilə bilən elementlər, buna görə də real nümunələrdə çox olur və düzgün həll edilmədikdə transkriptom yığımında böyük problemlərə səbəb olur.

Əksəriyyəti, bütün indiki qısa oxunan transkriptom montajçıları de Bruijn qrafiklərinə əsaslanır. Ən yaxşı bilinənlər arasında Oazalar [3], Üçlük [2] və daha az dərəcədə Trans-Abyss [10] və IDBA-tran [11] var. Hamısı üçün ortaq olan, RNA-seq məlumatlarının təkrarlanması üçün aydın və açıq bir modelin olmamasıdır. Heuristics, təkrarlamalarla səmərəli mübarizə aparmaq üçün istifadə olunur. Məsələn, Oazislərdə qısa təpələrin təkrarlara uyğun gəldiyi düşünülür və buna görə də genlərin yığılması üçün istifadə edilmir. Ümid edirik ki, gen paylaşım təkrarlarının bir araya gəlməməsinə səbəb olan ikinci bir addımda əlavə olunur. Trinity-də təkrarları açıq şəkildə modelləşdirərək onlarla məşğul olmaq cəhdi yoxdur. Trinity-in ilk modulu, Inchworm, inşallah, ən zəngin alternativ transkriptə uyğun gələn ən əhatəli kontigi sınayacaq və yığacaq. Daha sonra alternativ ekzonlar bu əsas transkriptə yapışdırılaraq birləşmə qrafiki əmələ gəlir. Son addım bütün alternativ transkriptləri sadalamaqdır. Təkrarlamalar varsa, onların yüksək əhatə dairəsi iki əlaqəsiz transkript arasındakı yüksək ifadə olunan bir əlaqə olaraq şərh edilə bilər. Ümumiyyətlə, yığılmış transkriptlər kimerik ola bilər və ya bir çox alt transkriptə birləşdirilə bilər.

Daha əvvəl hazırladığımız metodda, yerli transkriptom yığan [12] olan KisSplice, təkrarlamalar daha az problemlidir, çünki məqsəd tam uzunluqlu transkriptləri yığmaq deyil. KisSplice bunun əvəzinə transkriptomlarda (SNP-lər, indellər və alternativ birləşmələr) variantları tapmağı hədəfləyir. Lakin [12] -də xəbər verdiyimiz kimi, KisSplice çox təkrarlanan ardıcıllıqla əlaqəli altqrafikləri ehtiva edən de Bruijn qrafikinin böyük hissələri ilə məşğul ola bilmədi. köçürülən elementlər, sözdə kompleks Biconnected Components.

Burada biz üç məqsədə nail olmağa çalışırıq: (1) RNT-seq məlumatlarında yüksək surət sayı ilə təkrarlar anlayışının aydın rəsmiləşdirilməsini təmin edin, (2) baloncukları sadalamaq üçün praktiki yol verməklə onu yerli transkriptom yığıncağında tətbiq edin. belə təkrarlamalar səbəbiylə itirilir və (3) transkript ətrafındakı alt qrafanın topologiyasının öz güvən səviyyəsi ilə bağlı bəzi göstərişlər verə biləcəyini göstərərək qlobal transkriptome montajında ​​tətbiq edir. Xatırladaq ki, biz de novo kontekstdəyik, ona görə də güman edirik ki, nə istinad genomu/transkriptomu, nə də məlum təkrarların verilənlər bazası, məs. RepBase [13] mövcuddur.

Birincisi, bir de Bruijn qrafikindəki təkrarla əlaqəli alt qrafiklərin bir neçə sıxıla bilən qövsdən ibarət olduğunu başa düşmək üçün yüksək nüsxə sayını təkrarlamaq üçün bir model təqdim edirik və xüsusiyyətlərindən istifadə edirik. Bununla belə, biz göstəririk ki, de Bruijn qrafikində bu cür xarakteristikaya uyğun olaraq təkrarlara uyğun gələn subqrafı müəyyən etmək problemi NP-tamdır. Çox polinomlu vaxt alqoritminin mövcud olması ehtimalı azdır.

İkincisi, alternativ birləşdirmə (AS) hadisələrinin yerli bir yığıncağının xüsusi bir vəziyyətində, sıxışdırıla bilən qövs xarakteristikasına əsaslanan bir strategiya istifadə edərək, edə biləcəyimizi göstəririk. dolayısı ilə belə alt qrafiklərdən çəkinin. Daha doğrusu, təkrar əlaqəli altqrafda olmayan de Bruijn qrafikində AS hadisələrinə uyğun olan strukturları (yəni baloncukları) tapmaq mümkündür (nümunə üçün Şəkil 3-ə baxın). Ədəbiyyatda təkrarları həll etmək üçün böyük səylər göstərilsə də, onlardan qaçınmaq üçün demək olar ki, heç bir araşdırma aparılmamışdır. Bunun səbəbi, montajda ən çox səylərin təkrarlanmamağın bir seçim olmadığı tam uzunluqlu genom və transkriptom yığımına cəmlənməsi və bir montajçının performansının təkrarları nə qədər yaxşı həll edə biləcəyi ilə məhdudlaşdırıla bilməsi ilə izah olunur. Ancaq bizim vəziyyətimizdə təkrardan qaçınmaq təsirli bir texnika ola bilər. Həqiqətən də, insan simulyasiya edilmiş RNA-seq məlumatlarından istifadə edərək, yeni alqoritmin KisSplice-in həssaslığını əhəmiyyətli dərəcədə artırdığını və eyni zamanda dəqiqliyini artırdığını təcrübələrimiz də təsdiqlədi. Alqoritmimizi, AS hadisələrini çağırmaq vəzifəsində, Trinity [2] və Oases [3] kimi iki ən yaxşı transkriptom montajçısı ilə müqayisə etdik və alqoritmimizin hər iki vasitədən daha həssas olduğunu, eyni zamanda daha çox olduğunu göstərdik. dəqiq Bundan əlavə, əldə etdiyimiz nəticələr göstərir ki, bu işdə təklif olunan yeni alqoritmdən istifadə etmənin üstünlüyü, giriş məlumatları yüksək mRNA əvvəli məzmun və ya yüksək dərəcədə ifadə olunan genlərdən qaynaqlanan AS hadisələri olduqda daha aydın görünür. Üstəlik, metodumuzun həqiqi məlumatlar üzərində faydalı olduğunu göstəririk.

Üçüncüsü, təsvir olunan metodun tam uzunluqlu transkriptom montajı kontekstində də tətbiq oluna biləcəyini göstəririk. De Bruijn Graph-dakı mürəkkəb bölgələri keçən, aşağı güvənli transkriptləri müəyyən etmək üçün təklif olunan model əsasında bir tədbir təqdim edirik. Təkrarların yaratdığı qrafikin bu mürəkkəb hissələri içərisində hər hansı bir montajçı, çox sayda mövcud arasında "doğru" yolu seçməli olacaq. Bu seçim sadə deyil və səhv həllərə səbəb ola bilər (məsələn, kimerik və ya kəsilmiş transkriptlər). Buna görə də, təqdim olunan həllin tək olmadığını və bundan əlavə doğru olmaya da biləcəyini bilmək üçün belə mürəkkəb bölgələrdən gələn transkriptləri müəyyən etmək vacibdir. Həm real, həm də simulyasiya edilmiş məlumat məcmuələrində kimerik transkriptləri müəyyən etmək üçün xüsusi bir vəzifə olan de novo transkriptom qiymətləndirmə üçün ən müasir iki üsulla, yəni Rsem-Eval [4] və TransRate [5] müqayisə etdik. Ölçməmizin nə əhatə dairəsi, nə də məlumat oxumaq deyil, yalnız qrafik topologiyasından istifadə etməsinə baxmayaraq yaxşı nəticələr verdiyini göstəririk. Əldə edilən nəticələr, transkript qiymətləndirmə üsulları ilə hazırda nəzərə alınmayan bir məlumatın bir transkript ətrafında altqrafiyanın topologiyasını araşdırmağın, transkriptin etibarlılıq səviyyəsi, keyfiyyət, montaj sərtliyi və s. Buna görə də, tədbirimiz de novo transkriptomun qiymətləndirilməsi üçün ən müasir metodları təkmilləşdirə bilər, çünki o, bu alətlər tərəfindən buraxılmış montaj səhvlərini tuta bilir.

Hazırlıq mərhələsi

( Sigma ) sabit ölçülü bir əlifba ( sigma ) olsun. Burada hər zaman ( Sigma = ). Bir sıra (string) (s in Sigma ^*) verilərsə, |s| uzunluğunu ifadə edir, s[i] i-nin elementi s, və s[i, j] hər hansı bir (1 le i & ltj le | s | ) üçün (s [i] s [i+1] ldots s [j] ) alt sətri.

A k-mer bir ardıcıllıqdır (s in Sigma ^k ). Tam ədəd verilir k və dəst S ardıcıllıqların hər birinin uzunluğunu (n ge k ) təyin edirik qarış(S, k) bütün fərqlilərin çoxluğu kimi k-alt sətir kimi görünənlər S.

Tərif 1

Verilmiş bir sıra ardıcıllıq (oxunur) (R subseteq Sigma ^*) və tam ədəd k, biz yönləndirilmiş de Bruijn qrafikini müəyyən edirik (G_k(R)=(V,A)) burada (V=span(R,k)) və ((u,v) A-da) və əgər və yalnız (u [2, k] = v [1, k-1] ) olarsa.

İstiqamətləndirilmiş qrafik (G = (V,A)) və təpəsi (v V-də) verilmişdir, biz onu işarə edirik. qonşuluq (resp. qonşuluqda) tərəfindən (N^+(v)=< u in V mid (v,u) in A >) (müvafiq olaraq (N^-(v)=< u in V orta (u,v) in A >) ) və onun dərəcədən kənar (Resp. dərəcədə tərəfindən (d^+(v)=|N^+(v)|) ( (d^-(v)=|N^-(v)|) ). A (sadə) yol ( pi = s leadsto t ) daxilində G fərqli təpələrin ardıcıllığıdır (s = v_0, ldots , v_l = t) elə ki, hər biri üçün (0 le i < l) , ((v_i, v_)) ) bir qövsdür G. Qrafik ağırlıqlı olarsa, yəni (w: A rightarrow Q _ < ge 0> ) funksiyası qrafikdəki hər qövsə bir ağırlıq bağlayırsa, uzunluq yolun (pi) keçdiyi qövslərin çəkilərinin cəmidir və (|pi |) ilə işarələnir.

((U, v) A ) qayı deyilir sıxıla bilən əgər (d^+(u)=1) və (d^-(v)=1) . Bu tərifin arxasındakı intuisiya, hər yolun içindən keçməsindən qaynaqlanır u də keçməlidir v. Buna görə də heç bir məlumatı itirmədən bu qövsü “sıxışdırmaq” və ya daraltmaq mümkün olmalıdır. Qeyd edək ki, transkriptomik montajçılar tərəfindən ümumi istifadə edilən sıxılmış de Bruijn qrafiki [2, 3] hər sıxıla bilən qövs üçün dəyişdirilərək de Bruijn qrafikindən alınır (u, v), təpələr u, v yeni bir nöqtə ilə x, burada (N^-(x) = N^-(u) ), (N^+(x) = N^+(v) ) və etiket birləşməsidir k-mər uk-mer of v üst -üstə düşən hissə olmadan (bax. Şəkil 1).

De Bruijn qrafikində sıxıla bilən qövs nümunəsi. a qövs (CTG, TGA) verilmiş de Bruijn qrafikində yeganə sıxıla bilən qövsdür ( (k=3) ). b Müvafiq sıxılmış de Bruijn qrafiki


Nəticələr

İnteqrasiya olunmuş proteomik və transkriptomik bir yanaşma istifadə edərək, qısa ömürlü GP-lərlə müqayisədə uzun ömürlü NMR-lərin qaraciyər proteomunda fərqlər aşkarladıq. NMR-lərdə tənəffüsü artırmaq üçün yağ turşularından istifadənin imtiyazlı yolunu təsdiq etdik, bu onların mitoxondrilərinin fərqli tərkibini əks etdirir. Bundan əlavə, biz molekulyar səviyyədə NMR-lərin qaraciyərində təzahür edən qocalmanın mütərəqqi imzasını müəyyən etdik. Maraqlıdır ki, detoksifikasiya yollarının fermentləri də daxil olmaqla funksional əlaqəli zülal qrupları həm NMR, həm də insan qaraciyər nümunələrində yaşlanmadan eyni şəkildə təsirlənmişdir. Bu, bu iki növün yaşlanma prosesləri arasında birbaşa əlaqəni göstərir. C. elegans nematodunda göstərdiyimiz kimi, yaşlanmadan təsirlənən yolların köhnə NMR-lərin sağlamlıq vəziyyətinə təsir edib-etmədiyini və onların ömrünü məhdudlaşdırdığını nümayiş etdirmək qalır.


NƏTİCƏLƏR

İstinad transkriptlərində gen proqnozunun dəqiqliyi

GeneMarkS-T, Prodigal, TransDecoder və ESTscan-dan zülal kodlayan genləri "tam" və "qismən" transkriptlərdə proqnozlaşdırmaq üçün istifadə etdik. A. thaliana, D. melanogaster, M. musculusS. pombe ("Materiallar və Metodlar" bölməsinə baxın). Transkriptlər dəstində proqnozlaşdırılan genlərin sayı seçilmiş minimum gen uzunluğundan asılıdır (mgl). Biz dəyişmişik mgl 90-dan 480 bp-ə qədər (30 bp addımlarla) eşik parametri kimi. Hər bir proqnoz dəsti üçün transkript annotasiyasına əsaslanaraq Sn və Sp hesabladıq və Sn -in 1 - Sp -dən asılılığını qurduq (Şəkil 2 və 3). Alıcının işləmə xarakteristikası (ROC) əyrilərinə bənzəyən bu sahələrdə sağ üst nöqtələr əldə edilmişdir mgl 90 bp -ə bərabərdir. Kifayət qədər yüksək performans əldə edə bilmədiyimiz üçün ESTscan üçün sahələr göstərmirik (yəni siçan üçün Sn = 0.53 və Sp = 0.54 idi). Öz-özünə təhsilin ESTscan performansını artıracağına inanırıq. Belə bir seçim olmadıqda, əvvəlcədən müəyyən edilmiş mövcud modellərdən birini seçmək məcburiyyətində qaldıq, məsələn. siçan transkriptlərinin təhlili üçün insan modeli.

TransDecoder, Prodigal və GeneMarkS-T üçün gen proqnozlaşdırma spesifikliyinin (1 - Sp) funksiyaları kimi gen proqnozlaşdırma həssaslığının (Sn) qrafikləri A. thaliana, D. melanogaster, M. musculusS. pombe. Üç vasitəni həm kordon koru, həm də məlumatlı (S) rejimlərində tətbiq etdik. Əyriləri qurmaq üçün biz tərəfindən idarə olunan minimal uzunluğa malik proqnozlaşdırılan gen dəstləri yaratdıq mgl eşik (mətnə ​​baxın). Kimi mgl dəyərlər 90-dan 480 bp-ə yüksəldi (30 bp addım ilə) Sn dəyərləri azaldı.

TransDecoder, Prodigal və GeneMarkS-T üçün gen proqnoz spesifikliyinin (1-Sp) funksiyası olaraq gen proqnozlaşdırma həssaslığı (Sn) sahələri "tam" istinad transkriptlərinin test dəstləri üzərində müəyyən edilmişdir. A. thaliana, D. melanogaster, M. musculusS. pombe. Üç vasitəni həm kordon koru, həm də məlumatlı (S) rejimlərində tətbiq etdik. Qıvrımları qurmaq üçün, minimum uzunluqla idarə olunan proqnozlaşdırılan genlər dəsti yaratdıq mgl eşik (mətnə ​​baxın). Kimi mgl dəyərlər 90-dan 480 bp-ə yüksəldi (30 bp addım ilə) Sn dəyərləri azaldı.

Simulyasiya edilmiş "qismən" istinad transkriptlərinin sınaqları üçün Şəkil 2 -də olduğu kimi A. thaliana, D. melanogaster, M. musculusS. pombe. “Qismən” transkriptlər “tam” transkriptlərin həm 5′, həm də 3′ ucundakı ardıcıllıqların kəsilməsi ilə hazırlanmışdır (bu metodun rasional olması üçün mətnə ​​baxın). Üç alət həm telli, həm də məlumatlı (S) rejimlərində istifadə edilmişdir.

Simulyasiya edilmiş “qismən” istinad transkriptləri üzrə testlər üçün Şəkil 2-də olduğu kimi A. thaliana, D. melanogaster, M. musculusS. pombe. "Qismən" transkriptlər, "tam" transkriptlərin həm 5 ', həm də 3' ucundakı ardıcıllıqları kəsməklə hazırlanmışdır (bu metodun məntiqi üçün mətnə ​​baxın). Üç alət həm tel kor, həm də məlumatlı (S) rejimlərində istifadə edilmişdir.

“Tam” transkriptlər üçün GeneMarkS-T-nin həm kor, həm də strand-spesifik versiyaları digər alətlərə nisbətən əhəmiyyətli dərəcədə daha yaxşı performans nümayiş etdirdi (Şəkil 2). “Qismən” transkriptlərlə aparılan təcrübələrdə (Şəkil 3) Prodigal və TransDecoder performans baxımından GeneMarkS-T-yə yaxınlaşıb. GeneMarkS-T, Prodigal və TransDecoder üçün gördüyümüz ən yaxşı (Sn + Sp)/2 mgl dəyərlər sırasıyla 150, 210 və 270 bp idi. RNA zənciri haqqında məlumatların əlavə edilməsi və beləliklə, üç gen tapma vasitəsinin (S) versiyalarının istifadəsi Sp dəyərlərini artırdı (Şəkil 2 və 3).

G + C məzmununda əhəmiyyətli dəyişikliklər M. əzələD. melanoqaster transkriptlər (siçanda 0.31 ilə 0.76 arasında və uçanda 0.27 ilə 0.63 arasında) dərhal GeneMarkS-T tərəfindən təyin edildi və transkriptləri avtomatik olaraq müəyyən edilmiş haşiyələri olan üç G + C məzmun qutusuna qruplaşdırdı (Cədvəl S1). Üç qrupun hər birində transkriptlər üçün öz-özünə təlim ayrı-ayrılıqda aparılırdı. Proqnozlaşdırma mərhələsində, transkript G + C məzmununa görə müəyyən bir transkript üçün istifadə olunan alqoritm parametrləri seçildi. Bu yanaşma qruplaşmanın olmaması ilə müqayisədə daha yaxşı Sn dəyərləri yaratdı (Cədvəl S1).

Proqnozlaşdırmanın düzgünlüyünün təlimdəki transkriptlərin həcmindən necə asılı olduğunu öyrəndik. Bu təcrübələr üçün təsadüfi olaraq eyni həcmdə bir neçə transkript dəsti seçdik. Həcmi 600 kb-dən çox olarsa, GeneMarkS-T və Prodigal sabit performans və (Sn + Sp)/2 dəyəri ilə GeneMarkS-T üçün 96%-ə, Prodigal üçün 94%-ə yaxın olan platoya çatdılar (Şəkil 4). TransDecoder-in dəqiqliyi 1 Mb həcmində 91%-ə çatan plato ilə oxşar dəyişikliyə malik idi. 100 kb-a qədər azalma daha aşağı, lakin yenə də layiqli performans göstərdi: GeneMarkS-T və Prodigal üçün 90% və TransDecoder üçün 80%. Prodigal üçün lazım olan minimum ardıcıllıq həcmi 20 kb, GeneMarkS-T limiti isə daha da aşağı idi. 50 kb-dan aşağı olan GeneMarkS-T, avtomatik olaraq parametrləri 400 bp (15) kimi qısa bir ardıcıllıq parçası üçün təyin edilə bilən protein kodlaşdıran bölgələrin heuristik modellərinin istifadəsinə keçir.

Təlim dəstinin ölçüsündən üç gen proqnozlaşdırma vasitəsinin (Sn + Sp)/2 -nin asılılığı D. melanoqaster transkriptlər (X oxu ümumi dəstin ölçüsünü, log miqyasını göstərir). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanoqaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanoqaster and 20.4% of M. əzələ. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. Xüsusilə, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanoqaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanoqaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanoqaster, 98% for M. əzələ and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. əzələ (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanoqaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanoqaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanoqaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanoqaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanoqaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanoqaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanoqaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanoqaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanoqaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanoqaster transkriptlər. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanoqaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


NƏTİCƏLƏR

Accuracy of gene prediction in reference transcripts

We used GeneMarkS-T, Prodigal, TransDecoder and ESTscan to predict protein-coding genes in ‘complete’ as well as ‘partial’ transcripts of A. thaliana, D. melanogaster, M. musculusS. pombe (see ‘Materials and Methods’ section). The number of genes predicted in a set of transcripts depends on the selected minimum gene length (mgl). We have changed mgl as a threshold parameter from 90 to 480 bp (with 30 bp steps). For each set of predictions we computed Sn and Sp based on the transcript annotation and plotted the dependence of Sn on 1 − Sp (Figures 2 and 3). In these plots, which look similar to receiver operating characteristic (ROC) curves, the top right points were obtained for mgl equal to 90 bp. We do not show plots for ESTscan as we were not able to achieve high enough performance (i.e. for mouse we had Sn = 0.53 and Sp = 0.54). We believe that self-training would improve ESTscan performance. In the absence of such an option we were forced to select one of the available pre-defined models, e.g. the human model for analysis of mouse transcripts.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculusS. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Kimi mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Plots of gene prediction sensitivity (Sn) as functions of gene prediction specificity (1 − Sp) for TransDecoder, Prodigal and GeneMarkS-T determined on test sets of ‘complete’ reference transcripts of A. thaliana, D. melanogaster, M. musculusS. pombe. We applied the three tools in both strand blind and strand informed (S) modes. To build the curves we generated sets of predicted genes with minimal length controlled by the mgl threshold (see text). Kimi mgl values increased from 90 to 480 bp (with 30 bp step) the Sn values decreased.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculusS. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

Same as in Figure 2 for the tests on simulated ‘partial’ reference transcripts of A. thaliana, D. melanogaster, M. musculusS. pombe. The ‘partial’ transcripts were made by trimming sequences on both 5′ and 3′ end of the ‘complete’ transcripts (see text for rational of this method). The three tools were used in both strand blind and strand informed (S) modes.

For ‘complete’ transcripts, both strand-blind and strand-specific versions of GeneMarkS-T demonstrated significantly better performance than the other tools (Figure 2). In experiments with ‘partial’ transcripts (Figure 3) Prodigal and TransDecoder came closer in performance to GeneMarkS-T. The best (Sn + Sp)/2 we saw for GeneMarkS-T, Prodigal and TransDecoder when the mgl values were 150, 210 and 270 bp, respectively. Adding information on RNA strand and thus use of the (S) versions of the three gene finding tools, increased the Sp values (Figures 2 and 3).

Significant variation in G + C content in M. əzələD. melanoqaster transcripts (from 0.31 to 0.76 in mouse and from 0.27 to 0.63 in fly) was immediately identified by GeneMarkS-T which grouped the transcripts into three G + C content bins with automatically defined borders (Table S1). Self-training was done separately for transcripts in each of the three clusters. In the prediction step, algorithm parameters used for a given transcript were chosen with respect to the transcript G + C content. This approach produced better Sn values than in the absence of clustering (Table S1).

We studied how prediction accuracy depends on the volume of transcripts in training. For these experiments we sampled randomly several sets of transcripts with the same volume. If the volume was larger than 600 kb, GeneMarkS-T and Prodigal reached a plateau with steady performance and (Sn + Sp)/2 value close to 96% for GeneMarkS-T and 94% for Prodigal (Figure 4). Accuracy of TransDecoder had a similar pattern of change with the plateau at 91% reached at the volume of 1 Mb. A decrease to 100 kb produced lower but still decent performance: 90% for GeneMarkS-T and Prodigal, and 80% for TransDecoder. The minimum volume of sequence required for Prodigal was 20 kb while the GeneMarkS-T limit was even lower. Below 50 kb GeneMarkS-T automatically switches to use of heuristic models of protein-coding regions whose parameters could be determined for a sequence fragment as short as 400 bp ( 15).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanoqaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

Dependence of (Sn + Sp)/2 of the three gene prediction tools on the size of training set of D. melanoqaster transcripts (X axis shows the total set size, log scale). Sets of transcripts of the same size were sampled randomly 50 times from the whole set of reference transcripts. The mgl value that achieved best overall (Sn + Sp)/2 was tool specific (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder).

In some transcripts GeneMarkS-T predicted several coding regions (with mgl 300 bp). We observed such outcomes in 2.5% of A. thaliana transcripts, 9.4% of S. pombe, 6.0% of D. melanoqaster and 20.4% of M. əzələ. In the supposed absence of operons such outcomes are possible for three reasons. First, additional predictions could have no connection to carrying genetic code, i.e. pure false positives. Second, a transcript could come from a locus where splicing mechanism generates alternative isoforms. For instance, protein-coding exons related to one isoform could appear outside the protein coding region related to another isoform (e.g. Figure 5A). Third, a transcript could overlap adjacent genes located in the complementary strand. Xüsusilə, S. pombe, a species not known for ubiquitous alternative splicing, has short intergenic regions and long UTRs that may overlap adjacent genes (e.g. Figure 5B). Not surprisingly, for S. pombe we observed a significant gain of accuracy after switching to strand-specific versions of the three gene finders (Figures 2 and 3).

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanoqaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

Diagrams of two typical events when more than one coding region is predicted in a transcript. We show pre-spliced transcripts: genomic sequences are shown as grey bars exons defined by annotation are shown as wider bars (green colour—UTR, dark green—CDS) predicted protein-coding exons are shown as red bars. (A) Two transcripts are originated from the same location of D. melanoqaster genome (NM_001275246.1 and NM_206418.3). The FP prediction (the downstream gene in complementary strand) is a part of the coding region of alternative isoform of CapaR gene. (B) The 5′ UTR of S. pombe transcript NM_001020436.2 overlaps with another transcript NM_001020437.2 originated from complementary strand. This transcript topology leads to two predictions in transcript NM_001020436.2: one in the direct strand (FP) as well as one in the complementary strand (TP). The figures were made with the NCBI RefSeq sequence viewer.

If multiple predictions were generated in a transcript GeneMarkS-T selected the one with the maximum log-odd score. This approach produced 93% success rate in selecting the ‘true’ coding region for A. thaliana, 74% for D. melanoqaster, 98% for M. əzələ and 62% for S. pombe.

Prediction of translation initiation site

To assess the accuracy of TIS prediction by GeneMarkS-T, Prodigal and TransDecoder we used 1392 reference transcripts of M. əzələ (with annotated coding regions longer than 300 bp). The TIS annotation in these transcripts was validated by Ribo-seq experiments (see ‘Materials and Methods’ section). GeneMarkS-T was run in three modes: (i) with default settings (ii) with search for the Kozak motif switched off and iii/ with mandatory prediction of complete CDS.

GeneMarkS-T with default settings correctly predicted 68.5% starts in genes where the reading frame was correctly predicted (and, therefore, the 3′ end of the gene). This was higher accuracy in comparison with the two other tools (Table 2). All three tools revealed a tendency to extend the 5′ end of the coding region beyond the 5′ end of the transcript. Notably, TransDecoder adopts the ‘longest-ORF’ rule and selects the 5′-most AUG (with respect to the in-frame stop codon) as the translation initiation site. In comparison, GeneMarkS-T had the largest fraction of TIS predictions located downstream from the 5′-most AUGs. Use of the Kozak motif was responsible for improving Sn of GeneMarkS-T by about 10% (Table 2). Prohibiting predictions of incomplete coding regions would boost the TIS identification accuracy of GeneMarkS-T to 95.0%, however, use of this option is limited to transcripts that are known to be 5′ end complete.

Numbers of protein-coding regions predicted correctly (TP) and incorrectly (FP) by GeneMarkS-T, Prodigal and TransDecoder in D. melanoqaster ‘concordant’ transcripts (selected as described in text)

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582
Transcripts built by . No. of transcripts . GeneMarkS-T . Prodigal . TransDecoder .
. . TP . FP . TP . FP . TP . FP .
Cufflinks 7222 7162607098 232 7046 432
Augustus 9444 9423219383 246 9332 480
Exonerate 6971 6953186940 190 6915 454
Velvet 7344 71461987096 312 7030 429
Oases 13 869 13 76910013 659 347 13 598 582

Predictions shorter than the tool-specific mgl (150 bp for GeneMarkS-T, 210 bp for Prodigal and 270 bp for TransDecoder) were filtered out. Bold font highlights best results in a particular row (the largest TP and the smallest FP).

Several ribosome profiling studies ( 12, 23–24) raised concerns about the frequent presence of alternative TIS's located both upstream and downstream of annotated TIS's confirmed by Ribo-seq experiments. However, a recent publication ( 25) indicated that reports of alternative TIS in many cases are likely to be artefacts therefore, the confidence in the Ribo-seq experimental validation of annotated TIS's remains high.

Gene prediction with heuristic models (case for meta-transcriptomics)

To model gene prediction in a metatranscriptome we used the same set of mouse transcripts G + C content of individual transcripts in this set ranged from 27 to 63%. To run GeneMarkS-T on a given transcript we used parameters derived as functions of a single variable, the transcript G + C content. We did not continue the training, assuming that the given transcript is the only sequence from an unknown genome. This assumption is relevant for a typical metatranscriptome. The method of inference of these functions was described earlier for short metagenomics sequences ( 7, 15). We used the functions that reflect dependence of oligonucleotide composition of protein coding regions on G + C content of the sequence the functions were derived for a set of complete prokaryotic genomes ( 15). The results are surprisingly good (last row in Table 2) with correct prediction of 82.4% of genes (1147 out of 1193) also 54.9% of starts were correctly predicted in comparison with 68.6% correct starts predicted with full training of the model.

Model training and gene predictions for transcripts reconstructed from RNA-Seq

A comprehensive assessment of the accuracy of transcript reconstruction from RNA-Seq reads was conducted in the RGASP competition ( 3). We used in this study transcripts reconstructed in ( 3) by Cufflinks, Augustus, Exonerate, Velvet and Oases ( 18–22). It was shown that assembled transcripts frequently contain errors and only a subset of all transcripts could be fully recovered ( 3). Observed average lengths of assembled transcripts were shorter than that of reference transcripts, particularly the average lengths of the de novo assemblies made by Oases and Velvet (Supplementary Figure S1A). Would the errors present in transcript assemblies affect self-training of GeneMarkS-T? To address this question we trained GeneMarkS-T on five sets of D. melanoqaster transcripts assembled by the five tools mentioned above. The trained models were used in GeneMarkS-T to predict genes in reference transcripts of D. melanoqaster. We observed almost no difference between any of the five graphs of Sn versus 1 − Sp for gene prediction with models trained on D. melanoqaster assembled transcripts and the graph depicting Sn versus 1 − Sp for gene prediction with the D. melanoqaster model trained on reference transcripts (Figure 6). Thus, GeneMarkS-T training was shown to be robust with respect to use of assembled transcripts instead of ‘ideal’ reference transcripts.

Plots of gene prediction accuracy in D. melanoqaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanoqaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

Plots of gene prediction accuracy in D. melanoqaster reference transcripts built for GeneMarkS-T trained on sets of different types. The models were trained either on the set of D. melanoqaster reference transcripts or on the sets of transcripts assembled by the five transcript assembly tools. Predictions made in reference transcripts were compared with annotation.

To assess performance of gene prediction methods in assembled transcripts we used the same five sets of assembled D. melanoqaster transkriptlər. First, we mapped the assembled transcripts to the corresponding reference transcripts ( 3) to detect and evaluate the differences. We used the results to divide the set of assembled transcripts into three groups: ‘concordant’, ‘conflicting’ and ‘not-aligned’ (see ‘Materials and Methods’ section and Supplementary Figure S2). Many assembled D. melanoqaster transcripts fell into ‘conflicting’ category (from 17 to 47%, depending on the tool, see Supplementary Figure S3, ‘A’ bars) Cufflinks, Exonerate and Oases produced larger numbers of ‘conflicting’ transcripts than Augustus and Velvet. Multiple protein-coding regions were predicted more frequently in the ‘conflicting’ transcripts than in the ‘concordant’ transcripts (Supplementary Figure S4). Note, that for GeneMarkS-T events of prediction of multiple coding regions were registered prior to selecting ‘reported’ predictions with highest log-odd score. We have illustrated the distribution of events (multiple, single, none predictions) for GeneMarkS-T (Supplementary Figure S4). The distributions of the same events for the two other gene prediction tools show similar patterns (Table S2). Thus, all the tools predict single coding regions in ‘concordant’ assemblies with higher frequencies than in ‘conflicting’ ones.

To make unambiguous comparison of accuracy of gene prediction in ‘concordant’ transcripts we had to select the sets where gene finders make single gene predictions. As such surrogate sets we chose sets of ‘concordant’ assemblies where GeneMarkS-T predicted single protein-coding regions. Annotation of protein coding regions in these assembled transcripts was accomplished by transfer of the reference transcript annotation. In all the five test sets, GeneMarkS-T generated the largest number of TPs and the fewest number of FPs (Table 3).

In the sets of assembled transcripts where GeneMarkS-T predicted multiple coding regions we have observed high fractions of ‘conflicting’ transcripts (e.g. 90%, for the set of Cufflinks assembled transcripts). Thus, predicting multiple coding regions was an indicator of a higher chance for the transcript to be in the ‘conflicting’ category and to carry some discrepancies in the transcript assembly. Still, this observation should be taken with a caveat that multiple coding regions could appear in the ‘concordant’ transcript encoding alternative isoforms (as illustrated in Figure 5).

Very short coding regions are rare and are rarely predicted. Therefore, if an assembled transcript (complete or incomplete) is short it is likely that no gene will be predicted. Indeed, we observed that the gene finding tools did not predict genes in many transcripts assembled by the de novo methods Velvet and Oases (Supplementary Figure S3). Notably, many of these transcripts were too short (Supplementary Figure S1A).


Əlavə fayl 1:

Includes 12 supporting figures and four supporting tables. A description of each is given within the file.

Additional file 2:

Performance of four transcriptome assemblers on the Edgren dataset. A table of which true positive breakpoint sequences were assembled by Trinity, Oases, TransABySS and SOAPdenovo-Trans on the Edgren dataset. Oases assembled the highest number of true positive breakpoints with 31.

Additional file 3:

Fusion genes in the BT-474, SK-BR-3, KPL-4 and MCF-7 cell lines. A list of the true positive fusion genes used in the validation of JAFFA on the Edgren and ENCODE dataset, along with a list of the probable true positives, and the fusion calls from JAFFA, FusionCatcher, SOAPfuse, defuse and TopHat-Fusion.

Additional file 4:

Fusion genes in the glioma dataset. A list of the true positive fusion genes, probable true positives and results from JAFFA, SOAPfuse, defuse and TopHat-Fusion for the gliomas dataset.

Additional file 5:

JAFFA commands. This script provides commands to reproduce the results from JAFFA and other tools shown in the manuscript.


Videoya baxın: الدرس الـ 18: آلية كشف النسخ وسرقة النصوص من الانترنت ووضعها في مستند الوورد (Dekabr 2022).