Məlumat

Zülal kodlayan bölgənin GC tərkibi

Zülal kodlayan bölgənin GC tərkibi


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mənim kompüter elmlərim var və aşağıdakı tənliyi anlamağa çalışıram.

Zülal kodlayan bölgənin G + C məzmununun orta dəyəri aşağıdakı kimi verilir:

(G+C)= $sum_{alpha} (I_alpha *f _alpha$ )/3

$I_alpha$ = Verilmiş amin turşusu üçün sinonim kodonlardan birində görünən C və G nukleotidlərinin maksimum sayı

$f_alfa$ = Amin turşusunun tezliyi α.

Məxrəcdəki 3 haradan gəlir?


Hər kodon bir amin turşusunu kodlayır və hər kodonda 3 nukleotid var.


Zülal kodlayan bölgənin GC tərkibi - Biologiya


Molekulyar biologiya və genetikada, GC məzmunu (və ya guanin-sitozin tərkibi) bir DNT molekulunda guanin və ya sitozin olan azotlu əsasların faizidir (adenin və timin də daxil olmaqla, dörd fərqli olması ehtimalından). [1] Bu, DNT və ya RNT-nin xüsusi fraqmentinə və ya bütün genomun fraqmentinə aid ola bilər. Genetik materialın bir fraqmentinə istinad edildikdə, bu, bir genin (domen) bir hissəsinin, tək genin, genlər qrupunun (və ya gen qruplarının) və ya hətta kodlaşdırılmayan bir bölgənin GC məzmununu ifadə edə bilər. G (guanin) və C (sitozin) spesifik hidrogen bağına məruz qalır, A (adenin) isə xüsusi olaraq T (timin) ilə bağlanır.

GC cütü üç hidrogen bağı ilə, AT cütləri isə iki hidrogen bağı ilə bağlanır. Yüksək GC məzmunlu DNT aşağı GC məzmunlu DNT-dən daha sabitdir, lakin hidrogen bağları DNT-ni əhəmiyyətli dərəcədə sabitləşdirmir və sabitləşmə əsasən yığılma qarşılıqlı təsirləri ilə bağlıdır. [2] Genetik materiala verilən daha yüksək termostabilliyə baxmayaraq, yüksək GC tərkibli DNT-yə malik hüceyrələrin avtolizə məruz qalması və bununla da hüceyrənin uzunömürlülüyünün azalması nəzərdə tutulur. özbaşına. [3] Yüksək GC orqanizmlərindəki genetik materiallara verilən möhkəmliyə görə, adətən belə hesab edilirdi ki, GC tərkibi uyğunlaşma temperaturlarında mühüm rol oynayır, bu fərziyyə bu yaxınlarda təkzib edilmişdir. [4] Bununla belə, eyni tədqiqat daha yüksək temperaturlar ilə strukturlaşdırılmış RNT-lərin (məsələn, ribosomal RNT, transfer RNT və bir çox digər kodlaşdırmayan RNT-lər) GC tərkibi arasında güclü korrelyasiya göstərdi, GC baza cütləri AU baza cütlərindən daha sabitdir, GC bağlarının 3 hidrogen bağına və AU-nun yalnız 2 hidrogen bağına malik olması səbəbindən yüksək GC tərkibli RNT strukturlarını yüksək temperaturlara daha dözümlü edir. Bu yaxınlarda, ilk genişmiqyaslı sistematik gen mərkəzli assosiasiya təhlili bəzi genomik bölgələr üçün GC məzmunu ilə temperatur arasındakı əlaqəni nümayiş etdirdi, digərləri üçün isə yox. [5]

PCR təcrübələrində, primerlərin GC məzmunundan şablon DNT-yə tavlanma temperaturunu proqnozlaşdırmaq üçün istifadə olunur. Daha yüksək GC məzmun səviyyəsi daha yüksək ərimə temperaturunu göstərir.

GC məzmunu adətən faiz dəyəri kimi ifadə edilir, lakin bəzən nisbət kimi (adlanır G+C nisbəti və ya GC nisbəti). GC məzmun faizi kimi hesablanır [6]

halbuki AT/GC nisbəti [7] kimi hesablanır.

.

GC məzmun faizləri, eləcə də GC nisbəti bir neçə vasitə ilə ölçülə bilər, lakin ən sadə üsullardan biri spektrofotometriyadan istifadə edərək DNT cüt spiralının ərimə temperaturu adlananı ölçməkdir. 260 nm dalğa uzunluğunda DNT-nin udma qabiliyyəti, kifayət qədər qızdırıldıqda, cüt zəncirli DNT iki tək zəncirlə ayrıldıqda kifayət qədər kəskin şəkildə artır. [8] GC nisbətlərini təyin etmək üçün ən çox istifadə edilən protokol çox sayda nümunə üçün axın sitometriyasından istifadə edir. [9]

Alternativ olaraq, əgər tədqiq olunan DNT və ya RNT molekulu ardıcıllaşdırılıbsa, onda GC məzmunu sadə arifmetika ilə və ya pulsuz onlayn GC kalkulyatorundan istifadə etməklə dəqiq hesablana bilər.


Nəticələr

Yetimlərin müəyyən edilməsi.

Bizim təhlilimiz “yetimlər” adlandırdığımız növlər arası analoqları olmayan insan ORF-lərinin xüsusiyyətlərini öyrənməyi tələb edir. Belə bir araşdırma insan gen kataloqlarının diqqətlə süzülməsini, genləri analoqları ilə müəyyən etməyi və yetimlərin təhlilinə mane ola biləcək geniş çeşidli artefaktları aradan qaldırmağı tələb edir. Bu səbəbdən biz insan gen kataloqlarının hərtərəfli yenidən təhlilini həyata keçirdik.

Ümumilikdə 239,250 ekzonu olan 22,218 protein kodlaşdıran geni siyahıya alan Ensembl kataloquna (versiya 35) diqqət yetirdik. Təhlilimiz 1-22 və X xromosomlarının insan genomuna istinad ardıcıllığında yalnız 21.895 geni nəzərdən keçirdi. (Beləliklə, mitoxondrial xromosomu, Y xromosomunu və aşağıda baxılan xüsusi mülahizələri ehtiva edən “yerləşdirilməmiş kontigləri” buraxdıq.)

İnsan, siçan və it genomları ilə müqayisə əsasında ehtimal olunan genlərin təsnif edildiyi hesablama protokolu hazırladıq (Şəkil 1-ə baxın). Materiallar və metodlar). Siçan və it genomlarından istifadə edilmişdir, çünki yüksək keyfiyyətli genomik ardıcıllıq mövcuddur (7, 8) və ardıcıllığın divergensiya dərəcəsi genlərin identifikasiyası üçün çox uyğundur. İnsana nisbətən nukleotidlərin əvəzlənmə dərəcəsi siçan üçün hər baza üçün ≈0,50, it üçün isə ≈0,35 təşkil edir, daxiletmə və silinmə (indel) hadisələri ≈10 dəfə aşağı tezlikdə baş verir (8, 9). Bu dərəcələr ardıcıllığın etibarlı uyğunlaşdırılmasına imkan verəcək qədər aşağıdır, lakin kodlaşdırma və kodlaşdırmayan bölgələrdə gözlənilən diferensial mutasiya modellərini aşkar etmək üçün kifayət qədər yüksəkdir.

Təhlilin sxemi. Mərkəzi boru kəməri Ensembl kataloqunda (v35) 21,895 ehtimal olunan genin hesablama analizini göstərir. Daha sonra etibarlı və etibarsız genlərin cədvəllərini əldə etmək üçün 1,178 hadisəni əl ilə yoxladıq. Təfərrüatlar üçün mətnə ​​baxın.

Hesablama boru kəmərindən sonra, alqoritmlərin məhdudiyyətləri və ya bildirilmiş insan gen annotasiyalarında aşkar səhvlər səbəbindən misalların yanlış təsnifatlarını aşkar etmək üçün ≈1200 hadisənin vizual təftişini həyata keçirdik. Nəticələri qısaca ümumiləşdiririk.

Sinif 0: Transpozonlar, psevdogenlər və digər artefaktlar.

Ehtimal olunan genlərin bəziləri Ensembl kataloqunun qurulması üçün istifadə olunan prosesdən keçərək köçürülə bilən elementlərdən və ya işlənmiş psevdogenlərdən ibarətdir. Daha sərt filtrdən istifadə edərək biz 1538 belə hal müəyyən etdik. Bunlar transpozon törəmə ardıcıllığından, multiekson ana gendən əldə edilən 483 işlənmiş psevdogendən (intronlar birləşərək aradan qaldırıldığı üçün tanınır) və tək eksonlu ana gendən əldə edilən 568 işlənmiş psevdogendən (seksual genlərdən (seksual genlər səbəbindən tanınır)) ibarət 487 hal idi. insanın siçan və ya itlə düzülmüş ortoloji ardıcıllığını demək olar ki, dəqiq şəkildə pozur).

Sinif 1: Növlər arası ortoloqları olan genlər.

Daha sonra siçan və ya itin sintenik bölgəsində müvafiq gen ilə ehtimal olunan genləri müəyyən etdik. Biz hər bir növdə ortoloji DNT ardıcıllığını araşdırdıq, siçan və ya it üçün mövcud gen kataloqlarında ortoloji genin artıq qeyd olunub-olunmadığını yoxladıq və əgər yoxsa, bir ortoloji geni müəyyən edə biləcəyimizi yoxladıq. Belə hallara “sadə orfologiya” (və ya 1:1 orfologiyası) deyilir. Daha sonra yerli gen ailəsinin genişlənməsi hallarına imkan vermək üçün axtarışı siçan və itdə 1 Mb-lik ətraf bölgəyə genişləndirdik. Belə hallara “mürəkkəb orfologiya” (və ya “koorfologiya”) deyilir. Hər iki halda, ortoloji genin insan geninin əhəmiyyətli hissəsinə (≥80%) uyğunlaşan və əhəmiyyətli peptid eyniliyinə (siçan üçün ≥50%, it üçün ≥60%) malik ORF-yə malik olması tələb olunurdu. Güman edilən insan genlərinin 18,752-si üçün ortoloji genlər müəyyən edilmişdir, bunlardan 16,210-u sadə orfologiyanı, 2,542-si isə koorfologiyanı əhatə edir.

Sinif 2: Növlər arası paraloqları olan genlər.

Daha sonra boru kəməri insan genomunda paraloqa malik olan, öz növbəsində, siçan və ya itdə ortoloqa malik olan ehtimal edilən insan genlərinin 155 hadisəsini müəyyən etdi. Bu genlər əsasən insan nəsillərində yerli olmayan duplikasiyaları (dörddə üçü seqmental duplikasiyalarda olur) və ya ola bilsin ki, digər nəsillərdə gen itkilərini təmsil edir. Bu genlər arasında yaxından təftiş səkkiz hal aşkar etdi ki, burada insan annotasiyasında kiçik bir dəyişiklik aydın insan ortoloqunu müəyyən etməyə imkan verir.

Sinif 3: Yalnız insan paraloqları olan genlər.

Boru kəməri insan genomunda bir və ya daha çox paraloqa malik olan, lakin bu paraloqların heç birində siçan və ya itdə ortoloqlara malik olmayan 68 ehtimal insan geninin halını müəyyən etdi. Yaxından yoxlama 17 halı əlavə retropononlar və ya digər artefaktlar kimi aradan qaldırdı (bax SI Əlavəsi ). Qalan 51 hal etibarlı genlər kimi görünür, 15-i primatlara xas genlərin üç tanınmış ailəsinə (DUF1220, NPIP və CDRT15 ailələrinə) aiddir, digərləri isə primatı təmsil edə biləcək daha kiçik paraloq qruplarda (iki-səkkiz üzv) meydana gəlir. - xüsusi ailələr.

Sinif 4: Pfam domenləri olan genlər.

Boru kəməri Pfam kolleksiyasında məlum zülal domeninə homologiyası olan 97 ehtimal genləri müəyyən etdi (10). Yaxından yoxlama 21 halı əlavə retropononlar və ya digər artefaktlar kimi aradan qaldırdı (bax SI Əlavəsi ) və insan annotasiyasındakı kiçik bir dəyişikliyin aydın insan orfoloqunu müəyyən etməyə imkan verdiyi 40 hal. Qalan 36 gen etibarlı genlər kimi görünür, onlardan 10-u primatlara aid məlum domenləri, 26-sı isə bir çox növlər üçün ümumi olan domenləri ehtiva edir.

5-ci sinif: Yetimlər.

Yuxarıdakı prosedurdan sonra cəmi 1285 ehtimal gen qaldı. Yaxından yoxlama aydın artefakt olan 40 hadisəni (stop kodonu olmayan uzun tandem təkrarları) və insan gen annotasiyasında kiçik bir dəyişiklikdən sonra növlər arası ortoloqun təyin edilə biləcəyi 68 hadisəni müəyyən etdi. Qalan 1177 hadisə yetim elan edilib, çünki onların orfologiyası, paralogiyası və ya məlum genlərə homologiyası yoxdur və aşkar əsərlər deyil. Qeyd edək ki, genlərin diqqətlə nəzərdən keçirilməsi sonrakı təhlillər üçün yetimlərin "təmiz" dəstini əldə etmək üçün vacib idi.

Yetimlərin səciyyələndirilməsi.

Yetimlərin xassələrini onların zülal kodlaşdıran genlər üçün görünənlərə bənzədiyini və ya kodlaşdırılmayan transkriptlərdə yaranan təsadüfi ORF-lər üçün gözlənilənlərə bənzədiyini görmək üçün xarakterizə etdik.

ORF uzunluqları.

Yetimlərdə 55% GC tərkibi var ki, bu da insan genomu üçün orta göstəricidən (39%) xeyli yüksəkdir və növlər arası analoqları olan zülal kodlaşdıran genlərdə (53%) oxşardır. Yüksək GC tərkibi yetimlərin genlə zəngin bölgələrdə baş vermə meylini əks etdirir.

Biz yetimlərin ORF uzunluqlarını onların GC məzmununa nisbətən araşdırdıq. Yetimlərin nisbətən kiçik ORF-ləri var (median = 393 bp) və ORF uzunluqlarının paylanması müşahidə olunan GC məzmunu (SI) ilə transkriptdən əldə edilmiş insan genomik DNT-də təsadüfən yaranan ən uzun ORF üçün riyazi gözləntilərə yaxından bənzəyir. şək. 4).

Qoruma xassələri.

Daha sonra növlər arası qorunma xüsusiyyətlərinə diqqət yetirdik. Müxtəlif tədbirlərin həssaslığını qiymətləndirmək üçün beşdən çox dərc edilmiş məqalədə müzakirə olunduğu meyarla müəyyən edilmiş 5985 "yaxşı öyrənilmiş" genlər toplusunu araşdırdıq. Yaxşı tədqiq edilmiş hər bir gen üçün biz insan genomundan uyğunlaşdırılmış təsadüfi nəzarət ardıcıllığını seçdik, bu ardıcıllıqla oxşar uzunluqlu "ekson"lara, təkrar ardıcıllığın oxşar nisbətinə və növlər arası düzülüşün oxşar nisbətinə malik olan, lakin üst-üstə düşməyən hər hansı bir ehtimal olunan genlər.

Yaxşı öyrənilmiş genlər və uyğunlaşdırılmış təsadüfi nəzarətlər öyrənilən bütün qorunma xüsusiyyətlərinə görə fərqlənir (SI Şəkil 5 və SI Cədvəl 1). Nukleotid eyniliyi və Ka/Ks nisbəti açıq şəkildə fərqlənir, lakin paylanmalar genişdir və əhəmiyyətli dərəcədə üst-üstə düşür. İndel sıxlığı daha sıx bir paylanmaya malikdir: yaxşı öyrənilmiş genlərin 97,3%-i, lakin təsadüfi nəzarətlərin yalnız 2,8%-i kb üçün <10 indel sıxlığına malikdir. Bununla belə, ən kəskin fərqlər zülal kodlayan genlərin fərqli təkamülünü əks etdirən iki ölçü üçün tapıldı: oxu çərçivəsinin qorunması (RFC) hesabı və kodon əvəzetmə tezliyi (CSF) hesabı.

Oxu çərçivəsinin qorunması.

RFC hesabı növlər üzrə oxu çərçivəsi qorunan nukleotidlərin faizini (0%-dən 100%-ə qədər) əks etdirir (SI Şəkil 6). RFC balı insan ardıcıllığını onun növlər arası ortoloquna uyğunlaşdırmaq və orfoloq üçün üç mümkün oxu çərçivəsi üzrə qorunan oxu çərçivəsi ilə nukleotidlərin maksimum faizini hesablamaqla müəyyən edilir. Ardıcıllığın uyğunlaşdırılması və gen sərhədi annotasiyasındakı səhvlər səbəbindən yerli effektlərin yayılmasını məhdudlaşdırmaq üçün nəticələr 100 əsasdan ibarət sürüşmə pəncərələri üzrə orta hesablanır. Biz həm siçan, həm də it genomlarına nisbətən ayrı-ayrı RFC xallarını hesabladıq və iki xaldan böyük olanı kimi müəyyən edilən birgə RFC xalına diqqət yetirdik. RFC hesabı əvvəlcə maya üzərindəki işimizdə təsvir edilmişdir, lakin insan ardıcıllığında intronların tez-tez mövcudluğunu nəzərə almaq üçün uyğunlaşdırılmışdır (bax. SI Əlavəsi ).

RFC hesabı yaxşı öyrənilmiş genlər və təsadüfi nəzarət elementləri arasında praktiki olaraq heç bir üst-üstə düşmür (SI Şəkil 5). Təsadüfi nəzarətlərin yalnız 1%-i RFC >90 həddini aşır, yaxşı öyrənilmiş genlərin 98,2%-i isə bu həddi aşır. Vəziyyət 97% həddi aşaraq, növlər arası analoqları olan 18.752 genin tam dəsti üçün oxşardır (Şəkil 2). a). RFC hesabı daha sürətlə inkişaf edən genlər üçün bir qədər aşağıdır, lakin sürətlə inkişaf edən genlərin hətta ən yaxşı 1%-i üçün RFC paylanması təsadüfi nəzarətlərdən kəskin şəkildə ayrılmışdır (SI Şəkil 5).

RFC xalının məcmu paylanması. (Sol) Çarpaz növ ortoloqları olan insan genləri (mavi) və uyğun təsadüfi nəzarətlər (qara). (Sağ) İnsan yetimləri (qırmızı) və uyğun gələn təsadüfi nəzarətlər (qara). RFC balları birlikdə siçan və itə nisbətən hesablanır (Üst), makaka (Orta) və şimpanze (Aşağı). Bütün hallarda, orfoloqlar uyğunlaşdırılmış təsadüfi idarəetmələrdən heyrətamiz dərəcədə fərqlənir, yetimlər isə onların uyğunlaşdırılmış təsadüfi nəzarətlərindən mahiyyətcə fərqlənmir.

Bunun əksinə olaraq, yetimlər tamam başqa mənzərə nümayiş etdirirlər. Onlar mahiyyətcə uyğunlaşdırılmış təsadüfi idarəetmələrdən fərqlənmir (şək. 2). b) və növlər arası analoqları olan 18.572 genin ən sürətlə inkişaf edən alt çoxluğuna belə bənzəmir. Bir sözlə, yetimlər dəsti oxu çərçivəsini qorumağa heç bir meyl göstərmir.

Kodon əvəzetmə tezliyi.

CSF hesabı zülal kodlayan genlərin təkamül nümunəsi üçün tamamlayıcı bir test təqdim edir. RFC balı indellərə əsaslandığı halda, CSF xalı təsadüfi DNT ilə müqayisədə protein kodlaşdırmasında müşahidə olunan nukleotidlərin dəyişdirilməsinin müxtəlif nümunələrinə əsaslanır. Bu yaxınlarda müqayisəli genomik analiz üçün hazırlanmışdır Drosophila növlər (11), metod bir çox növlər arasında uyğunlaşmalara əsaslanaraq kodon əvəzetmə tezliyini (CSF) hesablayır. Siçan, it, siçovul, inək və opossumdan yüksək əhatəli ardıcıllıqdan (≈7×) və dovşan, armadillodan aşağı əhatəli ardıcıllıqdan (≈2×) ibarət olan doqquz məməli növünə insanın uyğunlaşmasına CSF yanaşmasını tətbiq etdik. , fil və tenrec.

Nəticələr bir daha növbənöv həmkarları ilə genlər və yetimlər arasında güclü fərq göstərdi. Sadə orfologiyaya malik 16,210 gen arasında 99,2%-i zülal kodlayan genlərin gözlənilən təkamülünə uyğun gələn CSF balları verdi. Bunun əksinə olaraq, 1177 yetim, kodon təkamül nümunəsi etibarlı bir geni göstərən yalnız iki hadisəni əhatə edir. Yoxlamada, bu iki vəziyyətin insan genindəki açıq səhvlər olduğu açıqca sıralamasını fərqli bir çərçivəyə çevirərək, növlər arası ortologları dəqiq təsbit etmək olar.

Yetimlər zülal kodlayan genləri təmsil etmirlər.

Yuxarıdakı nəticələr, yetimlərin etibarlı insan zülal kodlayan genləri deyil, sadəcə təsadüfi ORF olması ilə uyğundur. Bununla belə, ardıcıllıq sübut deyil. Əksinə, alternativ fərziyyəni qəti şəkildə rədd etməliyik.

Tutaq ki, yetimlər siçan və itdə müvafiq ORF-ləri olmayan etibarlı insan zülal kodlayan genləri təmsil edirlər. Yetimlər iki sinfə bölünərdi: (i) bəziləri siçan və itdən fərqlilikdən əvvəl yarana bilər, yəni onlar həm siçanda, həm də itdə itmiş əcdad genləridir və (ii) bəziləri ayrı-seçkiliyi sonraya qoya bilər, yəni insana aparan nəsildə yaranan yeni genlərdir. Bu imkanları necə istisna edə bilərik? Bizim həllimiz iki primat qohumunu öyrənmək idi: makaka və şimpanze. Alternativləri növbə ilə nəzərdən keçiririk.

Tutaq ki, yetimlər it və siçanlarda itmiş, lakin insana aparan nəsildə saxlanılan əcdad məməli genləridir. Əgər belə olsaydı, onlar həm makaka, həm də şimpanze nəsillərində müstəqil itki hadisələri keçirmələri istisna olmaqla, hələ də makaka və şimpanzedə mövcud və funksional olacaqlar.

Tutaq ki, yetimlər it və siçandan ayrıldıqdan sonra [≈75 milyon il əvvəl (Mya)] insana aparan nəsildə yaranan yeni genlərdir. Yeni genlərin yaranmasının sabit bir proses olduğunu fərz etsək, doğum tarixləri bu dövr ərzində paylanmalıdır. Əgər belədirsə, doğum tarixlərinin əksəriyyəti makakadan (≈30 Mya) və demək olar ki, hamısı şimpanzedən (≈6 Mya) ayrılıqdan əvvəl olacaq (12).

Yuxarıdakı ssenarilərdən hər hansı birinə uyğun olaraq, yetimlərin böyük əksəriyyəti makaka və ya şimpanzedəki funksional protein kodlayan genlərə uyğun olmalıdır.

Buna görə də, RFC hesabından istifadə edərək, yetimlərin makakaya və ya şimpanzeyə nisbətən zülal kodlamasına dair hər hansı bir dəlil göstərib-göstərmədiyini yoxladıq. Təəccüblüdür ki, yetimlər üçün RFC ballarının paylanması təsadüfi nəzarətlər üçün olanla eynidir (Şəkil 2). df). Yetimlər üçün paylanma hətta növlər arası analoqları olan ən sürətlə inkişaf edən genlərin ilk 1%-i üçün də müşahidə edilənə bənzəmir (SI Şəkillər 7-9).

Beləliklə, yetimlər toplusu, hətta ən yaxın primat qohumlarımızda belə oxu çərçivəsinin qorunmasına dair heç bir sübut göstərmir. (Əlbəttə ki, yetimlərin tərkibində bir neçə etibarlı protein kodlaşdıran gen olması mümkündür, lakin bu nisbət kifayət qədər kiçik olmalıdır ki, bu, ümumi RFC paylanmasına heç bir nəzərə çarpan təsir göstərməsin.) Biz belə nəticəyə gəlirik ki, yetimlərin böyük əksəriyyəti uyğun gəlmir. makaka və şimpanzedə funksional protein kodlayan genlərdir və buna görə də nə əcdad, nə də yeni yaranan genlərdir.

Əgər yetimlər etibarlı insan zülal kodlayan genləri təmsil edərsə, yetimlərin böyük əksəriyyətinin şimpanzedən ayrıldıqdan sonra doğulduğu qənaətinə gəlmək lazım gələcək. Belə bir model məməlilərin nəsillərində heyrətamiz bir gen doğulması sürətini və şimpanzedən ayrılmadan əvvəl doğulmuş çoxlu sayda genləri silmək üçün şiddətli bir gen ölüm sürətini tələb edəcəkdir. Biz belə bir modeli tamamilə qeyri-mümkün kimi rədd edirik. Beləliklə, belə nəticəyə gəlirik ki, yetimlərin böyük əksəriyyəti zülal kodlayan genləri təmsil etməyən təsadüfi olaraq meydana gələn ORF-lərdir.

Nəhayət, qeyd edirik ki, yuxarıdakı insan gen kataloqunun diqqətlə süzgəcdən keçirilməsi yuxarıdakı təhlil üçün vacib idi, çünki o, yetimlərin xassələrinin dəqiq təhlilinə mane ola biləcək psevdogenləri və artefaktları aradan qaldırdı.

Şifrələnmiş zülalların eksperimental sübutu.

Nəticəmizə müstəqil bir yoxlama olaraq, kodlanmış zülallar üçün eksperimental sübutların olub olmadığını müəyyən etmək üçün yetimlərdən bəhs edən dərc edilmiş məqalələr üçün elmi ədəbiyyatı nəzərdən keçirdik. Yaxşı öyrənilmiş genlərin böyük əksəriyyətinin birbaşa zülalları kodlaşdırdığı göstərildiyi halda, biz kodlanmış zülalın eksperimental sübutlarını bildirən məqalələr tapdıq. in vivo 1177 yetimdən yalnız 12-si üçün və bu hesabatların bəziləri birmənalı deyil (SI Cədvəl 2). Beləliklə, eksperimental sübut konservləşdirilməmiş ORF-lərin böyük əksəriyyətinin zülal kodlaşdırması olmadığı qənaətimizə uyğundur. Eksperimental sübutların mövcud olduğu və ya gələcəkdə tapıldığı bir sıra hallarda, genlər ayrı-ayrılıqda kataloqa bərpa edilə bilər.

İnsan Geni Kataloqlarına yenidən baxılması.

Yetimlərin böyük əksəriyyətinin zülal kodlaşdıran genlər olmadığına dair güclü dəlillərlə insan gen kataloqlarına prinsipial şəkildə yenidən baxmaq mümkündür.

Ansambl kataloqu.

Ensembl (v35) kataloqu ilə bağlı təhlilimiz göstərir ki, o, cari genom birləşməsində 1-22 və X xromosomlarında 19,108 etibarlı protein kodlaşdıran gen ehtiva edir. Girişlərin qalan 15%-i retropozonlar, artefaktlar və ya yetimlər kimi silinir. Mitoxrondrial xromosom [tərkibində 13 protein kodlaşdıran gen (13) olduğu yaxşı bilinir] və Y xromosomu ilə birlikdə [bunun üçün diqqətli analiz 78 protein kodlaşdıran gen (14) göstərir], ümumi sayı 19,199-a çatır.

Biz təhlili Ensembl (v38) kataloquna qədər genişləndirdik, bu kataloqa 2212 ehtimal olunan gen əlavə edildi və bir çox əvvəlki qeydlər yenidən işlənmiş və ya silinmişdir. Bizim hesablama boru kəmərimiz növlər arası analoqlara, 1135 retropozona və 479 yetimə əsaslanan 598 əlavə etibarlı protein kodlaşdıran gen tapdı. Yetimlər üçün RFC əyriləri yenidən təsadüfi DNT gözləntilərinə uyğun gəldi.

Digər kataloqlar.

Biz eyni yanaşmanı Vega (v34) və RefSeq (Mart 2007) kataloqlarına tətbiq etdik. Hər iki kataloqda növlər arası analoqun olmamasına əsaslanaraq etibarlı protein kodlaşdıran genlər (müvafiq olaraq 16% və 10%) kimi görünən qeydlərin əhəmiyyətli bir hissəsi var (bax SI Şəkil 10 və SI Əlavəsi ). RefSeq girişlərini ən yüksək etibara malik olanlarla məhdudlaşdırsaq (bu dəstdə daha az gen ehtiva etdiyinə dair xəbərdarlıqla) yalnız 1% etibarsız görünür. Bu iki kataloq birlikdə əlavə 673 protein kodlaşdıran gen əlavə edir.

Qarışıq analiz.

Üç əsas gen kataloqunun təhlilini birləşdirərək, 24,551 girişdən yalnız 20,470-nin etibarlı protein kodlaşdıran genlər olduğunu görürük.

Analiz üzrə məhdudiyyətlər.

Mövcud gen kataloqları ilə bağlı təhlilimiz qeyd edilməli olan müəyyən məhdudiyyətlərə malikdir.

Birincisi, bütün psevdogenləri və yetimləri aradan qaldırdıq. Biz emal edilmiş psevdogen və ya transpozonun funksional gen (SI Cədvəl 1 və 3) yaratmaq üçün eksapsiyaya məruz qaldığı altı hesabat hadisəsi və kodlanmış zülal üçün eksperimental sübutlarla yetimlərin 12 bildirilmiş hadisəsi tapdıq. Bu 18 işi asanlıqla kataloqa bərpa etmək olar (sayı 20,488-ə çatdırmaq). Mövcud gen kataloqlarında olmayan potensial funksional retropozonların əlavə halları var (15). Protein istehsal edənlər aşkar edilərsə, onlar da daxil edilməlidir.

İkincisi, biz “xəritələnməmiş kontiglər”də yerləşən 197 ehtimal geni nəzərdən keçirməmişik. Bu bölgələr insan genomunun bitmiş yığıncağından çıxarılan ardıcıllıqlardır. Onlar əsasən seqmental dublikasiyalardan ibarətdir və genlərin əksəriyyəti məclisdəki digərlərinə çox oxşardır. Ardıcıllığın çoxu alternativ allelləri və ya genomun yanlış yığılmasını təmsil edə bilər. Bununla belə, seqmental təkrarlanma bölgələrinin təkamül innovasiyasının uşaq bağçaları olduğu bilinir (16) və bəzi etibarlı genləri ehtiva edə bilər. Onlar diqqətə layiqdirlər.

Üçüncüsü və ən əsası, burada tədqiq edilən konservləşdirilməmiş ORF-lər adətən cari gen kataloqlarına daxil edilmişdir, çünki onlar ən azı 100 amin turşusunu kodlaşdırmaq potensialına malikdirlər. Beləliklə, əldə etdiyimiz nəticələrin daha qısa ORF-lərə aid olub-olmayacağını bilmirik. Prinsipcə, peptid hormonları kimi qısa zülalları kodlayan bir çox əlavə protein kodlayan genlər mövcuddur ki, bunlar adətən daha böyük prekursorlardan tərcümə olunur və sürətlə inkişaf edə bilər. Siçan və itdən başqa əlavə məməli növlərindən istifadə etməklə daha kiçik ORF-lərin xüsusiyyətlərini araşdırmaq mümkün olmalıdır.

Gen Annotasiyalarının Təkmilləşdirilməsi.

İşimiz zamanı biz Ensembl-də (v35) 22,218 ehtimal olunan genin hər biri üçün ətraflı qrafik “hesabat kartları” yaratdıq. Hesabat kartlarında gen strukturu, ardıcıllıqla düzülmə, təkamül mühafizəsi tədbirləri və yekun təsnifatımız göstərilir (Şəkil 3).

19-cu xromosomda kiçik bir gen, HAMP üçün nümunə gen hesabat kartı. Ensembl v35-də bütün 22,218 ehtimal olunan genlər üçün hesabat kartları www.broad.mit.edu/mammals/alpheus saytında mövcuddur. Hesabat kartları növlərarası mühafizəni öyrənmək və insan geninin annotasiyasında mümkün problemləri aşkar etmək üçün vizual çərçivə təmin edir. Yuxarıdakı məlumat xromosom yerinin alternativ identifikatorlarını və uzunluq, ekzonların sayı və təkrar məzmun kimi xülasə məlumatları göstərir. Aşağıdakı müxtəlif panellər insan geninin siçan və it genomlarına uyğunlaşdırılmasının qrafik görünüşlərini təqdim edir. "Synteny" genomik ardıcıllığın geniş miqyaslı düzülməsini göstərir, həm düzlənmiş, həm də düzlənməyən seqmentləri göstərir. İnsan ardıcıllığı ağ rəngdə ekzonlarla və tünd boz rəngdə təkrarlanan ardıcıllıqla şərh olunur. “Hazırlama detalı” tam DNT ardıcıllığının uyğunlaşdırılmasını və zülal düzülməsini göstərir. DNT düzülüşündə insan ardıcıllığı yuxarıda verilir, digər növlərdə əsaslar uyğun (açıq boz) və ya uyğun olmayan (tünd boz), ekzon sərhədləri şaquli xətlərlə, indellər yuxarıda kiçik üçbucaqlarla işarələnir. ardıcıllıq (daxiletmə üçün təpə aşağı, silinmələr üçün yuxarı təpə, əsaslarda uzunluğu göstərən nömrə), annotasiya edilmiş başlanğıc kodonu yaşıl, şərhli dayanma kodonu isə bənövşəyi rəngdədir. Zülal düzülüşündə insan amin turşusu ardıcıllığı yuxarıda verilir və digər növlərdəki ardıcıllıqlar uyğun (açıq boz), oxşar (çəhrayı) və ya uyğun olmayan (qırmızı) kimi qeyd olunur. “Çərçivənin düzülməsi” üçüncü mövqedə gözlənilən artıq mutasiyalarla hər kodon mövqeyində aşkar edilmiş nukleotid uyğunsuzluqlarının paylanmasını göstərir. Uyğunluq açıq boz, uyğunsuzluqlar isə tünd boz rəngdə göstərilir. “Indels, starts and stops” əsas hadisələrin icmalını təqdim edir. İndellər üçbucaqlarla göstərilir (daxil etmək üçün təpəsi aşağı, silinmə üçün yuxarı yuxarı) və çərçivəni dəyişdirən (qırmızı) və ya çərçivəni qoruyan (boz) kimi qeyd olunur. Başlanğıc kodonları yaşıl, dayandırıcı kodonlar isə bənövşəyi rənglə qeyd olunur. “Birləşmə yerləri” iki əsaslı donor və qəbuledici sahələr boz rənglə vurğulanmış və uyğun gəlməyən əsaslar qırmızı rənglə qeyd olunmaqla, birləşmə yerləri ətrafında ardıcıllığın qorunmasını göstərir. “Xülasə məlumatı” siçan və itlə bağlı müxtəlif qorunma statistikasını, o cümlədən RFC hesabı, nukleotid identikliyi, qorunmuş birləşmə yerlərinin sayı, çərçivə dəyişikliyi və çərçivəni dəyişdirməyən indeks sıxlığı/kb və gen qonşuluğu kimi sadalayır. Gen qonşuluğu üç yuxarı və aşağı axın gen üçün nöqtə göstərir, sinteniya qorunub saxlanılarsa boz, əks halda isə qırmızı olur.

Hesabat kartları gen təkamülünü öyrənmək və gen annotasiyasını dəqiqləşdirmək üçün dəyərlidir. Növlər arası müqayisə yolu ilə yerli anomaliyaları tədqiq etməklə, biz gen annotasiyasında 23 aydın səhv (oxu çərçivəsinin və ya kodlama zolağının dəyişdirilməsinin birmənalı olmayan növlərarası ortoloqları aşkar etdiyi hallar daxil olmaqla) və növlər arası qorunmanın dəyişdirilməsini təklif etdiyi 332 hal müəyyən etdik. kodonu başlatmaq və ya dayandırmaq, daxili eksonu aradan qaldırmaq və ya birləşmə yerini hərəkət etdirmək. Bu son halların əksəriyyəti insan geninin annotasiyasında səhvlər ola bilər, baxmayaraq ki, bəziləri həqiqi növlər arası fərqləri təmsil edə bilər. Hesabat kartları, axtarış alətləri və xülasə cədvəlləri ilə birlikdə www.broad.mit.edu/mammals/alpheus saytında mövcuddur.


Nəticələr

Ümumi xüsusiyyətləri P. ovata plastom ardıcıllığı və onun əlaqəli növlərlə müqayisəsi

genom ölçüsü P. ovata plastome 162,116 bp-dir və LSC (82,084 bp) və SSC (5,272 bp) ehtiva edən və hər biri bir cüt eyni İR (37,380 bp) ilə ayrılmış tipik dördtərəfli struktura malikdir. GC məzmunu (38,1%) və LSC bölgəsi P. ovata Plantaginaceae ailəsinə aid əvvəllər bildirilmiş plastomlarla uyğun gəlir (Cədvəl 1). Tipik angiosperm genom quruluşu ilə müqayisədə, məsələn, P. mediaP. maritima, P. ovata ölçüsü 37,4 kb-ə qədər olan IR-lərin sayı digər angiospermlərlə müqayisədə xeyli yüksək idi (Cədvəl 1, Şəkil 1). Bundan əlavə, Plantaginaceae növünün bütün ardıcıl plastomlarında, P. ovata istisna olmaqla, ən böyük plastomaya malikdir P. media (164,130 bp Cədvəl 1). Plastom P. ovata 43 tRNT, 8 rRNT və 96 protein kodlaşdıran gen (12 kiçik və 9 böyük ribosomal alt bölmə, 4 DNT-dən asılı RNT polimeraza, 33 fotosintezlə əlaqəli zülal və digər zülalları kodlayan 10 gen) daxil olmaqla 147 fərqli gen ehtiva edir (Cədvəl 2) , Şəkil 1). Funksional genlərin təxminən 15,40%-i intronlar, o cümlədən 7 tRNT və 16 protein kodlaşdıran genlərdən ibarətdir. clpPycf3 iki intronu ehtiva edir (Cədvəl 3, Şəkil 1). Bu intronların uzunluğu 483 bp arasında dəyişir (trnV-UAC) 2,434 bp (trnK-UUU). The rps12 gen (kiçik ribosomal zülal 12) trans-spliseddir və bir intron ehtiva edir, bundan əlavə, onun 5′ son eksonu LSC bölgəsində yerləşir, 3′ son ekson isə IRb bölgələrində yerləşir və həmçinin IRa bölgəsində təkrarlanır (Şəkil 2). 1).

gen xəritəsi P. ovata plastom genomu. Dairənin içərisinə çəkilmiş genlər saat əqrəbi istiqamətində, dairədən kənarda olanlar isə saat əqrəbinin əksi istiqamətində yazılır. Qırmızı və yaşıl rəngli ulduzlar müvafiq olaraq intron ehtiva edən və trans-splised genləri göstərir. Müxtəlif funksional qruplara aid genlər rəng kodludur. Daxili dairədəki daha tünd boz GC məzmununa, daha açıq boz isə AT məzmununa uyğundur.

Ümumiyyətlə, zülal kodlayan rRNT və tRNT genləri müvafiq olaraq 47,96%, 5,57% və 1,97% təşkil edir. P. ovata plastom ardıcıllığı (Cədvəl S1). tRNA (52,10%) və rRNA (55,20%) üçün GC tərkibi ən yüksəkdir, kodlaşdırma bölgələrində zülal kodlayan genlər (39%) ardınca gəlir. Eynilə, kodonun birinci, ikinci və üçüncü mövqelərindəki zülal kodlayan genlər daxilində GC tərkibi müvafiq olaraq 55,60%, 47,40% və 36,70% təşkil edir (Cədvəl S1). Kodon istifadəsi və kodon-antikodon tanınma nümunəsi P. ovata plastom Cədvəl S2-də ümumiləşdirilmişdir, burada 72,968 bp genom ölçüsündən cəmi 24,322 kodon təmsil edilmişdir. tRNT və zülal kodlayan genlərə əsaslanaraq, RSCU tezliyi hesablanmışdır (Cədvəl S1). Ən çox yayılmış amin turşusu lösin (10,90%), ən az yayılmış amin turşusu isə sistein (1,30%, Cədvəl S2) olmuşdur. Kodon istifadəsi üçüncü mövqedə (82,60%) A və T-nin yüksək təmsilçiliyinə qarşı qərəzlidir və angiosperm plastid genomlarına bənzər bir nümunə ortaya qoyur (Cədvəl S1).

Müqayisəli təhlili P. ovata əlaqəli növlərin plastomları ilə plastom

Sinteniyası P. ovata Plantaginaceae-dən yeddi başqa növlə plastomlar mVISTA tərəfindən təhlil edilmişdir. Nəticələr, xüsusilə zülal kodlaşdırma və IR bölgələrində, bir neçə növün plastomları arasında yüksək ardıcıllıqla oxşarlıqlar göstərdi (Şəkil 2). Ən yüksək fərq genlərarası bölgələrdə, o cümlədən atpH-atpI, rpoC1-rpoC2, ycf1-rps15, accD-psaI, psaA-ycf3, və trnL-rrn5. Bu bölgələrə əlavə olaraq, zülal kodlaşdıran genlərdə bəzi fərqlər müşahidə edildi, yəni. accD, clpP, ndhA, ndhF, rpl16, petD, matK, rpl16, ycf2, ycf1, və rpl2 (şək. 2). Cüt ardıcıllıqla divergensiya analizində, P. ovata ilə ən yüksək fərq (0,20) nümayiş etdirdi V. persica ilə ən az fərqlilik göstərmişdir P. media (0,048) (Cədvəl S3). Ən fərqli genlər idi clpP, accD, psaJ, rps3, ccsA, və matK. Ən yüksək cütlük divergensiyasında aşkar edilmişdir clpP gen (0,67) və accD gen (0,56) (Şəkil 3). Bundan əlavə, plastomların sinonim (Ks) və qeyri-sinonim (Ka) qiymətləri hesablanmışdır. Nəticələr bunu üzə çıxarıb P. ovata ilə plastomun ən yüksək Ka/Ks dəyərini nümayiş etdirmişdir V. nakiana (0,198/0,2506) və ən aşağı P. maritima (0,05/0,06) müvafiq olaraq. Bununla belə, ən fərqli genlər, accDclpP, dəyişkən nəticələr göstərdi. Ən yüksək Ka/Ks dəyərini sərgilədi V. nakiana üçün accD gen, halbuki ən yüksək Ka/Ks dəyərini sərgilədi P. maritima üçün clpP gen (Şəkil S1). Ən fərqli genin uzunluğu, accD, 1,356 bp (452 ​​aa), 1,347 bp (449 aa) və 1,257 bp (425 aa) idi. P. ovata, P. media, və P. maritima, müvafiq olaraq. Digər dörd növdə isə uzunluğu accD gen 1,470 ilə 1,497 bp arasında dəyişdi (Şəkil S2). İntron məzmununun dəyişməsi clpP gen aşkar edilmişdir P. maritima, burada hər iki intronun tam itkisi olmuşdur (Şəkil S3). Bu, ən yüksək fərqin əsasını təşkil edir P. maritima ilə P. ovata üçün genom clpP gen. Müqayisəli təhlili P. ovata plastome müxtəlif sayda SNP və InDel əvəzini aşkar etdi. Ən çox SNP-də aşkar edilmişdir V. persica (53,660), halbuki ən az SNP-də müşahidə edilmişdir P. maritima (16,386). Ən çox sayda InDel əvəzetməsi də aşkar edilib P. maritima (74,448) plastom (Cədvəl S4).

Alignment vizuallaşdırılması P. ovata plastom genomlarının ardıcıllığı. istifadə edərək yeddi növ arasında ardıcıl eyniliyi göstərən VISTA əsaslı şəxsiyyət süjeti P. ovata istinad kimi. Şaquli miqyas 50% ilə 100% arasında dəyişən faiz eyniliyini göstərir. Üfüqi ox xloroplast genomu daxilindəki koordinatları göstərir. Oklar annotasiya edilmiş genləri və onların transkripsiya istiqamətini göstərir. Qalın qara xətlər ters çevrilmiş təkrarları (IR) göstərir.

Cüt ardıcıllıq məsafəsi P.ovata, 72 əlaqəli növlərlə genlər.

Sadə ardıcıllığın təkrarı (SSR) analizi

Bu tədqiqatda biz plastomda SSR-ləri təyin etdik P. ovata eləcə də digər yeddi əlaqəli növün plastomlarında (şək. 4). Plastomlarda SSR-lərin növünü, yayılmasını və meydana gəlməsini araşdırdıq. SSR analizi əsasında ümumilikdə 139 mikropeyk aşkar edilib P. ovata plastom. Bunlardan 71 SSR kodlaşdırmayan bölgələrdə, 63 kodlaşdırma bölgələrində, dörd rRNT kodlaşdırma bölgəsində və 1 tRNT kodlaşdırma bölgəsində müəyyən edilmişdir. Eynilə, LSC, IRs və SSC-də müvafiq olaraq 76, 58 və 5 SSR aşkar edilmişdir (Şəkil 4). In P. ovata plastome, SSR-lərin əksəriyyəti tri- (69, 49%) və di-nukleotid (36, 25,80%) təkrarlardan ibarət idi. Bu nümunə, bu işdə təhlil edilən əlaqəli genomlarda olduğu kimidir. Biz penta-, hexa- və heptanukleotidləri aşkar etmədik P. ovata plastom. Bununla belə, in P. maritimaP. media plastomlarda iki penta-nukleotid, bir heksa- və heptanukleotid isə aşkar edilmişdir. P. maritima plastomlar (şək. 4 Cədvəl S5). In P. ovata, mononükleotidlərin demək olar ki, 100%-i A motivini ehtiva edir, halbuki di-nukleotid SSR-lərin əksəriyyəti müvafiq olaraq A/G (21, 58,30%) və A/T (11, 30,50%) olmuşdur. SSR motivinin oxşar nümunəsi əlaqəli plastomlarda müşahidə edilmişdir (şək. 4).

Yeddi Plantaginaceae plastomunda sadə ardıcıllığın təkrarlarının (SSR) təhlili (A) Yeddi növdə aşkar edilmiş SSR nömrələri (B) Müxtəlif təkrar sinif tiplərində müəyyən edilmiş SSR motivlərinin tezliyi (C) Kodlaşdırma, Qeyri-kodlaşdırma, rRNT və tRNT bölgələrində müəyyən edilmiş SSR-lərin tezliyi (D) LSC, SSC və IR regionlarında müəyyən edilmiş SSR-lərin tezliyi.

Ardıcıllıq təhlilini təkrarlayın

Ardıcıl təhlili təkrarlayın P. ovata əlaqəli növlərlə plastome 32 irəli təkrar, 34 tandem təkrar və 17 palindromik təkrarın mövcudluğunu aşkar etdi (Şəkil 5). Bu təkrarlar arasında palindromik təkrarların 7-nin uzunluğu 30-44 bp, 6 təkrarın isə >90bp uzunluğunda olmuşdur. Eynilə, 12 və 14 irəli təkrarların uzunluğu müvafiq olaraq 30-44 bp və >90 bp idi, halbuki təxminən 21 tandem təkrarının 15-29 bp uzunluğunda olduğu müəyyən edilmişdir (Şəkil 5). Ümumilikdə, 83 təkrarlama aşkar edilib P. ovata olanlardan daha aşağı olan plastom P. maritima plastome (89) və daha yüksəkdir V. persica (63) və D.lanata (68) plastomlar. Təxminən 25% palindromik təkrarlar, 17.60% irəli təkrarlar və 26.60% tandem təkrarları zülal kodlayan bölgələrdə paylanmışdır. P. ovata plastome (Cədvəllər S6, S7). Bundan əlavə, daha çox palindromik təkrarlar (29), irəli təkrarlar (32) və tandem təkrarları (39) aşkar edilmişdir. V. nakaiana, P. ovataP. maritima plastomlar (şək. 5).

Yeddidə təkrarlanan ardıcıllığın təhlili Plantaginaceae plastomlar. (A) Üç təkrar növünün cəmi (B) Uzunluğa görə palindromik təkrarların sayı (C) Uzunluğa görə tandem təkrarlarının sayı (D) Uzunluğa görə irəli təkrarların sayı.

MN-lərin daralması və genişləndirilməsi

IR bölgələri xloroplast genomunda ən çox qorunan bölgələr hesab olunur. Daha böyük plastom ölçüləri daha əvvəl təsvir edilmiş iki plastomun plastomlarına bənzər daha böyük İQ uzunluğu ilə əlaqələndirilir. Plantaqo növ (P. maritimaP. media), P. ovata həmçinin digər əlaqəli növlərdəki MN-lərlə müqayisədə ölçüləri əhəmiyyətli dərəcədə artaraq 37,40 kb-a qədər olan İR-ləri ehtiva edir (Cədvəl 1). SSC-də təkrar genişlənmə baş verdi, nəticədə 9 keçmiş SSC geninin köçürülməsi (rps15, ndhI, ndhD, psaC ndhA, ndhH, ndhG, ndhE, və ycf1) IR bölgələrinə (Şəkil 1). Müşahidə ilə uyğundur P. mediaP. maritima plastomlar, P. ovata həmçinin genişləndirilmiş IR regionları daxilində 13,80 kb-lik geniş miqyaslı inversiya göstərdi. Məsələn, in P. mediaP. ovata kəsilmə nöqtəsinin olduğu təxmin edilir trnL-ndhBtrnN-trnR, olanlar ycf1-rps15trnL-ndhB in P. maritima (şək. 1). İR bölgəsində gen düzülüşü P. ovata ilə daha çox oxşardır P. media ondan daha P. maritima, burada on altı protein kodlayan gen (rpl2, rpl23, ycf15, rps12, rps7, ndhB, ycf1, rps15, ndhH, ndhA, ndhI, ndhG, ndhE, psaCndhD) təkrarlanır. Bununla belə, in P. maritima təkrarlanan zülal kodlayan genlər IR bölgəsinə köçürülmüş on bir və beş keçmiş SSC genidir. arasında başqa bir diqqətəlayiq variasiya Plantaqo plastomes IR bölgələri ilə əlaqədar əlavə kiçik miqyaslı inversiya oldu ycf1 gen yalnız aşkar edilmişdir P. maritima plastom (Şəkil S4).

IR/LSC və IR/SSC sərhədləri P.ovata əlaqəli plastomlarla müqayisə edilmişdir (Şəkil 6). The rps19 gen LSC/IRb bölgəsindən 108 bp ilə ayrıldı və rpl2 gen LSC bölgəsinə yayıldı və IR bölgələrində təkrarlandı. Əksinə, digər plastomlarda, rpl2 LSC regionuna qədər yayılmadı və MN-lərdə tamamilə təkrarlandı. Eynilə, in P. ovata, uzadılması hesabına rpl2 gen LSC/IRb sərhədlərində, IRa kəsilmiş surəti ilə sona çatdı rpl2 gen. -nin mövqeyi ndhF SSC-dəki gen bu plastomlarda müxtəlif idi. In P. ovata, P. media, və P. maritima, ndhF gen SSC-də IRb/SSC-dən 350, 14 və 59 bp məsafədə yerləşirdi, Plantaginaceae ailəsinin digər əlaqəli üzvlərində isə IRb bölgəsinə qədər uzanırdı (Şəkil 6). Bundan əlavə, in P. ovata, the ccsA gen SSC-də SSC/IRa sərhədindən 69 bp uzaqda idi, halbuki ndhD gen bu bölgədən 194 bp uzaqda idi və IRa bölgəsində yerləşirdi. halda P. media, ccsA IR bölgəsinə yayıldı. Çünki IR uzunluğu P. maritima -dən kiçikdir P. ovataP. media, IR qovşağı müxtəlif idi. Budur, ndhI IRb regionunda IRb/SSC-dən 292 bp məsafədə yerləşirdi, halbuki ndhG SSC-də SSC/IRa sərhədindən 59 bp uzaqda idi. Digərində Plantaginaceae üzvlər (D.lanata, V. persica, V. nakaiana, və V. veronikstrum), ndhH gen müvafiq olaraq 24 bp, 51 bp, 57 bp və 41 bp-ə qədər IRb/SSC sərhədindəki IRb bölgəsinə yayıldı. The psbA bütün növlərdə gen LSC bölgəsində yerləşdi və IRa/LSC sərhədindən 232-371 bp ilə ayrıldı.

Qonşu genlər və LSC, SSC və iki İR bölgəsinin plastom genomları arasında qovşaqları arasındakı sərhəd məsafəsinin müqayisəsi P. ovata və onun qohumları. Əsas xəttin üstündəki və ya altındakı qutular bitişik sərhəd genlərini göstərir. Şəkil ardıcıllığın uzunluğuna görə miqyaslı deyil və yalnız IR/LSC və ya IR/SSC sərhədlərində və ya yaxınlığında nisbi dəyişiklikləri göstərir.

Filogenetik analiz və Divergensiya vaxtı P. ovata əlaqəli növlərlə

Burada filogenetik mövqeyi P. ovata Sifariş çərçivəsində Lamiales, tam plastomun, 72 paylaşılan genin çoxlu düzülmə analizi ilə quruldu, matK gen və rbcL 8 ailə və 22 nəsil təmsil edən Lamiales üzvlərinin geni (Şəkil 7 S5). Filogenetik analizlər ML, NJ, MP və BI metodlarından istifadə etməklə aparılmışdır. ML analizi 30 qovşaqdan 28-nin ≥99% açılış dəyərinə malik olduğunu, qalanlarının isə 100% dəyərə malik olduğunu aşkar etdi (Şəkil 7 S5). Tam genomun, 72 paylaşılan genin ardıcıllığı əsasında qurulan filogenetik ağaclar, matK gen və rbcL geni P. ovata ilə bir dəstə yaratdı P. maritimaP. media bootstrap və BI dəstəyi vasitəsilə. Təhlil edilən məlumat dəstlərində, D.lanata ən yaxın olduğu qənaətinə gəlindi Plantaqo daha Veronika növlər. Bundan başqa, GesneriaceaePhrymaceae plastomlarının ardıcıllığına əsasən yaxından əlaqəli ailələr olduğu aşkar edildi, 72 ortaq gen, matK gen və rbcL gen (şək. 7 S5). BEAST-də tətbiq olunduğu kimi Baysean yanaşması ilə təxmin edilən fərqlilik vaxtı göstərdi P. ovata ortaq əcdadından ayrılmışdır P. mediaP. maritima 11,0 milyon il əvvəl (Mya 95% HPD, 10,06–12,25 Mya) (Şəkil S6). Bundan əlavə, BEAST-da tətbiq olunan ağac ML, NJ və MP tərəfindən yaradılanlarla uyğun topologiya ilə nəticələndi.

Filogenetik ağaclar müxtəlif üsullardan istifadə etməklə 22 cinsi təmsil edən səkkiz ailədən otuz beş növ üçün qurulmuşdur və ağac ML üsulu ilə qurulmuş bütün genom ardıcıllığı məlumat dəstləri üçün göstərilmişdir. Bütün genom ardıcıllığı məlumat dəsti dörd fərqli üsulla istifadə edilmişdir: Bayesian nəticə (BI), maksimum ehtimal (ML), maksimum xurma (MP) və qonşu-jouining (NJ). Budaqların üstündəki rəqəmlər müvafiq olaraq BI-nin posterior ehtimalları və ML, MP və NJ-nin açılış dəyərləridir. Qara nöqtələr üçün mövqeyi təmsil edir P. ovata.


NƏTİCƏLƏR

Uzunluq paylamalarının parametrlərinin seçimi

GeneMark.hmm-in düzgünlüyünü təhlil etmək üçün d cd n dəyərlər, biz 700-nt uzun fraqmentləri dəstləri istifadə Escherichia coliBacillus subtilis Qaçışlarda istifadə edilən model C-3BA genomları idi. Həssaslıq ( Sn ) və spesifiklik ( Sp ) fraqmentlərin annotasiyası ilə gen proqnozlarının müqayisəsi ilə müəyyən edilmişdir. Əgər proqnozlaşdırılan və şərh edilmiş 3′-uclarının yerləri uyğun gəlirsə və ya 3′-ucu olmayan qismən genlər üçün proqnozlaşdırılan və şərh edilmiş oxu çərçivələri arasında uyğunluq varsa, proqnoz əsl müsbət hesab edilir. dəyərləri d c dəyərləri isə 100-dən 800-ə qədər dəyişə bilər d n 100-dən 300-ə qədər dəyişdi. Xüsusilə asılılığı SnSp üçün d c = 800 isə d n Şəkil 7-də mavi xətt ilə göstərildiyi kimi 100-dən 300-ə qədər dəyişir, eynilə, asılılıq SnSp üçün d n = 100 isə d c bənövşəyi xətt ilə göstərildiyi kimi 100 ilə 800 arasında dəyişir. The d c , d n tam genomların təhlili üçün istifadə edilən parametr (300, 150) qırmızı nöqtə ilə göstərilir. Daha böyük birləşir d c (800) və daha kiçik d n (100) əhəmiyyətli dərəcədə artmasına səbəb olur Sp və cüzi azalma Sn . Bu nəticə proqnozlaşdırılan qısa genlərin sayının azalması ilə bağlıdır, onların çoxu annotasiyaya uyğun gəlmir. Orta dəyərlərin müqayisəsini asanlaşdırmaq üçün S = ( Sn + Sp )/2 tərəfindən istehsal edilən proqram fərqli çalışır d cd n dəyərlər, sabit S səviyyə xətləri (maili −1 ilə) Şəkil 7 a və b-də çəkilmişdir. Performans ( Sn , Sp ) MetaGene və MetaGeneAnnotator (standart parametrlərlə) iki genomun hər biri üçün təsvir edilmişdir, həmçinin performansın yüksək olduğunu görmək olar, baxmayaraq ki, o, xüsusilə də genomlarda daha yüksəkdir. E. coli , GeneMark.hmm tərəfindən geniş parametrlərlə d cd n . Modelləşdirmə nəticəsində biz istifadə etdik d c = 800 və d n = 100 süni və real metagenomik ardıcıllıqların sonrakı təhlilində.

Dəyərləri SnSp parametrlərin dəyişməsi ilə əldə edilir d nd c . Açıq mavi nöqtələr təmsil edir SnSp 1491 kombinasiyasının hər biri üçün əldə edilən dəyərlər ( d n , d c ) parametrləri. Mavi və bənövşəyi xətlər variasiyaya uyğundur d n ilə d c = 800 və dəyişməsi d c ilə d n = 100, müvafiq olaraq. Qırmızı nöqtələr uyğun gəlir ( d n , d c ) tam genomlar üçün standart olaraq istifadə edilən parametr (150, 300). Ən yüksəklər də göstərilir Sn və ən yüksək Sp (mavi kvadratlar), ən yüksək ( Sn + Sp )/2 (sarı üçbucaqlar). Cüt modellərdən, yerli modeldən (tam genomdan GeneMarkS tərəfindən əldə edilmişdir) və HAL-99 evristik modelindən istifadə edərək, SnSp narıncı almazlarla göstərilən dəyərlər. The SnSp MetaGene və MetaGeneAnnotator proqnozları müvafiq olaraq yaşıl və mavi nöqtələrlə göstərilir.

Dəyərləri SnSp parametrlərin dəyişməsi ilə əldə edilir d nd c . Açıq mavi nöqtələr təmsil edir SnSp 1491 kombinasiyasının hər biri üçün əldə edilən dəyərlər ( d n , d c ) parametrləri. Mavi və bənövşəyi xətlər variasiyaya uyğundur d n ilə d c = 800 və dəyişməsi d c ilə d n = 100, müvafiq olaraq. Qırmızı nöqtələr uyğun gəlir ( d n , d c ) tam genomlar üçün standart olaraq istifadə edilən parametr (150, 300). Ən yüksəklər də göstərilir Sn və ən yüksək Sp (mavi kvadratlar), ən yüksək ( Sn + Sp )/2 (sarı üçbucaqlar). Cüt modellərdən, yerli modeldən (tam genomdan GeneMarkS tərəfindən əldə edilmişdir) və HAL-99 evristik modelindən istifadə edərək, SnSp narıncı almazlarla göstərilən dəyərlər. The SnSp MetaGene və MetaGeneAnnotator proqnozları müvafiq olaraq yaşıl və mavi nöqtələrlə göstərilir.

Sabit uzunluqlu ardıcıllıqlar üzrə testlər

Biz GeneMark.hmm proqramından 50 mikrob xromosomundan sabit uzunluqlu ardıcıl fraqmentləri təhlil etmək üçün yuxarıda təsvir edilən üsullarla əldə edilmiş bakterial və arxaeal (yaxud mezofil və termofil) evristik model cütləri ilə istifadə etdik (Əlavə Cədvəl S2). Bütün modellər uzunluğu 400 və 700 nt olan fraqmentlər dəstləri üzərində sınaqdan keçirilmiş, bundan əlavə ən yüksək performansa malik modellər daha qısa (72 nt-a qədər) və daha uzun (1100 nt-a qədər) fraqmentlər dəstləri üzərində sınaqdan keçirilmişdir. Müxtəlif modellərin performans xüsusiyyətləri Cədvəl 2-də göstərilmişdir (əlavə təfərrüatlar S3-S6 Əlavə Cədvəllərində verilmişdir). Müşahidə olunan dəyərlər ( Sn + Sp )/2 700 nt uzunluqlu fraqmentlər üçün 94,5% ilə 96,5% arasında, 400 nt uzunluqlu fraqmentlər üçün isə 93,5% ilə 96,0% arasında qruplaşdırılıb. Maraqlıdır ki, üçlü əsaslı modellər arasında C-3BA, C-3MT, 3-3BA və 3-LBA, kodon tezliyindən əldə edilən modellər, C-3BA və C-3MT, 3-3BA və 3-LBA-dan daha yüksək performans nümayiş etdirdi. modellər, burada GC məzmununun funksiyaları kimi üçlülərin tezlikləri hər bir çərçivədə müstəqil olaraq təxmin edilir. Daha yüksək dərəcəli Markov modellərinin istifadəsi: üçüncü sıra, 4-4BA, dördüncü sıra, 5-5BA və beşinci sıra, 6-6BA və 6-LBA, fərqlərlə oxşar performansla nəticələndi ( Sn + Sp )/2 dəyərləri <0,3% bu performans səviyyəsi ikinci dərəcəli C-3BA və C-3MT modellərinin performansı ilə müqayisə edilə bilər. Yenə də bir qədər yüksək ( Sn + Sp 700 və 400 nt uzunluqlu fraqmentlər üçün )/2, heksamer tezliklərinin logistik reqressiya yaxınlaşması ilə əldə edilən parametrlərlə, beşinci dərəcəli, bakterial və arxaeal model cütünü ehtiva edən 6-LBA evristik modelindən istifadə etməklə əldə edilmişdir. Qeyd edək ki, MetaGene müəllifləri HAL-99 modeli ilə GeneMark.hmm performansı ilə müqayisə edilə bilən 700 nt fraqmentlərdə MetaGene performansını tapdılar (14-də Əlavə Cədvəl S3). Bu nəticə bizim müşahidələrimizə də uyğundur (Cədvəl 2).

50 mikrob xromosomundan 700 və 400 nt uzunluğunda fraqmentlərdə gen proqnozunun dəqiqliyi (Əlavə Cədvəl S2-də verilmişdir)

Proqram. Model. Sn . Sp . ( Sn + Sp )/2 .
700 nt
GeneMark.hmm HAL-99 94.93 94.28 94.61
C-3BA 96.84 95.17 96.01
C-3MT 96.86 95.04 95.95
C-MBA 97.00 93.77 95.39
3-3BA 96.51 94.18 95.35
3-LBA 96.69 94.19 95.44
4-4BA 97.23 94.83 96.03
5-5BA 97.25 94.91 96.08
6-6BA 97.04 94.99 96.02
6-LBA 97.42 94.89 96.16
MetaGen 97.57 92.36 94.97
MetaGeneAnnotator 97.49 93.60 95.55
400 nt
GeneMark.hmm HAL-99 93.81 93.38 93.59
C-3BA 96.24 94.80 95.52
C-3MT 96.32 94.72 95.52
C-MBA 96.34 93.31 94.83
3-3BA 95.64 93.85 94.74
3-LBA 95.97 93.77 94.87
4-4BA 96.70 94.57 95.63
5-5BA 96.75 94.66 95.70
6-6BA 96.49 94.77 95.63
6-LBA 96.99 94.63 95.81
MetaGen 97.22 91.08 94.15
MetaGeneAnnotator 97.15 92.35 94.75
Proqram. Model. Sn . Sp . ( Sn + Sp )/2 .
700 nt
GeneMark.hmm HAL-99 94.93 94.28 94.61
C-3BA 96.84 95.17 96.01
C-3MT 96.86 95.04 95.95
C-MBA 97.00 93.77 95.39
3-3BA 96.51 94.18 95.35
3-LBA 96.69 94.19 95.44
4-4BA 97.23 94.83 96.03
5-5BA 97.25 94.91 96.08
6-6BA 97.04 94.99 96.02
6-LBA 97.42 94.89 96.16
MetaGen 97.57 92.36 94.97
MetaGeneAnnotator 97.49 93.60 95.55
400 nt
GeneMark.hmm HAL-99 93.81 93.38 93.59
C-3BA 96.24 94.80 95.52
C-3MT 96.32 94.72 95.52
C-MBA 96.34 93.31 94.83
3-3BA 95.64 93.85 94.74
3-LBA 95.97 93.77 94.87
4-4BA 96.70 94.57 95.63
5-5BA 96.75 94.66 95.70
6-6BA 96.49 94.77 95.63
6-LBA 96.99 94.63 95.81
MetaGen 97.22 91.08 94.15
MetaGeneAnnotator 97.15 92.35 94.75

Uzunluq paylama parametrlərinin dəyərləri: d n = 100 və d c = 800.

50 mikrob xromosomundan 700 və 400 nt uzunluğunda fraqmentlərdə gen proqnozunun dəqiqliyi (Əlavə Cədvəl S2-də verilmişdir)

Proqram. Model. Sn . Sp . ( Sn + Sp )/2 .
700 nt
GeneMark.hmm HAL-99 94.93 94.28 94.61
C-3BA 96.84 95.17 96.01
C-3MT 96.86 95.04 95.95
C-MBA 97.00 93.77 95.39
3-3BA 96.51 94.18 95.35
3-LBA 96.69 94.19 95.44
4-4BA 97.23 94.83 96.03
5-5BA 97.25 94.91 96.08
6-6BA 97.04 94.99 96.02
6-LBA 97.42 94.89 96.16
MetaGen 97.57 92.36 94.97
MetaGeneAnnotator 97.49 93.60 95.55
400 nt
GeneMark.hmm HAL-99 93.81 93.38 93.59
C-3BA 96.24 94.80 95.52
C-3MT 96.32 94.72 95.52
C-MBA 96.34 93.31 94.83
3-3BA 95.64 93.85 94.74
3-LBA 95.97 93.77 94.87
4-4BA 96.70 94.57 95.63
5-5BA 96.75 94.66 95.70
6-6BA 96.49 94.77 95.63
6-LBA 96.99 94.63 95.81
MetaGen 97.22 91.08 94.15
MetaGeneAnnotator 97.15 92.35 94.75
Proqram. Model. Sn . Sp . ( Sn + Sp )/2 .
700 nt
GeneMark.hmm HAL-99 94.93 94.28 94.61
C-3BA 96.84 95.17 96.01
C-3MT 96.86 95.04 95.95
C-MBA 97.00 93.77 95.39
3-3BA 96.51 94.18 95.35
3-LBA 96.69 94.19 95.44
4-4BA 97.23 94.83 96.03
5-5BA 97.25 94.91 96.08
6-6BA 97.04 94.99 96.02
6-LBA 97.42 94.89 96.16
MetaGen 97.57 92.36 94.97
MetaGeneAnnotator 97.49 93.60 95.55
400 nt
GeneMark.hmm HAL-99 93.81 93.38 93.59
C-3BA 96.24 94.80 95.52
C-3MT 96.32 94.72 95.52
C-MBA 96.34 93.31 94.83
3-3BA 95.64 93.85 94.74
3-LBA 95.97 93.77 94.87
4-4BA 96.70 94.57 95.63
5-5BA 96.75 94.66 95.70
6-6BA 96.49 94.77 95.63
6-LBA 96.99 94.63 95.81
MetaGen 97.22 91.08 94.15
MetaGeneAnnotator 97.15 92.35 94.75

Uzunluq paylama parametrlərinin dəyərləri: d n = 100 və d c = 800.

Daha yüksək dərəcəli oliqonuklotidlərdən istifadə edən modellərin istifadəsi ( Sn + Sp )/2 kodon əsaslı modellərlə müqayisədə 400 və 700 nt fraqmentlərdə gen proqnozu üçün, məs. C-3BA və C-3MT (Cədvəl 2, Əlavə Cədvəllər S3–S6). Bu müşahidə digər müəlliflərin beşinci dərəcəli Markov zəncirlərinin və/yaxud di-kodon tezliklərinin istifadəsinin genlərin proqnozlaşdırılmasının dəqiqliyində bir qədər artmasına səbəb olan tapıntıları ilə uyğun gəlir (13-15). Uzunluğu 400 və 700 nt-dən fərqli olan fraqmentlərdə gen proqnozunun düzgünlüyünü müəyyən etmək üçün bir neçə müəllif tərəfindən testlərdə istifadə edilən xüsusi dəyərləri müəyyən etmək üçün biz 50 mikrob xromosomundan, fraqment uzunluğu 72 ilə 1100 arasında dəyişən 11 əlavə test dəstindən əldə etdik. nt (Cədvəl 3). Burada, HAL-1999, C-3BA və 6-LBA modellərindən istifadə edən GeneMark.hmm ilə MetaGene və MetaGeneAnnotator ilə müqayisədə biz 6-LBA modeli ilə GeneMark.hmm-nin bir az daha yaxşı performans göstərdiyini görürük. SnSp orta. Bununla belə, MetaGene daha yüksək göstərir Sn bütün 13 test dəsti üçün, C-3BA modeli isə daha yüksəkdir Sp 200 nt-dən çox fraqment uzunluğu üçün. Daha yaxşı vizuallaşdırma üçün biz proqramların performansını fraqment uzunluğu ≥100 nt olan ardıcıllıq dəstləri üçün fraqment uzunluğu funksiyaları kimi göstəririk (Şəkil 8). Xüsusilə, ikinci dərəcəli C-3BA modeli performans baxımından 6-LBA modelinə çox yaxın olduğundan, biz C-3BA modelini 6-LBA modeli ilə birlikdə aşağıda müzakirə olunan bir neçə tətbiqdə istifadə edirik (Cədvəl 2-3, Əlavə Cədvəllər S3–S6).

GeneMark.hmm-in üç müxtəlif evristik model, həmçinin MetaGene və MetaGeneAnnotator ilə gen proqnozunun dəqiqliyi 50 mikrob xromosomundan uzunluğu 100-dən 1100 nt-ə qədər olan ardıcıl fraqmentlər dəstlərində müşahidə edilir.

GeneMark.hmm-in üç müxtəlif evristik model, həmçinin MetaGene və MetaGeneAnnotator ilə gen proqnozunun dəqiqliyi 50 mikrob xromosomundan uzunluğu 100-dən 1100 nt-ə qədər olan ardıcıl fraqmentlər dəstlərində müşahidə edilir.

GeneMark.hmm-in üç müxtəlif evristik model, həmçinin MetaGene və MetaGeneAnnotator ilə gen proqnozlaşdırma dəqiqliyi 50 mikrob xromosomundan uzunluğu 72-dən 1100 nt fraqmentə qədər olan ardıcıl fraqmentlər dəstlərində müşahidə edilmişdir.

Uzunluq. . 1999 HAL. MetaGene. MetaGeneAnnotator. C-3BA. 6-LBA.
72 Sn64.5 72.8 yox yox 84.283.1 77.8 81.7 81.2 84.0
Sp81.1 yox 82.1 85.5 86.8
96 Sn77.0 80.8 yox yox 90.687.3 85.9 87.3 88.6 89.1
Sp84.6 yox 84.0 88.7 89.6
100 Sn78.4 81.8 91.287.8 90.9 87.8 87.0 88.1 89.4 89.7
Sp85.1 84.5 84.6 89.2 90.0
200 Sn90.7 90.8 95.792.0 95.6 92.5 94.3 93.9 95.6 94.6
Sp90.9 88.3 89.5 93.4 93.6
300 Sn92.7 92.5 96.893.3 96.7 93.9 95.5 94.8 96.4 95.2
Sp92.3 89.9 91.1 94.194.0
400 Sn93.9 93.6 97.394.1 97.2 94.7 96.3 95.5 97.0 95.8
Sp93.3 90.9 92.2 94.794.5
500 Sn94.4 94.2 97.594.5 97.4 95.2 96.6 95.8 97.2 96.0
Sp93.9 91.5 92.9 95.094.8
600 Sn94.8 94.4 97.694.7 97.5 95.4 96.9 95.9 97.5 96.1
Sp94.0 91.9 93.3 95.094.7
700 Sn95.0 94.6 97.694.9 97.5 95.5 96.9 96.0 97.4 96.1
Sp94.2 92.2 93.4 95.094.8
800 Sn95.2 94.8 97.795.0 97.6 95.6 97.0 96.1 97.6 96.2
Sp94.3 92.4 93.6 95.194.8
900 Sn95.4 94.9 97.795.1 97.7 95.8 97.1 96.1 97.6 96.2
Sp94.4 92.5 93.8 95.194.7
1000 Sn95.5 95.0 97.995.3 97.8 95.8 97.2 96.2 97.7 96.3
Sp94.5 92.8 93.9 95.294.8
1100 Sn95.7 95.1 97.895.3 97.7 95.9 97.3 96.2 97.7 96.2
Sp94.5 92.9 94.0 95.294.7
Uzunluq. . 1999 HAL. MetaGene. MetaGeneAnnotator. C-3BA. 6-LBA.
72 Sn64.5 72.8 yox yox 84.283.1 77.8 81.7 81.2 84.0
Sp81.1 yox 82.1 85.5 86.8
96 Sn77.0 80.8 yox yox 90.687.3 85.9 87.3 88.6 89.1
Sp84.6 yox 84.0 88.7 89.6
100 Sn78.4 81.8 91.287.8 90.9 87.8 87.0 88.1 89.4 89.7
Sp85.1 84.5 84.6 89.2 90.0
200 Sn90.7 90.8 95.792.0 95.6 92.5 94.3 93.9 95.6 94.6
Sp90.9 88.3 89.5 93.4 93.6
300 Sn92.7 92.5 96.893.3 96.7 93.9 95.5 94.8 96.4 95.2
Sp92.3 89.9 91.1 94.194.0
400 Sn93.9 93.6 97.394.1 97.2 94.7 96.3 95.5 97.0 95.8
Sp93.3 90.9 92.2 94.794.5
500 Sn94.4 94.2 97.594.5 97.4 95.2 96.6 95.8 97.2 96.0
Sp93.9 91.5 92.9 95.094.8
600 Sn94.8 94.4 97.694.7 97.5 95.4 96.9 95.9 97.5 96.1
Sp94.0 91.9 93.3 95.094.7
700 Sn95.0 94.6 97.694.9 97.5 95.5 96.9 96.0 97.4 96.1
Sp94.2 92.2 93.4 95.094.8
800 Sn95.2 94.8 97.795.0 97.6 95.6 97.0 96.1 97.6 96.2
Sp94.3 92.4 93.6 95.194.8
900 Sn95.4 94.9 97.795.1 97.7 95.8 97.1 96.1 97.6 96.2
Sp94.4 92.5 93.8 95.194.7
1000 Sn95.5 95.0 97.995.3 97.8 95.8 97.2 96.2 97.7 96.3
Sp94.5 92.8 93.9 95.294.8
1100 Sn95.7 95.1 97.895.3 97.7 95.9 97.3 96.2 97.7 96.2
Sp94.5 92.9 94.0 95.294.7

Ən yaxşı rəqəmlər qalın şriftlə yazılmışdır.

GeneMark.hmm-in üç fərqli evristik modellə, həmçinin MetaGene və MetaGeneAnnotator ilə gen proqnozlaşdırma dəqiqliyi 50 mikrob xromosomundan uzunluğu 72-dən 1100 nt fraqmentə qədər olan ardıcıl fraqmentlər dəstlərində müşahidə edilmişdir.

Uzunluq. . 1999 HAL. MetaGene. MetaGeneAnnotator. C-3BA. 6-LBA.
72 Sn64.5 72.8 yox yox 84.283.1 77.8 81.7 81.2 84.0
Sp81.1 yox 82.1 85.5 86.8
96 Sn77.0 80.8 yox yox 90.687.3 85.9 87.3 88.6 89.1
Sp84.6 yox 84.0 88.7 89.6
100 Sn78.4 81.8 91.287.8 90.9 87.8 87.0 88.1 89.4 89.7
Sp85.1 84.5 84.6 89.2 90.0
200 Sn90.7 90.8 95.792.0 95.6 92.5 94.3 93.9 95.6 94.6
Sp90.9 88.3 89.5 93.4 93.6
300 Sn92.7 92.5 96.893.3 96.7 93.9 95.5 94.8 96.4 95.2
Sp92.3 89.9 91.1 94.194.0
400 Sn93.9 93.6 97.394.1 97.2 94.7 96.3 95.5 97.0 95.8
Sp93.3 90.9 92.2 94.794.5
500 Sn94.4 94.2 97.594.5 97.4 95.2 96.6 95.8 97.2 96.0
Sp93.9 91.5 92.9 95.094.8
600 Sn94.8 94.4 97.694.7 97.5 95.4 96.9 95.9 97.5 96.1
Sp94.0 91.9 93.3 95.094.7
700 Sn95.0 94.6 97.694.9 97.5 95.5 96.9 96.0 97.4 96.1
Sp94.2 92.2 93.4 95.094.8
800 Sn95.2 94.8 97.795.0 97.6 95.6 97.0 96.1 97.6 96.2
Sp94.3 92.4 93.6 95.194.8
900 Sn95.4 94.9 97.795.1 97.7 95.8 97.1 96.1 97.6 96.2
Sp94.4 92.5 93.8 95.194.7
1000 Sn95.5 95.0 97.995.3 97.8 95.8 97.2 96.2 97.7 96.3
Sp94.5 92.8 93.9 95.294.8
1100 Sn95.7 95.1 97.895.3 97.7 95.9 97.3 96.2 97.7 96.2
Sp94.5 92.9 94.0 95.294.7
Uzunluq. . 1999 HAL. MetaGene. MetaGeneAnnotator. C-3BA. 6-LBA.
72 Sn64.5 72.8 yox yox 84.283.1 77.8 81.7 81.2 84.0
Sp81.1 yox 82.1 85.5 86.8
96 Sn77.0 80.8 yox yox 90.687.3 85.9 87.3 88.6 89.1
Sp84.6 yox 84.0 88.7 89.6
100 Sn78.4 81.8 91.287.8 90.9 87.8 87.0 88.1 89.4 89.7
Sp85.1 84.5 84.6 89.2 90.0
200 Sn90.7 90.8 95.792.0 95.6 92.5 94.3 93.9 95.6 94.6
Sp90.9 88.3 89.5 93.4 93.6
300 Sn92.7 92.5 96.893.3 96.7 93.9 95.5 94.8 96.4 95.2
Sp92.3 89.9 91.1 94.194.0
400 Sn93.9 93.6 97.394.1 97.2 94.7 96.3 95.5 97.0 95.8
Sp93.3 90.9 92.2 94.794.5
500 Sn94.4 94.2 97.594.5 97.4 95.2 96.6 95.8 97.2 96.0
Sp93.9 91.5 92.9 95.094.8
600 Sn94.8 94.4 97.694.7 97.5 95.4 96.9 95.9 97.5 96.1
Sp94.0 91.9 93.3 95.094.7
700 Sn95.0 94.6 97.694.9 97.5 95.5 96.9 96.0 97.4 96.1
Sp94.2 92.2 93.4 95.094.8
800 Sn95.2 94.8 97.795.0 97.6 95.6 97.0 96.1 97.6 96.2
Sp94.3 92.4 93.6 95.194.8
900 Sn95.4 94.9 97.795.1 97.7 95.8 97.1 96.1 97.6 96.2
Sp94.4 92.5 93.8 95.194.7
1000 Sn95.5 95.0 97.995.3 97.8 95.8 97.2 96.2 97.7 96.3
Sp94.5 92.8 93.9 95.294.8
1100 Sn95.7 95.1 97.895.3 97.7 95.9 97.3 96.2 97.7 96.2
Sp94.5 92.9 94.0 95.294.7

Ən yaxşı rəqəmlər qalın şriftlə yazılmışdır.

Genlərin və ardıcıl fraqmentlərin mənşəyinə dair nəticə çıxarmaq

50 mikrob xromosomundan qısa ardıcıllıq fraqmentlərinin təhlilindən sonra, bakterial və arxa model cütü ilə GeneMark.hmm-in buraxılışı təkcə proqnozlaşdırılan genlərin siyahısını deyil, həm də hər genin ehtimal mənşəyinin göstəricisini yaratdı (Əlavə Cədvəllər S7 və S8). Bakterial (arxeal) ardıcıllıq fraqmentlərindəki genlərin böyük əksəriyyətinin bakterial (arxeal) modeli ilə proqnozlaşdırıldığını gördük. Eynilə, termofilik (mezofilik) ardıcıllıq fraqmentlərindəki genlərin böyük əksəriyyəti termofilik (mezofilik) modellə proqnozlaşdırılıb. Maraqlıdır ki, termofilik bakteriyalar üçün Thermotoga maritima (80°C optimal böyümə temperaturu ilə) arxeal model, orijinalda edilən tapıntıları təsdiq edərək, cəmi 3225 parçalanmış gendən 3137-ni proqnozlaşdırdı. T. maritima genom kağızı (32) arxeal növlərdən köçürülmüş genlərin kütləvi üfüqi axını (33). Digər tərəfdən, genlərin böyük əksəriyyətində Methanosarcina acetivorans Bir çox mənbələrdə mezofilik arxelər olaraq təyin olundu, termofilik model tərəfindən proqnozlaşdırıldı. Bu nəticə müşahidələrə uyğundur M. acetivorans dərin dəniz hidrotermal kanallarında yaşaya bilir. Oxşar müşahidələr bakteriyalar üçün də aparılıb Aquifex aeolicus ( 34 ) yüksək temperaturda yaşayan, eləcə də aşağı temperaturda yaşayan arxeal növlər üçün Haloarkula , HalobacteriumMetanosfera (Əlavə Cədvəllər S7 və S8).

Qısa fraqmentlərdə nadir hallarda hər fraqmentdə birdən çox gen görülür, buna görə də bir gen xarakteristikası normal olaraq bütün ardıcıllıq fraqmentinə qədər genişləndirilə bilər. Nadir hallarda, bir metagenomik fraqmentdə bir neçə gen olduqda, hər biri fərqli modellər tərəfindən proqnozlaşdırılır, üfüqi gen köçürmə nümunəsi üçün namizəd kimi bir kənara qoyulmağa dəyər. Ümumilikdə 31 584 arxeal (136 210 bakteriya) fraqmenti olan 700 nt uzunluğunda fraqmentlərdən ibarət test dəstində C-3BA modelli GeneMark.hmm 2757 fraqmenti bakterial tip (16 284 fraqment archaeal tip) kimi səhv təsnif etdi. 91,27% hallarda arxeal fraqmentlər və 88,04% hallarda bakterial fraqmentlər düzgün müəyyən edilmişdir (Əlavə Cədvəl S7, sütun C-3BA). 400 nt uzunluğunda fraqmentlər dəsti üçün analoji təhlil arxeya üçün 89,92% və bakteriyalar üçün 87,26% düzgün proqnozlarla nəticələndi (Əlavə Cədvəl S8, sütun C-3BA). Qeyd edək ki, bir metagenomik gen tapıcı daxilində həyat sahəsinin təsnifatı ilk dəfə Noguchi tərəfindən təklif edilmişdir və b. ( 14 ). İstifadə etdikləri üsulla fərq, GeneMark.hmm-də daha çox texniki domen tanınmasıdır. Viterbi alqoritmində yerləşdirilmişdir və bu, proqnozlaşdırılan kodlaşdırma bölgəsinə gizli vəziyyətin ən çox ehtimal olunan növünü, bakterial və ya arxaeal (termofil və ya mezofil) təyin edir.

İnsan və siçan bağırsaq mikrobiomlarından ardıcıllığın təhlili

İki insan və beş siçan bağırsaq mikrobiomundan metagenomik ardıcıllıqla genləri proqnozlaşdırmaq üçün C-3BA modeli ilə GeneMark.hmm-dən istifadə etdik (Cədvəl 4). Bu ardıcıllıq dəstlərində əvvəllər qeyd olunmayan 11 865 gen müəyyən etdik. 1984 gen (insan nümunələrində) və 3435 genin (siçan nümunələrində) zülal məhsulları BLASTP ilə aşkar edilən məlum zülallarla oxşarlığa malikdir. E -dəyər həddi 10 −5 . Bağırsaq mikrobiomlarından əldə edilən ardıcıllıqlarda proqnozlaşdırılan 50 ən uzun genə təyin edilə bilən zülal funksiyaları Əlavə Cədvəl S9-da verilmişdir. Siçan bağırsağının metagenomik ardıcıllığında yeni genlərin nisbi nisbəti insandakından təxminən üç dəfə yüksəkdir, sadəcə rəqəmlər ilkin şərh edilmiş genlərin sayının təxminən 50% və ya daha çoxunu təşkil edir. Maraqlıdır ki, insan Mövzu 7-də (8) metagenomik ardıcıllığın 17%-i (15%) BLASTN axtarışı ilə bakteriya və arxeyaların məlum genomlarına (Əlavə Cədvəllər S10-S12) uyğunlaşdırıla bilər. E -dəyər həddi 10 −13 . Bununla belə, siçanların bağırsaqlarından alınan metagenomik ardıcıllıqlarda biz artıq ardıcıllaşdırılmış genomlardakı ardıcıllığa çox oxşar olan DNT sekans fraqmentlərini müəyyən edə bilmədik (ərəfəsində 10-13). Yenə də, daha az sərt hədd 10-5 üçün biz hər bir siçan bağırsaq metagenomik nümunəsində məlum növlərin genomlarına oxşar olan onlarla fraqmenti müşahidə etdik. Annotasiyada səhvlərə meylli olan tipik vəziyyətlər Şəkil 9-da göstərilmişdir: qısa genlər buraxıla bilər (Şəkil 9 a). Bəzi genlər artefaktlara görə buraxıla bilər, məsələn, genin 5′-ucunun mümkün olan ən uzun başlanğıca səhv uzadılması (Şəkil 9 b) belə bir uzanma əks zəncirdəki həqiqi genlə üst-üstə düşə bilər və bu real gen annotasiyada buraxılıb.

Mövzu 7 insan mikrobiomundan iki ardıcıllıq üçün Genom Browser görünüşü. C-3BA modeli kodlaşdırma bölgələrini proqnozlaşdırmaq üçün istifadə edilmişdir. ( a ) "Proqnozlaşdırılan kodlaşdırma bölgələri" panelində göstərilən birinci və üçüncü genlər əvvəllər şərh edilməmişdir. Hər iki proqnozlaşdırılan genin zülal məhsulları ilə nr verilənlər bazasındakı zülallarla ardıcıl oxşarlıq var E -müvafiq olaraq 8e-44 və 2e-35 dəyəri. ( b ) 2649 nt mikrobiom ardıcıllığında tək qismən gen 39-cu nukleotid mövqeyindən başlayaraq +3 çərçivədə müsbət zəncirdə qeyd edildi. Annotasiya üçün yeni olan üç gen müvafiq olaraq -3, +1 və +3 çərçivələrində proqnozlaşdırıldı. Təhlil olunan ardıcıllıqları Microbiome DB-də tapa bilərsiniz: http://exon.gatech.edu/cgi-bin/gbrowse/microbiome_human_sub7/?name=hgutS7_s7_164312 http://exon.gatech.edu/cgi-bin/gbrowse/microbiome_man? ad=hgutS7_s7_179818_3 .

Mövzu 7 insan mikrobiomundan iki ardıcıllıq üçün Genom Browser görünüşü. C-3BA modeli kodlaşdırma bölgələrini proqnozlaşdırmaq üçün istifadə edilmişdir. ( a ) “Proqnozlaşdırılan kodlaşdırma bölgələri” panelində göstərilən birinci və üçüncü genlər əvvəllər şərh edilməmişdir. Hər iki proqnozlaşdırılan genin zülal məhsulları ilə nr verilənlər bazasındakı zülallarla ardıcıl oxşarlıq var E -müvafiq olaraq 8e-44 və 2e-35 dəyəri. ( b ) 2649 nt mikrobiom ardıcıllığında tək qismən gen 39-cu nukleotid mövqeyindən başlayaraq +3 çərçivədə müsbət zəncirdə qeyd edildi. Annotasiya üçün yeni olan üç gen müvafiq olaraq -3, +1 və +3 çərçivələrində proqnozlaşdırıldı. Təhlil olunan ardıcıllıqları Microbiome DB-də tapa bilərsiniz: http://exon.gatech.edu/cgi-bin/gbrowse/microbiome_human_sub7/?name=hgutS7_s7_164312 http://exon.gatech.edu/cgi-bin/gbrowse/microbiome_man? ad=hgutS7_s7_179818_3 .

İnsan və siçan bağırsaq mikrobiomlarından metagenomik ardıcıllığın təhlilinin nəticələri. Annotasiya koordinatları JGI IMG/M verilənlər bazasından götürülüb ( 24 )

Metodlar. Mikrobiom ölçüsü (bp). Annotasiya edilmiş genlərin sayı. Proqnozlaşdırılan genlərin sayı. Buraxılmış genlərin sayı. Buraxılmış genlər (%) a . Yeni genlərin sayı. Yeni genlər (%) a . (Qaçırılmış + Roman)/2 (%) . nr (%) vuran yeni genlər.
human_sub7
MetaGen 15,817,685 20523 22 271 893 4.4 2641 11.9 8.1 34.6
MetaGeneAnnotator 22 164 755 3.7 2396 10.8 7.2 40.5
C-3BA modeli ilə GeneMark.hmm 21 941 730 3.6 2148 9.8 6.7 40.7
human_sub8
MetaGen 20 486 813 25 980 27 750 1223 4.7 2993 10.8 7.7 38.2
MetaGeneAnnotator 27 707 971 3.7 2698 9.7 6.7 41.7
C-3BA modeli ilə GeneMark.hmm 27 589 840 3.2 2449 8.9 6.1 45.3
siçan_yalın1
MetaGen 2 234 664 2935 4579 244 8.3 1888 41.2 24.8 40.6
MetaGeneAnnotator 4417 216 7.4 1698 38.4 22.9 44.0
C-3BA modeli ilə GeneMark.hmm 4279 236 8.0 1580 36.9 22.5 47.6
mouse_lean2
MetaGen 2 133 081 2782 4279 296 10.6 1793 41.9 26.3 32.1
MetaGeneAnnotator 4152 265 9.5 1635 39.4 24.5 35.7
C-3BA modeli ilə GeneMark.hmm 3950 264 9.5 1432 36.3 22.9 43.9
mouse_lean3
MetaGen 2 143 888 2793 4262 202 7.2 1671 39.2 23.2 38.7
MetaGeneAnnotator 4198 188 6.7 1593 37.9 22.3 42.8
C-3BA modeli ilə GeneMark.hmm 3971 195 7.0 1373 34.6 20.8 47.0
siçan_ob1
MetaGen 2 359 017 3051 4698 218 7.1 1865 39.7 23.4 38.8
MetaGeneAnnotator 4626 196 6.4 1771 38.3 22.4 43.2
C-3BA modeli ilə GeneMark.hmm 4432 213 7.0 1594 36.0 21.5 47.7
siçan_ob2
MetaGen 1 841 347 2331 3675 192 8.2 1536 41.8 25.0 37.2
MetaGeneAnnotator 3599 172 7.4 1440 40.0 23.7 42.8
C-3BA modeli ilə GeneMark.hmm 3444 176 7.6 1289 37.4 22.5 50.4
Metodlar. Mikrobiom ölçüsü (bp). Annotasiya edilmiş genlərin sayı. Proqnozlaşdırılan genlərin sayı. Buraxılmış genlərin sayı. Buraxılmış genlər (%) a . Yeni genlərin sayı. Yeni genlər (%) a . (Qaçırılmış + Roman)/2 (%) . nr (%) vuran yeni genlər.
human_sub7
MetaGen 15,817,685 20523 22 271 893 4.4 2641 11.9 8.1 34.6
MetaGeneAnnotator 22 164 755 3.7 2396 10.8 7.2 40.5
C-3BA modeli ilə GeneMark.hmm 21 941 730 3.6 2148 9.8 6.7 40.7
human_sub8
MetaGen 20 486 813 25 980 27 750 1223 4.7 2993 10.8 7.7 38.2
MetaGeneAnnotator 27 707 971 3.7 2698 9.7 6.7 41.7
C-3BA modeli ilə GeneMark.hmm 27 589 840 3.2 2449 8.9 6.1 45.3
siçan_yalın1
MetaGen 2 234 664 2935 4579 244 8.3 1888 41.2 24.8 40.6
MetaGeneAnnotator 4417 216 7.4 1698 38.4 22.9 44.0
C-3BA modeli ilə GeneMark.hmm 4279 236 8.0 1580 36.9 22.5 47.6
mouse_lean2
MetaGen 2 133 081 2782 4279 296 10.6 1793 41.9 26.3 32.1
MetaGeneAnnotator 4152 265 9.5 1635 39.4 24.5 35.7
C-3BA modeli ilə GeneMark.hmm 3950 264 9.5 1432 36.3 22.9 43.9
mouse_lean3
MetaGen 2 143 888 2793 4262 202 7.2 1671 39.2 23.2 38.7
MetaGeneAnnotator 4198 188 6.7 1593 37.9 22.3 42.8
C-3BA modeli ilə GeneMark.hmm 3971 195 7.0 1373 34.6 20.8 47.0
siçan_ob1
MetaGen 2 359 017 3051 4698 218 7.1 1865 39.7 23.4 38.8
MetaGeneAnnotator 4626 196 6.4 1771 38.3 22.4 43.2
C-3BA modeli ilə GeneMark.hmm 4432 213 7.0 1594 36.0 21.5 47.7
siçan_ob2
MetaGen 1 841 347 2331 3675 192 8.2 1536 41.8 25.0 37.2
MetaGeneAnnotator 3599 172 7.4 1440 40.0 23.7 42.8
C-3BA modeli ilə GeneMark.hmm 3444 176 7.6 1289 37.4 22.5 50.4

Qeyd edək ki, JGI IMG/M-də qeyd edilən genlərin ümumi sayı orijinal nəşrlərdə verilmiş genlərin sayından fərqlidir (19). Bunun səbəbi, JGI IMG/M-nin bir neçə gen tapma metodunun, yəni Critica, Glimmer və ZCURVE (38) kombinasiyasından ibarət YACOP-dan istifadə etdiyi halda, BLASTX və BLASTP-dən insan və siçan mikrobiomlarının metagenomik ardıcıllıqlarında genləri müəyyən etmək üçün orijinal nəşrlərdə istifadə edilmişdir. Annotasiya orijinal nəşrlərdə asanlıqla mövcud deyildi. a Faiz dəyərləri şərh edilmiş genlərin sayına görə hesablanır.

İnsan və siçan bağırsaq mikrobiomlarından metagenomik ardıcıllığın təhlilinin nəticələri. Annotasiya koordinatları JGI IMG/M verilənlər bazasından götürülüb ( 24 )

Metodlar. Mikrobiom ölçüsü (bp). Annotasiya edilmiş genlərin sayı. Proqnozlaşdırılan genlərin sayı. Buraxılmış genlərin sayı. Buraxılmış genlər (%) a . Yeni genlərin sayı. Yeni genlər (%) a . (Qaçırılmış + Roman)/2 (%) . nr (%) vuran yeni genlər.
human_sub7
MetaGen 15,817,685 20523 22 271 893 4.4 2641 11.9 8.1 34.6
MetaGeneAnnotator 22 164 755 3.7 2396 10.8 7.2 40.5
C-3BA modeli ilə GeneMark.hmm 21 941 730 3.6 2148 9.8 6.7 40.7
human_sub8
MetaGen 20 486 813 25 980 27 750 1223 4.7 2993 10.8 7.7 38.2
MetaGeneAnnotator 27 707 971 3.7 2698 9.7 6.7 41.7
C-3BA modeli ilə GeneMark.hmm 27 589 840 3.2 2449 8.9 6.1 45.3
siçan_yalın1
MetaGen 2 234 664 2935 4579 244 8.3 1888 41.2 24.8 40.6
MetaGeneAnnotator 4417 216 7.4 1698 38.4 22.9 44.0
C-3BA modeli ilə GeneMark.hmm 4279 236 8.0 1580 36.9 22.5 47.6
mouse_lean2
MetaGen 2 133 081 2782 4279 296 10.6 1793 41.9 26.3 32.1
MetaGeneAnnotator 4152 265 9.5 1635 39.4 24.5 35.7
C-3BA modeli ilə GeneMark.hmm 3950 264 9.5 1432 36.3 22.9 43.9
mouse_lean3
MetaGen 2 143 888 2793 4262 202 7.2 1671 39.2 23.2 38.7
MetaGeneAnnotator 4198 188 6.7 1593 37.9 22.3 42.8
C-3BA modeli ilə GeneMark.hmm 3971 195 7.0 1373 34.6 20.8 47.0
siçan_ob1
MetaGen 2 359 017 3051 4698 218 7.1 1865 39.7 23.4 38.8
MetaGeneAnnotator 4626 196 6.4 1771 38.3 22.4 43.2
C-3BA modeli ilə GeneMark.hmm 4432 213 7.0 1594 36.0 21.5 47.7
siçan_ob2
MetaGen 1 841 347 2331 3675 192 8.2 1536 41.8 25.0 37.2
MetaGeneAnnotator 3599 172 7.4 1440 40.0 23.7 42.8
C-3BA modeli ilə GeneMark.hmm 3444 176 7.6 1289 37.4 22.5 50.4
Metodlar. Mikrobiom ölçüsü (bp). Annotasiya edilmiş genlərin sayı. Proqnozlaşdırılan genlərin sayı. Buraxılmış genlərin sayı. Buraxılmış genlər (%) a . Yeni genlərin sayı. Yeni genlər (%) a . (Qaçırılmış + Roman)/2 (%) . nr (%) vuran yeni genlər.
human_sub7
MetaGen 15,817,685 20523 22 271 893 4.4 2641 11.9 8.1 34.6
MetaGeneAnnotator 22 164 755 3.7 2396 10.8 7.2 40.5
C-3BA modeli ilə GeneMark.hmm 21 941 730 3.6 2148 9.8 6.7 40.7
human_sub8
MetaGen 20 486 813 25 980 27 750 1223 4.7 2993 10.8 7.7 38.2
MetaGeneAnnotator 27 707 971 3.7 2698 9.7 6.7 41.7
C-3BA modeli ilə GeneMark.hmm 27 589 840 3.2 2449 8.9 6.1 45.3
siçan_yalın1
MetaGen 2 234 664 2935 4579 244 8.3 1888 41.2 24.8 40.6
MetaGeneAnnotator 4417 216 7.4 1698 38.4 22.9 44.0
C-3BA modeli ilə GeneMark.hmm 4279 236 8.0 1580 36.9 22.5 47.6
mouse_lean2
MetaGen 2 133 081 2782 4279 296 10.6 1793 41.9 26.3 32.1
MetaGeneAnnotator 4152 265 9.5 1635 39.4 24.5 35.7
C-3BA modeli ilə GeneMark.hmm 3950 264 9.5 1432 36.3 22.9 43.9
mouse_lean3
MetaGen 2 143 888 2793 4262 202 7.2 1671 39.2 23.2 38.7
MetaGeneAnnotator 4198 188 6.7 1593 37.9 22.3 42.8
C-3BA modeli ilə GeneMark.hmm 3971 195 7.0 1373 34.6 20.8 47.0
siçan_ob1
MetaGen 2 359 017 3051 4698 218 7.1 1865 39.7 23.4 38.8
MetaGeneAnnotator 4626 196 6.4 1771 38.3 22.4 43.2
C-3BA modeli ilə GeneMark.hmm 4432 213 7.0 1594 36.0 21.5 47.7
siçan_ob2
MetaGen 1 841 347 2331 3675 192 8.2 1536 41.8 25.0 37.2
MetaGeneAnnotator 3599 172 7.4 1440 40.0 23.7 42.8
C-3BA modeli ilə GeneMark.hmm 3444 176 7.6 1289 37.4 22.5 50.4

Qeyd edək ki, JGI IMG/M-də qeyd olunan genlərin ümumi sayı orijinal nəşrlərdə verilmiş genlərin sayından fərqlidir (19). Bunun səbəbi, JGI IMG/M-nin bir neçə gen tapma metodunun, yəni Critica, Glimmer və ZCURVE (38) kombinasiyasından ibarət YACOP-dan istifadə etdiyi halda, BLASTX və BLASTP-dən insan və siçan mikrobiomlarının metagenomik ardıcıllıqlarında genləri müəyyən etmək üçün orijinal nəşrlərdə istifadə edilmişdir. Annotasiya orijinal nəşrlərdə asanlıqla mövcud deyildi. a Faiz dəyərləri şərh edilmiş genlərin sayına görə hesablanır.

Gen proqnozlarının bütün dəsti ( http://exon.gatech.edu/GeneMark/metagenome/database ) ünvanında mövcuddur, o, həmçinin GBrowse proqramından istifadə edərək genom brauzerində vizuallaşdırılıb (35).

Veb interfeys və yükləmələr

Biz metagenomik ardıcıllıqlarda gen proqnozlaşdırılması üçün yeni proqrama çıxışı təmin edən veb sayt hazırlamışıq: http://exon.gatech.edu/GeneMark/metagenome. GeneMark.hmm-in Sargasso Dənizində 6-LBA modelləri ilə 1.045 GB ölçüsündə ətraf mühit nümunəsində işləmə müddəti 88 s idi. Proqram akademik istifadə üçün yükləmək üçün mövcuddur. İstinad məqsədləri üçün biz həmçinin təlim dəstində istifadə olunan genomlarda müşahidə olunan genom miqyaslı kodon tezliklərinin verilənlər bazasına interfeys təqdim etmişik.


Nəticələr

Burada nukleotidlərin, kodonların və amin turşularının gözlənilən kompozisiyalarını nəzəri olaraq kəmiyyətləndirən iki modeli təqdim etmişik, bunlar yalnız GC və purin tərkibinə (giriş ardıcıllığından asanlıqla hesablanır). Biz iki modeli həyatın üç sahəsi üzrə zülal kodlaşdırma ardıcıllığının böyük kolleksiyasında qiymətləndirdik. Nəticələrimiz göstərir ki, iki model ardıcıl gözlənilən kompozisiyaları verməyə qadirdir. Bundan əlavə, nəticələrimiz göstərir ki, gözlənilən kompozisiyalardan müşahidə edilən sapmalar mutasiya və seçim arasında mürəkkəb qarşılıqlı əlaqə nəticəsində yaranan imzalardır. Buna görə də, modellərimiz kompozisiya tədqiqatları üçün perspektivli nəzəri çərçivəni təmsil edir.


Nəticələr

Bütün zülallara yaş təyin edilməsi ProteinHistorian boru xəttinə əsaslanır [13]. Ən gənc, yetim qrupda yalnız (a) heç bir başqa genomda olmayan və (b) hər hansı digər eukaryotik zülal ilə heç bir Pfam-A domenini paylaşmayan zülallar mövcuddur. Növbəti qrupa, yetim cinsinə, yalnız bir cinsə xas olan zülallar daxildir. ProteinHisorian-a görə maksimum yaşı olan zülallar qədim kimi etiketlənir, qalanları aralıq kimi təsnif edilir.

S1 Cədvəlində hər növ üçün yaş təyini və sonradan yetimlər, yetim cinsləri, orta və qədimlər üzrə qruplaşdırılmasının xülasəsi göstərilir. Yetimlər və cins yetimlər verilənlər bazası aralıq zülalların hər biri 1% -dən azını təşkil edir - 15% və qədim zülallar - 84%

Bu nəticələr göstərir ki, əksər genomlar üçün biz yetimlərin sayına dair konservativ təxmin edirik və əvvəlki tədqiqatlara nisbətən daha az yetim tapırıq. Məsələn, in Saccharomyces cerevisiae 6466 zülaldan 16 yetim və 5 cins yetim müəyyən etdik. Müqayisə üçün, əvvəlki tədqiqatımızda biz 157 növə və 125 cinsə xas yetim [7], Vidal və iş yoldaşları isə 143 növə xas (ORFs) məlumat vermişdik.1) və 609 cinsə xüsusi (ORFs2−4) zülallar [33]. Eynilə, in Drosophila psevdoobscura biz əvvəllər bildirilən 228 ilə müqayisədə yalnız 6 yetim zülal müəyyən edə bildik [8]. Bu, hansı zülalların olduğunun dəqiq müəyyən edilməsini göstərir de novo yaradılmış çətin olaraq qalır və tədqiqata daxil edilən genomlardan asılıdır.

Lakin bu araşdırmada əsas məqsədimiz yetimlərin dəqiq sayını təxmin etmək deyil, müxtəlif yaşlarda olan zülalların xüsusiyyətlərini araşdırmaqdır. Buna görə də hesab edirik ki, bizim mühafizəkar təxminimiz fraksiyanı artırmaq üçün faydalıdır de novo ən gənc qruplarda zülallar yaratdı.

Funksional annotasiyalar

Sonra biz zülal dəstimiz üçün funksional sübutları təxmin etməyə başladıq, bunun üçün onların Gen Ontologiyası (GO) annotasiyasını araşdırdıq. Hər bir əsas GO kateqoriyası (proses, funksiya və komponent) üçün UniProt-da ən azı bir GO termini ilə qeyd olunan zülalların fraksiyasını hesabladıq. Bundan əlavə, ən azı bir eksperimental olaraq təsdiqlənmiş GO annotasiyası olan zülalların hissəsini hesabladıq, Cədvəl 1.


GC nisbətləri və kodlaşdırma ardıcıllığı

Genomik ardıcıllığın uzun bir bölgəsində genlər çox vaxt bütün genom üçün fondakı GC məzmunundan fərqli olaraq daha yüksək GC məzmununa malik olması ilə xarakterizə olunur. Bir genin kodlaşdırma bölgəsinin uzunluğu ilə GC nisbətinin sübutu, kodlaşdırma ardıcıllığının uzunluğunun daha yüksək G+C məzmunu ilə birbaşa mütənasib olduğunu göstərdi. [14] Bu, dayanma kodonunun A və T nukleotidlərinə meylli olduğuna işarə edilmişdir və beləliklə, ardıcıllıq nə qədər qısa olarsa, AT meyli bir o qədər yüksəkdir. [15]


GC nisbətləri və kodlaşdırma ardıcıllığı

Genomik ardıcıllığın uzun bir bölgəsində genlər çox vaxt bütün genom üçün fon GC məzmunundan fərqli olaraq daha yüksək GC məzmununa malik olmaqla xarakterizə olunur. Bir genin kodlaşdırma bölgəsinin uzunluğu ilə GC nisbətinin sübutu, kodlaşdırma ardıcıllığının uzunluğunun daha yüksək G+C məzmunu ilə düz mütənasib olduğunu göstərdi ⎙] . Bu, dayanma kodonunun A və T nukleotidlərinə meylli olduğuna işarə edildi və beləliklə, AT meylindən yüksək olan ardıcıllığın qısalması ⎚] .


Sistematikada tətbiqi

GC tərkibinin müxtəlif orqanizmlərdə dəyişkən olduğu aşkar edilmişdir, bu prosesə seçimdə variasiya, mutasiya meyli və qərəzli rekombinasiya ilə əlaqəli DNT təmiri ilə töhfə verməsi nəzərdə tutulur. ⎜] Prokaryotik taksonomiyadakı növ problemi bakteriyaların təsnifatında müxtəlif təkliflərə səbəb oldu və bakterial sistematikaya yanaşmaların uzlaşdırılması üzrə ad hoc komitə daha yüksək səviyyəli iyerarxik təsnifatda GC nisbətlərinin istifadəsini tövsiyə etmişdir. ⎝] Məsələn, Aktinobakteriyalar “yüksək GC tərkibli bakteriyalar” kimi xarakterizə olunur. ⎞] In Streptomyces coelicolor A3(2), GC məzmunu 72% təşkil edir. ⎟] Mayanın GC məzmunu (Saccharomyces cerevisiae) 38%, ⎠] və digər ümumi model orqanizm Thale Cress (Arabidopsis thaliana), 36% təşkil edir. ⎡] Genetik kodun təbiətinə görə, bir orqanizmin 0% və ya 100%-ə yaxınlaşan GC məzmunlu genomuna sahib olması faktiki olaraq mümkün deyil. Son dərəcə aşağı GC məzmunu olan bir növdür Plasmodium falciparum (GC% =

20%), ⎢] və adətən GC-yoxsul əvəzinə AT-zəngin kimi nümunələrə istinad etmək adi haldır. ⎣]


Videoya baxın: Kod - Kodon- Antikodon - Hesaplama Soruları (Noyabr 2022).