Məlumat

PolyA quyruqları İfadə edilmiş Ardıcıllıq Teqləri daxilində ola bilərmi?

PolyA quyruqları İfadə edilmiş Ardıcıllıq Teqləri daxilində ola bilərmi?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

PolyA quyruqları ardıcıl etiketin içərisində (sonunda deyil) baş verə bilərmi? Məsələn, NCBI-dən aşağıdakı iki ardıcıllığı nəzərdən keçirin: DY008075

> Gi | 119423037 | gb | DY008075.1 | DY008075 19ACACYS_UP_022_A11_29OCT2004_095 Brassica napus 19ACACYS Brassica napus cDNA 5 ', mRNA ardıcıllıqla TGGTACGGTCAGATGCTTGCTAAAGGAGAAATAAATAGAGACATGGGTGATAGTATAAGCGGAAAGGGAA TGATTCAGGGTGTTTCTGCAGTGGGAGCGTTTTACCAACTGCTTAGTCAGTCCAGCCTAAGTATATTGCA TTCTGAAGAGAAGAAACCTGTGGCTCCGGTTGAATCATGTCCTATTTTGAAAACACTCTACAAGATACTC ATCACAAGAGAACAATCAACACAAGCGATTCTGCAAGCATTAAGGGATGAAACACTGAATGACCCAAGAG ACAGGATTGAGATTGCACAGAGCCATGCATTCTACAGGCCTTCCCTTCTAGATCAGCCTTGATTAGTCTG TCATGGCTCATAATCCGAACTTCTAAGATCTTACTTGTGCAAACTGCAGATTCTGCTATGTTAAACATCA TGTCTTAAAATTGATTGTTGTTCAGCCAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACATGTC

və ya EE485195

> Gi | 126492146 | gb | EE485195.1 | EE485195 DHBN8DCT_UP_012_C05_25FEB2005_043 Brassica NAPUS SEEDS BNDH8DCT Brassica napus cDNA 5 ', mRNA ardıcıllıqla GTTACAGCTGGTTGAGAACAGTGACAATTCCCGGTTGAGCAAAGAAATTGCAGACAAGAGCCACCAACTA AGGCAAATGAGAGGAGAGGAACTTCAAGGACTTAACATAGAAGAGCTGCAACAGCTGGAAAAGGCCCTTG AAGCTGGTTTGACGCGCGTGATTGAAACAAAGAGTGAGAAGATTATGAGTGAGATCAGTGACCTTCAAAG AAAGGGAATGAAATTGATGGATGAGAACAAGCGGCTAAGGCAGCATGGAACACAACTAACAGAAGAGAAC GAGCGACTAGGCAAGCAAATATATAATAATATGCATGAAAGATACGGTGGTGTTGAGTCGGAGAAGACCG CCGTGTACGAGGAAGGGCAGTCGTCAGAGTCCATTACTAACGCCGGAAACTCCACCGGCGCTCCTGTTGA CTCCGAGAGCTCCGATACCTCTCTTAGGCTCGGCTTACCGTATGGCGGTTAGAGATGGAACCATACAAAG AAGTTCATGGAGTGAGGAGATGCTCTGTAGTAACAAGTGGCAATGTAGTAATTTCTCTTGTTTGATGTAA GTTTTTGTCTGAGGAAGAGGTTTTCCTTTTATGTTCTCTTTGATATTATTATCTTTCTTCACTGCAAAAA AAAAAAAAAAAAAAAAAAAAAAAACATGTC

Mənə elə gəlir ki, sondakı hər iki polyA ardıcıllığı polilizinlər üçün faktiki kodlaşdırmadan daha çox bir növ quyruqdur. Ardıcıllıqlardan hər hansı birini partlatsaq, polyA hissəsi heç bir etibarlı nukleotid və ya zülalla (yəni, NCBI-nin lazımsız verilənlər bazası ilə) uyğunlaşmır. Mən daha çox misal verə bilərəm və onların nr-Sequences-ə ən yaxşı uyğunlaşmalarını göstərə bilərəm, lakin bu sualı çox uzatacaq.

Xaç SeqAnswers-a göndərildi.


Poli A quyruğunun sonundakı CATGTC ardıcıllığı orijinal cDNA kitabxanasının qurulmasında istifadə olunan metodun artefaktıdır.

https://www.ncbi.nlm.nih.gov/nucest/EE485195.1-ə əsasən, bu EST Clontech vektor pDNR-LIB-də qurulmuş kitabxanadan gəlir.

Clontech SMART cDNA klonlama sistemi təlimatları buradan əlaqələndirilir və ümumi təlimat 1-ci zəncir sintezi üçün primerin istifadəsini təsvir edir:

CDS III/3' PCR Primer 5'-ATTCTAGAGGCCGAGGCGGCCGACATG-d(T)30N.-1N-3'

(N = A, G, C və ya T; N-1 = A, G və ya C)

Əgər primerə diqqətlə baxsanız, mRNT-nin poli-A quyruğuna bağlanmaq üçün nəzərdə tutulmuş oliqo dT hissəsinin əvvəlində GACATG ardıcıllığı və bəzi ağıllı klonlaşdırma strategiyasında istifadə edilən SfiI saytı olduğunu görəcəksiniz. tam başa düşmürəm. Ancaq aydın olan odur ki, bu primerin istifadəsi cDNA-da poli A-dan dərhal sonra CATGTC-ni qoyacaqdır:

… SfiI… 5'-ATTCTAGAGGCCGAGGCGGCCGACATGTTTTTTTTTTTTTTTTT… TAAGATCTCCGGCTCCGCCGGCTGTACAAAAAAAAAAAAAAAAA… 5' >>> alt ipi çevirmək - 5'… AAAAAAACATGTC

Böyürtkən (RubusL.) sadə ardıcıllığın təkrar markerlərinin inkişafı üçün ifadə edilmiş ardıcıllıq etiketi kitabxanası

Yeni təkrar meyvə verən böyürtkən növlərinin son inkişafı (Rubus L.) sortları, böyürtkən yetişdiriciləri tərəfindən tikansızlıq üçün morfoloji markerlə seçimin uzun tarixi ilə birləşərək böyürtkən yetişdirilməsini asanlaşdırmaq üçün molekulyar markerlərdən istifadəyə marağın artmasına səbəb olmuşdur. Yenə də heç bir genetik xəritə, molekulyar markerlər və ya hətta becərilən böyürtkən üçün xüsusi ardıcıllıq mövcud deyil. Bu tədqiqatın məqsədi ilk böyürtkən ifadəli ardıcıllıq etiketi (EST) kitabxanasını yaratmaq və şərh etmək, sadə ardıcıllıq təkrarlarını (SSR) ehtiva edən bölgələri gücləndirmək üçün EST-lərdən primerlərin layihələndirilməsi və alt çoxluğun faydalılığını sınaqdan keçirməklə bu vasitələrin inkişafına başlamaqdır. iki böyürtkən sortlu EST-SSR-lərin.

Nəticələr

18,432 klondan ibarət cDNT kitabxanası bir çox tikansız kommersiya sortlarının əcdadı olan Merton Thornless sortunun genişlənən yarpaq toxumasından yaradılmışdır. Annotasiya edilmiş 3000 gen arasında ən çox ifadə olunanlar enerji, hüceyrə quruluşu və müdafiə ilə məşğul olanlardır. SSR-ləri ehtiva edən fərdi ardıcıllıqlardan 673 primer cütü hazırlanmışdır. İki böyürtkən çeşidi ilə sınaqdan keçirilmiş təsadüfi seçilmiş 33 primer cütündən 10-u orta hesabla 1,9 polimorfik PCR məhsulu aşkar etmişdir.

Nəticə

Bu nisbət, bu kitabxananın 1786 polimorfizmi aşkar edən 940 SSR primer cütü verə biləcəyini proqnozlaşdırır. Bu, molekulyar markerləri fenotipik əlamətlərlə əlaqələndirmək üçün istifadə oluna bilən genetik xəritə yaratmaq üçün kifayət ola bilər ki, bu da böyürtkəndə mövcud morfoloji markerin köməyi ilə yetişdirilməsini tərifləmək üçün molekulyar markerin köməyi ilə yetişdirilməsini mümkün edir.


Mücərrəd

İfadə edilmiş ardıcıllıq etiketləri (EST) müxtəlif genomların zülal kodlayan hissələrini xarakterizə etmək üçün dominant yanaşma olaraq qalır. Xas olan çatışmazlıqlara görə, onlar həmçinin məlumatların keyfiyyətinə nəzarət üçün ciddi problemlər yaradırlar. GenBank təqdim etməzdən əvvəl EST ardıcıllıqları adətən vektor və adapter/bağlayıcı ardıcıllıqlardan, həmçinin polyA/T quyruqlarından yoxlanılır və kəsilir. Bu ardıcıllığın silinməsi xətaya meyilli EST-lərin məlumatların yoxlanılmasına maneə yaradır və aşkarlanması transkripsiyadan sonra əlavə edilmiş polyA quyruqları üçün mövqe məlumatının dəqiq annotasiyasına əsaslanan müəyyən funksional motivlərin verilənlərin öyrənilməsinə mane olur. Xam DNT ardıcıllığı məlumatları NCBI İz Arxivi kimi ictimai depolardan getdikcə daha çox əlçatan edildiyi üçün bu məlumatları yeni məlumat üçün yenidən təhlil etmək və mənimsəmək üçün yeni alətlər lazım olacaq. WebTraceMiner (www.conifergdb.org/software/wtm) cDNA əlavələrinin 3 və 5 ucunu xarakterizə etməyə kömək edən ardıcıllıq xüsusiyyətlərinin aşkarlanması və mədənləşdirilməsinə diqqət yetirməklə, xam EST izləri üçün ictimai ardıcıllığın emal xidməti kimi hazırlanmışdır. vektor fraqmentləri, adapter/bağlayıcı ardıcıllıqlar, insert-flanking məhdudlaşdırıcı endonükleaza tanınma sahələri və polyA və ya polyT quyruqları daxil olmaqla. WebTraceMiner digər ictimai EST resurslarını tamamlayır və məlumatların yoxlanılmasını və səhvə meyilli EST-lərin (məsələn, yeni funksional motivlərin kəşfi) əldə edilməsini asanlaşdırmaq üçün unikal alət olduğunu sübut etməlidir.


Nəticələr

Dəqiq poli(A) quyruq analizi üçün PAIso−seq

Illumina NGS platformasında poli(A) quyruqlarının təhlilində mövcud üsullar uzun homopolimer ardıcıllıqlarını idarə edə bilməməsi ilə məhdudlaşır. TAIL-seq və PAL-seq, poli(T) uzunluğunu saymaq üçün alternativ poli(T) uzunluqlu çağırış alqoritmindən və ya ardıcıllıq reseptindən istifadə etdi, eyni zamanda, RNT poli(A) quyruqlarında qeyri-A qalıqlarını çağırmaq qabiliyyətini itirdi. çox 3′ son 1,8 . Bundan əlavə, onlar nadir in vivo və ya xəstə nümunələri üçün mümkün olmayan mikroqram RNT daxiletmə səviyyəsini tələb edirlər. PacBio üçüncü nəsil ardıcıllığının hazırkı inkişafı real vaxt rejimində tək molekullu ardıcıllıqla homopolimerləri oxumağa imkan verir. Bundan əlavə, ardıcıllıq kitabxanalarında ardıcıllıq şablonlarının dövrələnməsi, 19 oxunan konsensus ardıcıllığına dəqiq zəng etmək üçün bir şablonun çoxsaylı keçidlərinin ardıcıllığına imkan verir. Buna görə də, PacBio üçüncü nəsil ardıcıllıq platforması RNT poli(A) quyruqlarının uzunluğunu və tərkibini dəqiq təhlil etmək üçün ən yaxşı seçim ola bilər.

Düşünürük ki, əks transkripsiya zamanı poli(A) məlumatını qoruya bilsək, PacBio ardıcıllığından istifadə edərək RNT poli(A) məlumatını dəqiq təhlil edə biləcəyik. Uzun poli(A) quyruğuna meyli azaltmaq üçün biz həmçinin poli(T) zənginləşdirmə addımından qaçmaq istəyirik. Buna görə də, biz 5′ ucunda şablon dəyişdirən oliqo (TSO) ardıcıllığının mənfi üçlü G əsasları və 5′-dUTTTTTTTdUTTTTTTT-3′ ardıcıllığı olan adapter ardıcıllığını ehtiva edən bələdçi primerlə poli(A) + RNT-nin son uzantısını seçirik. 3′ poli(A) + RNT-lərin sonuna qədər bağlana bilən uc (Şəkil 1a və Əlavə Cədvəl 1). Son uzadılmadan sonra bələdçi primer aşağıdakı tərs transkripsiya addımında RT primeri kimi bələdçi primerdən qaçmaq üçün primerin içərisindəki iki dU qalıqlarında parçalanan USER fermenti ilə həzm yolu ilə çıxarıldı (Şəkil 1a). Əks transkripsiya və şablon keçidi TSO ardıcıllığına uyğun gələn primerin mənfi üçlü G əsasları və sonunda üçlü G olan TSO iştirakı ilə həyata keçirilmişdir (Şəkil 1a). Sonra cDNA tək TSO oliqosu mənfi üçlü G ilə gücləndirildi ki, SMRTbell adapterinin bağlanması üçün kifayət qədər cDNA hazırlandı (Şəkil 1a). Adapterin bağlanmasından sonra poli(A) quyruğu olan dairəvi tam uzunluqlu cDNA kitabxanası PacBio platformasında ardıcıl olaraq CCS oxunuşunu dəqiq adlandırmaq üçün bir molekulun 200-ə qədər keçidinə malik ola bilən 45 kb-a qədər uzun polimeraza oxunuşları yaratmaq üçün ardıcıllıqla yerləşdirildi. bir neçə dəfə ardıcıllaşdırılmış poli(A) quyruğu da daxil olmaqla tək tam uzunluqlu cDNT ardıcıllığını təmsil edir. CCS oxunan keçidlərin sayı tək cDNA ardıcıllığının neçə dəfə ardıcıl olduğunu göstərir (Şəkil 1a). Şablonlu son genişləndirmə və tərs transkripsiya və şablon keçidi həm yüksək səmərəlidir, buna görə də bu üsul çox həssas ola bilər.

PAIso-seq-in prinsipi və təsdiqi. a PAIso−seq metodunun dizaynı üçün axın sxemi. Metodun əsas addımlarına son genişləndirmə, şablon keçidi, tam uzunluqlu cDNA gücləndirilməsi, dairəvi adapter bağlaması və PacBio ardıcıllığı daxildir. b Poli(A) spike-in strukturu (üst panel) və agaroz gel analizi (orta panel). PAIso−seq (alt panel) ilə ölçülən hər bir sünbülün orta poli(A) quyruğu uzunluğu. Mənbə məlumatları Mənbə Məlumat faylı kimi təqdim olunur. c Poli(A) quyruğu uzunluqları Dnmt1, Btg4, və Plat GV oositlərində PAIso−seq (verilmiş genlərin aşkar edilmiş CCS oxunuşlarının poli(A) quyruq uzunluğunun sıxlıq qrafiki, üç təkrar, sol panel) və fraqment analizatorunda kapilyar elektroforezdən istifadə etməklə PAT analizi (üç təkrarın ortası, sağda) ilə ölçülən GV oositlərində panel). PAIso−seq ilə ölçülən hər bir gen poli(A) quyruğunun orta uzunluğu göstərilir. İstifadə olunan CCS oxunuşlarının sayı 141 (Dnmt1/GV rep.1), 249 (Dnmt1/GV rep.2) və 165 (Dnmt1/SCGV com.) 164 (Btg4/GV rep.1), 521 (Btg4/GV rep.2) və 357 (Btg4/SCGV com.) 136 (Plat/GV rep.1), 277 (Plat/GV rep.2) və 207 (Plat/SCGV com.). Poli(A) quyruqlarının orta uzunluğu 74 nt (Dnmt1), 44 nt (Btg4) və 45 nt (Plat) PAT analizi ilə ölçülür. RFU, nisbi floresan vahidləri.

Bu metoddan istifadə edərək, PAIso−seq istifadə edərək, siçan GV oosit nümunələrinin iki müstəqil bioloji replikasından iki tam uzunluqlu poli(A) + cDNA kitabxanasını ardıcıllıqla sıraladıq. Hər bir xəritələşdirilə bilən CCS oxunması aşkar edilmiş transkript kimi qəbul edilir. CCS-ləri siçan genomuna uyğunlaşdırdıqdan sonra (GRCm38 quruluşu), birinci kitabxanada 79,994 transkript, digər kitabxanada isə 227,902 transkript var (Əlavə Şəkil 1a). Bundan əlavə, biz metodun 15 tək GV oosit ardıcıllığı ilə tək hüceyrəli analiz üçün istifadə oluna biləcəyini yoxladıq (ətraflı məlumat üçün aşağıya baxın). Tək hüceyrələr üçün bütün məlumatları cəmi 191.023 transkriptdən ibarət üçüncü bioloji replikat kimi birləşdirdik (Əlavə Şəkil 1a). Hər üç təkrarı birləşdirərkən, GV oosit məlumat dəsti ən azı bir transkripti olan 11538 geni və ən azı üç transkripti olan 8281 geni əhatə edir (Əlavə Şəkil 1b).

PAIso−seq-in poli(A) quyruqlarının uzunluğunu dəqiq qiymətləndirə bilib-bilmədiyini yoxlamaq üçün biz müəyyən edilmiş poli(A) quyruq uzunluqları müvafiq olaraq 10, 30, 50, 70 və 100 nt olan ştrix kodlu sintetik cDNA hovuzuna daxil oluruq. , əks transkripsiya edilmiş cDNT nümunəsinə (Əlavə Şəkil 2a). Ardıcıllıqdan sonra biz gözlənilən uzunluğa çox yaxın olan 10, 28, 48, 67 və 97 nt orta quyruq uzunluğunu müşahidə etdik (Şəkil 1b), metodumuzun poli(A) quyruq uzunluğunu dəqiq qiymətləndirə biləcəyini nümayiş etdirdik. . GV oosit nümunəsi üçün bunu görə bilərik Dnmt1 nisbətən uzun poli(A) quyruğu var, halbuki Btg4Plat nisbətən qısa poli(A) quyruğuna malikdir və bu, ümumiyyətlə, bu genlər üçün poli(A) uzunluq testinin (PAT) təhlilinin (“Metodlar” bölməsinə baxın) nəticələrinə uyğundur (Şəkil 1c). Buna görə də, PAIso−seq-dən poli(A) quyruq uzunluğu həm spike-in standartları, həm də ardıcıllıqdan asılı olmayan üsulla yoxlanıla bilər və bu metodun poli(A) quyruq uzunluğunu qiymətləndirmək qabiliyyətini təsdiqləyir.

PAIso−seq yaxşı təkrarlanma qabiliyyətinə malikdir

PAIso-seq-in təkrar istehsal qabiliyyətini təhlil etmək üçün əvvəlcə transkriptomu yaxşı tuta biləcəyimizi müqayisə etdik. Görə bilərik ki, gen başına normallaşdırılmış oxunma sayları hər bir replikat arasında yaxşı korrelyasiya göstərir (Əlavə Şəkil 3). Transkript və gen başına poli(A) quyruq uzunluğunun qlobal paylanma nümunələri hər bir replikat arasında oxşardır (Şəkil 2a, b). Üstəlik, hər bir gen üçün poli(A) quyruq uzunluğu replikatlar arasında yüksək dərəcədə təkrarlanır (Şəkil 2c). GV oositlərindəki poli(A) quyruq uzunluğu əvvəllər maksimum aşkarlama həddi 79 nt 10 olan TAIL-seq istifadə edilməklə xəritələnmişdir. TAIL-seq və PAIso−seq (Şəkil 2d) ilə təyin olunan poly(A) quyruq uzunluğu arasında yaxşı korrelyasiya olduğunu görə bilərik ki, bu da poli(A) quyruq uzunluğunun müəyyən edilməsində PAIso−seq performansını daha da təsdiqləyir. PAIso−seq-in aşkar xüsusiyyəti ondan ibarətdir ki, onun aşkarlanması üçün açıq-aşkar yuxarı həddi yoxdur. Poli(A) quyruğu adətən 250 nt-dən çox olmayan uzunluqda hesab olunur, bu zaman ferment artıq CPSF-yə (parçalanma və poliadenilləşmə spesifiklik faktoru) bağlana bilmir və poliadenilləşmə dayanır 20,21 . Ayrı-ayrı poli(A) quyruğuna nəzər saldıqda, təxminən 0,4% (1,100/297,868) poli(A) quyruqlarının 200 nt-dən uzun və 0,1% (207/297,868) 260 nt-dən uzun olduğunu gördük. Uzun quyruqlu transkriptlərin sayı az olsa da, onlar çox güman ki, realdır, çünki bəzi genlər üçün biz ardıcıl olaraq üç müstəqil təkrardan uzun quyruqlu transkriptləri aşkar edə bilərik (Əlavə Cədvəl 4). Gələcəkdə əvvəlki üsullarla müəyyən edilə bilməyən bu uzun poli(A) quyruqların funksiyası və tənzimlənməsinin təhlili maraqlı olacaq.

PAIso−seq poli(A) daxil olmaqla transkriptləri çəkir. a GV oositlərində bütün transkriptlərin (CCS) poli(A) quyruq uzunluqlarının qlobal paylanması. Hər bir təkrar üçün CCS oxuduğu orta poli(A) quyruq uzunluğu göstərilir. b Bütün genlərin poli(A) quyruq uzunluqlarının paylanması. Hər replikat üçün genlərin orta poli(A) quyruq uzunluğunun medianı (ən azı üç CCS ilə) göstərilir. c GV oositlərinin üç təkrarı arasında genin korrelyasiyası (hər bir replikada on CCS-dən az olmamaqla) poli(A) quyruq uzunluğu. Mavi xətt xətti reqressiya xəttini təmsil edir. Açıq-boz sahə reqressiyanın etibarlılıq intervalını təmsil edir. n = 1179 (sol panel), n = 1120 (orta panel) və n = 1992 (sağ panel). RsəhRs Pearson və Spearman korrelyasiya əmsalına istinad edin. d PAIso-seq (bu tədqiqat) və TAIL-seq 10 ilə ölçülən GV oositlərində gen poli(A) quyruq uzunluğu arasında korrelyasiya. Mavi xətt xətti reqressiya xəttini təmsil edir. Açıq-boz sahə reqressiyanın etibarlılıq intervalını təmsil edir. PAIso−seq-də ən azı 10 oxunuş və TAIL-seq verilənlər bazasında 30 teq olan genlər analizə daxil edilir (n = 1662). RsəhRs Pearson və Spearman korrelyasiya əmsalına istinad edin. e Poli(A) quyruqlarının paylanması 200 nt-dən uzundur. Çubuğun üstündəki nömrə verilmiş poli(A) quyruq uzunluğu ilə CCS oxunuşlarının sayını göstərir.

İzoforma spesifik poliadenilləşmə

mRNA-ların alternativ poliadenilləşməsinin (APA) siçan oositinin yetişməsi 22 daxil olmaqla bir çox bioloji proseslərdə əhəmiyyətli rol oynadığı göstərilmişdir. Bizim metodumuz poli(A) quyruqlarının tam məlumatı ilə tam uzunluqlu cDNT ardıcıllıqlarını əldə etməyə imkan verir. Buna görə də, APA və alternativ splicing daxil olmaqla, hər bir gendən müxtəlif mRNT izoformlarının poli(A) quyruqlarını təhlil etmək mümkündür. GV oosit PAIso−seq məlumatlarından istifadə etməklə biz GV oosit transkriptlərinin poliadenilləşmə yerlərini birbaşa və dəqiq şəkildə xəritəyə ala bilərik. Ensembl siçan genomu annotasiyasındakı (mm10, versiya 92) şərhli poli(A) saytları ilə müqayisə etdikdə iki poliadenilləşmə yeri (1 APA saytı) olan 3511 gen, üç poliadenilləşmə yeri (2 APA) olan 762 gen və 220 gen müəyyən etdik. üçdən çox poliadenilləşmə yeri (≥3 APA saytı) ilə (Şəkil 3a). Bu saytlar annotasiya edilmiş RNT poliadenilasiya yerləri ilə yaxşı üst-üstə düşür (Şəkil 3a). Fərqli izoformaların müxtəlif poli(A) quyruğu ola bilər. Məsələn, tapdıq Ccnb1 üç müxtəlif ölçüdə 3′-UTR ilə nəticələnən üç fərqli poliadenilasiya yeri olan transkriptlər. Aydındır ki, Ccnb1 transkript APA1 və APA2 izoformları oxşar uzunluqlu poli(A) quyruğuna malikdir, APA3 izoformu isə GV oositlərində xeyli uzun poli(A) quyruğudur (Şəkil 3b). Bu, əvvəlki araşdırma ilə uyğundur Ccnb1 poli(A) oosit inkişafının fərqli mərhələsində quyruq uzunluğu 22 . Başqa bir misal olaraq, tapdıq ki Wee2, meyotik həbsin saxlanması üçün zəruri olan əsas MPF (yetişmə (M-faza)-təşviq edən amil) inhibitor kinaz 23, əhəmiyyətli dərəcədə fərqli poli(A) quyruq uzunluğuna malik iki fərqli APA izoformuna malikdir (Şəkil 3b).

PAIso−seq izoforma xas poli(A) quyruğunu aşkar etməyə imkan verir. a Alternativ poliadenilasiya (APA) hadisələri (sol panel) GV oositlərində PAIso−seq tərəfindən aşkar edilmiş və istinad poli(A) sahəsi (sağ panel) ilə müqayisə edilmiş 45 . b İki ana geni, Ccnb1 (üç poliadenilləşmə yeri ilə, səh = 0,0067 APA2 və APA3 arasında) və Wee2 (iki poliadenilləşmə yeri ilə, səh = 3.9e − 12 iki APA arasında) APA izoformuna xas poli(A) quyruğu ilə. APA izoformalarının sayı APA modelinin sağında göstərilir. Müxtəlif poliadenilləşmə yerlərinin izoformlarından poli(A) quyruqlarının orta uzunluğu qrafikdə göstərilmişdir. The səh dəyər qoşalaşmamış və ikitərəfli Tələbə ilə hesablanmışdır t test. İstifadə olunan CCS oxunuşlarının sayı 194 (Ccnb1/APA1), 70 (Ccnb1/APA2) və 50 (Ccnb1/APA3) 53 (Wee2/APA1) və 132 (Wee2/APA2). c Müxtəlif alternativ splicing izoformaları Tcl1 mRNA müxtəlif uzunluqlu poli(A) quyruğuna malikdir. Gen modeli və tutulan izoformları (yuxarı). Tcl1. Aşkar edilmiş izoformların sayı sağda göstərilir. Aşkar edilmiş izoformaların poli(A) quyruq uzunluğu aşağıda göstərilmişdir. Hər bir izoform poli(A) quyruğunun orta uzunluğu göstərilir. səh a və c izoforması arasında = 0,03791 səh b və c izoforması arasında = 0,014. The səh dəyər qoşalaşmamış və ikitərəfli Tələbə ilə hesablanmışdır t test. İstifadə olunan CCS oxunuşlarının sayı 242 (izoforma a), 14 (izoforma b), 7 (izoforma c) və 8 (izoforma e).

APA-ya əlavə olaraq, PAIso−seq poli(A) məlumatı ilə birlikdə tam RNT izoformalarının aşkarlanmasına da imkan verir. Həqiqətən, biz görürük ki, müxtəlif alternativ olaraq birləşdirilmiş izoformaların müxtəlif uzunluqlu poli(A) quyruğu ola bilər. Misal üçün, Tcl1 beş müxtəlif izoforma ilə şərh edilmişdir, onlardan dördünü PAIso-seq-də GV oositlərində müxtəlif uzunluqlu poli(A) quyruqları ilə aşkar etdik (Şəkil 3b). Bu nəticələr göstərir ki, PAIso−seq izoforma spesifik poli(A) quyruqlarının öyrənilməsinə imkan verən güclü alətdir.

Siçan GV oositlərində tərcümə ilə quyruq uzunluğunun əlaqəsi

Oositlərin və çox erkən mərhələdə olan embrionların inkişafında, o cümlədən oositlərin yetişməsi zamanı mRNT və zülalın saxlanması, zigotik genomun aktivləşdirilməsi və erkən embrionlarda ananın mRNT/zülal klirensi də daxil olmaqla bir çox mühüm hadisələr baş verir. Bu proseslər oogenez zamanı tədricən toplanan oositdə saxlanılan mRNT və zülallardan çox asılıdır. Poli(A) quyruq uzunluğu ilə bir neçə mRNA-nın translational nəzarəti siçan oositlərində nümayiş etdirilmişdir 5,14,16. Bununla belə, bunun həqiqi transkriptom geniş olub-olmadığı məlum deyil. Wang və başqaları. 24 əvvəllər siçan GV oositlərinin proteomu bildirildi. GV oositlərinin zülal profilinə əsaslanaraq, biz ananın transkriptlərini iki kateqoriyaya ayırdıq: biri aşağı zülal bolluğu (1184 gen, CCS ≥10, kütlə-spesifik analizdə aşkar edilməyib), digəri yüksək protein bolluğu ( 2669 gen, CCS ≥10, kütləvi spesifik analizdə aşkar edilmişdir) (Şəkil 4a). Bu iki kateqoriyanın poli(A) quyruq uzunluğunu müqayisə edərək, yüksək zülal bolluğu qrupunun orta poli(A) quyruğu uzunluğunun 62 nt olduğunu, bu da 56 nt-də aşağı protein bolluğu qrupundan əhəmiyyətli dərəcədə uzun olduğunu gördük. Şəkil 4a). Poli(A) quyruğunun uzunluğu ilə zülal səviyyəsi arasındakı müsbət korrelyasiya onu göstərir ki, daha uzun poli(A) quyruğu siçan GV oositlərində tərcüməni təşviq edir. KEGG (Kyoto Genlər və Genomlar Ensiklopediyası) yolunun təhlili ilə biz aşkar etdik ki, yüksək protein bolluğu qrupu genləri GV oositlərinin davamlı funksionallığı ilə, məsələn, endoplazmatik retikulumda proteazom və zülal emalı ilə, aşağı protein bolluğu qrupu genləri isə Hüceyrə dövrü və oosit meiozu kimi GV oositlərinin iradəli funksionallığı (Şəkil 4b). Buna görə də, yüksək zülal bolluğu qrup genlərinin transkriptlərinin hazırda effektiv tərcümə üçün daha uzun poli(A) quyruğuna malik olduğunu, aşağı zülal bolluğu qrup genlərinin transkriptlərinin isə hazırda saxlanmaq üçün daha qısa poli(A) quyruğu olduğunu göstərir. Məsələn, mRNA-ları Dnmt1, Tle6, Npm2, və Zp225,26,27,28 GV oositlərində aktiv şəkildə tərcümə olunduğu göstərilmişdir, poli(A) quyruq uzunluğu 60 nt-dən uzundur (Şəkil 4c). Əksinə, Btg4, Cnot7, Cnot6l, və PlatGV oositlərində 5,14,29 aşağı protein səviyyələri ilə hərəkətsiz ana mRNA-ları kimi yaxşı tanınan , poli(A) quyruq uzunluğu 60 nt-dən qısadır (Şəkil 4c). Bu transkriptlər inkişafın sonrakı mərhələlərində effektiv tərcümə üçün daha çox poliadenilləşdiriləcək 5,14,16,30,31.

Poli (A) quyruğunun uzunluğu protein səviyyəsi ilə müsbət əlaqələndirilir. a Aşağı protein bolluğu və yüksək zülal bolluğu genlərinin poli(A) quyruq uzunluğu paylanması üçün skripka planı (ən azı on aşkar edilmiş transkripti olan genlər təhlilə daxil edilir). İki nöqtəli xətt aşağı protein bolluğu genlərinin (çəhrayı) və yüksək zülal bolluğu genlərinin (açıq mavi) poli(A) quyruqlarının orta uzunluqlarını təmsil edir. The səh dəyər qoşalaşmamış və ikitərəfli Tələbə ilə hesablanmışdır t test. b KEGG yolu analizi ilə yüksək protein bolluğu genində və aşağı protein bolluğu gen qruplarında genlərin funksional təsnifatı (səh dəyər kəsimi = 0.05). The səh qiymət hiperhəndəsi testlə hesablanır. c Dörd yüksək protein bolluğu genləri üçün Poly(A) quyruq uzunluğu paylanması (Dnmt1, Tle6, Npm2, və Zp2, cyan) və dörd aşağı protein bolluğu geni (Btg4, Cnot7, Cnot6l, və Plat, çəhrayı). 60 nt göstərən mavi nöqtəli xətt yüksək protein bolluğu və aşağı protein bolluğu gen qrupları arasında poli(A) quyruq uzunluğu fərqinin vizuallaşdırılmasına kömək etmək üçün istifadə olunur. Qara nöqtələr hər genin orta poli(A) quyruq uzunluğunu göstərir. İstifadə olunan CCS oxunuşlarının sayı 390 (Dnmt1), 287 (Tle6), 146 (Npm2), 144 (Zp2), 685 (Btg4), 94 (Cnot7), 73 (cnot6l) və 413 (Plat). d Şəkil 3c-də göstərilən genlərin poli(A) quyruq uzunluğunun PAT analizi ilə təsdiqi. Tünd mavi ox başlıqları poli(A) quyruğu olmayan zolaqları (A0), mavi (yüksək zülal bolluğu) və çəhrayı (az protein bolluğu) ox başları isə poli(A) quyruğu (poliadenilasiya) olan zolaqları təmsil edir. M, marker. Əlavə G quyruğu və adapter ardıcıllığına görə, poliadenilasiya PZR məhsullarının uzunluğu mənfi A0 məhsulları faktiki poli(A) quyruqlarından ən azı 35 bp uzundur 43 . Mənbə məlumatları Mənbə Məlumat faylı kimi təqdim olunur.

PAIso-seq məlumatlarını daha da təsdiqləmək üçün biz GV-mərhələli oositlərdən RNT istifadə edərək Şəkil 3c-də göstərildiyi kimi bu səkkiz fərdi gen üzərində PAT analizini həyata keçirdik. PAT analizi ilə müəyyən edilən poli(A) quyruq uzunluğu PAIso−seq (Şəkil 4d) ilə çox oxşar nümunələr göstərdi ki, bunu təsdiqləyir. Dnmt1, Tle6, Npm2, və Zp2 həqiqətən daha uzun poli(A) quyruğu var Btg4, Cnot7, Cnot6l, və Plat, PAIso−seq-in poli(A) quyruq uzunluqlarını dəqiq ölçə biləcəyini nümayiş etdirərək, siçan GV oositlərində zülal sintezi ilə mRNA poli(A) quyruq uzunluğu arasında qlobal əlaqəni təmin edir.

RNT poli(A) quyruqlarında geniş yayılmış qeyri-adenozin qalıqları

RNT poli(A) quyruqlarının yalnız A qalıqlarından ibarət olduğu düşünülürdü. TAIL-seq vasitəsilə insan hüceyrə xətlərində mRNT sabitliyində mühüm rol oynayan RNT poli(A) quyruqlarında geniş yayılmış 3′ son G və U modifikasiyaları aşkar edilmişdir 2,3. Eyni metoddan istifadə etməklə, qısa poli(A) quyruq uzunluğuna malik ananın transkriptlərinin 3′ ucunun siçan GV oositlərində 10 uridilləndiyi göstərilmişdir. Bununla belə, TAIL-seq metodunda əsas çağırış alqoritmindən istifadə etməklə qeyri-T siqnalı T-nin uzun bir hissəsi ərzində dəqiq çağırıla bilməz. Buna görə də, qeyri-T siqnalı yalnız TAIL-seq istifadə edərək ən 3′ sonunda çağırıla bilər. Bizim metodumuzda bu məhdudiyyət yoxdur. Üstəlik, bir şablonun çoxsaylı keçidləri poli(A) quyruqlarındakı əsaslar da daxil olmaqla transkriptin yüksək dəqiqlikli CCS-sini yaradır. Buna görə də, PAIso−seq bizə poli(A) quyruqları daxilində təfərrüatlı baza tərkibini təhlil etmək imkanı verir. 19,32 adlanan ardıcıllığın dəqiqliyini təmin etmək üçün bir molekul üçün ən azı 10 keçid tələb edən yüksək hədddən istifadə etdik. Təəccüblüdür ki, mRNA poli(A) quyruğunun gövdəsində transkriptlərin 17%-də 3′ ucunda görünəndən başqa geniş yayılmış U, G və C var (Şəkil 5a). Müxtəlif uzunluqlu poli(A) quyruqlarda Us, Gs və ya C-lərə nəzər saldıqda gördük ki, U modifikasiyası qısa quyruqlu transkriptlərdə, G və C modifikasiyaları isə nisbətən uzun quyruqlarda daha çox olur (Şəkil 2). 5b). Ümumiyyətlə, modifikasiyalar daha çox poli(A) quyruqlarının 5′ ucuna yaxın görünür, halbuki G modifikasiyası quyruqların 3′ ucuna yaxın başqa aşkar zənginləşdirilmiş mövqeyə malikdir (Əlavə Şəkil 4). Bundan əlavə, poli(A) quyruqlarının içərisində daha tez-tez rast gəlinən tək U, C və ya G ilə yanaşı, iki, üç və hətta dörd (nisbətən aşağı tezlikdə olsa da) davamlı qeyri-adenozin qalıqlarının olduğunu aşkar etdik. Şəkil 5c). Nümunə olaraq, poli(A) quyruqlarını aşkar etdik Rcor1 (Pass = 34), Nploc4 (Pass = 18) və Ngrn (Pass = 10) poli(A) quyruqlarının gövdəsində çoxlu qeyri-adenozin qalıqları olan transkriptlər (Şəkil 5c). Genlərin A olmayan modifikasiyalarını ehtiva edən transkriptlərin nisbəti replikatlar arasında yaxşı korrelyasiya göstərir (Əlavə Şəkil 5).

Poli(A) quyruqlarının gövdəsində geniş yayılmış qeyri-adenozin qalıqları. a CCS tezliyi poli(A) quyruğunda daxili qeyri-A nukleotidləri ehtiva edir. b Daxili qeyri-A nukleotidləri ehtiva edən CCS göstəricilərinin nisbəti (sol panel) və müxtəlif poli(A) quyruq uzunluğunun CCS oxunuşlarında qeyri-adenozin qalıqlarının tezliyi (sağ panel). c Mono və oliqo-adenozin olmayan qalıqlar (U, C və G) hesablanır. d Poli(A) quyruqlarının gövdəsində qeyri-adenozin qalıqları olan CCS oxunuşlarının üç nümunəsi, Rcor1 (Pass = 34), Nploc4 (Pass = 18) və Ngrn (Keçid = 10). e GV oositində və poli(A) spike-in məlumatında qeyri-A qalıqlarının tezliyi. f CCS-nin hipotetik modelləri 3′-UTR sonunda lövbərlənmiş T30VN RT primeri ilə oxunur (a) və ya poli(A) quyruqlarının gövdəsində (b). g CCS tərəfindən aşkar edilən iki fərqli T30VN RT primer anker modellərinin faizi Iso-seq məlumatlarından oxuyur. h Poli(A) quyruğunun gövdəsində aşkar edilən müxtəlif NV-lövbər yerlərinin tezliyi. Aşkar edilmiş hadisələrin sayı hər bir çubuğun üstündə göstərilir. i 3′-UTR sonunda lövbərlənmiş T30VN RT primeri ilə CCS oxunuşlarının nümunələri (a) və ya poli(A) quyruqlarının gövdəsində (b). CCS oxunuşlarının qoşulma nömrəsi solda göstərilir. CCS i.d. ortada göstərilir. CCS oxu modeli sağda göstərilir. A-dan sonrakı rəqəm adenozinlərin verilmiş sayı ilə oliqo A deməkdir.

Burada görülən qeyri-A modifikasiyasının kitabxananın qurulması zamanı təqdim edilən səhvlərdən qaynaqlanmadığından əmin olmaq üçün biz kitabxananın hazırlanması mərhələsində RT-dən sonra sintetik poli(A) + cDNA sıçrayışının məlumatlarını yoxladıq. Nəticə ≥10 (283,007 əsasdan 59) keçən spike-in poli(A) ardıcıllıqlarında təxminən 0,02% uyğunsuzluq göstərdi (Şəkil 5e). Bu, poli(A) quyruqlarında görülən təxminən 0,7% qeyri-A modifikasiyalarından xeyli aşağıdır. Buna görə də, müşahidə etdiyimiz qeyri-A dəyişiklikləri RT-dən sonrakı addımlardan ola bilməz. Bu üsulda istifadə edilən RT fermentləri, SuperScript II, məlumdur ki, RT reaksiyası zamanı təxminən 1/42,000 (0,0024%) uyğunsuzluq təqdim edir 33,34 . Baxmayaraq ki, RT fermentləri homopolimerlərlə 33 işləyərkən çərçivə dəyişikliyini tətbiq etmək şansını artırsa da, bu, daha çox uyğunsuzluq yaratmayacaq. Buna görə də, texniki məhdudiyyətlər səbəbindən əvvəlki analizdə buraxılmış poli(A) quyruq daxili modifikasiyaları var, baxmayaraq ki, onların burada aşkarlanan çox kiçik bir hissəsi RT xətaları nəticəsində yarana bilər. Qeyri-A qalıqlarının artefakt olmadığını daha da təsdiqləmək üçün biz ondan çox əsas oliqo A və oliqo T izləri ilə kodlaşdırma ardıcıllığına baxdıq. Bu homopolimerik ardıcıllıqlar genomda kodlanır, buna görə də məlumatlarda uyğunsuzluqlar varsa, onlar çox güman ki, RT addımı və ya ardıcıllıq addımı zamanı təqdim edilən səhvlərdən qaynaqlanır. Məlumat dəstimizdə 20 oxunuşun əhatə etdiyi genomda səkkiz belə bölgə var. Cəmi ardıcıllıqla 243 əsas var, heç bir SNV (tək nukleotid variasiyası) aşkar edilmir, bu, RT addımları zamanı heç bir səhvə yol verilmədiyini göstərir.

Ardıcıllıqdan asılı olmayan məlumatlardan istifadə edərək qeyri-A modifikasiyalarının mövcudluğunu təsdiqləmək üçün biz RNT və RT primerləri arasında əsas cütləşmə məlumatına baxdıq. Ənənəvi olaraq, PacBio platformasındakı tam uzunluqlu cDNA Iso-seq V (A, C və ya G) və N (A, T, C və ya G) tərs transkripsiya üçün RT primeri kimi 5′-adaptor-T30VN-3′ oliqodan istifadə edirdi. tərs transkripsiya zamanı poli(A) quyruqlarını atmaq üçün RT primerini 3′-UTR-in sonuna bağlamaq üçün istifadə olunur. Qeyri-A qalıqları quyruğun ortasında varsa, RT primerinin poli(A) quyruğunun ortasındakı qeyri-A qalıqlarına da bağlana biləcəyini düşünürük. Bu, RT primerində poli(A) daxili qeyri-A qalığı və VN arasında əsas cütləşməsinin VN-dən əvvəl poli(A) ardıcıllığının daxil edilməsi ilə nəticələnəcəyinə dair sınaqdan keçirilə bilən fərziyyəni nəzərdə tutur (Şəkil 5f). Bunu sınamaq üçün biz təsadüfi olaraq bibərdən bu yaxınlarda dərc edilmiş Iso-seq məlumat dəstini seçdik (CRA001412 qoşulma nömrəsi altında CRX041331 təcrübəsi) 35 . Həqiqətən, nəticə bizim fərz etdiyimiz kimidir. Poli(A) quyruqlarının ortasında nukleotidlərlə VN əsas cütlərini göstərən təxminən 5% transkript var (Şəkil 5g), burada tək qeyri-A ikiqat qeyri-A-dan daha tez-tez olur (Şəkil 5h). Bu orta RT primerlə bağlanmış oxuların nümunələri Şəkil 5i-də göstərilmişdir. RT primer bazası cütləşməsi RT reaksiyasından əvvəl baş verir və bu, poli(A) quyruqlarının gövdəsində qeyri-A qalıqlarının olduğunu dəstəkləyir. Baxmayaraq ki, RT çox səmərəsizdir (2–6 × 10 −4 nisbi normal nisbət), çox 3′ ucunda 36 uyğunsuzluğu olan primerlər üzərində uzanır, biz burada aşkar edilən bəzi orta RT primer ankraj hadisələrinin yanlış işləmə nəticəsində baş verməsi ehtimalını istisna edə bilmərik. təmiz A quyruqlarının ortasında. Bu məlumatlar təsdiq edir ki, poli(A) quyruqlarındakı qeyri-A modifikasiyaları çox güman ki, ardıcıllıq və ya kitabxana hazırlama artefaktları ilə bağlı deyil.

Bu tapıntılar göstərir ki, PAIso−seq poli(A) quyruqlarının dəqiq parçalanmasına imkan verir, mRNA poli(A) quyruqlarının gövdəsində geniş yayılmış U, G və C modifikasiyalarını aşkar edir, bu da mRNA poli(A) quyruqlarının daha mürəkkəb olduğunu göstərir. əvvəllər nə düşünülürdü.

Poly(A) quyruqları digər hüceyrələrdədir

Yuxarıdakı poli(A) quyruğunun uzunluğu və əsas tərkibi təxminən bir hüceyrəli tipdir, siçan GV oositidir. Digər hüceyrə növlərində PAIso-seq metodunu təsdiqləmək üçün mRNA poli(A) quyruq aspektində heç vaxt təhlil edilməmiş siçovul qaraciyər nümunəsindən istifadə etdik və PAIso-seq məlumatlarını uğurla əldə etdik (Əlavə Şəkil 1a, c). Siçovul qaraciyər nümunəsinin siçan GV oositləri ilə müqayisədə qlobal transkript poli(A) quyruq uzunluğunun çox fərqli bir nümunəsinə sahib olduğunu görə bilərik (Əlavə Şəkil 6a və Şəkil 2a). Siçovulların qaraciyər nümunəsi həmçinin poli(A) quyruqlarında qeyri-A modifikasiyası olan transkriptlərin əhəmiyyətli bir hissəsini ehtiva edir (Əlavə Şəkil 6b). Bu məlumatlar təsdiqləyir ki, PAIso−seq müxtəlif hüceyrələrdən və müxtəlif növlərdən olan nümunələrə geniş şəkildə tətbiq oluna bilər və müxtəlif bioloji proseslərdə RNT poli(A) quyruğu vasitəsilə tənzimləməni tədqiq etmək üçün güclü bir vasitə olacaqdır.

Tək hüceyrəli PAIso−seq

PAIso−seq kitabxanasının qurulması addımları yüksək səmərəlidir. Düşünürük ki, bu, tək hüceyrələrə tətbiq oluna bilər. Buna görə də, biz 15 tək GV oosit nümunəsində PAIso−seq-ni ştrix kodlu son uzatma primeri ilə sınaqdan keçirdik. Nümunələr ardıcıllıq üçün birləşdirilmişdir. Tək hüceyrəli məlumatlar toplu nümunə kimi oxşar transkript bolluğu və poli(A) uzunluğu paylama modelini göstərdi (Şəkil 2a-c). 15 tək hüceyrəli məlumat həm poli(A) quyruq uzunluğu, həm də qeyri-A modifikasiyalarının ölçülməsində toplu hüceyrə məlumatları ilə müqayisə edilə bilər (Şəkil 6a, b). Fərdi gen səviyyəsində, hər bir hüceyrədən ölçülən poli(A) quyruq uzunluğunun toplu hüceyrələrdən olan uzunluqla yaxşı əlaqəli olduğunu görə bilərik (Şəkil 6c və Əlavə Şəkil 7). Bu məlumatlar göstərir ki, PAIso−seq ümumi RNT 37-nin təxminən 0,3-0,5 ng olan tək GV oositlə mübarizə aparmağa qadirdir və nadir hüceyrələrdə qlobal RNT poli(A) quyruqlarını öyrənmək imkanı verir.

GV oositləri üçün tək hüceyrəli PAIso−seq. a Tək GV oosit C1 (hüceyrə 1), C2, C4, C7, C15 və GV rep.2 və tək GV oositdə (SCGV) aşkar edilmiş bütün CCS oxunuşlarının qlobal poli(A) quyruq uzunluğu paylamaları (Keçid ≥10) com.) məlumat dəstləri. Transkriptin hər poli(A) quyruğunun median uzunluğu qırmızı nöqtə və skripka süjetinin altındakı rəqəm kimi göstərilir. b Tək GV oositlərində qeyri-A qalıqlarının tezliyi C1, C2, C4, C7, C15, GV rep.2 və SCGV com. verilənlər dəstləri. c Spearmanın tək GV oosit C4 və GV rep.2 arasında poli(A) quyruq uzunluğunun korrelyasiyası (üst panel, n = 928), tək GV oosit C15 və GV rep.2 (orta panel, n = 566), tək GV oosit C15 və C4 verilənlər bazası (alt panel, n = 597) məlumat dəstləri. Mavi xətt xətti reqressiya xəttini təmsil edir. Açıq-boz sahə reqressiyanın etibarlılıq intervalını təmsil edir. Məlumat dəstlərinin hər birində ən azı dörd transkripti olan genlər təhlilə daxil edilir.


METODLAR

CDNA/EST və Trace sequences istifadə edərək genomlarda poli(A) sahələrinin identifikasiyası

Biz NCBI-dən (iyul və avqust 2005-ci il versiyaları) insan, siçan, siçovul, toyuq və zebra balığı UniGene verilənlər bazasında sadalanan bütün cDNA/EST ardıcıllıqlarını əldə etdik və onları UCSC Genome Bioinformatika Saytından endirilmiş genom ardıcıllığı ilə uyğunlaşdırdıq (Müəllif veb səhifəsi, insan üçün hg17). , siçan üçün mm5, siçovul üçün rn3, toyuq üçün galGal2 və zebra balığı üçün danRer1) BLAT istifadə edərək ( 21). Poly(A) yerləri (13)-də təsvir edilən metoddan istifadə etməklə düzülmələrin sallanan uclarını təhlil etməklə müəyyən edilmişdir. Bütün daxili hazırlıq namizədləri ləğv edildi. İnsan, siçan, siçovul və zebra balığı İz ardıcıllığı NCBI İz Arxivindən endirilib və (22)-də təsvir olunduğu kimi cDNA/EST-lərdə terminal poli(A/T) ardıcıllıqlarını genişləndirmək üçün istifadə edilib.

Poly(A) saytlarını yerlərə və genlərə görə qruplaşdırmaq

NCBI UniGene verilənlər bazasından istifadə edərək eyni genə aid poli(A) saytlarını qruplaşdırdıq. Anti-sens transkriptlərini və digər səhv transkriptləri aradan qaldırmaq üçün biz Əlavə Şəkil 1-də göstərildiyi kimi UniGene Binlərini (və ya Klasterləri) təmizlədik. Təmizlənmiş UniGene Binləri CLUBs (Cleaned UniGene Bin) adlanır. Bu addım əvvəlcə CLUB üçün təşəbbüskar adlanan reprezentativ ardıcıllığın seçilməsi, ardınca isə təşəbbüskarla eyni transkripsiya oriyentasiyasına malik və artıq CLUB-da cDNA/EST-lərlə ardıcıl üst-üstə düşən cDNA/EST-lərin iterativ daxil edilməsi ilə həyata keçirilib. Təşəbbüsçülər RefSeqs > digər cDNAs > ESTs sırasına əsasən seçildi. CLUB-a daxil olan ardıcıllıqlara CLUB üzvləri deyilir. Bir UniGene Bin-də birdən çox CLUB ola bilər. Poli(A) sahəsi üçün dəstəkləyici cDNA/EST ardıcıllıqlarının sayını artırmaq üçün poli(A/T) quyruğu olmayan ardıcıllığın 3′ ucları müəyyən edilmiş poli(A) sahələri ilə müqayisə edilmişdir. cDNA/EST, əgər onun 3′ ucu poli(A) sahəsinə 24 nt ərzində yaxındırsa, poli(A) sahəsini dəstəkləyən sayılır. Transkripsiya oriyentasiyası naməlum olan transkriptlər, əgər ardıcıllıq uclarından biri 24 nt ərzində poli(A) sahəsinin yaxınlığındadırsa və poli(A) sahəsinə əsaslanan transkripsiya oriyentasiyası CLUB ilə ziddiyyət təşkil etmirsə, əlaqəli CLUB üzvləri kimi təyin edilir. . Onlar həmçinin dəstəkləyici cDNA/EST-lər kimi daxil edilmişdir. Heterojen parçalanma səbəbindən bir-birindən 24 nt məsafədə yerləşən poli(A) saytları iterativ olaraq 5′-dən 3′-ə qədər bir yerdə toplandı. Çoxluğu təmsil etmək üçün klasterdəki orta parçalanma sahəsinin mövqeyi istifadə olunur. Beləliklə, PolyA_DB 2-də poly(A) sayt ID-si üç hissədən ibarətdir, yəni UniGene ID, CLUB nömrəsi və sayt nömrəsi. Məsələn, Hs.44402.1.46 UniGene ID Hs.44402, CLUB nömrəsi 1 və sayt nömrəsi 46-a əsaslanır. Gen məlumatı NCBI Gene verilənlər bazasından (avqust 2005-ci il versiyaları) əldə edilib və Gen ID-ləri arasındakı əlaqəyə əsasən CLUB-lara təyin edilib. və CLUB-larda RefSeq ardıcıllığı.

Annotasiyası cis-elementlər

Biz əvvəllər müəyyən edilmiş 15-in mövqeyə xüsusi qol matrislərindən (PSSM) istifadə etdik cis-poli(A) bölgələrini axtarmaq üçün elementlər (9). Hər bir matris üçün eyni ölçülü ardıcıllıqla uyğunlaşmaq üçün bütün mümkün müsbət xalları əldə etdik. 25-ci, 50-ci və 75-ci persentillər digər ardıcıl uyğunluqları müqayisə etmək üçün istifadə edilmişdir. İnsan və siçan poli(A) saytlarını əhatə edən bütün ardıcıllıqlar üçün onların uyğun xallarını meyarlarla müqayisə etdik. Uyğunluq 75-ci faizdən yuxarı olarsa, 50-75 faizlik üçün “güclü” 25-50 faizlik üçün “zəif” 25-ci faizdən aşağı olduqda “çox zəif” və mənfi üçün “uyğunluq yoxdur” hesab olunurdu. xallar.

İnsan poli(A) saytları üçün sintenik bölgələrin tapılması

İnsan poli(A) saytları üçün sintenik bölgələri əldə etmək üçün UCSC Genome Bioinformatika Saytından səkkiz tərəfli genom düzülüşündən istifadə etdik. Səkkiz yollu genom uyğunlaşdırma faylları genomları ehtiva edir Homo sapiens (insan), Pan troglodytes (şimpanze), Canis tanış (it), Musculus (siçan), Rattus norvegicus (siçovul), Gallus gallus (toyuq), Danio rerio (zebra balığı) və Takifugu rubripes (körpə balığı). Biz əvvəlcə insan poli(A) sahələrini əhatə edən −300 ilə +300 nt bölgəsi ilə üst-üstə düşən düzülmə bloklarını təhlil etdik və digər genomlarda, əgər onların bölgəyə uyğun ardıcıllığı varsa, müvafiq mövqeləri müəyyən etdik. Daha sonra insan da daxil olmaqla bütün uyğunlaşdırıcı növlərdən genomik ardıcıllıqları əldə etdik və ardıcıllıqları CLUSTALW (23) ilə yenidən uyğunlaşdırdıq. Biz həmçinin ardıcıllıq ucları insan poli(A) yerlərindən 24 nt məsafədə yerləşən hizalanma növlərinin bütün cDNA/EST-lərini qeyd etdik. Bu məlumat poli(A) saytlarının mühafizəsini dəstəkləyə bilər.

Verilənlər bazası və vebsayt

Verilənlər bazasındakı məlumatlar MySQL ilə həyata keçirilən əlaqəli verilənlər bazasında saxlanılır. Veb interfeysi üçün PHP və Perl istifadə olunur. Biooperl modulları ardıcıllığın qrafik təsviri üçün istifadə olunur (24). Sorğular Gen ID-lərinə, UniGene ID-lərinə, CLUB ID-lərinə və Sayt ID-lərinə əsaslanır. Böyük toplu yükləmələr istək əsasında mümkündür.


Metodlar

Bitki materialları və böyümə şərtləri

The P. trichocarpa Nisqually-1 klonu təsvir edildiyi kimi istixanada saxlanılmışdır [29]. Temperatur müalicəsi üçün aseptik şlamlar P. trichocharpa (8-10 sm) müalicələrdən təxminən 30 gün əvvəl kök mühitində [30] saxlanıldı. Böyümə kamerası 24 °C və 40% rütubətdə uzun gün şəraitində (16 saat işıq/8 saat qaranlıq) idi. Aşağı temperatur müalicəsini həyata keçirmək üçün dondurucu temperatur sensoru (PURUI G6000, Ningbo, Çin) tərəfindən idarə olunurdu. Yüksək temperatur müalicəsini həyata keçirmək üçün daxili temperaturu sabitləşdirmək üçün təcrübədən əvvəl inkubator müvafiq temperatura quraşdırılmışdır. Nümunə hazırlamaq üçün ən azı üç nəfərin bütöv şitilləri toplanmışdır.

PAS-seq kitabxanasının qurulması, ardıcıllığı və verilənlərin emalı

Ardıcıllıq kitabxanasının qurulması üçün DNT-ni çıxarmaq üçün ümumi RNT RQ1 DNase (Promega, Madison, ABŞ) ilə müalicə olundu. Təmizlənmiş RNT-nin keyfiyyəti və kəmiyyəti smartspec plus (BioRad, Münhen, Almaniya) istifadə edərək 260 nm/280 nm (A260/A280) udma qabiliyyətini ölçməklə müəyyən edilmişdir. RNT bütövlüyü 1,5% agaroz gel elektroforezi ilə daha da təsdiq edilmişdir. Hər bir nümunə üçün SMART RT sistemindən istifadə edərək PAS-seq kitabxanasının hazırlanması üçün 5 μg ümumi RNT istifadə edilmişdir. Qısaca olaraq, poliadenilləşdirilmiş mRNA-lar oliqo (dT) ilə birləşmiş maqnit muncuqları (Invitrogen, ABŞ) ilə təmizləndi. Təmizlənmiş RNT parçalandı və əks transkripsiya dT18 və 3′ terminalda iki əlavə anker nukleotidi olan dəyişdirilmiş RT primeri ilə həyata keçirildi. Sonra DNT ScriptSeq™ v2 RNA-Seq Library Preparation Kit (Illumina, ABŞ) istifadə edərək Terminal-Tagging oliqo DNT ilə sintez edilmişdir. cDNA-lar təmizləndi və gücləndirildi və 300-500 bp-ə uyğun gələn PCR məhsulları təmizləndi, kəmiyyəti müəyyən edildi və ardıcıllıqdan əvvəl - 80 °C-də saxlanıldı. Yüksək məhsuldarlıq ardıcıllığı üçün kitabxanalar istehsalçının təlimatlarına uyğun olaraq hazırlanmış və 150 ​​nt cütləşdirilmiş ardıcıllıq üçün Illunima HiSeq X Ten sisteminə tətbiq edilmişdir. Oxumalar keyfiyyətin yoxlanılması üçün süzüldü və aşağı axın analizləri üçün yalnız son 1 təmiz oxunuş ardıcıllığı istifadə edildi. Ardıcıllıq və ilkin oxunuşların işlənməsi ABlife Inc. (Vuhan, Hubei əyaləti, Çin) tərəfindən həyata keçirilib. Bütün ardıcıllıq məlumatları Milli Biotexnologiya İnformasiya Mərkəzinin Biolayihəsinə qoşulma PRJNA61765 altında saxlanıldı.

Ardıcıllığın xəritələşdirilməsi və PAC identifikasiyası

Referans genomu Populus trichocarpa (versiya 3.1) Phytozome [31] https://phytozome.jgi.doe.gov saytından endirilib. Oxumaların xəritələşdirilməsi TopHat2 tərəfindən 2 uyğunsuzluğa imkan verərək həyata keçirildi [32]. İfadə bolluğunu əldə etmək üçün RPKM (milyon oxunuşda genin kilobazasına görə oxunuş) dəyəri hesablanmışdır [33].

PolyA-sayt klasterinin (PAC) identifikasiyası üçün 3′ xəritələnmiş polyA oxunuşları əvvəlcə polyA saytları kimi müəyyən edildi və sonra Milyonda Tag (TPM) metodu əsasında ölçüldü [TPM (PAC) = polyA sahəsinə (PAC) uyğunlaşdırılmış oxunuşlar. *1,000,000/ümumi oxunuş]. PAC-nin identifikasiyası qısaca CAGEr paketindən [34] istifadə edilərək həyata keçirildi, 20 nt daxilində TPM 0,5-dən çox olan polyA saytları qruplaşdırıldı. Müxtəlif PAS-Seq kitabxanalarında 100 nt daxilində PAC, PAC ardıcıllıqlarını yaratmaq üçün əlavə qruplaşdırıldı (Əlavə. Dataset 1). APA təhlili üçün yalnız bir polyA sahəsi və ya TPM 3-dən az olan PAC ardıcıllıqları süzülüb. Ümumi PAC saytları 5-lik TPM kəsilməsi ilə ardıcıllıq oxunuşlarının daranması yolu ilə müstəqil olaraq müəyyən edildi. Köçürülən PAC-ları olan genləri müəyyən etmək üçün, sürüşmə xalını əldə etmək üçün PAC yerlərinin fərqi CAGEr tərəfindən hesablandı (Supple. Dataset 2, 3). PAC-lərin əhəmiyyətli yerdəyişmələrini müəyyən etmək üçün Kolmoqorov-Smirnov testi aparıldı səh-dəyər < 0.01 (Əlavə. Dataset 2, 3).

Nukleotid tərkibi və ardıcıllıq imza analizi

Motif təhlili üçün hər bir nümunə üçün yuxarıda qeyd olunan LTMQİ-lərdən istifadə edilmişdir. Və hər bir PAS-ın 50 bp yuxarı və aşağı axın ardıcıllığı çıxarıldı. Nukleotidlərin paylanması təhlili üçün hər mövqedə hər bir PAS-ın tərkibi hesablanmışdır. Ardıcıl motivlər SignalSleuth2 [28] istifadə edərək aşağıdakı seçimlərlə təhlil edilmişdir: k = 6 (burada k motivin uzunluğudur) və ilk 30 motiv.

Stressin səbəb olduğu analiz üçün daxili piton skriptindən istifadə edərək mövqe məlumatına (Supple. Dataset 4, 5) uyğun olaraq dəyişdirilmiş PAC-ları olan genlərin ardıcıllığı çıxarıldı. Hər bir müalicə üçün LTMQİ-lər iki qrupa bölündü: biri nəzarət şəraitində olan LTMQİ-lər, digəri isə müalicə şəraitində olan LTMQŞ-lər idi. Ardıcıl motiv təhlili yuxarıda qeyd edildiyi kimi SignalSleuth2 istifadə edərək həyata keçirilmiş və təhlil üçün yalnız 50-dən yuxarı PAC-lərin sürüşmə məsafəsindən istifadə edilmişdir.

Funksional zənginləşdirmə təhlili

Köçürülən genlərin funksional təhlili üçün Gen Ontologiyası və Kyoto Ensiklopediyasının Gen və Genomlarının annotasiya məlumatı. P. trichocarpa genlər əldə edilmişdir. GO şərtlərinin və KEGG yolunun zənginləşdirilməsi hipergeometrik testlərin əhəmiyyətinə əsaslanaraq müəyyən edildi və FDR (Hochberg) tərəfindən daha da düzəldildi. Düzəliş edilmiş səh-0,05-dən az olan qiymətlər əhəmiyyətli zənginləşdirmə kimi müəyyən edilmişdir. Əhəmiyyətli dərəcədə zənginləşdirilmiş GO terminləri Supple-da sadalandığı kimi molekulyar funksiya, bioloji proses və hüceyrə komponentinə təsnif edilmişdir. Məlumat toplusu 6. KEGG təhlili üçün zənginləşdirmə nisbəti aşağıdakı kimi hesablanmışdır: Hər bir KEGG yolunun zənginləşmə nisbəti = genlərin alt çoxluğu / yol genlərinin ümumi sayı.


Ginseng ifadə edilmiş ardıcıllıq etiketlərinin təhlili ilə ginsenosid biosintezi üçün genlərin kəşfi

İfadə edilmiş ardıcıllıq etiketləri (EST) ikincil metabolit biosintezində genləri müəyyən etmək üçün istifadə edilə bilən qiymətli bir vasitə təmin edir. jenşen (Panax jenşen C.A Meyer) köklərdə jensenozidlər toplayan dərman bitkisidir. Köklərdə əsas aktiv komponent olduğu düşünülən ginsenozidlərin biosintezi üçün gen resursu yaratmaq üçün beş jenşen kitabxanasından 11,636 EST-ni ardıcıllıqla sıraladıq. Ginseng EST-lərinin yalnız 59% -i əvvəllər məlum olan polipeptid ardıcıllığı ilə əhəmiyyətli homologiya nümayiş etdirdi. Stressə və patogenlərə cavab verən zülallar ən çox 4 yaşlı jenşen köklərində olub. Ginsenoside biosintezində iştirak edən EST-lər BLASTX nəticələrinin açar söz axtarışı və jenşen EST-lərinin domen axtarışı ilə müəyyən edilmişdir. 2,3-oksidosqualenin siklləşmə reaksiyasında iştirak edən 4 oksidosqualen siklaza namizədini, 9 doqquz sitoxrom P450 və triterpen onurğasının modifikasiyasında iştirak edə bilən 12 glikosiltransfer namizədini müəyyən etdik.

Bu, abunə məzmununun, qurumunuz vasitəsilə girişin önizləməsidir.


Genişləndirilmiş Məlumat Fig. 1 In vitro ribosomun dayanmasının əlavə xarakteristikası.

a, Şəkil 1a-da olduğu kimi insan hüceyrə lizatında təkrarlanan AAG və ya AAA lizin kodonlarının in vitro tərcüməsi nəticəsində yaranan yeni yaranan zəncir məhsullarının ikinci nümunəsi. 4, 9 və ya 12 lizin qalıqları olan yeni yaranan zəncir məhsullarının mövqeləri göstərilir. b, Dovşan retikulosit lizatında dayanma üçün təkrarlanan AAG-yə qarşı AAA kodonlarının təhlili. Tərcümə reaksiyası 20 dəqiqə ərzində aparıldı, bundan sonra dayanmış məhsulların nisbəti tam uzunluqlu polipeptidlə müqayisədə peptidil-tRNA-nın nisbi miqdarı ilə qiymətləndirildi. -nin "fonu"

20% peptidil-tRNA, hətta dayanma olmadıqda belə, mRNT-nin 3' ucunun bir neçə nukleotidində yerləşən dayanma kodonunda uğursuz sonlanma ilə əlaqədardır. Daha sonra mRNA kanalından kənara çıxan daha uzun 3'UTR ilə in vitro dayandırma təcrübələri təkmilləşdirilmiş dayandırma effektivliyini göstərdi (

95%). Həddindən artıq qısa 3'UTR, ehtimal ki, mRNT-ni mRNT kanalında daha çevik edir və eRF1-i daha az cəlb edir. Şəkil 1b-də göstərilən qrafiki yaratmaq üçün bu kimi çoxsaylı təcrübələr ölçüldü. c, Göstərilən təkrarlanan AAG və ya AAA kodonlarını ehtiva edən konstruksiyalar üçün tam uzunluqlu (FL) məhsulun görünüşünün vaxt kursu. Tərcümə əvvəlcə poli-əsas kodlaşdırma ardıcıllığından əvvəlki nadir lösin kodonlarının gedişində ribosomu dayandırmaqla, sonra tRNT əlavə etməklə 0 zamanda tərcüməni yenidən başlatmaqla sinxronlaşdırıldı. İki təcrübədən hesablanmış hər bir zaman nöqtəsi üçün orta ± SEM qrafiki çəkilir.

Genişləndirilmiş Məlumat Fig. 2 Poli(A) üzərində dayanmış ribosomların Cryo-EM analizi.

a, Tək hissəcik analizi üçün istifadə edilən poli(A)-dayanmış ribosomların nümayəndəsi mikroqrafı. Ölçək çubuğu 50 nm-dir. b, Relion 3.0-da strukturun müəyyən edilməsi üçün istifadə edilən məlumatların işlənməsi sxemi. 3D təsnifatı bunu ortaya qoyur

Aktiv ribosomların 90%-i isə P/P tRNA ilə kanonik vəziyyətdədir

10% A/P və P/E hibrid dövlət tRNA-ları ilə fırlanan vəziyyətdə görünür. Fırlanan dövlət ribosomlarının əksəriyyəti də əvvəlki ribosom üçün sıxlığı ehtiva edir və buna görə də poli(A)-dayanmış ribosomla toqquşmuş ribosomları təmsil edir. c, 2,8 Å ümumi həlli təsvir edən yekun xəritənin Furye qabığı korrelyasiyası (FSC) əyrisi.

Genişləndirilmiş Məlumat Şəkil 3 Krio-EM xəritəsinin xarakteristikası.

a, Mərkəzdən dilimlənmiş poli(A)-dayanmış ribosomun yerli həlli. Əsas elementlərin mövqeləri göstərilir. PTC: peptidil-transferaza mərkəzi. Daxil (sağda) PTC və dekodlaşdırma mərkəzində yüksək yerli qətnaməni vurğulayır. b, Polipeptid çıxış tunelinin (solda) və mRNA kanalının (sağda) müstəvisində sıxlıq xəritəsi vasitəsilə kəsiklər. Poli-Lys uzunluqları və Ca mövqelərinin qarışığına uyğun gələn davamlı yaranan zəncir sıxlığı xəritənin qalan hissəsindən fərqli səviyyədə konturlanır və qırmızı rəngdə, mRNT sıxlığı isə qırmızı rəngdə göstərilir. P sahəsi tRNT yaşıl, 40 S alt bölməsi sarı, 60 S alt vahidi açıq mavidir.

Genişləndirilmiş Məlumat Şək. 4 P-sayt Lys-tRNALys üçün Eksperimental EM sıxlığı,3.

Xəritə-model P sahəsində mRNT-nin AAA kodonu və yaranan polipeptidin ilk amin turşusu (lizin) ilə P-saytı Lys-tRNA(lys,3) üçün uyğundur. tRNA-nın 34 və 37-ci mövqelərindəki baza dəyişiklikləri krio-EM sıxlığı daxilində göstərilir.

Genişləndirilmiş Məlumat Şək. 5 Poli(A) ilə dayanmış ribosomun EM xəritəsində mRNT sıxlığının görünüşləri.

Sıxlıq xəritəsi ribosom vasitəsilə dekodlaşdırma mərkəzini ortaya qoyan və kiçik subunit daxilində mRNT-ni göstərən bir müstəvidə dilimlənir. Böyük və kiçik alt bölmələr (müvafiq olaraq mavi və sarı), P-sayt tRNA (yaşıl) və mRNT (qırmızı) rənglidir. Daxil mRNA kanalının böyüdülmüş bölgəsini göstərir, poli(A) mRNT-nin kanalın çox hissəsi vasitəsilə sifariş edildiyini göstərir. Aşağı panel son təmizlənmiş və kəskinləşdirilmiş xəritədə P- və A-saytlarındakı mRNT sıxlığını göstərir. mRNT P-sahəsi tRNT ilə əsas cütləşməsi səbəbindən P yerində yaxşı sıralanır və 3-də göstərildiyi kimi rRNT ilə stabilləşdirici qarşılıqlı təsirlərə görə A yerində sıralanır.

Genişləndirilmiş Məlumat Fig. 6 Quanozin poli(A)-nın daxili spiral meylini kəsir.

AAAAAA (qırmızı), AAGAAG (mavi) və AAGGAA (yaşıl) RNT oliqonukleotidlərinin dairəvi dikroizm (CD) spektrləri qrafası ilə çəkilir. Bu spektrlər eyni nümunələrdə həyata keçirilən 9 müstəqil ölçmə nəticəsində orta hesabla götürülür. AAAAAA oliqosu, əvvəllər 52-də təsvir edildiyi kimi, poli(A)-nın spiral uyğunluğu üçün CD imza xarakteristikasını nümayiş etdirir. Quanozinlərin tətbiqi bu spiral quruluşu əhəmiyyətli dərəcədə pozur.

Genişləndirilmiş Məlumat Fig. 7 Müxtəlif məməlilərin RNC strukturlarında peptidil-tRNT həndəsəsinin müqayisəsi.

Göstərilən strukturlar üçün PTC-də peptidil-tRNA bölgəsi üçün EM sıxlıq xəritələri göstərilir. Quraşdırılmış modellər poli(A) ilə dayanmış ribosom və RNC dominant-mənfi eRF1 AAQ mutantı (PDB kodu 5LZV) ilə dayanma kodonunda dayanmış vəziyyətdə göstərilmişdir. 5LZV RNC peptidil-transfer (və ya bu halda, eRF1 tərəfindən peptid buraxılması) üçün səlahiyyətli bir həndəsədədir. Didemnin-B dayanmış RNC-lərdən olan struktur müxtəlif mövqelərdə dayanmış yeni yaranan zəncirlərin qarışığını ehtiva edir. Beləliklə, yaranan zəncir sıxlığı müxtəlif peptidil-tRNA-ların ortalamasını təmsil edir. Qeyd edək ki, 5LZV-dən yaranan zəncir modeli sıxlıq xəritəsinə yaxşı uyğun gəlir və bu, peptidil-tRNA-ların əksəriyyətinin aktiv uzanma zamanı bu konfiqurasiyanı qəbul etdiyini göstərir. Poli(A) peptidil-tRNT-nin həndəsəsi bu optimal həndəsədən birmənalı şəkildə fərqlənir. Lys və Val modelləşdirilmiş yeni yaranan zəncirlərin lizin və valin yan zəncirlərinə istinad edir. Ulduz işarələri göstərilməyən yan zəncirlər üçün sıxlığı göstərir.


3&Əsas Poly-A Quyruq

RNT Polimeraz II hələ də genin müvafiq ucunun aşağı axınında transkripsiya edərkən, pre-mRNT AAUAAA konsensus ardıcıllığı və GU ilə zəngin ardıcıllıq arasında endonükleaz tərkibli protein kompleksi ilə parçalanır. Bu, hələ də RNT Polimerazına bağlı olan transkriptin qalan hissəsindən funksional pre-mRNT-ni azad edir. Poli (A) polimeraza (PAP) adlı ferment pre-mRNT-ni parçalayan eyni zülal kompleksinin bir hissəsidir və dərhal poli (A) quyruğu adlanan təqribən 200 A nukleotid silsiləsinin 3&əsas ucuna əlavə edir. yenicə parçalanmış pre-mRNT. Poli (A) quyruğu mRNT-ni deqradasiyadan qoruyur, yetkin mRNT-nin sitoplazmaya ixracına kömək edir və tərcümənin başlanmasında iştirak edən zülalların bağlanmasında iştirak edir.

Şəkil ( PageIndex <1> ): Poli (A) Polimeraz pre-mRNT-yə 3 və əsas poli (A) quyruğu əlavə edir.: RNT Polimeraz II transkripsiyasını dayandırmazdan əvvəl pre-mRNT artan transkriptin qalan hissəsindən ayrılır. Bu parçalanma endonükleaz tərkibli zülal kompleksi tərəfindən həyata keçirilir ki, bu da parçalanma sahəsinin yuxarı hissəsindəki AAUAAA ardıcıllığına və kəsilmiş sahənin aşağı axınında GU ilə zəngin ardıcıllığa bağlanır. Parçalanmadan dərhal sonra, eyni zamanda zülal kompleksinin bir hissəsi olan Poli (A) Polimeraz (PAP) yenicə parçalanmış pre-mRNT-nin 3&əsas ucuna 200 A nukleotidin əlavə edilməsini katalizləşdirir.


PolyA quyruqları İfadə edilmiş Ardıcıllıq Teqləri daxilində ola bilərmi? - Biologiya

Antigen peptidlərin ardıcıl analizindən proteazomların parçalanması üçün mümkün mexanizmə qədər

Yael Altuvia və Hanah Margalit
İvrit Universiteti, Yerusəlim, İsrail

Zülalların proteasomal parçalanması sitotoksik T hüceyrələrinə təqdim edilən əksər antigenik peptidlərin emalında ilk addımdır. Hələ də onun spesifikliyi və mexanizmi tam başa düşülməyib. Proteazom tərəfindən antigen peptidlərin yaradılması üçün istifadə edilən üstünlük verilən ardıcıllıq siqnallarını müəyyən etmək üçün biz MHC sinif I molekullarından elüt edilmiş təbii şəkildə işlənmiş peptidlərin son və yan bölgələrində qalıqların ciddi təhlilini aparırıq. Nəticələrimiz göstərir ki, həm C-terminal (yarılma yerinin P1 mövqeyi) həm də onun bilavasitə cinah mövqeyi (P1') parçalanma siqnallarına malikdir və onların töhfələri əlavədir. Peptidlərin N-terminalları bu siqnalları yalnız zəif göstərir, antigenik peptidlərin N-terminal uzantıları olan proteazom tərəfindən parçalana biləcəyinə dair əvvəlki tapıntılara uyğundur. Bununla belə, N-terminal parçalanma sahələrinin P1' mövqeyində eyni üstünlük verilən siqnalları göstərdiyini dolayı yolla nümayiş etdirməyə müvəffəq olduq. Bu o deməkdir ki, parçalanma sahəsinin P1' mövqeyində olan qalıqlar, P1 mövqeyinin artıq məlum olan töhfəsinə əlavə olaraq, parçalanma spesifikliyinin müəyyən edilməsində iştirak edir. Nəticələrimiz antigenik peptidlərin yaranmasına və proteazomların parçalanma mexanizmi üçün birbaşa təsirlərə aiddir. Biz proteasomal parçalanma mexanizmi üçün bir model təklif edirik ki, onun vasitəsilə parçalanmış fraqmentlərin hər iki ucu eyni parçalanma siqnalları ilə müəyyən edilir, bu da parçalanma sahəsinin həm P1, həm də P1' mövqelərində üstünlük verilən qalıqları əhatə edir. Bu modelin zülal deqradasiyası məhsulları və antigen peptidlərin generasiyası üzrə eksperimental məlumatlarla uyğunluğu nümayiş etdirilir.


Resurs və Tədqiqat Vasitəsi kimi Biomolekulyar Qarşılıqlı Şəbəkə Verilənlər Bazası (BIND).

G.D.Bader, T.Pawson və C.W.V. Hogue
Samuel Lunenfeld Tədqiqat İnstitutu/Toronto Universiteti, Toronto, Ontario, Kanada

Hüceyrədə ifadə olunan hər bir zülal öz funksiyası zamanı müxtəlif müxtəlif zülallar və digər molekullarla qarşılıqlı əlaqədə ola bilər. Zülal-zülal qarşılıqlı əlaqəsi tez-tez modul zülal domenləri vasitəsilə həyata keçirilir. Bir nümunə, prolinlə zəngin motivi bağlayan SH3 domenidir. Bu "qarşılıqlı əlaqə şəbəkələri" digər mobil mexanizmlər arasında şərti siqnal kaskadlarını, transkripsiya aktivləşdirmə komplekslərini, veziküllərə nəzarət mexanizmlərini, hüceyrə böyüməsi və fərqləndirmə sistemlərini təşkil edir. Məlum hüceyrə zülallarının qarşılıqlı əlaqəsi nəticədə İnsan Genomu Layihəsindən daha çox məlumat ehtiva edəcəkdir. Biz BIND (Biomolecular Interaction Network Database) adlı yeni ictimai təqdimat bazası üçün məlumat spesifikasiyasını təqdim edirik. Bu verilənlər bazası biomolekulyar qarşılıqlı təsirlərin eksperimental tədqiqatları vasitəsilə toplanmış qarşılıqlı əlaqə məlumatlarının mürəkkəbliyini əhatə edəcəkdir. Qarşılıqlı əlaqə məlumatları ədəbiyyatdan, təqdim edənlərdən və digər verilənlər bazalarından gələcək. BIND qarşılıqlı təsir, molekulyar kompleks və yol qeydlərini ehtiva edir. Qarşılıqlı əlaqə qeydi iki obyekt arasındakı qarşılıqlı əlaqəyə əsaslanır. Obyekt zülal, DNT, RNT, liqand və ya molekulyar kompleks ola bilər. Qarşılıqlı təsirin təsviri hüceyrənin yerini, qarşılıqlı əlaqəni müşahidə etmək üçün istifadə olunan eksperimental şərtləri, qorunan ardıcıllığı, qarşılıqlı təsirin molekulyar yerini, kimyəvi hərəkəti, kinetikanı, termodinamikanı və kimyəvi vəziyyətini əhatə edir. Molekulyar komplekslər kompleks topologiya kimi əlavə təsviri məlumatlarla kompleks təşkil edən ikidən çox qarşılıqlı təsirlərin toplusu kimi müəyyən edilir. Yollar hüceyrə dövrü mərhələsi kimi əlavə təsviri məlumatlarla bir yol təşkil edən ikidən çox qarşılıqlı əlaqənin toplusu kimi müəyyən edilir.


On yeddi tam mikrob genomunun avtomatlaşdırılmış müqayisəli təhlili

Arvind K. Bansal
Kent Dövlət Universiteti, Riyaziyyat və Kompüter Elmləri Departamenti, Kent, Ohayo, ABŞ

Ardıcıl genomlar böyüdükcə və ardıcıllıq daha sürətli olduqca, fermentlərin, ehtimal olunan operonların və metabolik yolların genom funksionallığının identifikasiyasını asanlaşdırmaq və mikrobların filogenetik təsnifatını əldə etmək üçün dəqiq avtomatlaşdırılmış genom müqayisə üsullarının və verilənlər bazalarının hazırlanmasına ehtiyac var. Bu məqalə [3] genomlar qrupunda ortoloji genləri əldə etmək, qorunan funksionallığı olan genləri müəyyən etmək və genləri müəyyən etmək üçün ortoloqları və gen qruplarını müəyyən etmək üçün istifadə edilən avtomatlaşdırılmış cüt-müdrik genom müqayisəsi texnikasını [1, 2] dəyişdirir və genişləndirir. genom qruplarına xasdır.ftp://ncbi.nlm.nih.gov/ genbankı /genomları arxivində saxlanılan on yeddi mikrob genomu ortoloqlar, ortoloji gen qrupları, dublikasiyalar, gen-füzyonlar, qorunub saxlanmış funksionallığı olan genlər və spesifik genlər əldə etmək üçün genişləndirilmiş texnikadan istifadə etməklə müqayisə edilmişdir. genom qruplarına.

Yaş laboratoriyalarda hərtərəfli tədqiq edilmiş mikroblardan ikisi E. coli və B. subtilis üçün müqayisə nəticələri [3] NCBI annotasiyalarına uyğundur. Nəticələr göstərir ki, eyni ailənin genomları, genom cütlərində daha kiçik genomların ölçüsü baxımından ortoloqların və ortoloji gen qruplarının daha yüksək faizinə malikdir. Bununla belə, çox sayda genə malik genom cütləri çoxlu sayda ortoloqları və ortoloji gen qruplarını bölüşürlər. Çoxlu sayda gen qrupunun təkrarlanması və tək genlərin təkrarlanması var. Gen qruplarının duplikasiyası əsasən genom ölçüsünə, daha az dərəcədə isə genomların eyni ailədə olmasının funksiyasıdır. Tək genlərin təkrarlanması bəzi genomlar üçün təsadüfi olur. Birləşdirilmiş genlərin sayı azdır. Təxminən 85 gen funksiyasını qoruyub saxlamışdır. Transkripsiya və tərcümədə iştirak edən bir çox genin funksiyaları qorunur. Ribosomal zülallara uyğun gələn 21 genin arxe mikroblarında heç bir ortoloqu yoxdur. Arxe genomları öz aralarında nisbətən daha yüksək ortoloq faizini bölüşürlər. E. coli və səkkiz patogenin müxtəlif alt qruplarına xas olan bir sıra genlər var.

İstinadlar
[1] Bansal, A. K., Bork, P., and Stuckey, P., "Automated Pair-wise Comparisons of Complete Microbial Genomes", Riyazi Modelləşdirmə və Scientific Computing, 9, 1 - 23, (1998).
[2] Bansal A. K. və Bork, P., "Mikrop genomlarında yeni funksional məlumat əldə etmək üçün məntiqi proqramlaşdırmanın tətbiqi", Kompüter elmində mühazirə qeydləri, Springer Verlag, 1551, 274 - 289, (1999).
[3] Bansal, A. K., "On yeddi tam mikrob genomunun avtomatlaşdırılmış müqayisəli təhlili", Bioinformatika, mətbuatda.


Gen proqnozu üçün Markov modellərinin qurulması üçün evristik yanaşma

Con Besemer və Mark Borodovski
Biologiya Məktəbi, Corciya Texnologiya İnstitutu, Atlanta

Biz əvvəllər istifadə edilmiş eksperimental olaraq təsdiqlənmiş genlərin böyük dəstləri və ya anonim DNT ardıcıllığından fərqli olaraq yalnız kiçik bir annotasiya edilməmiş DNT fraqmentini tələb edən zülal kodlaşdırma bölgələrinin qeyri-homogen Markov modellərini yaratmaq üçün sadə bir yanaşma hazırlamışıq. Bu yeni üsul 400 nt-dən uzun istənilən ardıcıllıq üçün veb serverimiz vasitəsilə "tez" modellər qurur. GeneMark.hmm proqramından istifadə etməklə bu metodun 10 tam bakteriya genomu üzərində sınaqları göstərdi ki, yeni modellər orta hesabla şərh edilmiş genlərin 93,1%-ni, ənənəvi metodlardan istifadə etməklə qurulan modellər isə müqayisəli 93,9%-ni proqnozlaşdırır. Evristik üsulla əldə edilən modellər virusların, plazmidlərin və orqanellələrin son dərəcə kiçik genomları kimi səs modellərini yaratmaq üçün kifayət qədər kodlaşdırma ardıcıllığının olmadığı, həmçinin onların başlanğıcında sekvensiya layihələrinin olmadığı hallarda istifadə edilə bilər. Bu metodun əlavə tətbiqi yüksək qeyri-homogen genomlardadır, burada yerli ardıcıllıq tərkibinə uyğun modelin optimallaşdırılması sərfəlidir. Bu yanaşmanın eukariotlarla istifadə üçün genişləndirilməsi və metodun kodon istifadə nümunəsinin təkamülünün mümkün mexanizmlərinə təsiri də təqdim olunacaq.


GeneMark.hmm: Eukaryotik Genomlar üçün Gen Tapma Aləti

Mark Borodovsky1, Con Besemer1, Natalia Milshina2#, George Tarasenko2 və Alexander Lukashin1*
1- Biologiya Məktəbi, Corciya Texnologiya İnstitutu, Atlanta, GA, ABŞ
2 - Gene Pro, Inc. Atlanta, GA, ABŞ
# - hazırda Celera Genomics, Rockville, MD, ABŞ-da
* - hazırda Biogene, Cambridge, MA, ABŞ

Prokaryotik genomlar üçün hazırlanmış gen proqnozlaşdırma vasitələri ümumiyyətlə eukaryotik genomlarda ekson-intron gen strukturlarının proqnozlaşdırılması üçün qeyri-adekvatdır. Əvvəllər prokaryotik DNT-də gen tapmaq və qeyri-homogen Markov modellərindən istifadə müddəti çərçivəsində gizli Markov modelindən istifadə etmək üçün təsvir edilən GeneMark.hmm alqoritmi eukaryotik DNT-nin təhlili və bölünmüş genlərin tapılması üçün genişləndirilmişdir. Eukaryotik DNT-nin daha mürəkkəb qrammatikası, kodlaşdırma və kodlaşdırmayan ardıcıllığın növə xas Markov modellərinə əlavə olaraq, donor və qəbuledici saytlar üçün modellər və kodon kontekstlərinin başlanğıc və dayandırılması üçün modellərin istifadəsi tələb olunur. Müddəti olan Gizli Markov modelindən düzgün istifadə etmək üçün ekson, intron və genlərarası bölgə uzunluqları üçün ehtimal paylamaları da alınmış və istifadə edilmişdir. GeneMark.hmm proqramı İnsan, A.thaliana, C. elegans, C.reinhardtti, D. melanogaster və Rays kimi bir neçə eukaryotik növlərin uzun genomik ardıcıllığı üçün sınaqdan keçirilmişdir. Proqram performansının eukaryotlar üçün tez-tez istifadə olunan digər gen tapıcılarla eyni səviyyədə və ya daha yüksək olduğu müşahidə edilmişdir.


HSP60 zülallarının funksional və təkamül əlaqələri

Luciano Brocchieri və Samuel Karlin *
Riyaziyyat Departamenti, Stanford Universiteti, Stanford, CA 94305-2125, ABŞ.

*Qismən Qrant NIH-5R01GM10452-34, NIH-5R01HG00335-11 və NSF-DMS9704552 tərəfindən dəstəklənir

HSP60 (GroEL) zülalları eubakteriyalarda və eukaryotik orqanoidlərdə hər yerdə ifadə olunur. Biz HSP60 oxşarlıqlarını yeni SSPA (Əhəmiyyətli Seqment Cütlərinin Alignment) metodumuzdan və çox ardıcıl ITERALIGN proqramından istifadə edərək araşdırır və onları funksiya və təkamül baxımından şərh edirik. HSP60 zülalları əsasən qorunub saxlanılır, orqanelyar ardıcıllıqda düzülməmiş N-terminal seqmentləri (lider peptidlər) və C-terminusunda düzülməmiş təkrarlanan elementlər. Təxminən beş qalığın ən uzun üçü olan düzülmə blokları arasında düzülməmiş bölgələr ümumiyyətlə Anfinsen qəfəs kompleksinin xarici divarına məruz qalır. Ən çox qorunan bölgələr arasında ATP və Mg++ bağlama yerlərini əhatə edən qalıqların ilk qabığı var. İkinci qabıqda konservasiya azalır. Substrat ilə ehtimal olunan qarşılıqlı təsir göstərən hidrofobik qalıqlar yüksək dərəcədə qorunur və onların mühüm funksional rolunu təsdiqləyir. Bununla belə, mini-şaperon kristalında histidinlə zəngin peptidlə təmasda olduğu müşahidə edilən ikinci qalıq dəsti zəif qorunub saxlanılır və görünür, daha az aktualdır. Çoxlu sayda yük qalıqları GroEL-GroES kompleksinin mərkəzi boşluğunu substrat buraxan (cis) uyğunluqda düzür. Bu qalıqlar ardıcıllıqlar arasında yüksək dərəcədə qorunan və substratla qarşılıqlı əlaqədə mühüm funksional rol oynaya bilən statistik əhəmiyyətli monomerdaxili struktur yük klasterini əhatə edir. Substrat bağlayan konformasiyada (trans) bu qalıqların çoxu heptamerik halqanın monomerləri arasında basdırılır və burada monomerlərarası qarışıq yük qrupları yaradır. Ardıcıllıqlar arasında oxşarlıq müqayisələri və çoxsaylı düzülmənin təhlili, HSP60 ardıcıllığının heyvan mitoxondrilərinin Rickettsial bakteriya endosimbionundan əmələ gəldiyi fərziyyəsini dəstəkləmədiyini göstərir. Xüsusilə, Rickettsia substratı bağlayan Apikal Domendə çox fərqlidir, Ehrlichia isə multimer birləşməsində/ATP bağlayan Ekvator Domenində əsasən fərqlidir. Əvvəllər mitoxondrial olaraq xarakterizə edilən Plasmodium falciparum-dan bir sıra, bunun əvəzinə ikincili simbiont xloroplast ardıcıllığının qeyri-funksional qalığı kimi görünür.


CheY ailəsində funksional spesifiklik üçün vacib olan dəyişən qalıqların rolunun müəyyən edilməsi

Sean Bulloch (2), Robert B. Bourret (2) və İqor B. Julin (1)
(1) Mikrobiologiya və Molekulyar Genetika Departamenti, Loma Linda Universiteti, Loma Linda, Kaliforniya 92350, ABŞ
(2) Mikrobiologiya və İmmunologiya Departamenti, Şimali Karolina Universiteti, Chapel Hill 27599, ABŞ

CheY zülalı bakterial reaksiya tənzimləyicilərinin funksional super ailəsinin və Rossman qatının struktur super ailəsinin prototip üzvüdür. E. coli-də o, bir kemotaksis kinazı ilə fosforlaşma zamanı bayraq motoruna bağlanan tənzimləyici kimi fəaliyyət göstərir. CheY tək domenli zülaldır, lakin bu yaxınlarda hibrid kemotaksis zülallarında (CheY kimi domen) bir domen kimi bildirilmişdir. Bəzi alfa-proteobakteriyalarda CheY zülalının birdən çox nüsxəsi tapıldı. S. meliloti-dəki iki CheY zülalından birinin fərqli funksiyaya malik olduğu göstərildi: o, bayraqlı mühərriklərə bağlanmır və fosfat üçün əsas CheY zülalı ilə rəqabət aparan "fosfataz" rolunu oynayır. CheY ailəsi daxilində müxtəlifliyi təhlil etmək üçün biz bütün məlum və ehtimal olunan CheY zülallarının və CheY-yə bənzər domenlərin çoxsaylı uyğunlaşdırılmasını qurmuşuq. Konsensusun hesablanması yüksək dərəcədə qorunan qalıqları müəyyən etdi və məlum CoC qalıqları ilə birlikdə E. coli CheY-nin 3D modelinə uyğunlaşdırıldı. Onların hamısı “aktiv sayt” daxilində yerləşirdi. Fosforlaşmada və digər kemotaksis zülalları ilə qarşılıqlı əlaqədə iştirak edən qalıqlar əvvəlcə düzülmə üzərində xəritələndi və onların ardıcıllığın alt dəstləri daxilində qorunması araşdırıldı. CheY fosforlaşmasında iştirak edən qalıqlar, super ailənin bütün zülalları üçün ümumi funksiyanı əks etdirən ən çox qorunanlar arasında idi.

Bir çox CheY ardıcıllığında CheY-nin E. coli-də flagellar keçid zülalı FliM-ə bağlanması üçün tələb olunan bəzi qalıqlar qorunmayıb. Bu, FliM-in oxşar təhlilinə səbəb oldu. CheY ilə qarşılıqlı əlaqədə olan FliM zülalının interfeysinin də bir çox növdə dəyişkən olduğunu nümayiş etdirdik. İki zülalın qarşılıqlı təsir edən səthlərinin qarşılıqlı dəyişməsi kemotaksis yolunu müəyyən flagellar motor növlərinə uyğunlaşdıra bilər. Müəyyən bir genomda çoxsaylı CheY zülalları arasında yeddi qorunmuş FliM-əlaqədar qalığı (ehtimal ki, həqiqi CheY homoloqu) olan bir CheY zülalının olduğunu, digər CheY zülallarında isə bu yeddi qalığın ikisinin dəyişkən olduğunu gördük. Bu iki qalıq, lakin FliM ilə qarşılıqlı əlaqədə olmadığı bilinən "çox nüsxəli" CheY zülalları və CheY kimi domenlər arasında yüksək dərəcədə qorunur. E. coli-də CheZ fosfataza ilə qarşılıqlı əlaqədə iştirak edən CheY qalıqları yalnız qamma-proteo bakteriyalarda qorunub saxlanılmışdır. Qeyri-ehtiyatsız verilənlər bazasında BLAST axtarışı (o cümlədən, natamam mikrob genomları) CheZ fosfatazanın yalnız qamma-proteobakteriyalarda olduğunu aşkar etdi. CheY ailəsi daxilində funksional müxtəlifliyə cavabdeh olan dəyişkən qalıqlar E. coli CheY-nin 3D strukturuna uyğunlaşdırıldı və iki məruz qalmış alfa spiralının səthində çoxluq tapıldı.

Zülal ardıcıllığında kritik mövqelərdə olan kiçik dəyişikliklər, zahirən funksiyada dramatik dəyişikliyə səbəb olur, zülal uzunluğu boyunca oxşar dəyişikliklər fonunda baş verir. Filogenetik analiz CheZ-qarşılıqlı, FliM-qarşılıqlı və FliM-qarşılıqlı olmayan CheYproteinləri fərqli qruplara yerləşdirdi.


Yerli Ardıcıllıq Motiflərini Müqayisə edərək Protein Ailəsinin -Funksiyasının, -Yerli Quruluşunun və -Qlobal Qalxmasının proqnozlaşdırılması

Bob Çan, Gila Litvik, Einat Sitbon, Viktor Kunin və Şmuel Pietrokovski
Fred Hutchinson Xərçəng Araşdırma Mərkəzi, Seattle, ABŞ və
Weizmann Elm İnstitutu, Rehovot, İsrail

Motif ardıcıllığı oxşarlığından istifadə edərək zülal ailələri arasında funksional və struktur oxşarlıqları müəyyən etmək üçün bir üsul təqdim edirik. Metod hər bir zülal ailəsinin bir sıra yerli boşluqsuz çoxlu düzülmələr (bloklar) və mürəkkəb ardıcıllıq analizi proqramları ilə təsvirinə əsaslanır. Çox həssas blok-blok müqayisəsi (LAMA) ardınca yüksək seçici ardıcıllıq təhlili (CYRCA) aparılır. Bu təhlil bir-biri ilə ardıcıl və keçid əlaqələri olan blok qruplarını müəyyən edir. Bir çox belə qrupların diqqətlə təftişi göstərir ki, hər birində eyni funksiyalı zülal ailələri, xüsusi struktur motivləri və hətta qlobal struktur qatı var. Bu əlaqələrin çoxunu digər qabaqcıl ardıcıllıqla ardıcıllıq və ardıcıllıqdan çoxlu düzülmə müqayisələri ilə müəyyən etmək mümkün deyil. Beləliklə, metodumuz çoxaldılmış zülal ardıcıllığının müqayisəsindən funksiyanı, yerli quruluşu və qlobal qatı proqnozlaşdırmağa imkan verir. Posterimiz metodu təsvir edəcək və nümunəvi nümunələr təqdim edəcəkdir. Yanaşma haqqında daha ətraflı məlumatı Blocks WWW saytında (http://blocks.fhcrc.org) tapmaq olar və dərc olunacaq.


Homoloji əsas strukturların müəyyənləşdirilməsi və avtomatlaşdırılması hesablanması

Jie Chen, Marchler-Bauer Aron və Stephen H. Bryant
NCBI, NIH, Bethesda, Merilend, ABŞ

Zülal strukturu-strukturu və ardıcıllıq-ardıcıllıq uyğunlaşmalarının böyük məlumat bazasından istifadə edərək, homoloji və analoji struktur qonşuları ayırd etmək üçün yeni metodu sınaqdan keçiririk. Test dəstindəki homoloji qonşular aşkar edilə bilən ardıcıllıq oxşarlığı göstərmir, lakin onlar yaxşı üst-üstə düşə və SCOP verilənlər bazasına uyğun olaraq eyni super ailəyə aid ola bilərlər (Murzin et al, JMB 247:536-540). Analoq qonşular da ardıcıl oxşarlıq göstərmir və yaxşı üst-üstə düşə bilər, lakin onların struktur oxşarlığı konvergent təkamülün nəticəsi ola bilər. Əvvəlki tədqiqatımızda biz homolog nüvə strukturunu (HCS) homolog qonşular üzərində yaxşı üst-üstə düşə bilən alfa-karbon koordinatlarının alt çoxluğu kimi müəyyən etdik. Çapraz təsdiqlənmiş sınaqda biz göstərdik ki, HCS-nin mövcudluğu üçün bir test homolog və analoji qonşuları yaxşı ayırd edə bilər (Matsuo və Bryant, Proteins 35:70-790, 1999). Bu əvvəlki işdə homoloji qonşular əl ilə yoxlamaya əsaslanan SCOP təsnifatları ilə müəyyən edilmişdir. Bununla belə, təkamül məsafəsinin göstəricisi kimi HCS-nin qorunma dərəcəsinə görə struktur qonşuların tam avtomatik sıralanmasına imkan vermək üçün HCS-nin tərifini avtomatlaşdırmaq istərdik. Burada biz bunun bir növ “bootstrap” proseduru ilə həyata keçirilə biləcəyini araşdırırıq: 1) İlkin homoloji struktur qonşular dəsti PSI-BLAST tərəfindən müəyyən edilir (Altschul et al, NAR 25:3389-3402) 2) İlkin HCS bu qonşulardan müəyyən edilir. 3) Digər struktur qonşular HCS-nin mövcudluğuna əsasən homolog kimi müəyyən edilir. 4) HCS tərifi yenilənir, ardınca 3 və 4-cü addımların təkrarlanması (hüdudları ilə).


İki Uzaq Onurğalı Genom Ardıcıllığı Arasında Müqayisə yolu ilə Ekson aşkarlanması

H. Roest Crollius (1), O. Jaillon (1), C. Dasilva (1), L. Bouneau (1), C. Fizames (1), A. Billault (2), A. Bernot (1), F.Ketier (1), J.Vaysenbax (1), V.Saurin (1)
(1) Genoskop, 2 rue Gaston Cremieux, CP 5706, 91057 Evry Cedex, Fransa
(2) CEPH, 27 rue Juliette Dodu, 75010 Paris, Fransa

İki genom arasında kodlaşdırma məlumatının qorunması onun funksional element kimi əhəmiyyətindən irəli gəlir və təkamül irəlilədikcə və növlər bir-birindən uzaqlaşdıqca ümumiyyətlə azalır. Bununla belə, funksional əhəmiyyəti az olan və ya heç olmayan bölgələr mutasiya edir və daha sürətli dəyişir. Bu xüsusiyyət kodlaşdırma bölgələrini genomik ardıcıllıqla aşkar etmək üçün uğurla istifadə edilmişdir. Buna nail olmaq üçün kodlaşdırma və kodlaşdırmayan bölgələrin aydın şəkildə ayrıldığı bir nöqtəyə qədər kifayət qədər ayrılmış iki genomun ardıcıllığını müqayisə etmək lazımdır. Bu, ekzonlar və tənzimləyici elementlər kimi funksional əhəmiyyətli elementləri aşkar etməli və genom daxilində gen təkamülü, strukturu və təşkili haqqında çoxlu ikinci dərəcəli məlumat təqdim etməlidir.

Biz bu yanaşmanı müvafiq olaraq İnsan və tetraodondiform Fugu rubripes genomunda seçilmiş bir sıra homoloji genlər üzərində sınaqdan keçirmişik. Hər iki genomda ardıcıllıqla (204 insan ekzonu) və ictimai məlumat bazalarında saxlanılan 17 gendən başlayaraq, tam uzunluğunda (13 gen) 40%-dən çox protein oxşarlığı göstərənləri saxladıq. Əvvəlcə homolog ekzonlar arasında, sonra homolog genlər arasında, sonra genləri ehtiva edən homolog genomik bölgələr arasında və nəhayət hər iki genom nümunəsi arasında cüt müqayisələr apardıq. Müqayisə üçün istifadə edilən dəstdə kodlaşdırılmayan ardıcıllığın və mürəkkəbliyin tədricən artması bizə spesifiklikdə potensial itkilərin yaranmasına nəzarət etməklə maksimum həssaslığa çatmaq üçün alqoritmlərin parametrlərini kalibrləməyə imkan verdi. BLAST alqoritminə əsaslanan müxtəlif müqayisə üsullarından istifadə edilmişdir. Maksimum həssaslıq və spesifiklik TBLASTX uyğunlaşdırmaları ilə amin turşularının dəyişdirilməsinə imkan verməyən bal matrisindən istifadə etməklə əldə edilir. Beləliklə, ilkin axtarış sözlərinin lüğətini yaratmaq üçün həddi müəyyən edən T dəyəri W uzunluğunun (ilkin axtarış sözünün uzunluğu) dəqiq uyğunluğun hesabına tənzimlənə bilər. Bu qiymətləndirmə sxemi qonşu axtarış sözlərinin siyahısının qurulmasını və istifadəsini aradan qaldırır. Buna görə də TBLASTX axtarışlarının sürəti BLOSUM kimi əvəzetmə matrisləri ilə aparılan axtarışlarla müqayisədə təxminən iki böyüklük sırası artır. Bu aspekt onurğalı genomlarının böyük fraksiyaları ilə işləyərkən vacibdir.

Bu iş Genoscope-da başlanmış, insan və digər onurğalıların genomlarında kodlaşdırma bölgələrini müəyyən etməyə kömək etmək üçün başqa bir tetraodondiform, Tetraodon nigroviridis (400 Mb) genomunun böyük bir hissəsinin ardıcıllığını hədəfləyən sekvensiya proqramının əsasını təşkil edir. Tetraodonun oxşar gen tamamlayıcısı olduğu halda, insan və ya siçandan təxminən 8 dəfə kiçik kompakt genom var. Buna görə də, ardıcıllıq səviyyəsində müqayisəli genomika üçün əsas kimi xidmət etmək üçün xüsusilə uyğunlaşdırılmışdır və qorunan amin turşusu uzanmalarının bəzi funksional əhəmiyyətə malik olmasını təmin etmək üçün uyğun təkamül məsafəsində yerləşir. Biz bu genomun 20%-ni əsasən lazımsız və təsadüfi qaydada ardıcıllıqla sıraladıq (http://genoscope.cns.fr). İnsandan sonra onurğalılar üçün mövcud olan ən böyük nümunə olan bu nümunə bir neçə yüz insan geninin dəsti ilə müqayisə edilmişdir. İlkin nəticələr göstərir ki, genlərin 50%-də paylanmış insan eksonlarının 20%-i 95%-dən çox spesifikliklə aşkar edilə bilər.


YPD və WormPD inteqrasiyası ilə müqayisəli genomik analizlərin asanlaşdırılması

Michael E. Cusick, Maria C. Costanzo, Peter D. Hodges, Jennifer D. Hogan, Jodi Lew-Smith, Kevin J. Roberg-Perez və James I. Garrels
Proteome Inc., 100 Cummings Center, Beverly, MA 01915, ABŞ

Model orqanizmlərin iki yüksək inteqrasiya olunmuş proteom verilənlər bazası indi Proteome, Inc. tərəfindən istehsal olunan BioKnowledge Kitabxanasında ictimaiyyətə açıqdır. Maya Saccharomyces cerevisiae üçün Maya Proteom Məlumat Bazası (YPD) ilk hərtərəfli seçilmiş model orqanizm məlumat bazası idi. Onun asan təqdimatı, maya biologiyasının bütün aspektləri haqqında ətraflı məlumat və maya ilə bağlı tam tədqiqat ədəbiyyatının dərindən qurulması bir çox sahələrdə tədqiqatçılar üçün bir nemət olmuşdur. İndi YPD-yə paralel təqdimat və detallarla C. elegans biologiyasını əhatə edən WormPD qoşulur. YPD və WormPD hər ikisi Başlıq Xəttləri, eksperimental və proqnozlaşdırılan Protein Xüsusiyyətləri, ətraflı sərbəst mətn Annotasiyaları və İstinadlardan ibarət aydın Zülal Hesabatları kimi təqdim olunur. İki növ arasındakı bağlantılar istənilən Protein Hesabatında mövcuddur və Blast oxşarlıqlarına, zülal ailə üzvlərinə və çarpaz istinad edilmiş annotasiyalara əsaslanır. YPD və WormPD həm akademik laboratoriyalar, həm də lisenziyalı abunə ilə korporativ qurumlar üçün sərbəst mövcuddur.

Artıq mövcud olan iki hərtərəfli seçilmiş verilənlər bazası ilə bioinformatika tədqiqatçıları ilk dəfə olaraq yollar, komplekslər, zülal ailələri və tənzimləmənin ətraflı növlərarası müqayisələrini edə bilərlər.Nə edilə biləcəyinə bir nümunə olaraq, YPD daxilində zülal komplekslərinin geniş təsvirlərindən istifadə edərək protein komplekslərinin müqayisəli təhlili aparıldı. C. elegans-da bütün üzvlərin qorunduğu komplekslər (50-dən çox kompleks) ümumi hüceyrə mexanizmlərini müəyyənləşdirir. Digər maya kompleksləri ilə heç bir üzvün C. elegans zülalına əhəmiyyətli uyğunluğu yoxdur, bu kompleksin çox güman ki, göbələklərə xas olduğunu göstərir. Oxşar müqayisəli təhlillər subcellular lokalizasiya üçün göstəriləcəkdir. YPD-də maya zülalları üçün mövcud olan geniş məlumat C. elegans-da xarakterik olmayan ortoloqlar üçün xassələri və funksiyaları proqnozlaşdırmaq üçün istifadə edilmişdir və oradan da insan da daxil olmaqla, digər yüksək növlərə.

İndi mövcud olan böyük miqdarda funksional genomik məlumatların şərhində əsas darboğaz, yaradılan minlərlə tədqiqat nəticələrini başa düşməkdir. YPD və WormPD-də mövcud olan yüksək keyfiyyətli annotasiya bu darboğazdan hazır keçidi təmin edir. Funksional genomika nəticələrinin təqdimatı üçün platforma kimi YPD və tezliklə WormPD istifadə edildikdə iki xüsusiyyət xüsusilə faydalıdır. 1) Hər Protein Hesabatındakı Başlıq Xətti zülalın qısa, bir sətirlik təsvirini təqdim edir. Başlıq xətləri davamlı olaraq yenilənir və beləliklə, hazırda zülal haqqında məlum olanların ən yaxşı xülasəsini əks etdirir. 2) Hər bir zülal biokimyəvi funksiya və hüceyrə roluna görə, bu iki xüsusiyyət üçün qurulmuş idarə olunan lüğətə görə təsnif edilir.


Zülalların Qatlanmamış Vəziyyəti üçün Model

Howard J. Feldman, Mark A. Kotowycz, Thanh-Van T. Le və Christopher W. V. Hogue
Samuel Lunenfeld Tədqiqat İnstitutu, Mount Sinai Xəstəxanası/Biokimya Departamenti, Toronto Universiteti. Toronto, Ontario, Kanada

O(NlogN) zamanında ixtiyari amin turşusu tərkibli zülal konformerlərinin yaradılması üsulu işlənib hazırlanmışdır, giriş kimi yalnız ilkin ardıcıllıq götürülür. Bu uyğunlaşdırıcılar, icazə verilən dözümlülüklər daxilində bütün bağ uzunluqları, bucaqları və dihedralları ilə fiziki və xiral olaraq etibarlı onurğalara malikdirlər. Metod, əvvəllər təsvir edilmiş "trayektoriya qrafiki" adlanan Ca yerləşdirilməsi üçün 2 ölçülü ehtimal paylama funksiyasına əsaslanır.

Alqoritmin həm real zülalların onurğalarının yenidən qurulması, həm də təsadüfi zülalların yaradılması üçün faydalı olduğu göstərilmişdir. Bu rejimlər qarışıq ola bilər ki, bu da məlum strukturu olan domenləri eyni vaxtda yenidən qurarkən naməlum domen strukturlarını və əlaqələndirici bölgələri seçməyə imkan verir.

Təsadüfi strukturların nə qədər dəqiq ola biləcəyini müəyyən etmək üçün müxtəlif qıvrımları təmsil edən 10.000 təsadüfi konformer zülal yaradıldı. Biz hər bir halda ən kiçik RMSD ilə strukturu kristal quruluşa bildiririk.

Təsadüfi konformer generatoru, həmçinin nizamsız strukturların eksperimental tədqiqatları ilə müqayisə etmək üçün molekulyar dinamika simulyasiyaları və ya zülal ansamblları üçün başlanğıc nöqtələri yaratmaq üçün istifadə edilə bilər. NOE və ya hidrogen bağları kimi eksperimental məsafə məhdudiyyətləri, əgər məlumdursa, təsadüfi gedişi əymək üçün əlavə edilə bilər.

Biz zülalın onurğa sütununun hərəkətinin fiziki modelinə əsaslanan zülal dinamik trayektoriyalarını hesablamağa imkan verən sistemi daha da inkişaf etdirmişik. Biz zülalın açılması filmlərini və atom əsaslı potensialdan istifadə edərək hər addımda bunlar üçün hesablanmış enerjiləri göstəririk. 2-ölçülü qaza bənzətmə vasitəsilə bu enerji hesabı ilə verilmiş qalığın hərəkəti arasında əlaqə qurulmuşdur.


Ardıcıllıq motivləri və neyron şəbəkələrindən istifadə edərək gücləndirilmiş performansla zülal məsafəsi məhdudiyyətlərinin proqnozlaşdırılması

J. Gorodkin, O. Lund, C. A. Andersen və S. Brunak
Ekologiya və Genetika Departamenti, Biologiya Elmləri İnstitutu, Orhus Universiteti, Danimarka

3-ölçülü quruluşu məlum olan polipeptid zəncirlərində hər hansı bir cüt amin turşusunun hər ardıcıl ayrılması (qalıqlarda) üçün fiziki məsafənin proqnozlaşdırıla bilməsini araşdırırıq (Angstromsda). Müəyyən edilmişdir ki, kiçik ardıcıllıq ayırmaları üçün məsafə paylanmaları bimodaldır, böyük ardıcıllıq ayırmaları üçün isə ardıcıllıqların ayrılması artdıqca məsafələrin orta qiymətinin artmasına baxmayaraq, onlar universal formaya yaxınlaşırlar. Məsafə paylanmalarında olduğu kimi, ardıcıllığın motivləri də ardıcıllığın ayrılmasını artırmaq üçün dəyişir. C-alfa atomları arasındakı məsafənin həmin ayırma zamanı orta dəyərdən kiçik olduğu qalıqlar üçün ardıcıllıq motivi qurulur. Ayrılma kiçik olduqda, motiv iki qalıq arasında yerləşən tək zirvədən ibarətdir. Ardıcıllığın ayrılması artdıqca iki ayrılmış qalıq ətrafında əlavə zirvələr görünür və ayrılma böyük olduqda mərkəzi zirvə ləkələnir. Bu təhlil göstərir ki, neyron şəbəkəsi proqnozlaşdırma sxemi nə üçün bu tapşırıq üçün cüt ehtimal sıxlığı funksiyaları kimi sadə statistik məlumatlara əsaslanan yanaşmalardan daha yaxşı çıxış edir. Yeni neyron şəbəkə arxitekturasının layihələndirilməsi üçün aparılan tədqiqatdan əldə edilən biliklərdən istifadə edərək, 10-30 qalıq ardıcıllıqla ayrılması üçün performansda böyük təkmilləşdirmə əldə edilir. Ardıcıllığın motivlərinin və məsafə paylamalarının formasının dəyişməsi artan ardıcıllıqla ayrılması ilə şəbəkə performansını keyfiyyətcə hesablayır. WWW serveri http://www.cbs.dtu.dk/services/ distanceP/ ünvanında mövcuddur.


3'-son emal Nəzarət ifadələrinin hesablama xarakteristikası

Joel H. Graber, Charles R. Cantor, Scott C. Mohr və Temple F. Smith
Qabaqcıl Biotexnologiya Mərkəzi Boston Universiteti, Boston, MA, ABŞ

Nuklein turşusuna nəzarət ardıcıllığını (ibarələrini) tanımaq çətindir, çünki onlar nisbətən kiçikdirlər və sədaqət və mürəkkəblik baxımından geniş variasiya nümayiş etdirirlər. Biz göstərmişik ki, 3'-sonlu emal nəzarətləri çoxlu elementlərdən ibarətdir, burada ayrı-ayrı elementlər konsensus ardıcıllığından geniş şəkildə fərqlənə bilər və bununla belə bütövün bir hissəsi kimi funksional olaraq qalır. Nəzarət ifadələri arasında ümumi olan bu cür dəyişkənlik bioinformatik təhlili xarakteristika üçün təbii yanaşmaya çevirir. Hazırda mövcud olan böyük ardıcıllıq verilənlər bazası, namizəd ardıcıllıqların seçilməsi üçün uyğun bioloji fərziyyə nəzərə alınmaqla, bu cür araşdırmalar üçün kifayət qədər məlumat verir.

Demək olar ki, bütün yetkin eukaryotik mRNA-lar poliadenilat (poli(A)) quyruqlarında bitir. 3'-sonlu emal yeri (parçalanma və poliadenilləşmə) yetişməmiş RNT ardıcıllığı daxilində nəzarət ifadələri ilə müəyyən edilir. Eksperimental tədqiqatlar bir çox orqanizmlər daxilində funksional 3'-sonlu emal ifadələrinin geniş spektrini və bir çox növlər arasında araşdırıldığında yalnız zəif qorunma nümayiş etdirdi. Biz Ekspres Ardıcıllıq Teqləri (EST) daxilində 3'-sonlu emal ifadələrini, adətən mRNA poli(A) quyruğuna hibridləşən oliqotimidilat primerlərindən əmələ gələn cDNA ardıcıllıqlarını axtardıq. EST ardıcıllığının 3'-ucu 3'-sonlu emal sahəsini müəyyən edir.

Biz böyük (> 1000) maya, düyü, arabidopsis, meyvə milçəyi, siçan və insan EST ardıcıllıqlarını topladıq ki, EST-nin 3' sonunda yaranma ehtimalı yüksəkdir. Biz ehtimal olunan bioloji funksiyanı göstərən statistik cəhətdən əhəmiyyətli bolluğa malik bir neçə motivi müəyyən etdik. Növlər arası müqayisə göstərir ki, kanonik AAUAAA elementinin istifadəsi və mühafizəsi altı növ arasında geniş şəkildə dəyişir və bitkilərdə və mayada xüsusilə zəifdir. Tədqiq olunan bütün növlərdə tam 3'-sonlu emal nəzarəti çoxlu elementlərin mürəkkəb məcmusundan ibarətdir. Həm nəticələrimizdə, həm də əvvəlki araşdırmalarımızda müşahidə olunan müxtəlif hadisələri izah etmək üçün 3'-sonlu emal idarəetmə ifadələrinin genişləndirilmiş modelini təqdim edirik.


Zülallar arasında təkamül sürətlərinin paylanmasından istifadə edərək tam genom miqyasında filogenetik təhlil

Nik V. Grishin, Yuri I. Wolf, Eugene V. Koonin
Milli Biotexnologiya Məlumat Mərkəzi, Milli Tibb Kitabxanası, Milli Sağlamlıq İnstitutu, Bethesda, MD 20894, ABŞ

Müxtəlif orqanizmlərin tam genom ardıcıllığının toplanması bütün genom müqayisələrindən təkamül nəticələri üçün yeni imkanlar yaradır. Burada biz 19 tam genomda kodlanmış zülallar arasında əvəzetmə nisbətlərinin paylanmasını təhlil edirik (proteinlər arası nisbət paylanması). Bu nisbətləri qiymətləndirmək üçün başqa bir əsas paylanmadan, fərdi zülallardakı yerlər arasında əvəzetmə dərəcələrindən (zülaldaxili paylanma) istifadə etmək lazım idi. İki müstəqil yanaşmadan istifadə edərək, zülaldaxili əvəzetmə dərəcəsi dəyişkənliyinin ümumi qəbul ediləndən əhəmiyyətli dərəcədə böyük olduğunu göstəririk. Biz nümayiş etdiririk ki, genom-genom müqayisələrindən əldə edilən zülallararası nisbət paylanmaları bir-birinə bənzəyir və uzun eksponensial çiyin ilə tək bir paylanma ilə təxmin edilə bilər. Bu, molekulyar saat hipotezinin genom miqyasında etibarlı ola biləcəyini göstərir. Biz topologiyası qlobal rRNT əsaslı ağaclarınkinə uyğun gələn köklü tam genomlu filogenetik ağac yaratmaq üçün bu paylanmanın miqyaslı parametrindən istifadə edirik.


FramePlus: DNT-ni zülal ardıcıllığına uyğunlaşdırmaq üçün həssas bir alqoritm

Eran Halperin, Simchon Faigler və Raveh Gill-More
Compugen Ltd., 72 Pinchas Rosen Street, Tel-Əviv 69512, İsrail

Bioloji ardıcıllığın uyğunlaşdırılması alqoritmləri son bir neçə ildə son dərəcə populyarlaşdı və indi minlərlə tədqiqatçı tərəfindən bioinformatikada mübahisəsiz ən vacib annotasiya vasitəsi kimi istifadə olunur. Bununla belə, istifadə edilən axtarış alqoritmi annotasiya layihəsinin uğuruna həlledici təsir göstərə bilər: müxtəlif alqoritmlər müxtəlif şəraitdə müxtəlif hitləri tapacaq (və qaçıracaq).

Çərçivə alqoritmləri, bir nuklein turşusu ardıcıllığını bir amin turşusu ardıcıllığı ilə müqayisə etmək istədikdə, ardıcıllıqla uyğunlaşdırma alqoritmlərinin xüsusi halıdır. Onlar ifadə edilmiş ardıcıllıq teqlərini (EST) şərh etmək üçün xüsusilə faydalıdır. Hazırlanmış ilk kadr alqoritmi Translated Search (həmçinin altı çərçivəli tərcümə kimi tanınır) idi və birbaşa Smith-Waterman alqoritminə əsaslanır. Evristik verilənlər bazası axtarış paketləri (məsələn, BLAST və FASTA kimi) erkən dövrlərdə çərçivə alqoritmlərini birləşdirmişdir. Bununla belə, erkən çərçivə alqoritmləri, xüsusən də səhvlər çərçivənin yerdəyişməsinə səbəb olduqda, səhvlərə çox dözümlü deyildi. Bunun həlli FrameSearch tərəfindən təqdim edildi.

Bu işdə biz FrameSearch-in uzantısı olan FramePlus adlı yeni çərçivə alqoritmini təqdim edirik, burada biz təkamül nəticəsində yaranan amin turşularının indekslərindən ayrı ardıcıllıq xətalarını modelləşdiririk. Bunlar iki fərqli fenomen olduğundan, bu daha yaxşı modelləşdirmənin həssaslığın artması ilə nəticələnəcəyini gözləmək ağlabatandır. Bu fərziyyəni yoxlamaq üçün biz Brenner və digərlərinin fikirlərindən istifadə etdik və fərdiləşdirdik. struktur olaraq təsnif edilmiş zülalların SCOP verilənlər bazasına əsaslanan alqoritm müqayisəsi üçün və çərçivə alqoritmlərinin müqayisəsi üçün ümumi çərçivə həyata keçirmişdir. Yuxarıda göstərilən bütün alqoritmləri müqayisə etmək üçün bu çərçivədən istifadə etdik.

Nəticələrimiz göstərir ki, FramePlus digər alqoritmlərdən əhəmiyyətli dərəcədə daha həssasdır və aşağı ardıcıllıqla eynilik hallarında digər sınaqdan keçirilmiş alqoritmlərdən 13% daha çox həqiqi hit tapa bilər. FramePlus standart kompüterdə tətbiq edildikdə BlastX kimi evristik alqoritmlərdən daha yavaş olsa da, xüsusi təyinatlı aparatlarda onu 3 böyüklük sırasına qədər sürətləndirmək olar. FramePlus mənbə kodu ftp.compugen.co.il/pub ünvanında sərbəst mövcuddur.


Zülal kodlayan genlərdə neytral nisbət pozuntusunun aşkarlanması üsullarının müqayisəli sınaqları

A. P. Jason de Koning və Caro-Beth Stewart
Biologiya Elmləri Bölməsi, Albany Universiteti, SUNY, Albany, NY 12222, ABŞ

Müqayisəli genomikada mühüm, lakin qorxulu problem, neytral genetik sürüşmə ilə deyil, yeni funksiya üçün müsbət Darvin seçmə yolu ilə müəyyən edilmiş növlər arasında genetik fərqləri müəyyən etməkdir. Neytral nəzəriyyə, heç bir seçici təzyiq altında olmayan genlərin elə təkamül edəcəyini proqnozlaşdırır ki, qeyri-sinonim nukleotid əvəzetmə sürəti (dN) təxminən sinonim əvəzetmə sürətinə (dS) bərabər olacaqdır. Genin dS ilə ölçülən lokusun neytral əvəzetmə sürətinə nisbətən dN-nin əhəmiyyətli dərəcədə yüksəlməsi zülal ardıcıllığında dəyişikliklər üçün müsbət seçimin güclü sübutu kimi qəbul edilir.

dN və dS-nin qiymətləndirilməsi üçün çoxsaylı üsullar təklif olunsa da, real DNT ardıcıllığı məlumatlarına tətbiq edildikdə onların nisbi güclü və zəif tərəfləri haqqında çox az şey məlumdur. Müqayisəli tədqiqatların bu qədər az olmasının bir səbəbi, mövcud dN/dS metodlarının əksəriyyətinin müxtəlif kompüter platformalarında tətbiq olunması, müxtəlif giriş fayllarından istifadə etməsi və nəticələri birbaşa müqayisələri çətinləşdirən şəkildə göstərməsidir.

Müqayisəli dN/dS tədqiqatlarını asanlaşdırmaq üçün biz müxtəlif nəşr edilmiş və yeni işlənmiş üsullarla homoloji zülal kodlaşdıran genlər arasında dN və dS-i hesablayan FENS (Asanlaşdırılmış Nukleotid Əvəzetmələrinin Təxmini Təxminləri) adlı yeni kompüter proqramını inkişaf etdiririk. Hal-hazırda həyata keçirilən təhlil metodlarına Li və başqalarının metodları daxildir. (1985), Nei və Gojobori (1986) [orijinal nəşrdə təsvir olunduğu kimi, MEGA-da proqramlaşdırıldığı kimi deyil], Pamilo & Bianchi (1993) və Li (1993) [kompüter proqramında həyata keçirildiyi kimi, Li93, riyazi hesablamaları düzəldən. orijinal nəşrlərdə səhv] və İna (1995) [hər iki üsul 1 və 2 ilə]. Saytlararası dərəcə dəyişikliyi üçün qamma-korreksiyası və dayanma kodonlarının nöqtə mutasiyaları ilə asanlıqla əldə edilə biləcəyi hallar üçün Nei-Gojobori və Ina metodlarına düzəliş daxil olmaqla əlavə seçimlər mövcuddur. FENS həmçinin Hughes və Nei (1988) tərəfindən təklif edildiyi kimi dN və dS arasında əhəmiyyətli fərqlər üçün t-testləri hesablayır. Bütün metodların nəticələri bütün hesablamaların isteğe bağlı çıxışı ilə kompakt matrislərdə göstərilir.

Burada FENS-də həyata keçirilən bütün üsullarla böyük psevdogen verilənlər toplularının təhlillərini təqdim edəcəyik, metodların davranışlarını neytral gözləntilərə (dN = dS, orta hesabla) müqayisə edəcəyik. Simulyasiya tədqiqatları ilə birlikdə, real DNT ardıcıllığından istifadə edən bu cür müqayisəli tədqiqatlar, adaptiv molekulyar təkamülün aşkarlanması üçün müxtəlif üsullardan hansının ən uyğun olduğunu anlamağa kömək etməlidir.

FENS beta nəşri olaraq buraxılır və poster sessiyasında əlçatan olacaq. Proqram hazırda Power Mac kompüterlərində işləyir, baxmayaraq ki, gələcəkdə digər platformalar da dəstəklənəcək. Daxiletmə faylları standart Nexus formatından istifadə edir ki, verilənlər tez-tez istifadə olunan təkamül təhlili proqramları üçün asanlıqla daşınsın.

Nəşr olunmamış ardıcıllıqlara görə M. Nachmana və dəstəyə görə NSF-ə təşəkkür edirik.


Gen identifikasiyası və zülal qatının tanınması üçün ikinci dərəcəli struktur vəziyyətinin gizli Markov modellərinin istifadəsi

Peter J. Lammers, John B. Spalding və Steven P. Duran
Nyu Meksiko Dövlət Universiteti, Las Cruces, NM, ABŞ

Biz sadə fərziyyəni sınaqdan keçirdik ki, amin turşusu ardıcıllığından proqnozlaşdırılan zülal ikincil strukturları Zülal Məlumat Bankında (PDB) struktur homoloqları müəyyən etmək üçün əsas kimi istifadə edilə bilər. Bir-biri ilə sıx əlaqəli zülal qruplarına diqqət yetirməklə, ikinci dərəcəli strukturun proqnozlaşdırılmasının dəqiqliyi yaxşılaşdırılır və nəticələr yalnız spiral, təbəqə və ya rulon təyinatlarına əsaslanaraq hər qrup üçün gizli profilli Markov Modeli (HMM) qurmaq üçün istifadə edilə bilər. Nəticədə HMM PDB resursunu axtarmaq üçün həssas alət təqdim edir. Bu yanaşmanın etibarlılığı PDB-də homoloji zülallarla müxtəlif dərəcələrlə əlaqəli 37 qrup protein ardıcıllığı ilə sınaqdan keçirilmişdir. Tam avtomatlaşdırılmış prosesdən istifadə edərək hər bir əlaqəli ardıcıllıq qrupunu yaratmaq üçün tək sorğu ardıcıllığından istifadə edilmişdir. Hər bir məşq dəsti zülalı üçün iki üsuldan istifadə etməklə ikinci dərəcəli strukturlar proqnozlaşdırıldı: Predator və DSC. HMM-lər HMMER 2.1.1-dən istifadə etməklə hər qrup üçün qurulmuş və PDB-dən əldə edilən ikinci dərəcəli strukturların STRIDE verilənlər bazasına qarşı qiymətləndirilmişdir. Predator metodu üstün olduğunu sübut etdi, çünki ən yüksək nəticə göstərən zülal 31/37 model (84%) üçün əsl müsbət idi. DSC metodu ilə proqnozlaşdırılan ikinci dərəcəli strukturlardan əldə edilən modellər 23/37 halda (62%) doğru idi. Müvəffəqiyyət ehtimalı ilkin sorğu zülalı ilə onun ən yaxın PDB homoloqu və ya zülalın uzunluğu arasındakı ardıcıllığın eynilik dərəcəsi ilə əlaqəli deyildi. Bununla belə, HMM-nin qurulması üçün istifadə olunan təlim dəstinin ölçüsü təsir etdi. Predator-dan əldə edilən modellərin altı buraxılışından dördü 13 və ya daha az proteinli məşq dəstlərindən gəldi.


Kinesin Superailəsinin Köklənməsi: Hərtərəfli Filogenomik Təhlil

Lawrence, C.J. (1), Malmberg, R.L. (1), Muszynski, M.G. (2) və Dawe, R.K. (1 və 3)
(1) Corciya Universiteti, Botanika Departamenti, Afina, GA, ABŞ
(2) Pioneer Hi-Bred Intl., Inc. Afina, GA, ABŞ
(3) Corciya Universiteti, Genetika Departamenti, Afina, GA, ABŞ

Kinesinlər mikrotubul əsaslı motor zülallarının müxtəlif, qədimdən əldə edilmiş super ailəsini təşkil edir. Filogenetik ağaclar qurmaq və funksiyanı monofiletik təbəqələr üzərində xəritələşdirməklə biz kinesin superfamilyası daxilində unikal funksiyaların təkamülünü yenidən qurmağa ümid edirik. Biz MukB üçün iki bakterial ardıcıllığı, kinesinUs prokaryotik əcdadı və pan-kinesin ağacını kökləmək üçün qədimdən ayrılmış amitoxondriat protisti olan Giardia lamblia-dan dörd kinesin ardıcıllığını daxil edirik. Protistlərdən, göbələklərdən və heyvanlardan əvvəl təsvir edilmiş kinesinləri təsnif etməklə yanaşı, biz monokot Zea mayslardan ardıcıllaşdırdığımız 13 unikal kinesinləri, eləcə də yeni bildirilmiş bir çox dikot sıralarını bitki aləminin nümayəndələri kimi təsnif edirik. Filogenetik analizimizin ilkin nəticələri göstərir ki, (1) bitkilərin həm artı, həm də mənfi tərəfə yönəldilmiş kinesinləri var, (2) mənfi tərəfə yönəldilmiş kinesinlər monofiletik təbəqə əmələ gətirir və bu, tək bir təkamül hadisəsinin tərs motor istiqamətinin mənşəyini təşkil etdiyini göstərir. , və (3) bitkilər, ehtimal ki, xloroplast və ya mitoxondriya replikasiyası üçün lazım olan MukB-nin nüvə surətinə malik ola bilər.

Li, D. A., Pearl, F. M. G. və Orenqo, C. A.
Biomolekulyar Struktur və Modelləşdirmə Qrupu, London Universitet Kolleci, Gower Street, London WC1E 6BT, Böyük Britaniya.

CATH (1) PDB-də yığılmış zülalların strukturlarının təsnifat sistemidir (2, 3). Bu, domen baxımından, iyerarxik təsnifatdır, dörd əsas səviyyə: Sinif Memarlığı Topologiyası və Homologiya. PSI-BLAST (4) zülallar arasında əhəmiyyətli ardıcıllıq oxşarlıqlarının aşkarlanması üçün səmərəli və güclü vasitədir. Bu işdə CATH və PSI-BLAST zülalların ardıcıllığı və quruluşu arasındakı əlaqəni araşdırmaq üçün birlikdə istifadə edilmişdir. Tədqiqatın ikinci dərəcəli aspekti CATH təsnifatlarının təsdiqidir.

Tədqiqat iki əsas hissəyə bölünür. Birinci bölmə CATH ardıcıllığı verilənlər bazasına qarşı naməlum struktura malik ardıcıllıqların PSI-BLAST istifadə edərək skrininqinə aiddir. Nəticələr hər CATH ardıcıllığı ilə əlaqəli strukturun işığında təhlil edilir.

İkinci bölmədə, hər bir CATH ailəsinin nümayəndəsinin ardıcıllığı PSI-BLAST istifadə edərək, GENBANK (5) lazımsız protein ardıcıllığı məlumat dəstinin ən son buraxılışına qarşı yoxlanılır. CATH ailələrinə ehtimal olunan homoloqların işə götürülməsi üçün prosedur təsvir edilmişdir.

Bu ünvanda CATH-PSI-BLAST server tikilir
http://www.biochem.ucl.ac.uk/

1) Orengo, C. A. et al. 1997. Struktur. 5:1093-1108.
2) Abola, E. E. et al. 1987.In: Kristaloqrafik verilənlər bazaları - məlumat məzmunu, proqram sistemləri, elmi tətbiqlər, F. H. Allen, G. Bergerhoff və R. Sievers, red. Beynəlxalq Kristalloqrafiya İttifaqının Məlumat Komissiyası, Bonn/Cambridge/Chester. səh 107-132.
3) Abola, E. E. et al. 1997. In: Methods in Enzymology, C. W. Carter Jr. and R. M. Sweets, eds. Akademik Mətbuat, San Diego. Cild 277, səh 556-571.
4) Altschul, S. F. et al. 1997. Nuklein turşularının tədqiqatı. 25:3389-3402.
5) Baskin, Y. 1983. Science Digest. 91:94-95.


Markov Chain Monte Carlo və Bioinformatika və Statistik Analiz Alətləri üzrə Veb-əsaslı İnkişafdan istifadə edərək Xərçəngə Qarşı Gen Kəşfi üçün İerarxik Effekt Modeli (HEM)

Jae K. Lee
Molekulyar Farmakologiya Laboratoriyası, Milli Xərçəng İnstitutu, Milli Sağlamlıq İnstitutu, Bethesda, MD, ABŞ

Son onilliyin sonundan etibarən, NCI müxtəlif növ xərçəng növlərinin 60 cərgəsindən ibarət bir hovuza əsaslanan zəngin antikanser dərmanları ilə eksperimentlər aparır və toplayır. Bu kütləvi dərman bazası ilə paralel olaraq, mikroarray və oliqonukleotid cDNA ifadə məlumatlarının və 60 xərçəng hüceyrə xəttində bəzi molekulyar hədəflərin bir neçə böyük verilənlər bazası artıq mövcuddur. Bu çox GB məlumatlarını ciddi və effektiv şəkildə araşdırmaq üçün biz innovativ bioinformatika və statistik araşdırma metodlarını inkişaf etdirməliyik. Müxtəlif bioloji amillərin təsirlərini, xüsusən qarşılıqlı təsirlərini eyni vaxtda ciddi şəkildə qiymətləndirmək və maraqlı ---klinik cəhətdən əhəmiyyətli--- dərmanlar və genləri müəyyən etmək üçün yeni statistik modelləşdirmə yanaşmasını təklif edirəm. Bu yanaşma İerarxik Effekt Modelinin (HEM) qurulmasına və inkişaf etmiş kompüter intensiv statistik texnikası olan Markov Chain Monte Carlo istifadə edərək model parametrlərinin qiymətləndirilməsinə əsaslanır. Böyük miqdarda bioloji və klinik məlumat üzərində belə bir statistik/bioinformatika inkişafının canlılığı həm statistik və bioloji tədqiqatçılar arasında intensiv qarşılıqlı əlaqə və əməkdaşlıqdan, həm də məlumatları müxtəlif perspektivlərdən şərh etmək üçün tədqiqat alətlərimizin çevikliyindən çox asılıdır. S-PLUS kimi müasir statistik paketlərdən tam istifadə etməklə biz statistik analiz alətlərimizi birbaşa bioloji və klinik tədqiqatçılara təqdim etmək üçün veb əsaslı sistem hazırlamışıq.


RBS Modeli Tərcümənin Tanınmasına Nə qədər Dəqiqlik gətirə bilər?

Ping Li və Mark Borodovski
Biologiya Məktəbi, Corciya Texnologiya İnstitutu, Atlanta, GA 30332-0230, ABŞ

Tərcümə başlanğıc saytlarının dəqiq proqnozlaşdırılması hələ də açıq problemdir. Gen proqnozlaşdırma proqramı olan GeneMark proqramı Markov zəncir modellərindən istifadə edir. Tərcümə başlanğıcını proqnozlaşdırmaq yalnız zülal kodlayan və kodlaşdırılmayan bölgələrin modellərindən istifadə etməklə çətindir. Ribosome Binding Site (RBS) adətən tərcümənin başlanğıc yerindən -19-dan -4-ə qədər olan bölgədə yerləşir. GeneMark-ın ən son versiyası tərcümənin tanınmasına kömək etmək üçün RBS modelindən istifadə edir. GeneMark proqnozlarını şərh etmək üçün belə bir proqnozun səhv nisbətlərinin paylanmasını bilmək vacibdir. Bu işdə Markov zəncir modelləri və RBS modelləri tərəfindən çoxlu sayda süni model ardıcıllığı yaradılmışdır. Hazırkı GeneMark-da istifadə olunan bir xal əvəzinə, həqiqi tərcümə başlanğıcını yalandan ayırmaq üçün iki xal hesablanmış yeni alqoritm təklif edildi. Proqnozlaşdırma xətası dərəcəsinin Kullback-Liebler məsafəsi ilə təmsil olunan model parametrlərindən asılılığı müxtəlif prokaryotik genomların gen proqnozlaşdırılmasına rəhbərlik etmək üçün müəyyən edilmişdir. Göstərildi ki, yeni alqoritm potensial olaraq hazırda GeneMark-da istifadə edilən başlanğıc saytının proqnozlaşdırılması prosedurundan daha yüksək proqnoz dəqiqliyinə malikdir.


MerC-nin Keyfiyyəti, mer Mozaikasının Modulu

Cynthia A. Liebert, Alice L. Watson və Anne O. Summers
Mikrobiologiya şöbəsi, Corciya Universiteti, Afina, GA 30602-2605, ABŞ

Primat bağırsaq mikrobiotasından təbii bakterial təcridlərin mozaik civə müqavimətinin (mer) operonunda yüksək dəyişkənlik bölgəsini araşdırdıq. Doqquz mer lokusun merP və merA genləri (PA) arasındakı bölgə ardıcıllaşdırıldı və ya merC, merF və ya heç bir gen mövcud deyildi. İki yeni merC geni müəyyən edildi. MerC geninin ümumi nukleotid müxtəlifliyi, p (100 sahəyə), qonşu merP (35,82) və merA (32,58) genlərindən daha çox (49,63) olmuşdur. Bununla belə, MerC zülalının proqnozlaşdırılan strukturu üçün bu dəyişkənliyin nəticələri məhduddur və iki istisna olmaqla, ehtimal olunan funksional elementlər (metal bağlayan liqandlar və transmembran domenləri) güclü şəkildə qorunur. PA bölgəsindəki müxtəlifliyin mümkün agentlərinə mer daxilində və yaxınlığındakı Chi yerlərinin vasitəçiliyi ilə homoloji rekombinasiya daxildir. Bəzi mer operonlarında və yaxınlığında sahəyə məxsus rekombinazların fəaliyyətlərini təklif edən vestigial ardıcıllıqlara dair sübutlar da var.


İerarxik Nümunə Kəşfiyyatı ilə G-protein ilə əlaqəli reseptorların qruplaşdırılması

Agatha H. Liu, Gustavo Stolovitzky, Ajay Royyuru, Andrea Califano
Hesablama Biologiya Mərkəzi, IBM TJ Watson Araşdırma Mərkəzi, ABŞ

G-protein ilə birləşdirilmiş reseptor super ailəsi, ehtimal ki, genomumuzda ən böyük və funksional olaraq ən fərqli gen ailəsidir. Onun üzvləri təəccüblü səviyyəli ardıcıllıq oxşarlığı nümayiş etdirə bilər, lakin yenə də kökündən fərqli funksiyaya malikdir. Buna misal paratiroid və kalsitoninlərdə tapıla bilər. Nəticə etibarilə, Müqayisəli Genomika nöqteyi-nəzərindən GPCR ailələrinin üzvlərinə xüsusi funksional əlamətlər verən ardıcıllıq elementlərinin müəyyən edilməsi hələ də çox açıq sualdır. Bu transmembran zülalların struktur modelləri üçün əsl bazanın olmadığı halda daha doğrudur, hansı ki, böyük hidrofobik sahəyə məruz qalır və buna görə də kristallaşmaq olduqca çətindir.

Bu yazı tədqiqatçılara SWISS-PROT Release 36-da GPCR zülallarının hər birinin funksiyasına getdikcə daha çox spesifiklik verən ardıcıllıq bölgələrini səmərəli şəkildə müəyyən etməyə imkan verən nəzarətsiz, yuxarıdan aşağıya yanaşma təqdim edir. Bu üsul statistik cəhətdən əhəmiyyətli qorunub saxlanılanların rekursiv identifikasiyasına əsaslanır. Splash alqoritmi vasitəsilə deterministik seyrək nümunə kəşfi vasitəsilə bölgələr.

İki yanaşma öyrənilir. Birincidə, hər addımda, A0 protein dəstində ən çox qorunan nümunə (və ya nümunələr) aşkar edilir və yerli HMM təmsilçiliyini yaratmaq üçün istifadə olunur. Sonuncu çoxluğu iki alt çoxluğa bölmək üçün istifadə olunur: HMM ilə bağlı statistik əhəmiyyətdən yuxarı bal toplayan A01 dəsti və olmayan A00 dəsti. HMM bölgəsini A01 dəstindəki zülallardan çıxardıqdan sonra prosedur həm A01, həm də A00 üçün təkrarlanır (A011, A010, A001 və A000 dəstləri əldə edilir) tam təsnifat ağacı əldə edilənə və statistik əhəmiyyətli nümunələr artıq müəyyən edilə bilməyənə qədər. .

İkinci yanaşmada prosedur təkrarlanır, lakin dəstlər dərhal bölünmür. Yəni HMM bölgəsi A01-də olan A0-da bütün ardıcıllıqla maskalanır və sonra nümunə kəşfi bütün A0 çoxluğunda təkrarlanır, A02, A03 dəsti və s. verir. A0-da statistik əhəmiyyətli nümunələri artıq aşkar etmək mümkün olmadıqda, statistik əhəmiyyətli nümunələr aşkar edilə bilməyənə qədər prosedur A01, A02 və s. alt çoxluqların hər biri üçün təkrarlanır. Nəhayət, hər bir HMM cütü üçün əhəmiyyət həddini aşan ardıcıllıqlarda üst-üstə düşmə miqdarını təyin etməklə, zülal çoxluğu əlaqələrinin tam qrafiki qurulur. Hər bir üsul öz mahiyyəti ilə maraqlıdır və bioloji cəhətdən əhəmiyyətli nəticələr verir.

Nümunə kəşf alqoritminin səmərəliliyi sayəsində bütün prosedur 1000-dən çox GPCR üçün iş stansiyasında bir neçə dəqiqə ərzində tamamlana bilər. Bu, bu metodologiyanı tam SWISS-PROT kimi böyük protein verilənlər bazalarını qruplaşdırmaq üçün faydalı edir.

Nəticələrin əvvəlki texnika ilə müqayisəli təhlili bildirilir. Həmçinin əvvəllər bildirilməyən bir sıra maraqlı funksional protein qrupları müzakirə olunacaq. Bu yanaşma ilə yaradılan bəzi HMM-lər müxtəlif detallılıq səviyyələrində bir neçə yeni GPCR namizədi yaradan dbEST verilənlər bazasını ekranlaşdırmaq üçün istifadə edilmişdir.


Dead-end Elimination istifadə edərək Yerli Çoxlu Ardıcıllıq Alignment

Alexander V. Lukashin və Joseph J. Rosa
Biogen, Inc., 14 Cambridge Center, Cambridge, MA 02142, ABŞ

Yerli çoxlu ardıcıllığın uyğunlaşdırılması, zülal ardıcıllığı ailəsi tərəfindən paylaşılan funksional əhəmiyyətli bölgələrin çıxarılması üçün əsas vasitədir. Biz yerli çoxlu düzülmə problemini ciddi şəkildə həll etmək üçün alqoritmi təqdim edirik. Alqoritm hərtərəfli axtarışdan qaçmağa imkan verən ölü nöqtənin aradan qaldırılması proseduruna əsaslanır. Qlobal optimal uyğunlaşma ilə riyazi olaraq uyğunsuzluğu (ölü sona çatan) göstərilə bilən ardıcıllıq seqmentlərini və seqment cütlərini aradan qaldırmaq üçün müəyyən rədd etmə meyarları əldə edilir. Eliminasiya meyarlarının təkrar tətbiqi kombinator imkanlarının açıq şəkildə nəzərə alınmadan sürətlə azalması ilə nəticələnir. Əksər hallarda prosedur unikal qlobal optimal həllə yaxınlaşır. Hesablama mürəkkəbliyi kombinatoryal olan hərtərəfli axtarışdan fərqli olaraq, alqoritm hesablama baxımından məqsədəuyğundur, çünki ölü son seqmentləri və seqment cütlərini aradan qaldırmaq üçün tələb olunan əməliyyatların sayı ardıcıllıq elementlərinin ümumi sayı ilə müvafiq olaraq kvadrat və kub olaraq artır. Metod qlobal miqyasda optimal uyğunlaşmaların yaxşı tanındığı bir sıra protein ailələrində təsvir edilmişdir.


Arxeya və Bakteriyalarda ksenoloji genlərin yerdəyişməsi

Kira S. Makarova, L. Aravind və E. V. Koonin
Milli Biotexnologiya Məlumat Mərkəzi
Milli Tibb Kitabxanası
Milli Sağlamlıq İnstitutları, Bldg. 38A
Bethesda, MD 20894, ABŞ

Bakteriyaların və arxeyaların tamamilə ardıcıl genomlarının müqayisəli təhlilinin bəlkə də ən gözlənilməz nəticəsi, hətta filogenetik cəhətdən uzaq mikroblar arasında baş verən üfüqi gen transferinin görünən yüksək sürətidir. Horizontal gen transferinin mümkün nəticələrindən biri, hər iki genin genomda mövcud olduğu zaman aralıq mərhələdən keçdiyi güman edilən uzaq bir növdən olan genin öz ortoloqu ilə əvəz edilməsidir. Biz bu təkamül hadisəsini ksenoloji gen yerdəyişməsi (XGD) adlandırdıq. 5 Arxeal və 15 Bakterial genomda kodlanmış zülalların tam dəstindən istifadə edərək, biz XGD hadisələrinin bu prokaryotların təkamülünə töhfəsini qiymətləndirməyə çalışdıq. Nisbətən yeni XGD hallarını aşkar etmək üçün E.coli-Haemophilus influenzae-Rickettsia prowazekii, Treponema pallidum-Borrelia burgdorferi, Chlamydia pneumoniae-C.trachomatis və Mycoplasma-taliummoniaep kimi yaxından əlaqəli genom qrupları müqayisə edilmişdir. . Proteobakteriyalar və iki spiroketlər arasında olan R.prowazekii kimi müəyyən orqanizmlərin - B.burgdorferi və T.pallidumun XGD-yə xüsusilə meylli olduğunu aşkar etdik. Potensial qədim XGD hadisələrini aşkar etmək üçün biz bakteriyalarda “arxeal” genləri və əksinə, arxeyada “bakterial” genləri axtardıq. Arxeya və Bakteriyaların müxtəlif qruplarında XGD-nin bir neçə halı filogenetik analizlə inandırıcı şəkildə dəstəkləndi. Ümumiyyətlə, nəticələr XGD miqdarının müqayisə edilən genomlar arasındakı təkamül məsafəsi ilə təqribən mütənasib olduğunu göstərir. Hər bir halda gen əldə etmə mənbələri fərqlidir, lakin orqanizmin həyat tərzi ilə aydın əlaqə var. Məsələn, spiroketlər ilk növbədə eukaryotik genləri və ya genləri digər patogen bakteriyalardan alır, halbuki hipertermofil bakteriyalarda arxa genlərin alınması istiqamətində güclü tendensiya var.


HOPS: Protein Strukturunun Hibrid Optimizatoru

Alberto Maria Seqre və Şon Forman Ayova Universiteti, Ayova Siti, Ayova, ABŞ

Protein qatlanması problemini kompüter modeli kimi tərtib etmək potensial uyğunlaşmaların sayına görə çox çətindir. Bir çox texnika sadələşdirilmiş protein modelindən istifadə edir və modelin sərbəst hərəkət etməsinə imkan verir. Biz tam zülal təmsilindən istifadə edərək struktur proqnozlaşdırma metodunu işləyib hazırlamışıq. Modelin sərbəst hərəkət etməsinə icazə vermək əvəzinə, tam təqdimat əsasən diskret şəkildə qatlanır. Bağlanma bucaqları və uzunluqları sabitlənir və hər bir amin turşusunun Ramachandran Plotundan və klasterləşdirmə alqoritmindən istifadə edərək, oflayn rejimdə diskret sayda phi/psi bucaq cütləri seçilir.

Seçilmiş phi/psi bucaq cütləri potensial uyğunlaşmaların axtarış ağacını təşkil edir. Axtarış alqoritmi zülalı soldan sağa qatlayaraq xal funksiyamız üçün minimum dəyər tapmağa çalışır. Hər bir amin turşusunun əlçatan səth sahəsi (artan hesablanır), qismən qatda əmələ gələn hidrogen bağlarının sayı və zülalın açılmamış hissəsinin təxmini töhfəsi ilə qismən qatlama hesablanır. Əgər qismən bükülmə kifayət qədər yaxşı hesaba malikdirsə, alqoritm irəliləyir və növbəti amin turşusu üçün phi/psi bucağı dəyərlərini təyin edir. Sterik toqquşmalara və ya əlverişsiz xallara səbəb olan qismən qıvrımlar kəsilir və axtarış əvvəlki amin turşusuna qayıdır və ya cari amin turşusunda yeni phi/psi bucağı birləşməsini təyin edir.

Paralel bölmə üsulları nadir hallarda axtarış ağaclarının həlli üçün yüksək sürət əmsalı təmin edir. Biz HOPS-u paralel şəkildə həyata keçiririk, lakin nagging adlı yeni bir texnikadan istifadə edirik. Axtarış ağaclarında həll vaxtı çox vaxt dəyişənlərin axtarıldığı sıraya görə dəyişir. Nagging ağacı müxtəlif sifarişlərdə axtararaq bu fərqlilikdən faydalanır.


DBAli: Protein ardıcıllığı-strukturunun müqayisəsi üçün düzülmələr və alətlər toplusu

Mark A. Mart-Renom və Andrej Sali
Molekulyar biofizika laboratoriyaları
Pels Ailə Biokimya və Struktur Biologiya Mərkəzi
Rokfeller Universiteti
1230 York prospekti, Nyu-York, NY 10021, ABŞ

Məlum zülal strukturlarının bir çox müqayisəsinin təhlili zülal ardıcıllığının əlaqəli strukturlarla uyğunlaşdırılmasını yaxşılaşdırmaq üçün vacibdir. DBAli-nin məqsədi belə təhlili asanlaşdırmaqdır. DBAli zülalların bir sıra ardıcıllıq və struktur xassələri arasında paylanma və korrelyasiya əldə etmək üçün çoxlu uyğunlaşdırma və Perl proqramlarından ibarətdir. Hal-hazırda, DBAli daxildir

SCOP-dan 2000 istinad cüt-cüt düzülmələr [1] və

HOMSTRAD [2]-dən 125 çoxlu struktur düzülüşü. DBAli digər daxili və xarici resurslarla da əlaqələrə malikdir. Məsələn, Compare3D applet [3] ardıcıl düzülmələri və struktur superpozisiyalarını vizuallaşdırmaq üçün istifadə olunur. DBAli-nin üç tətbiqi təsvir edilmişdir. Birincisi, əlavələrin və silinmələrin struktur mühitləri xarakterizə edilmişdir. Bu məlumat müqayisəli zülal strukturunun modelləşdirilməsində ardıcıllıq-struktur uyğunlaşdırılması üçün daha yaxşı boşluq cəzası funksiyasını hazırlamaq üçün istifadə olunacaq. İkincisi, dipeptid-dipeptid əvəzləmələri üçün müxtəlif matrislərin qurulması üçün oxşar strukturların çoxsaylı struktur düzülüşündən istifadə edilmişdir. Bu yeni əvəzetmə matrisləri onların ardıcıllıq-struktur uyğunlaşdırılmasında performanslarına görə qiymətləndiriləcək. Üçüncüsü, bir neçə ardıcıl düzülmə proqramının qarşılaşdığı çətinlikləri öyrənmək üçün istinad düzülmələrindən olan ardıcıllıqlar bu proqramlar tərəfindən yenidən hizalandı. Yeni düzəlişlər də DBAli-nin bir hissəsidir. Cüt şəkildə düzülmə üçün ALIGN [4], ALIGN2D [4], CLUSTALW [5] və PSI-BLAST [6] proqramlarından istifadə edilmişdir. Çoxlu düzülmələr üçün MALIGN [4] və CLUSTALW istifadə edilmişdir. Bu proqramlar tərəfindən edilən hizalama xətaları təsvir edilmişdir.
İstinadlar

[1] Hubbard, T., Murzin, A., Brenner, S., and Chothia, C. Nucleic Acids Res 25, 236-9 (1997).
[2] Mizuguchi, K., Deane, C., Blundell, T., and Overington, J. Protein Sci 7, 24 69-71 (1998).
[3] Shindyalov, I. and Bourne, P. http://www.sdsc.edu/pb/ Software.htm.
[4] Sali, A., Selnchez, R., Badretdinov, A., Fiser, A., Melo, F., Overington, J., Feyfant, E., and Mart-Renom, MA http://guitar. rockefeller.edu/modeller/ (1999).
[5] Thompson, J., Higgins, D., and Gibson, T. Nucleic Acids Res 22, 4673-80 (1994).
[6] Altschul, S., Madden, T., Schaffer, A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. Nucleic Acids Res 25, 3389-402 (1997).



Kodlaşdırma bölgələrinin daxili xassələrinə əsaslanaraq DNT ardıcıllığında ardıcıllıq xətalarının tapılması: Mövcud tam prokaryotik genomlar haqqında nə demək olar?

Klodin Midiq (1,2), Alen Viari (3) və Antuan Dançin (1)
(1) Institut Pasteur-REG - 28 rue du Docteur Roux, 75724 Paris Cedex 15, Fransa
(2) GENOPOLE- Laboratoriya. d'Annotation des G nomes - 7 rue Montespan, 91000 Evri, Fransa
(3) Atelier de BioInforatique - Universit Paris VI - 12 rue Cuvier 75005, Paris, Fransa

DNT ardıcıllığının təyini zamanı ehtimal olunan CDS-lərdə artefaktual çərçivə sürüşmələrinin və/yaxud çərçivədaxili dayanma kodonlarının tətbiqi təxmin edilən transkriptlərin səhv tərcüməsinə və vaxtından əvvəl dayandırılmasına səbəb ola bilər. Zülal oxşarlığının uyğunlaşdırılmasına əsaslanan metoddan istifadə etməklə belə xətaların aşkarlanması yalnız müvafiq ardıcıllıqlar verilənlər bazasında mövcud olduqda mümkündür [1,2]. Biz qismən və ya tam genomlarda çərçivə dəyişdirmə xətalarını aşkar etmək üçün yeni bir üsul inkişaf etdirdik. ProFED (Prokaryotic Frameshift Errors Detection) adlanan metod kodlaşdırma ardıcıllığının daxili xassələrinə əsaslanır və iki tamamlayıcı DNT analizinin nəticələrini birləşdirir: translyasiya başlanğıc/xitam sahələrinin axtarışı və GeneMark metodundan istifadə edərək kodlaşdırma bölgələrinin proqnozlaşdırılması [ 3]. ProFED metodu ardıcıl annotasiya və təhlilə həsr olunmuş Imagene platformamıza daxil edilmişdir [4]. İlk addımda, metod Bacillus subtilis genomunun tam ardıcıllığını yoxlamaq üçün istifadə edildi və proqnozlaşdırılan səhv bölgələrdə eksperimental yoxlamalar (yəni təkrar ardıcıllıq) aparıldı. Bu prosedur məlumatların ümumi keyfiyyətini təsdiq edir və ardıcıllığı müvafiq olaraq düzəltməyə imkan verir. Maraqlıdır ki, bir sıra hallarda çərçivədaxili xitam kodonları və ya çərçivə sürüşmələri ardıcıllıq səhvləri deyildi, lakin genlərin ya qeyri-funksional (psevdogenlər) olduğunu və ya proqramlaşdırılmış translyasiya çərçivəsinin dəyişdirilməsi kimi tənzimləyici proseslərə tabe olduğunu göstərən xromosomda mövcudluğu təsdiqləndi. İkinci mərhələdə, ProFED metodu iyirmi digər mövcud prokaryotik genom ardıcıllığını yoxlamaq üçün istifadə edilmişdir. Proqnozlaşdırılan ardıcıllıq xətaları təkrar ardıcıllaşdırma proseduru ilə təsdiqlənməyibmi? Əldə edilən nəticələrin təhlili göstərir ki, strategiyamız yeni genom layihələri üçün yekun ardıcıllığın keyfiyyətinin qiymətləndirilməsi üçün etibarlı vasitə kimi görünür. Təhlilimizin nəticələrini özündə əks etdirən internet saytı hazırlanır. Ümid edirik ki, ehtimal olunan ardıcıllıq səhvlərinin bu cür tərtibi bioloqlara cari genom annotasiyalarının düzəldilməsində kömək edəcəkdir.

İstinadlar:
[1] Claverie, J.-M. 1993. Amin turşusu ardıcıllığının müqayisəsi ilə çərçivə sürüşmələrinin aşkarlanması. J. Mol. Biol. 234 : 1140-1157.
[2] Braun, N.P., C. Sander və P. Bork. 1998. Çərçivə: genomik ardıcıllıq xətalarının aşkarlanması. Bioinformatika 14 : 367-371.
[3] Borodovski, M. və J.D. McIninch. 1993. GeneMark: Hər iki DNT zəncirinin paralel gen tanınması. Komp. Kimya. 17 : 123-133.
[4] M digue, C., F. Rechenmann, A. Danchin, and A. Viari. 1999. Imagene: ardıcıllıq annotasiyası və təhlili üçün inteqrasiya olunmuş kompüter mühiti. Bioinformatika 15: 2-15.


Müqayisəli Modelləşdirmədə Qatlanmanın Qiymətləndirilməsi üçün Statistik Potensiallar

Francisco Melo, Roberto Sanchez və Andrej Sali
Rokfeller Universiteti, Molekulyar Biofizika Laboratoriyası, 1230 York prospekti, #270, Nyu-York, 10021, ABŞ

Müqayisəli modeli onun qurulduğu problemi həll etmək üçün istifadə etməzdən əvvəl qiymətləndirmək vacibdir. Əvvəlcə modelin ən azı düzgün qatının olub-olmadığını qiymətləndirmək faydalıdır. Modelin düzgün bükülməsi (yaxşı model) yalnız şablonun düzgün qatı olduğu halda olacaq. Bundan əlavə, şablon və modelləşdirilmiş ardıcıllıq arasında uyğunlaşma əhəmiyyətli dərəcədə düzgün olmalıdır. Obyektiv modelin qiymətləndirilməsi, istifadəçi müdaxiləsinin mümkün olmadığı bütöv genomların irimiqyaslı avtomatlaşdırılmış modelləşdirilməsində xüsusilə vacibdir. Protein Məlumat Bankında bütün lazımsız zülallar üçün avtomatlaşdırılmış müqayisəli modelləşdirmə yolu ilə təxminən 10.000 düzgün və yanlış modeldən ibarət sınaq dəsti yaradılmışdır. Test modelləri geniş ölçü və bükülmə növünü əhatə edir. Modelin dəqiqliyinin paylanmasının genom miqyasında modelləşdirmə hesablamaları ilə eyni olacağı gözlənilir. Müxtəlif model keyfiyyət meyarları və ayrı-seçkilik üsulları yaxşı və pis modelləri ayırd etmək qabiliyyətinə görə sınaqdan keçirilmişdir. Kriteriyalara orta qüvvənin bir və iki qalıq statistik potensialı, modeldəki qalıqların sayı, hədəf ardıcıllığı ilə şablon strukturu arasında faiz ardıcıllığı eyniliyi, modelin yığcamlığı, hədəf-şablonun uyğunlaşdırılması üçün əhəmiyyət balı və şablon strukturunda heteroatomların sayı. Ayrı-seçkilik üsullarına xətti və qeyri-xətti diskriminant analizi, genetik alqoritmlər və Bayes modelləri daxildir. Keyfiyyət meyarları arasında qarşılıqlı asılılıq, tamamlayıcılıq və əlaqələr tədqiq edilmişdir. Bu təhlil bizə model təsnifatının dəqiqliyini artırmağa imkan verdi. Mövcud metod test dəstindəki modellərin 95%-ni düzgün qiymətləndirir, müvafiq olaraq 5,0 və 5,9%-i yanlış müsbət və yanlış neqativdir. Metod geniş həssaslıq və spesifiklik diapazonunda yaxşı işləyir.


HTTP Proqramlaşdırma İnterfeysi ilə İnteqrasiya edilmiş Sequence Database System

Katerina Michalickova və Christopher W.V. Hogue
Samuel Lunenfeld Araşdırma İnstitutu, Mount Sinai Xəstəxanası,
600 Universitet prospekti, Toronto, Ontario, Kanada
Biokimya şöbəsi, Toronto Universiteti, Tibb Fakültəsi, Tibb Elmləri Binası, Toronto, Ontario, Kanada

Bizim bioinformatika tədqiqatımız ictimai bioloji ardıcıllıq verilənlər bazalarında olan eyni məlumatları ehtiva edən sürətli, sadə və etibarlı daxili verilənlər bazası sistemini tələb edirdi. Biz Asn.1 binar formasında bütün GenBank, SwissProt və PDB ardıcıllıqlarını ehtiva edən Milli Biotexnologiya Məlumat Mərkəzinin ftp saytında mövcud olan resurslardan istifadə etdik. Biz məlumatı indeksləşdirmək üçün Asn.1 fayllarını təhlil etdik və onu CodeBase proqramında (Sequiter Software Inc., Alberta) orijinal Asn.1 ikili verilənlərlə birlikdə saxladıq. CodeBase verilənlər bazası sistemi bizə bütün nukleotidləri, zülalları və 3-D məlumatlarını bir neçə fərdi verilənlər bazasında saxlamağa imkan verir. Məzmun ən son GenBank buraxılışı ilə eynidir, NCBI ftp saytından gündəlik yenilənə bilər. Hazırkı mərhələdə veb interfeysi unikal geninfo identifikatorları (GI), GenBank qoşulma nömrələri, orijinal ardıcıllıq adları, NCBI taksonomiya identifikatorları, orta xətt identifikatorları, molekulyar modelləşdirmə verilənlər bazası (MMDB) identifikatorları və zülal verilənlər bankı (PDB) əsasında ardıcıllıqlar üçün verilənlər bazası axtarışlarını asanlaşdırır. identifikatorlar. Bütün ardıcıllıqlar və 3-D strukturları müəyyən xətti, FastA formatı, Asn.1 çap formatı, GenBank düz faylı, PDB düz faylı kimi bir neçə formatda göstərilə bilər. Sorğu həmçinin əlaqəli nuklein turşusu və ya zülalların axtarışını da işə salır. Taksonomiya və Medline axtarışları müəyyən bir takson haqqında tam məlumat və ya maraq ardıcıllığı ilə bağlı dərc edilmiş məqalə haqqında tam məlumat əldə etmək üçün NCBI-yə birbaşa keçid təklif edir. Biz öz tətbiq proqramlaşdırma interfeysimizi (API) işləyib hazırlamışıq ki, bu da həm yerli diskdən, həm də http interfeysi vasitəsilə uzaqdan məlumat əldə etmək üçün daxili verilənlər bazasından istifadə edir. API, verilmiş taksondan lazımsız ardıcıllıq dəstinin əldə edilməsi, zülal ardıcıllığının alt çoxluqlarına daha yaxşı nəzarət, Clustal fayl formatı dəstəyi və zülal amin turşusu kompozisiyaları haqqında məlumat kimi Entrez-də ünvanlanmayan bəzi əməliyyatları yerinə yetirir.


Zülal qatlarında universal olaraq qorunan mövqelər: Sabitlik, qatlama kinetikası və funksiya haqqında təkamül siqnallarının oxunması

Leonid Mirnı və Yevgeni Şahnoviç
kimya kafedrası,
Harvard Universiteti, Kembric, MA, ABŞ

Bu işdə ən çox məskunlaşan beş protein qatının molekulyar təkamülünün təhlilini təqdim edirik: immunoqlobulin qatı, oliqonukleotid bağlama qatı, Rossman qatı, alfa/beta-plait və TIM-barellər. Amin turşularının qorunmasının "tarixi", funksional və struktur səbəblərini ayırd etmək üçün biz eyni qat əldə edən və aydın ardıcıllıq homologiyasına malik olmayan zülalları nəzərdən keçiririk. Hər qat üçün biz hər bir fərdi ailə daxilində qorunan və homoloji olmayan zülalların struktur olaraq üst-üstə düşdüyü zaman üst-üstə düşən mövqeləri müəyyənləşdiririk. Statistik qiymətləndirmə üçün əsas olaraq həlledicinin əlçatanlığına uyğun olaraq gözlənilən mühafizəkarlıqdan istifadə edirik. Təhlil yeni “Mühafizəkarlığın mühafizəkarlığı” konsepsiyasına əsaslanır. Bu yanaşma, bu cür sabitləşməni təmin edən faktiki qarşılıqlı təsirlərin zülaldan zülala qədər dəyişə biləcəyinə baxmayaraq, verilmiş qatı olan bütün zülallarda sabitləşən struktur xüsusiyyətləri müəyyən etməyə imkan verir. Termodinamikaya, qatlama kinetikasına və zülalların funksiyasına dair eksperimental məlumatlar ilə müqayisə göstərir ki, bu cür universal qorunan çoxluqlar ya (i) super yerlərə, ya da (ii) sabitliyi qatlama sürətinin mühüm təyinedicisi olan qatlama nüvələrinə və ya hər ikisinə uyğundur (əgər Rossman qatının). Təqdim olunan təhlil həmçinin bükülmə və bəzi qıvrımlar üçün aydın olan funksiya arasındakı əlaqəni aydınlaşdırmağa kömək edir.


Struktur və Ardıcıllığın Təkamüllə Mühafizəsi üçün Açıq Modellərlə Yivlənmə
Anna R. Panchenko, Aron Marchler-Bauer və Stephen H. Bryant
Hesablama Biologiyası Şöbəsi, Milli Biotexnologiya Məlumat Mərkəzi, Milli Sağlamlıq İnstitutu, Bethesda, MD 20894, ABŞ

Zülal ardıcıllığının sürətli təkamülü səbəbindən zülallar arasındakı oxşarlıq bəzən ardıcıllıq səviyyəsində görünmür, baxmayaraq ki, strukturları olduqca oxşar ola bilər. Uzaqdan homoloqların və analoqların bu nümunələri qatın tanınması üçün potensial hədəflərin əksəriyyətini təşkil edir. Uzaq əlaqələri tanımaq üçün biz fiziki cəhətdən məqbul təmas potensialını zülal ailələrində təkamül mühafizəsinin kəmiyyət təsvirləri ilə birləşdirməyə çalışdıq. Birincisi, biz qəsdən qatın tanınması üçün müxtəlif çətinlik səviyyələrindən olan halları ehtiva edən etalon hazırladıq. Sonra, test dəstimizdən hər bir zülal üçün çoxlu ardıcıl düzülmələrə və çoxsaylı struktur-struktur superpozisiyalarından qorunan əsas elementlərə əsaslanaraq mövqeyə xüsusi xal matrisini təyin etdik. Yivləmə, əsas elementlər içərisində boşluqlara imkan verməyən əsas element yivləmə alqoritmindən istifadə etməklə həyata keçirilmişdir. Birləşdirilmiş qiymətləndirmə funksiyasının performansı fiziki və təkamül siqnallarının əhəmiyyətini təhlil etmək üçün əlaqə və ardıcıllığın qorunması şərtlərinin töhfəsinə nisbətən ölçüldü. Göstərdik ki, yivlənmənin əhəmiyyəti və hizalanma dəqiqliyində ən böyük təkmilləşmə təmas və motiv terminləri bərabər nisbətdə 15% -dən çox faiz eyniliyi və qorunan kontaktların 50% -dən çox hissəsi ilə birləşdirildikdə müşahidə olunur. Bu da öz növbəsində kontakta əsaslanan və motivə uyğun hesablama funksiyalarının həqiqətən bir-birini tamamladığını nəzərdə tutur, çünki kontakt potensiallarında kodlanan qarşılıqlı əlaqə ümumi protein topologiyasını müəyyən edir, ailəyə məxsus ardıcıllıq motivləri isə unikal protein strukturunu müəyyənləşdirir.


Müxtəlif Gen Struktur Proqnozlaşdırma Proqramlarından Sübutların Birləşdirilməsi

Sanja Rogic(1) Francis Ouellette(2) Alan Mackworth(1)
(1) Kompüter Elmləri Departamenti, British Columbia Universiteti, Vankuver, Kanada
(2) Molekulyar Tibb və Terapevtika Mərkəzi, British Columbia Universiteti, Vankuver, Kanada

Son onillikdə hesablama genlərinin tapılması üçün çoxlu proqramlar hazırlanmışdır. Onlar gen strukturunu müəyyən etmək üçün müxtəlif üsullardan istifadə edirlər, əsas açıq oxu çərçivəsinin tapılmasından mürəkkəb maşın öyrənməsi və statistik metodlara qədər. Müşahidə edilmişdir [1] ki, bu müxtəlif üsullar çox vaxt genin müxtəlif elementlərini düzgün proqnozlaşdıraraq, onların bir-birini tamamlaya biləcəyini və daha yaxşı proqnozlar verdiyini göstərir.

Davam edən tədqiqatımızın məqsədi iki gen tapma proqramından, GENSCAN [2] və FGENES [3]-dən gələn proqnozları birləşdirərək bu fərziyyəni yoxlamaqdır. Proqramlar müstəqil verilənlər bazasında sınaqdan keçirilib və onların proqnozlarından gözlənilən dəqiqliyə görə proqnozlaşdırılan eksonları təsnif edən qərar ağacları yaratmaq üçün istifadə olunur. Yüksək bal ekzonları daha da inandırıcı gen strukturuna inteqrasiya olunur. İlkin təcrübələr göstərir ki, bu iki proqramın proqnozlarından düzgün proqnozlaşdırılan eksonların çıxarılması düzgün müəyyən edilmiş eksonların faizini 10% artıra bilər (hazırda bu faiz hər proqram üçün təxminən 75% təşkil edir).

Xüsusilə çoxlu genli ardıcıllıqlarda gen identifikasiyasını daha da təkmilləşdirmək üçün biz NNPP [4], promotor tapmaq proqramı sistemimizə inteqrasiya etməyi planlaşdırırıq. ATG başlanğıc sahəsi ətrafında aşağı məlumat məzmunu genefinderlərin ilkin eksonları düzgün müəyyən etməsini çətinləşdirir (adətən onları daxili ekzonların bir hissəsi kimi proqnozlaşdırır) və beləliklə, gen sərhədlərini müəyyən edə bilmir, genlərin birləşməsinə səbəb olur. NNPP-nin promotor proqnozu, genin 5' ucunun harada olması lazım olduğuna əlavə sübutlar verəcəkdir.

Layihəmizin mühüm hissəsi GENSCAN və ya FGENES-in təlimi üçün istifadə olunan ardıcıllığı istisna edən lazımsız verilənlər toplusunun yaradılmasıdır. O, gen tapma məlumat dəstləri üçün bütün standart filtr prosedurlarından keçmiş ya tam və ya qismən genləri olan 579 insan və siçan ardıcıllığını ehtiva edir.

İstinadlar:
[1] K.Murakami və T.Takaqi. Bir neçə gen tapma proqramının birləşməsi ilə gen tanınması. Bioinformatika, cild. 14 №8: 665-675, 1998-ci il.
[2] C. Burge və S. Karlin. İnsan genomik DNT-də tam gen strukturlarının proqnozlaşdırılması. Journal of Molecular Biology 268: 78-94, 1997.
[3] http://genomic.sanger.ac.uk/gf/gf.html
[4] M. Riz və F. Ekman. Eukaryotik Promoter Proqnozlaşdırma üçün Vaxt Gecikdirən Neyron Şəbəkələri. Hazırlıq mərhələsində, 1999.


Splash tərəfindən Ardıcıllıq Annotasiyası

Ajay K. Royyuru (1), Andrea Kalifano (1), Qustavo Stolovitzky (1) və Lourens Şapiro (2)
(1) Hesablama Biologiya Mərkəzi, IBM Thomas J. Watson Araşdırma Mərkəzi, PO Box 704, Yorktown Heights, NY 10598, ABŞ
(2) Struktur Biologiya Proqramı, Fiziologiya və Biofizika Departamenti, Mount Sinai Tibb Məktəbi, 1425 Madison Avenue, Nyu York, NY 10029, ABŞ

İnsan Genomu Layihəsinin əsas məqsədi insan genomunda olan bütün genlər üçün ardıcıllığı əldə etməkdir. Ekspres Sequence Tag (EST) ardıcıllıq strategiyası insan "transkriptomunu" müəyyən etmək üçün effektiv vasitə təmin edir. Bununla belə, bu, yalnız xam ardıcıllığın oxunuşunu təmin edir və hər bir yeni ardıcıllığa funksional annotasiya əlavə etmək kimi nəhəng vəzifəni həll etməmiş qalır.

Splash, əlaqəli zülal ardıcıllıqlarının verilmiş ailəsini xarakterizə edən ardıcıllıq nümunələri dəstlərini aşkar etmək üçün bir alqoritmdir [1]. Funksional olaraq əlaqəli zülallarda ardıcıl imzaların aşkarlanması üçün yaxşı uyğundur.

Burada Splash istifadə edərək EST-lərə annotasiya etmək üçün bir protokol təsvir edirik. Protokol aşağıdakı addımlardan ibarətdir:
1. Funksional olaraq əlaqəli zülal ardıcıllıqlarını toplayın,
2. Bu funksional əlaqəli zülal ailəsini xarakterizə edən statistik əhəmiyyətli ardıcıllıq nümunələri toplusunu müəyyən etmək üçün Splash istifadə edin,
3. Ardıcıllıq verilənlər bazasındakı bütün hadisələrdə ardıcıllıq nümunələrinin nisbi sırasını və mövqeyini təhlil etmək və müəyyən etmək,
4. Müəyyən edilmiş nisbi sıra və mövqedə bu ardıcıllıq nümunələrini ehtiva edən EST ardıcıllıqlarını müəyyən etmək üçün EST verilənlər bazasını (dbEST) skan edin.

Biz bu protokolu bir neçə zülal ailəsinə tətbiq etdik və dbEST-də yeni namizədləri uğurla müəyyən etdik. Məsələn, C1q/TNF super ailəsinə aid olan 68 ardıcıllığın verilənlər bazasından [2] başlayaraq, Splash bu ailəni xarakterizə edən iki statistik əhəmiyyətli ardıcıllıq nümunəsini tapır:
[ILMFV]. G[ILMFV]Y.[ILMFV]..[RQEHK]
[ILMV][ILMFV].L. [DQEK][RQEHK][ILMV]
Bu nümunələr C1q və TNF zülallarının homoloji olmayan ailələri arasında struktur oxşarlıqdan məsul olan struktur nüvə kimi müəyyən edilmiş bölgələrlə tam üst-üstə düşür. Bu nümunələrin baş verməsi üçün dbEST-i skan etdikdə biz artıq C1q/TNF super ailəsinin üzvləri kimi qeyd edilmiş 17 ardıcıllığı tapırıq. Bundan əlavə, biz C1q/TNF super ailəsinin potensial üzvləri kimi 6 yeni (əvvəllər qeyd olunmamış) ardıcıllığı müəyyən edirik.

Splash-in səmərəliliyi və deterministik xarakteri bu protokoldan yüksək məhsuldarlıq ardıcıllığı layihələrində sürətli annotasiya üçün istifadə etməyə imkan verir.

[1] A. Kalifano. SPLASH: Ardıcıl histoqramlar vasitəsilə struktur nümunəsinin lokallaşdırılması təhlili. Bioinformatika (Communicated, 1999).
[2] L. Şapiro və P. E. Şerer. Komplement-1q ailə zülalının kristal quruluşu şiş nekrozu faktoru ilə təkamül əlaqəsini göstərir. Cari Biologiya, 8:335 - 338 (1998).


Düyü Genom Ardıcıllığında Gen Domeninin Proqnozlaşdırılması üçün Kompüter Proqramı

Katsumi Sakata (1), Hideki Naqasaki (2), Atsuko İdonuma (2), Kazunori Vaki (2), Masaki Kise (3) və Takuji Sasaki (1)
(1) Rays Genom Tədqiqat Proqramı (RGP), Milli Aqrobioloji Resurslar İnstitutu, Tsukuba, Yaponiya
(2) Kənd Təsərrüfatı, Meşə və Balıqçılıq üzrə Texno-innovasiyalar Cəmiyyəti İnstitutu, Tsukuba, Yaponiya
(3) Mitsubishi Space Software Co., Ltd., Tokio, Yaponiya

Düyü əsas taxıl bitkilərindən biridir və dünya əhalisinin təxminən yarısı üçün əsas qida mənbəyidir. Genom analizi baxımından digər dənli bitkilər arasında üstünlüyə malikdir, çünki onun ən kiçik genom ölçüsü 430 Mb ilə təxmin edilir. Rays Genom Tədqiqat Proqramında (RGP) bütün genomun ardıcıllığı 1998-ci ildə başladıldı və təxminən 1 Mb genom ardıcıllığı artıq tamamlandı və Yaponiyanın DNT Məlumat Bankı (DDBJ) və RGP evi vasitəsilə ictimaiyyətə təqdim edildi. səhifə (http://www.dna.affrc.go.jp:82/). Potensial zülal kodlayan genləri və/yaxud gen seqmentlərini müəyyən etmək üçün bitmiş ardıcıllıqlara şərh verilmişdir. Annotasiya sxeminin bir hissəsi olaraq, kodlaşdırma bölgələrini və/yaxud bioloji siqnalları, məsələn, birləşmə yerlərini proqnozlaşdırmaq üçün gen domeninin proqnozlaşdırılması proqramlarından istifadə edilmişdir. Qarğıdalı üçün GENSCAN və Arabidopsis kimi bəzi nümayəndə proqramları qiymətləndirilmiş və düyü genomu ardıcıllığı üçün nisbətən faydalı olduğu müəyyən edilmişdir. Bununla belə, nəticələr tamamilə qənaətbəxş deyildi, çünki düyü cDNA-larına oxşar olan bəzi gen namizədi bölgələri proqnozlaşdırıla bilməzdi. Biz RGP-də hazırlanmış düyü EST-lərinin kataloqundan istifadə edərək ehtimal modelinə əsaslanaraq düyü genomu ardıcıllığında gen domenlərini proqnozlaşdırmaq üçün yeni kompüter proqramı hazırlayırdıq. Bu kataloq bütün düyü genlərinin cəmi üçdə birinə uyğun gələn təxminən 15.000 cDNA-dan ibarətdir. Prototip versiyası tamamlandı və qiymətləndirildi. Proqram gizli Markov modelinin (HMM) ehtimal sxemindən istifadə edərək hesablama yolu ilə gen namizədi bölgələrini proqnozlaşdırır. Proqramın əsas xüsusiyyətləri arasında bunlardır: (i) 5000-dən çox cDNA ardıcıllığından istifadə edən 3' tərcümə edilməmiş bölgə üçün ətraflı model və (ii) məlumatların ötürülməsi və saxlanması vasitəsi kimi genom ardıcıllığının bəzi xüsusiyyətlərini özündə birləşdirən alqoritm.


EuGene: Eukaryotik Orqanizmlər üçün Sadə, lakin Effektiv Gen Tapıcısı (Arabidopsis thaliana)

Thomas Schiex, Annick Moisan, Lucien Duret, Pierre Rouze
INRA, Chemin de Borde Rouge, BP 27, Castanet-Tolosan, 31326 Cedex, Fransa

Eukaryotik ardıcıllıqlarda genləri (eksonları/intronları) dəqiq yerləşdirməyə çalışmaq üçün hərtərəfli ardıcıllıq annotasiyasında bir neçə məlumat mənbəyini nəzərə almaq standartdır. İstifadə olunan məlumat mənbələrinə adətən verilənlər bazası ilə uyğunluqlar (EST və ya zülal verilənlər bazaları), NetGene2 və ya Netstart (www.cbs.dtu.dk/services/) kimi siqnal proqnozlaşdırma proqramının çıxışı daxildir.) və GeneMark.hmm (genemark.biology.gatech.edu/GeneMark/) və/və ya GENESCAN (gnomic.stanford.edu/) kimi az və ya çox mürəkkəb "inteqrasiya edilmiş" gen tapma proqramı.

Bu ideya xətti boyunca biz tədqiqatçılara bir neçə dəlil mənbəyini birləşdirməyə imkan verən sadə, ümumi, səmərəli və eyni zamanda effektiv qrafikə əsaslanan gen tapma üsulu hazırlamışıq. Müəyyən bir ardıcıllıq üçün əsas fikir, bütün mümkün gen strukturlarının qrafikdə bir yol ilə təmsil olunması üçün yönəldilmiş asiklik çəkili bir qrafik qurmaqdır. Qrafikin kənarlarının çəkiləri mövcud dəlillərdən istifadə edərək elə müəyyən edilir ki, qrafikdəki ən qısa yollar bu sübuta “ən yaxşı hörmət edən” gen strukturuna uyğun olsun. Bellman alqoritmi kimi sadə xətti zaman, xətti məkan ən qısa yol alqoritmi sadəcə mümkün olan ən yaxşı gen strukturunu çıxarır. Bu yanaşma (ekvivalent olmasa da) vahid müddət sıxlıqları ilə açıq dövlət müddəti Gizli Markov Modeli ilə müqayisə edilə bilər.

Arabidopsis thaliana üçün aşağıdakı məlumat mənbələrini birləşdirən EuGene adlı ilk prototip yaradılmışdır:
- müvafiq olaraq çərçivə 1, 2, 3 ekzonlar, intronlar və intergenik ardıcıllıqlar üçün beş interpolyasiya edilmiş Markov modelinin (IMM) çıxışı (AraClean v1.1 verilənlər bazasında təxmin edilir, www.cbs.dtu.dk/databases/ARACLEAN).
- birləşmə sahəsinin gücü üçün NetPlantGene və NetGene2 çıxışı (çıxışdan çəkiləri hesablamaq üçün istifadə edilən bəzi parametrlər AraClean-da təxmin edilmişdir).
- ATG gücü üçün NetStart çıxışı (çıxışdan çəkiləri hesablamaq üçün istifadə edilən bəzi parametrlər AraClean-da təxmin edilmişdir).

Qrafikin strukturu və çəkiləri "start f1371 0.4" kimi ifadəyə imkan verən çox sadə dildən istifadə etməklə müəyyən edilə/dəyişdirilə bilər (irəli Başlanğıc 1371-ci mövqedə 0.4 güclə baş verir). Oxşar cümlələr hər nukleotid əsasında akseptorlar, donorlar, ekzonik/intronic/intergenik vəziyyət gücləri haqqında məlumat daxil etməyə imkan verir. Bu, əslində avtomatik olaraq Perl skripti ilə qurulur. İstənilən halda bu fayl və Perl skripti istifadəçi tərəfindən digər məlumat mənbələrini daxil etmək üçün sadəcə olaraq dəyişdirilə bilər.

İkinci versiya bu əsas məlumatlara EST və protein verilənlər bazası axtarışından əldə edilən nəticələri əlavə edir. Bu məlumatın cari istifadəsi hələ də çox ilkindir: EST hitləri sadəcə olaraq intronik kənarları aradan qaldırır və zülal vuruşları ekzonik gücləri bir qədər artırır.

Bu yanaşma "AraSet" (AraClean deyil!) üzərində qiymətləndirilmişdir, Arabidopsis thaliana-nın dəqiq şərh edilmiş DNT ardıcıllığının son məlumat dəsti, artıq bir neçə mövcud gen/siqnal tapma proqram hissələrini qiymətləndirmək üçün istifadə edilmişdir (bax: http://sphinx. rug.ac.be:8080/biocomp/GeneComp/index.html, bu konfransda təqdim olunan tam məqalə).Bu verilənlər bazasında GeneMark.hmm 40% gen həssaslığı və 32% gen spesifikliyi ilə ən yaxşı mövcud proqram idi. EuGene-nin ilk versiyası birbaşa 48% spesifiklik ilə 57% gen həssaslığı verir. Daha sonra EST və zülal (SPTR) nəzərə alınmaqla BLAST hitləri 54% spesifikliklə 67% gen həssaslığı verir.

Bu hesabat çox ilkindir və biz yaxın gələcəkdə EuGene-nin effektivliyini əhəmiyyətli dərəcədə artırmağı (və onu digər orqanizmlərə tətbiq etməyi) gözləyirik. Əslində, digər gen tapma alqoritmləri ilə müqayisədə EuGene olduqca sadədir: o, xətti zaman alqoritmi, tək Markov model dəsti istifadə edir və ekzonların/intronların uzunluğunu və ya polyA və ya promotorlar kimi digər siqnalları nəzərə almır. Bu, çoxlu təkmilləşdirmələr üçün yer qoymalıdır.


Ardıcıllığın Təhlili üçün Gizli Markov Modeli Topologiyasının öyrənilməsi

Alexander Schliep
ZAIK/ZPR, Köln Universiteti, Köln, Almaniya

Gizli Markov Modelləri (HMMs) statistik modelləşdirmə və statistik nümunənin tanınmasında geniş və uğurla istifadə olunan bir vasitədir, gen tapma hesablama biologiyasında əsas nümunələrdən biridir. Gizli Markov Modellərinin tətbiqində əsas problemlərdən biri, xüsusən də tətbiq sahəsindən konkret seçim üçün güclü dəlil olmadıqda (məsələn, qara qutu modelləşdirmə apararkən) əsas memarlıq və ya topologiyaya əsaslanan HMM-ləri tapmaqdır. Və ya oxşar şəkildə, əgər təlimdən sonra nadir hallarda istifadə olunan və ya çox tez-tez istifadə olunan vəziyyətlərin mövcudluğu seçilmiş topologiyanın məlumatlara yaxşı uyğun gəlmədiyini göstərirsə.

Topologiya yaxşı parametr təxminləri və performans baxımından vacibdir: "Həddindən artıq" vəziyyətləri olan bir model - və buna görə də çox parametrləri - həddindən artıq təlim məlumatı tələb edir, "kifayət qədər olmayan" vəziyyətləri olan bir model isə HMM-nin incəlikləri ələ keçirməsini qadağan edir. statistik nümunələr.

"Optimal" topologiyanı müəyyən etmək üçün ya tətbiq sahəsindən biliklərdən istifadə olunur, ya da ad-hoc metodlardan istifadə etməklə sınaq və səhv proseduru (yəni, model cərrahiyyə) tətbiq olunur. ). Modelin topologiyasını əvvəlcədən təyin etmədən ardıcıllığı yaradan (erqodik) prosesin HMM təsvirini çıxaracaq yeni bir alqoritm hazırladıq. Yəni, biz gizli vəziyyətlərin sayını, icazə verilən keçidləri və keçid və emissiya ehtimallarını çıxarırıq. Biz Bayes yanaşmasından istifadə edirik ki, burada bir mühüm parametr üzrə uyğun bir öncəlik maksimum ehtimal modelindən ümumiləşdirməyə məcbur edir (və beləliklə, məlumat ehtimalını mütləq azaldır).

Biz alqoritmi, bəzi nəzəri nəticələrimizi və bioloji DNT və zülal ardıcıllığı məlumatlarına dair ədədi təcrübələrdən əldə etdiyimiz nəticələri təqdim edəcəyik.


mRNT Tərcüməni Tənzimləyən Yeni Siqnalların Müəyyənləşdirilməsi: Gen Kontekstinin Təsirləri

Mark Schreiber və Chris Brown
Otaqo Universitetinin Biokimya kafedrası, P.O. Qutu 56 Dunedin, Yeni Zelandiya

Məlumdur ki, genin konteksti onun mRNT-dən zülala çevrilməsinin effektivliyini və dəqiqliyini tənzimləyir. Artıq bir neçə element müəyyən edilib. Tərcümənin başlanması bir çox bakteriyalarda Shine-Dalgarno ribosom bağlanma yeri və aşağı axın qutusu və ya eukaryotlarda Kozaks konsensusu ilə tənzimlənir. Kodonların qərəzli alt dəstəsinin istifadəsi bir çox orqanizmdə tərcüməni gücləndirir. Sonlandırmanın effektivliyinə həmçinin Escherichia coli dayandırıcı kodonlardan sonra gələn qalıq kimi ətrafdakı nukleotidlərin şəxsiyyəti təsir göstərir. Otaqo Universitetində hazırlanmış TransTerm verilənlər bazasından istifadə edərək Synechocystis sp.-də iki ehtimal olunan yeni siqnal müəyyən etdik. Tərcüməni tənzimləyə bilən PCC6803. Gözlənilmədən Synechocystis genlərində adi bakterial Shine-Dalgarno Box yoxdur. Əvəzində, əvvəllər müşahidə olunmamış konsensus ardıcıllığı -2 mövqeyində güclü qərəzli başlanğıc kodonunu (CYAUGR) sendviçləşdirir. Başlanğıc kodonlarına uyğunlaşmaların məlumat məzmunu bu elementin ribosom tərəfindən tanınması üçün kifayət ola biləcəyini göstərir. Synechocystisin son konteksti də qeyri-adidir. Escherichia coli-də +1 nukleotidin eyniliyi (dördüncü əsas) çox qərəzlidir və dayanma kodonlarında sonlanma səmərəliliyinə təsir göstərir. Əksinə, Synechocystisin +1 nukleotidi qərəzlidir. Bu elementlərin in vivo təsirlərini öyrənmək üçün genetik reportyor sistemləri hazırlanır.


SWISS-MODEL və SwissPdbViewer ilə Protein Üçüncü Quruluşunun Modelləşdirilməsi

Torsten F. Schwede, Nicolas Guex və Manuel C. Peitsch
GlaxoWellcome Experimental Research SA, 16 Chemin des Aulx, 1228 Plan-les-Ouates, Cenevrə, İsveçrə

Bir zülalın 3 ölçülü strukturunun təmin edə biləcəyi anlayışlar, mutagenez təcrübələrinin rasional dizaynı zamanı çox kömək edir. Eksperimental zülal strukturunun təyini üsulları tez-tez texniki çətinliklərlə üzləşir və vaxt və resurs tələb edir. Beləliklə, zülalların məlum 3-D strukturlarının sayı məlum protein ardıcıllığının yalnız kiçik bir hissəsini təmsil edir. Bu kontekstdə müqayisəli zülal modelləşdirmənin ən etibarlısı olan nəzəri yanaşmaların tədqiq edilməsi təəccüblü deyil.

SWISS-MODEL və Swiss-PdbViewer
Biz SWISS-MODEL (http://www.expasy.ch/swissmod/), avtomatlaşdırılmış müqayisəli zülal modelləşdirməsi üçün server və SwissPdbViewer-dən (http://www.expasy. ch/spdbv/) [1]. Swiss-PdbViewer yalnız SWISS-MODEL üçün müştəri kimi çıxış etmir, həm də struktur təhlili və ekran alətlərinin geniş seçimini təmin edir. SWISS-MODEL serverinin proqram təminatı zülal modellərinin böyük kolleksiyalarını yaratmaq üçün istifadə edilə bilər. 1997-ci il 3DCrunch zamanı çox geniş miqyaslı modelləşdirmə təcrübəsi, SWISS-PROT və trEMBL verilənlər bazalarından 64 000 ardıcıllıq SWISS-MODEL [2] ilə modelləşdirilmiş və WWW interfeysi vasitəsilə ildə 30 000-dən çox sorğu qəbul edilmişdir. Bu cür alətləri elmi ictimaiyyətə sərbəst şəkildə təqdim etməklə, biz Ümid edirik ki, Zülal Modelləşdirməni bütün dünyada biokimyaçılar və molekulyar bioloqlar üçün əlçatan edəcəyik.

Son Təkmilləşdirmələr (versiya 3.5)
SwissModel server versiyası 3.5 daha yaxşı sabitliyi təmin edir və ExPDB şablon verilənlər bazasının əvvəlki versiyalarının bir sıra məhdudiyyətlərini aradan qaldırır. Tələb olduqda, sorğular PredictProtein ikincil struktur proqnozu [3] və ya 3DPSSM qat tanınması serverinə (http://www.bmm.icnet.uk/) yönləndirilə bilər.

3dpssm/). Son modelin keyfiyyəti WhatCheck [4] tərəfindən qiymətləndirilir və ətraflı hesabat geri göndərilir, həmçinin şablon strukturları və əsas struktur uyğunlaşmasını ehtiva edən layihə faylı. SPDBV və SwissModel-in sıx inteqrasiyası öz şablon strukturlarınızdan istifadə də daxil olmaqla, təqdim edilmiş sorğularda yüksək çevikliyə imkan verir. SwissModel üçün qrafik istifadəçi interfeysi kimi istifadə edilən Swiss PdbViewer-in funksionallığı genişləndirilib. O, aydın qrafik displey (OpenGL, hardware stereo dəstəyi) və modelin qurulması və təhlili üçün bir neçə alət təqdim edir, məsələn. enerjinin minimuma endirilməsi və səth təmsilləri. Birbaşa server bağlantısı müxtəlif verilənlər bazalarından strukturların və ardıcıllığın idxalına imkan verir. SPDBV, PC, Linux, Macintosh və SGI [5]-də işləyən işçi dəzgahının quruluşunun tam ardıcıllığıdır.
1. Guex, N. & Peitsch, M.C. (1997). SWISS-MODEL və Swiss-PdbViewer: Müqayisəli protein modelləşdirmə üçün mühit. Elektroforez, 18, 2714-2723.
2. Peitsch M.C. & Guex N. (1997) Geniş miqyaslı müqayisəli zülal modelləşdirməsi. in: Proteom tədqiqatı: funksional genomikada yeni sərhədlər, səh. 177-186, Wilkins MR, Williams KL, Appel RO, Hochstrasser DF edis., Springer.
3. Rost, B. (1996). PHD: profil əsaslı neyron şəbəkələri ilə bir ölçülü protein strukturunun proqnozlaşdırılması. Met. Enzym., 266, 525-539.
4. Hooft, R.W.W., Vriend, G., Sander, C. & Abola, E.E., (1996). Protein strukturlarında səhvlər. Təbiət 381, 272-272.
5. Guex N, Diemand A və Peitsch M.C. (1999) Hamı üçün zülal modelləşdirmə. TiBS, 24, 364-367.


Uzaqdan Homolog Klasterlərin Verilənlər Bazası

Lorenzo Seqoviya və Rikardo Çiria
Biotexnologiya İnstitutu. UNAM, Meksika

Motivasiya:
Zülallarda struktur və funksiya əlaqələrini öyrənmək üçün bir neçə yanaşma tətbiq edilmişdir. Koonin və başqaları. 6 əsas filogenetik qrupun müxtəlif genomlarına əsaslanaraq oxşarlıq və funksiyaya görə təsnif edilən ortoloqların (Ortoloji Qrupların Çoxluqları, COGs) məlumat bazası yaratmışlar. Bu səy Gerstein və digərlərinin GeneCensus yanaşması kimi təhlillərlə tamamlandı. SCOP və EC təsnifatları arasında korrelyasiya axtaran PDB məlumat bankında struktur və funksiya münasibətlərini öyrənmişlər.

Metod və Nəticələr:
PDB məlumat bankında çoxlu sayda mutant strukturların yığılması səbəbindən aralarında 90%-dən az eynilik olan məlum strukturun zülallarına uyğun gələn 1400-ə yaxın müxtəlif giriş var. Təhlilimizi mərkəzləşdirmək üçün bu alt çoxluqdan istifadə etdik. Homoloqların eyni qatı paylaşdıqlarını nəzərə alsaq, ardıcıllıq klasterlərinin təhlili xüsusi olaraq hər bir qat haqqında ümumi nəticələr çıxarmağa imkan verməlidir. Biz Psi-blast istifadə edərək Swissprot37-də axtarış apardıq, konvergent qrupları axtardıq (defolt parametrlərlə 30 iterasiya) və sonra hitləri təmizlədik ki, yalnız 90%-dən az identifikasiyaya malik ardıcıllıqlar buraxaq (L. Holm-un nrdb90 perl skriptindən istifadə etməklə). Daha sonra MEME 2.0 (-mod OOPS -nmotifs 5) istifadə edərək hər klasterdə ümumi motivləri axtardıq və müvafiq Swissprot girişlərindən istifadə edərək motivləri şərh etdik.

Nəticələri iki fərqli nöqteyi-nəzərdən təhlil edirik. Bunlardan biri hansı katalizlərin daha tez-tez bir yerdə mövcud olduğunu və hansı qıvrımlarda olduğunu müəyyən etmək, digəri isə hər bir çoxluqda funksional motivlərin qorunması və şərhsiz uzaq homoloqlarda mümkün olan müvafiq amin turşularının xəritələşdirilməsidir. Bəzi əlavə üstünlüklər qatın tanınması üçün istifadə etmək üçün "ardıcıllıqla hoppanma" üçün istifadə edilə bilən verilənlər bazasının yaradılması və əksinə, yeni bükülmələr üçün namizəd ola biləcək sıfır vuruşların müəyyən edilməsidir. İndiyə qədər tapılan nəticələri və klasterlərin bəzi nümunələrini təqdim edəcəyik.


Prokaryotik genlərin "Çərçivə-çərçivə" alqoritmi ilə tapılması: Gen başlanğıclarının hədəflənməsi və üst-üstə düşən genlərin

Anton M. Şmatkov, Arik A. Melikyan, Feliks L. Çernousko və Mark Borodovski1
Rusiya Elmlər Akademiyası, Mexanika Problemləri İnstitutu, Moskva 11526, Rusiya
1 Biologiya Məktəbi, Corciya Texnologiya İnstitutu, Atlanta, GA 30332-0230, ABŞ

Sıx şəkildə yığılmış prokaryotik genlər tez-tez bir-biri ilə üst-üstə düşür. Eukaryotik DNT-də nadir hallarda görülən bu xüsusiyyət, tərcümənin başlanğıc yerlərinin aşkar edilməsini və buna görə də prokaryotik genlərin dəqiq proqnozlarını çətinləşdirir. Prokaryotik genomik DNT-də dəqiq gen proqnozlaşdırılmasının düzgünlüyünün təkmilləşdirilməsi mühüm açıq problem olaraq qalır. Prokaryotik genlərin proqnozlaşdırılması üçün vahid Gizli Markov modelindən istifadə edən yeni alqoritmi həyata keçirən proqram təminatı hazırlanmışdır. Alqoritm altı mümkün qlobal oxu çərçivəsinin hər birində verilmiş DNT ardıcıllığını müstəqil olaraq təhlil edir. Yeni alətdən istifadə etməklə on iki tam prokaryotik genom təhlil edilib. Gen tapılmasının düzgünlüyü, zülal kodlayan ORF-lərin yerlərinin proqnozlaşdırılması, eləcə də dəqiq gen proqnozlaşdırılmasının düzgünlüyü, tərcümənin başlanğıc kodonu daxil olmaqla bütün genin aşkarlanması, mövcud annotasiya ilə müqayisədə qiymətləndirilmişdir. Göstərildi ki, gen tapma baxımından proqram ən az əvvəllər hazırlanmış GeneMark və GLIMMER kimi alətlər qədər yaxşı işləyir. Dəqiq gen proqnozu baxımından yeni proqramın GeneMark.hmm, ECOPARSE və ORPHEUS kimi əvvəllər hazırlanmış alətlərdən bir neçə faiz daha dəqiq olduğu göstərildi. Proqramın sınaq nəticələri bir neçə erkən ardıcıllaşdırılmış prokaryotik genomlarda başlanğıc kodon annotasiyasında sistematik meylin mümkünlüyünü göstərdi. Yeni gen tapma proqramına internet saytından daxil olmaq olar: http://dixie.biology.gatech.edu/GeneMark/fbf.cgi


MetaFam: Protein Ailələrinin Birləşməsi

Elizabeth Shoop
Akademik Sağlamlıq Mərkəzi, Hesablama Biologiya Mərkəzləri Minnesota Universiteti, Minneapolis, MN, ABŞ

Biz MetaFam-ı təsvir edirik, 10 zülal ailəsi verilənlər bazası (BLOCKS, DOMO, Pfam, PIR, PRINTS, PROSITE, ProDom, PROTOMAP, SBASE və SYSTERS) hərtərəfli dəst-nəzəri müqayisəsindən əldə edilən protein ailəsi xarakteristikasını. Üzvlüklərində üst-üstə düşmə maksimum olduqda bir verilənlər bazasının ailələri digərində olanlarla uyğunlaşdırılır. Zülal ailəsi supersetlərinin yeni siyahısını yaratmaq üçün cüt ailə uyğunluqları keçidli şəkildə birləşdirilir. Bu supersetlərin bir sıra üstünlükləri var: (1) Bizim supersetlərimiz ən çox üzvdən ibarətdir, çünki komponent ailəsi verilənlər bazalarının hər biri tam lazımsız zülal dəstimizin alt çoxluğu ilə işləyir (2) Ayrı-ayrı ailə verilənlər bazalarının şübhəli təyinatları tez tapıla bilər, təhlilimiz əksəriyyət konsensusuna zidd olan ayrı-ayrı üzvləri müəyyən etdiyi üçün (3) avtomatlaşdırılmış verilənlər bazalarında olmaya bilən ailə təsvirləri indi təyin edilə bilər (4) domen sərhədləri, ailə superset/alt çoxluq münasibətləri və domen assosiasiyaları müqayisə edilərək statistika hesablanmışdır (5) supersetlər kompleks sorğulara və supersetdə ailələr arasında əlaqələrin vizuallaşdırılmasına və fərdi üzvlərin konsensusuna imkan vermək üçün Oracle verilənlər bazasına yüklənmişdir. Məlumatlara ictimai giriş bizim http://metafam.ahc.umn.edu/ internet saytımız vasitəsilə mümkündür.


Neisserial Bölmə və Hüceyrə Divarı Sintezi Gen Klasterində yeni bir gen

Lori A. Snyder (1) və William M. Shafer (1,2)
(1) Mikrobiologiya və İmmunologiya Departamenti, Emori Universiteti Tibb Məktəbi, Atlanta, GA, 30322, ABŞ
(2) Mikrob Patogenez Laboratoriyaları, VA Tibb Mərkəzi, Decatur, GA, 30033, ABŞ

Oklahoma Universitetinin Gonococcal Genom Sequencing Project verilənlər bazasında transkripsiya tənzimləyicisi MtrR-nin əlavə bağlanma yerləri üçün ekranı zamanı Neisseria gonorrhoeae-nin Bölmə və Hüceyrə Divarı (DCW) Sintez Klasteri ilə əlaqəli ehtimal olunan bağlanma yeri müəyyən edildi. Qonokokal DCW gen klasterinin ardıcıl analizi onun əvvəllər Escherichia coli, Haemophilus influenzae və Bacillus subtilis-də təsvir edilmiş DCW qrupları ilə güclü homologiyasını aşkar etdi. Bu klasterlər və Sanger Center Neisseria meningitidis Genom Ardıcıllıq Layihəsindən Neisseria meningitidis seroqrupu A ardıcıllıq ştammı Z2491 daxilində yerləşən DCW klasteri arasındakı fərqlər burada təqdim olunur. Ardıcıllıq müqayisəsi gonokokk və meningokokkal DCW qrupları ilə digər bakteriyaların çoxluqları arasında nəzərəçarpacaq fərqləri aşkar etdi. Bunlara ən azı üç açıq oxu çərçivəsinin əlavə edilməsi daxildir, bunlardan ən böyüyü orfA əlavə tədqiqat üçün seçilmişdir. Genom ardıcıllığının müqayisəsi bu oxu çərçivəsini qeyri-adi olaraq vurğulayır, çünki o, həm Qram-mənfi, həm də Qrampozitiv növlər arasında homologiya, gen təşkili və ehtimal olunan əsas funksiya baxımından normal olaraq yüksək səviyyədə qorunan bir bölgəyə daxil edilir. OrfA ilə kodlanmış zülalın müqayisəli ardıcıllıq təhlili, klonlaşdırılması və ifadəsinin nəticələri və nokaut eksperimentlərinin nəticələri təqdim olunacaq.


TƏRİZƏ: Tez və Daha Dəqiq Məsafə əsaslanan Filogeniyanın Yenidən qurulması

Nicholas D. Socci [1], Aaron L. Halpern [2] və William J. Bruno [3].
[1] Rokfeller Universiteti, Nyu York, NY 10021, ABŞ
[2] Nyu Meksiko Universiteti, Albuquerque, NM 87131, ABŞ
[3] Los Alamos Milli Laboratoriyası, Los Alamos, NM 87574, ABŞ

Çoxlu ardıcıllıqdan istifadə edərək ardıcıllığın təhlili ardıcıllıqlar arasında əlaqələri tələb edir. İstənilən ciddi statistik təhlil təkamül ağacının nəzərə alına bilməsi üçün yenidən qurulmasını tələb edir. Maksimum Ehtimal ağacın yenidən qurulması ideal olaraq ağacı qurmaq üçün istifadə oluna bilər, lakin bu, böyük düzülüşlərdə istifadə etmək üçün çox yavaşdır.

Biz WEIGHBOR adlı yeni, çəkili qonşuya qoşulma metodunu təqdim edirik. Bu üsul dispersiyaların və kovariasiyaların məsafə ilə eksponensial artımını dəqiq əks etdirən çəkilərdən istifadə edir. Çəkilər həm hansı cütün birləşdirildiyini təyin etmək, həm də budaq uzunluqlarını hesablamaq üçün istifadə olunur.

Testlər göstərir ki, WEIGHBOR digər üsullardan (Maksimum Parsimony, Neighbor Joining, BIONJ və Fitch-Margoliash) "uzun budaqlar cəlb edir" qərəzinin qarşısını alır. WIGHBOR həmçinin Neighbor Joining və BIONJ tərəfindən tikilmiş ağaclarda lazımsız səhvlərə səbəb olan "uzun budaqların diqqətini yayındırmaqdan" əziyyət çəkmir. WEIGHBOR böyük problemlər üzrə Fitch-Margoliash və ya Maksimum Ehtimal metodlarından çox daha sürətlidir və yüzlərlə ardıcıllığı asanlıqla idarə edə bilir. WEIGHBOR Neighbor Joining və BIONJ-dən qat-qat səmərəlidir və testlərimizdə Maksimum Ehtimal kimi 80%-95% səmərəlidir.

Proqramı yükləmək üçün www.t10.lanl.gov/billb/weighbor saytına daxil olun.


Genomik İmza: Qısa DNT Fraqmentləri Uyğundur

Alexandra Vaury, Alain Giron, Joseph Vilain, Bernard Fertil və Patrick Deschavanne
INSERM - U 494 - CHU Piti -Salp tri re, 91 bulvar de l'h pital, 75634 Paris sedex 13 - Fransa

Uzun və hətta tam genomik ardıcıllıqların son mövcudluğu, gen şərhindən asılı olmayaraq, onların qlobal strukturunun ümumi təhlilinə həsr olunmuş yeni tədqiqat sahəsi açır. Bizim yanaşmamız kəmiyyətin müəyyən edilməsi üçün burada dəyişdirilmiş CGR-dən (Xaos Oyununun Nümayəndəliyindən) faydalanır, o, tezliklər baxımından sözlərin (8 nukleotidə qədər kiçik ardıcıllıqlar) istifadəsini göstərən və DNT ardıcıllığında yuvalanmış nümunələri aşkar edən şəkilləri istehsal edir. O, uzun DNT ardıcıllığından məlumat çıxarmaq üçün sürətli və möhkəm bir üsul olduğunu sübut etdi, ardıcıllıqları müqayisə etməyə və söz tezliyində anomaliyaları aşkar etməyə imkan verdi. Müşahidə etdik ki, bir genomun alt ardıcıllığı bütün genomun əsas xüsusiyyətlərini elə nümayiş etdirir ki, müəyyən bir görüntü hər bir növlə əlaqələndirilə bilər və buna görə də genomik imza hesab edilə bilər. Şəkillər arasındakı məsafə filogenetik yaxınlığı ölçə bilər. Məsələn, eukariotlar və prokaryotlar yalnız DNT strukturlarına görə ayrı-seçkilik edilə bilər. Bu iş genomik imza ilə bağlı iki əlaqəli məsələni həll edir. i/ layiqli imza əldə etmək üçün DNT fraqmentinin nə qədər uzun olması lazımdır ii/ analiz ediləcək sözlər üçün optimal uzunluq varmı? Fraqmentlərdən əldə edilən təsvirlər müqayisə edildi və əsas komponent analizindən istifadə edərək əvvəlcədən emal mərhələsi (məlumatın miqdarını azaltmaq üçün) və nəzarətsiz klasterləşdirmə alqoritmi ilə təsnif edildi. Müəyyən edilmişdir ki, əksər DNT fraqmentlərinin mənşəyini düzgün müəyyən etmək olar. Bir qayda olaraq, fraqmentlərin tanınması fraqmentlərin ölçüsü və sözlərin uzunluğu ilə artır və 25 kb fraqmentlər və 5 hərfli sözlərlə demək olar ki, mükəmməl nəticə əldə edir. Beləliklə, verilənlər bazalarında tapılan genom fraqmentləri vasitəsilə növlərin qlobal müqayisəsini həyata keçirmək mümkün görünür.


Genomdan Zülal Ardıcıllığına 3D Quruluşa: Entrez Genomlarında Zülal Qonşuları

Yanli Vanq, Tatyana Tatusova, Roman Tatusov, Stiven Brayant
Milli Biotexnologiya Məlumat Mərkəzi,
Milli Tibb Kitabxanası,
Milli Sağlamlıq İnstitutu, Bethesda, MD, ABŞ

BLAST axtarışından zülal ardıcıllığı oxşarlığı məlumatından istifadə edərək genomik zülal ardıcıllıqları və 3D strukturları arasında əlaqəni təmin edən yeni WWW tətbiqi təqdim olunur. Bu WWW saytı yüksək inteqrasiya olunmuş bioinformatika resurslarıdır. Nəticələr Entrez Genomes verilənlər bazasında tam mikrob genomlarının bütün zülalları üçün əvvəlcədən hesablanmışdır. Məlum 3 ölçülü strukturları olan zülallarla qonşuluq əlaqələri aşkar edilmişdir. Ardıcıllığın cüt-cüt düzülmələri qrafik olaraq təqdim olunur və 3 ölçülü strukturları, ardıcıllıqları və mətn ardıcıllığını eyni vaxtda göstərməyə imkan verən Cn3D görüntüləyicisi ilə əlaqələndirilir. MMDB (Molekulyar Modelləşdirmə Database)-Entrezin 3D verilənlər bazasına əlavə olaraq bağlantılar istifadəçilərə VAST (Vektor Alignment Axtarış Aləti) ilə əvvəlcədən hesablanmış struktur qonşuları ilə təmin edir, tez-tez uzaq homologları müəyyən edən struktur qonşularının verilənlər bazası. Ardıcıllıq səylərindəki son irəliləyişlər 22 tam mikrob genomu ilə nəticələndi. Genlərin əksəriyyətində etibarlı funksional qeydlər yoxdur. Verilənlər bazasında, xüsusən struktur verilənlər bazalarında yaxşı şərh edilmiş homoloqların axtarışı bu zülalların funksiyalarını başa düşmək üçün vacib bir yoldur. Mövcud qonşu sistemimizdə 20-dən çox tam genom arasında genlərin təxminən 20%-nin MMDB struktur verilənlər bazasında sadəcə BLAST alqoritmi ilə ciddi meyarlarla aşkar edilən qonşuları var. Entrezin 3D görüntüləyicisi 3D ardıcıllıq strukturunun uyğunlaşdırılmasının təhlili və vizuallaşdırılması üçün böyük asanlıq gətirir. Birlikdə götürülmüş ardıcıllıq və struktur müqayisələri mikrob zülallarının funksional annotasiyası üçün güclü metodologiya təmin edə bilər. Gələcəkdə tam Eukaryotik genomlar üçün bu analizi həyata keçirməyi planlaşdırırıq.


GI(TM) - Gel analizi üçün Java əsaslı proqram təminatı

Mark Welsh, Hong Guo, Martin D. Leach
Bioinformatika, CuraGen Corporation, New Haven, CT, USA

Böyük miqyaslı ardıcıllıq layihələri sürətdən ödün vermədən yüksək keyfiyyətli gel analizini tələb edir. Belə ehtiyacları ödəmək üçün CuraGen yüksək məhsuldarlıqlı gel analizi üçün Java-da veb-əsaslı müştəri-server proqramı olan OGI(TM) (Açıq Genom Təşəbbüsü) işləyib hazırlayıb. Bu müştəri-server dizaynı operatora istənilən veb-brauzerdən istifadə edərək, hər biri bir neçə sequencerdən çıxış götürən bir çox OGI serverlərində emala nəzarət etməyə imkan verir. Hal-hazırda OGI ABI 377(TM) və MegaBACE(TM) 1000 maşınlarında ardıcıllığı dəstəkləyir. Veb brauzerdə Java tətbiqetməsi RMI (Remote Method Invocation) istifadə edərək serverlə əlaqə saxlayır. Serverdə çox yivli Java proqramı CPU-intensiv görüntü emal addımlarını planlaşdırır. Ardıcıllıq izləri CuraGen-in çox yönlü DOLPHIN(TM) iz prosessorundan istifadə edərək təhlil edilir və sonra PHRED istifadə edərək baza adlandırılır (Ewing et al., 1998). OGI yeni emal addımlarını və bütün yeni məlumat axınlarını asanlıqla qəbul edəcək açıq və genişləndirilə bilən çərçivə kimi dizayn edilmişdir. OGI-nin internetdən istifadə edərək məlumatların emalı və təhlilini koordinasiya etmək qabiliyyəti onu yüksək məhsuldarlıqlı ardıcıllıq qurğuları üçün ideal edir. OGI-nin Java və ANSI-C icra sənədləri www.curagen.com internet saytımız vasitəsilə təqdim olunacaq.

Bu tədqiqat NIH-nin qrantı ilə dəstəkləndi.


GeneHacker Plus: Bakterial genlərin tapılması üçün inteqrasiya olunmuş HMM

Tetsushi Yada, Yasushi Totoki (1) Kenta Nakai (2)
(1) Genom Elmləri Mərkəzi, RIKEN, Yaponiya
(2) İnsan Genom Mərkəzi, IMS, Tokio Universiteti, Yaponiya