Məlumat

Mükəmməl xəritələşdirmə oxunuşlarını ayırd etmək üçün yüksək uyğunsuzluq və boşluq cəzalarının təyin edilməsi kifayətdirmi?

Mükəmməl xəritələşdirmə oxunuşlarını ayırd etmək üçün yüksək uyğunsuzluq və boşluq cəzalarının təyin edilməsi kifayətdirmi?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Keyfiyyətə nəzarətdən keçmiş, 125bp bütöv genom ov tüfəngindən ibarət yağ yığınım var və mən yalnız həmin oxunuşları çıxarmaq istərdim. etmə genomu mükəmməl şəkildə xəritəsi. Uyğunsuzluqlar və boşluqların açılması/uzatılması üçün son dərəcə yüksək cəzalar təyin edərkən (bwa mem -B 1000 -O [1000,1000] -E [1000,1000]), o oxşayır oxunuşların mükəmməl xəritələşdirilməsi üçün düzülmələr göstərilir, qalan oxunmalar isə xəritəsiz olaraq bildirilir. Əgər bu doğrudursa, mən xəritədə olmayan oxunuşları çıxara bilərdimsamtools -f 4.

Buradakı mülahizələrimdə hər hansı bir boşluq varmı, yoxsa genomu mükəmməl şəkildə göstərən bütün oxunuşları silmək işləyəcəkmi?


Qısa cavab: Xeyr, həddən artıq yüksək cərimələr təyin etmək (100 və ya 1000) nəticə vermir. Mən niyə əmin deyiləm.

Orta cavab: Sualı yerləşdirdiyim üçün bir az araşdırdım və belə görünür ki, mükəmməl uyğun gələn oxunuşlar, CIGAR sətri və NM etiketi ilə göstərildiyi kimi, yumşaq kəsilməyən və redaktə məsafəsi sıfır olan oxunuşlardır, müvafiq olaraq.

Uzun cavab: Baxın https://standage.github.io/how-to-distinguish-perfectly-mapped-reads-from-a-sambam-file.html.


Üstünlük verilən yol, normal xəritə çəkmək və sonra aşağı axındakı qeyri-kamil uyğunluqları süzgəcdən keçirməkdir:

bwa mem ref.fa reads.fq | perl -ane 'print if /^@/ || ($F[5]=~/^d+M$/ && /	NM:i:0/)'

Qiymətləndirmə sxeminin dəyişdirilməsi xəritəçəkmə dəqiqliyinə xələl gətirir.


Müasir istinad genomlarına qarşı qədim DNT oxu xəritələrinin təkmilləşdirilməsi

Next-Generation Sequencing, qədim fərdlərin və nəsli kəsilmiş növlərin tam genomik ardıcıllığını təmin etməklə, qədim DNT (aDNT) tədqiqatlarına yanaşmamızda inqilab etdi. Bununla belə, çoxdan ölmüş orqanizmlərdən genetik materialın bərpası hələ də bir sıra məsələlər, o cümlədən ölümdən sonra DNT zədələnməsi və ətraf mühitin yüksək səviyyədə çirklənməsi. İstifadə olunan sekvensləmə platformalarının növünə xas xəta profilləri ilə birlikdə bu spesifikliklər sekvensiya oxunuşlarını müasir istinad genomlarına qarşı xəritələndirmək qabiliyyətimizi məhdudlaşdıra bilər və buna görə də endogen qədim oxunuşları müəyyən etmək qabiliyyətimizi məhdudlaşdıraraq aDNA-nın ov tüfəngi ardıcıllığının effektivliyini azalda bilər.

Nəticələr

Bu işdə biz Illumina GAIIx və Helicos Heliscope platformalarından istifadə edərək Pleistosen at ekstraktlarından əldə edilmiş ov tüfəngi ardıcıllığı oxunuşlarına əsaslanaraq, aDNT ardıcıllığının identifikasiyasının dəqiqliyini və həssaslığını artırmaq üçün müxtəlif hesablama üsullarını müqayisə edirik. Biz göstəririk ki, sıralama xətalarının indel tipləri aşağı olan platformalardan istifadə edərək zədələnməmiş ardıcıllıqla oxunuşların xəritələşdirilməsi üçün hazırlanmış Burrows Wheeler Aligner (BWA) performansı, standart parametrləri dəyişdirərək məqbul iş vaxtlarında istifadə edilə bilər. platformaya xas üsul. Oxunma uclarında ehtimal olunan zədələnmiş mövqelərin kəsilməsinin orijinal aDNT fraqmentlərinin bərpasını artıra biləcəyini və ən yaxşı vuruş filtrinə əsaslanaraq əvvəllər təklif edilmiş strategiyadan istifadə etməklə insan çirklənməsinin dəqiq müəyyənləşdirilməsinə nail olmaq mümkün olub-olmadığını da araşdırırıq. Biz göstəririk ki, müxtəlif xəritəçəkmə və filtrləmə yanaşmalarımızı birləşdirməklə bərpa edilən yüksək keyfiyyətli endogen hitlərin sayını 33%-ə qədər artıra bilərik.

Nəticələr

Biz göstərmişik ki, aDNT ekstraktlarından əldə edilən Illumina və Helicos sekansları, xəritəçəkmə parametrləri bu platformalar tərəfindən yaradılan xüsusi xəta növləri üçün optimallaşdırılmasa, eyni effektivliklə müasir istinad genomlarına uyğunlaşdırıla bilməz. ölümdən sonra DNT zədələnməsi. Tapdıqlarımızın gələcək aDNT tədqiqatları üçün mühüm əhəmiyyəti var, çünki biz həqiqi aDNT ardıcıllığını müəyyən etmək qabiliyyətimizi təkmilləşdirən xəritəçəkmə qaydaları müəyyən edirik ki, bu da öz növbəsində qədim nümunələrin genotipləmə dəqiqliyini artıra bilər. Çərçivəmiz çirklənmə və çox vaxt az miqdarda DNT materialı ilə üzləşən qədim genomları xarakterizə etmək üçün istifadə edilən standart prosedurları əhəmiyyətli dərəcədə təkmilləşdirir.


Fon

High-throughput Sequencing (HTS) texnologiyası bu yaxınlarda sürətli və təsir edici inkişaf nümayiş etdirdi və bu, əvvəlki dəyərin yalnız bir hissəsi üçün bir neçə saat ərzində ardıcıllığın gigabazalarının istehsalına səbəb oldu [1]. HTS, genomun təkrar ardıcıllığı (bütün genom ardıcıllığı və hədəflənmiş ardıcıllıq) kimi xüsusi tətbiqlərin inkişafı sayəsində genetika və genomikada bilik partlayışı yaratdı. Bu texnoloji təkamül istehsal olunan oxunuşların kəmiyyət və keyfiyyəti ilə məşğul olmaq üçün yeni alqoritmlərin inkişafı ilə paralel aparıldı. Yenidən sıralama yanaşmalarında əsas təhlil addımları oxunanların istinad genomuna xəritələşdirilməsidir. Oxumaların istinad genom ardıcıllığına dəqiq yerləşdirilməsini nəzərdə tutan bu addım aşağı axın analizlərinin qlobal keyfiyyətini müəyyən etdiyi üçün çox vacibdir. Bu addım üçün istifadə olunan alqoritmlərə xəritəçilər deyilir. Xəritəçəkənlər həssas və dəqiq olmalı, mümkünsə sürətli və çox hesablama tələb etməməlidirlər. Onlar istinad genomunda oxunan hər birinin həqiqi mövqeyini tapmalı və texniki ardıcıllıq səhvləri ilə təbii genetik variasiyaları ideal şəkildə ayıra bilməlidirlər.

Son illərdə bir çox xəritəçəkənlər hazırlanmış və yayılmışdır (60-dan çox xəritəçi [2]-də verilmişdir). İki tədqiqat [2, 3] müxtəlif xüsusiyyətlərdən istifadə edərək xəritəçiləri təsnif etmişdir: verilənlərin növü, onların tətbiqi, ardıcıllıq platforması, oxunma uzunluğu, icazə verilən xəta dərəcəsi, paralel həyata keçirmə, çoxlu proqramlarla işləmək bacarığı. Xəritəli oxunuşlar (yəni. birdən çox yerə uyğunlaşdırılmış oxunuşlar), giriş və çıxış formatları və mövcud parametrlər. Xəritəçəkənlər çoxaldı və mümkün parametrlər də çoxaldı. Beləliklə, çoxlu müqayisə meyarları vasitəsilə xəritəçinin performansını qiymətləndirməyə yönəlmiş son tədqiqatlarda xəritəçinin seçilməsində artan çətinlik artmışdır. Bu tədqiqatlardan bəziləri xəritəçinin həssaslığına (oxuyanları düzgün xəritələmək bacarığına) diqqət yetirmişdir [4-6]. Schbath və b. tam üç uyğunsuzluğu olan oxunuşları ehtiva edən yaxşı idarə olunan etalondan istifadə edərək xəritəçilərin unikal və çox xəritəli oxunuşları müəyyən etmək qabiliyyətini öyrənmişdir [7]. Hatəm və b. daxiletmə xassələrini və alqoritmik xüsusiyyətləri əhatə edən testlərdən ibarət olan xəritəçəkmə alətlərini [8] təhlil etmək üçün müqayisə dəstini təqdim etdi.

Qiymətləndirmə meyarlarının müəyyən edilməsində, müvafiq qiymətləndirmə metodunun seçilməsinin çətinliyinə əlavə olaraq, yəni. Xəritəçilərin qiymətləndirmə meyarlarına uyğun olaraq necə müqayisə edilməsi və müvafiq ölçülərdən istifadə edilməsi də problemlidir. Mapper performansını qiymətləndirmək üçün real verilənlər dəstlərindən istifadə xəritələşdirilmiş oxunmaların faizini müqayisə etməklə xəritəçilərin yalnız kobud qiymətləndirilməsinə və təsnifatına imkan verir, lakin xəritəçilərin faktiki dəqiqliyini aşkar etmir. Orijinal oxunma mövqelərinin məlum olduğu simulyasiya edilmiş verilənlər toplusundan istifadə edərək bu tələdən qaçmaq üçün cəhdlər edilmişdir. Başqa bir çətinlik düzgün xəritələşdirilmiş oxunuşun nə olduğunu dəqiq müəyyən etməkdədir. Əsas tərif, əgər orijinal yer əldə edilərsə, oxunuşu düzgün xəritələnmiş hesab etməkdir [4]. Ruffalo və b. Bu tərifi keyfiyyət balına verilən hədddən üstün olan şərt əlavə etməklə genişləndirmişdir [5]. Daha yeni bir məqalədə [8], xəritələmə meyarları pozulmadığı təqdirdə oxunmanın düzgün xəritələnmiş hesab edildiyi yeni bir tərif təqdim edildi, yəni. istifadəçi tərəfindən təyin edilmiş həddi parametrdən daha az xəta ehtiva edir.

Simulyasiya edilmiş məlumatlardan istifadə ədədi dəyərləri əldə etməyə və bir sıra xəritəçəkənlər arasında müqayisə etməyə imkan verir. Bununla belə, simulyasiya edilmiş məlumatlar, hətta real verilənlərə əsaslanan səhv modeli istifadə edildikdə belə, real verilənlərlə eyni xüsusiyyətlərə malik deyildir. Real HTS məlumatları təqlid etmək çox çətin ola biləcək qərəzləri [9] təqdim edir. Bundan əlavə, yalnız orijinal başlanğıc yerinə əsaslanan xəritəçəkmə düzgünlüyünün cari tərifi bəzi zəif cəhətləri təqdim edir: oxunuşda istinad ardıcıllığında bir neçə düzgün mövqe ola bilər və ardıcıllıq səhvləri və ya həqiqi genetik variasiyalar genom mövqeyindən fərqli olaraq daha yaxşı uyğunlaşmaya səbəb ola bilər. orijinal olan. Holtgrewe və b. oxunmuş xəritələşdirməni təsvir etmək üçün genom mövqeyindən daha çox interval tərifini təqdim etdi [6] və hər oxunma üçün verilmiş xəta dərəcəsi diapazonunda bütün mümkün uyğunluq intervallarını müəyyən etmək üçün tam həssaslıq alqoritmindən istifadə etdi. Bu üsul real və simulyasiya edilmiş verilənlər dəstləri ilə SAM çıxış formatını dəstəkləyən ixtiyari oxuma mapperlərinin nəticəsini qiymətləndirən alət olan RABEMA-da (Read Alignment BEnchMARk) tətbiq edilmişdir. Xəritəçəkməçilərin qiymətləndirilməsi ilə bağlı dərc olunmuş ədəbiyyatın təhlili bizi belə nəticəyə gətirdi ki, xəritəçilərin tam və möhkəm müqayisəsi üçün real və simulyasiya edilmiş verilənlər dəstlərindən istifadə edilməlidir. Həqiqi verilənlər dəstlərindən istifadə simulyasiya meyllərinin qarşısını alır və xəritəçinin davranışının real mənzərəsini verir, halbuki simulyasiya edilmiş verilənlər dəstləri bütün parametrlərin idarə oluna biləcəyi etalonlardır. Bundan əlavə, düzgün xəritələşdirilmiş oxunuşun nədən ibarət olduğunun daha dolğun tərifi nəzərə alınmalıdır (aşağıya bax).

Əvvəlki bütün tədqiqatlarda mapper performansı böyük eukaryotik genomlardan (əsasən insan genomu) istifadə edilməklə qiymətləndirilmişdir və 454 məlumat dəstinin qiymətləndirildiyi [4, 6] istisna olmaqla, əksər hallarda qısa Illumina və ya Illumina kimi oxuma məlumatlarından istifadə edilmişdir. azaldılmış sayda xəritəçilərin və ölçülərin. Ardıcıllıq xətalarının növü və onların dərəcəsi ardıcıllıq texnologiyasına və daha dəqiq desək, istifadə olunan nukleotidlərin uzanmasının aşkarlanması üsullarına xasdır. Məsələn, oliqonukleotidlərin bağlanması və aşkarlanması (SOLiD) texnologiyası ilə Life Technologies ardıcıllığı təkrarlanan elementləri əhatə etməsində güclü meyl göstərdi [10], halbuki Illumina reversible boya-terminator ardıcıllığı texnologiyası (HiSeq) əsasən əvəzetmələrə səbəb oldu [11]. Möhkəm dəstək (454/Roche) və ion yarımkeçirici ardıcıllığı texnologiyası (Ion Torrent, Life Technologies) üzərində pirosequencing homopolimer-regionları ilə əlaqəli indel xətaları yaratdı [12]. Nəşr edilmiş qiymətləndirmələrdə sınaqdan keçirilmiş meyarlar və xəritəçilərin defolt parametrləri adətən əvəzetmə tipli səhvləri həll etmək və ya onlarla məşğul olmaq üçün seçilir və buna görə də Ion Torrent platforması kimi yeni texnologiyalardan oxunuşların xəritələşdirilməsi üçün daha az məlumatlıdır.

Bundan əlavə, böyük eukaryotik genomların təhlili ilə müqayisədə kiçik mikrob genomlarının təhlili digər çətinliklər yaradır, çünki mikrob genomlarında geniş spektrli GC məzmunu var və bu, bəzən həddindən artıqdır. Çox yüksək və ya çox aşağı GC məzmunu o deməkdir ki, bir genom ardıcıllığında homopolimerlərlə qarşılaşma ehtimalı yüksəkdir və bunun pirosekvensiya və ion yarımkeçirici sekvenslər üçün xüsusi problem olduğu bilinir. HTS texnologiyalarında son inkişaf kiçik və orta ölçülü genomların, əsasən bakteriyaların, virusların, göbələklərin və parazitlərin tez və ucuz ardıcıllığına yönəlmiş tezgah üstü sekvenserləri təqdim etdi. Kiçik mikrob genomlarının ardıcıllığı daha böyük eukaryotik genomlar üçün xəritəçəkmə prosesi ilə müqayisədə daha sadə, daha az tələbkar xəritəçəkmə prosesi təqdim edilə bilər. Ancaq bu, yalnız qismən doğrudur, çünki kiçik mikrob genomlarının xüsusiyyətləri eukaryotik genomların xüsusiyyətləri ilə eyni deyil. Maraqlanan suallar da adətən fərqli olur və nəticədə gözlənilən xəritəçəkmə keyfiyyət meyarları tam olaraq eyni deyil. Bütün genom ardıcıllığı və ya təkrar ardıcıllıq HTS istifadə edərək mikroorqanizmlərin səciyyələndirilməsinin yeni sahəsində mühüm tətbiqdir. Məsələn, klinik diaqnostika və mikrob ştammının dövriyyəsinin epidemioloji tədqiqi yaxın gələcəkdə HTS-nin istifadəsi ilə dərindən yenidən qurulacaq, bu da çox tezliklə patogenlər üçün xarakteristika yanaşması kimi istifadə edilməli və yəqin ki, yavaş-yavaş hazırkı PCR-ni əvəz edəcək. və biokimyəvi əsaslı səciyyələndirmə üsulları [13, 14]. Bu xüsusi kontekstdə təkrar ardıcıllıq tətbiqləri və əldə edilmiş təhlillər tədqiqat və təkmilləşdirmənin ön xəttindədir. Diqqətə mikrob genomunun bütün uzunluğunun ardıcıllığı və öyrənilən genomda potensial müvafiq dəyişiklikləri müəyyən etmək üçün onları bir və ya bir neçə istinad ştammına çəkməklə əldə edilmiş oxunuşların təhlili daxildir. Məqsəd potensial yeni fenotipi və ya əldə edilmiş yeni patogenlik profilini proqnozlaşdırmaq üçün genetik elementlərdə (genlər və ya genlərin, profaqların və plazmidlərin hissələri) qazanc və ya itkiləri, həmçinin kiçik dəyişiklikləri (mutasiyalar və indellər) dəqiq müəyyən etməkdir. Bu tələb bir sıra çətinliklər yaradır ki, bunlardan da ən mühümü həqiqi genetik variasiyaları ardıcıllıqla səhvlərdən ayırmaq zərurətidir.

Bu yazıda biz kiçik mikrob, əsasən bakteriya genomları üçün bütün genom ardıcıllığı və ya təkrar ardıcıllıq kontekstində xəritəçilərin qiymətləndirilməsinə diqqət yetiririk. Biz 14 xəritəçini sınaqdan keçirdik, əsasən qeyri-ekspert istifadəçilərin ümumi kontekstində olmaq üçün onların standart parametrlərindən istifadə etdik. Biz bu kontekstə uyğunlaşdırmaq üçün dörd meyar seçdik: (i) hesablama resursu və vaxt tələbləri, (ii) dəqiqliyin, geri çağırmanın və F-ölçünün qiymətləndirilməsi vasitəsilə xəritəçəkmənin möhkəmliyi, (iii) təkrarlanan bölgələrdə oxunuşlar üçün mövqeləri bildirmək bacarığı və (iv) həqiqi genetik variasiya mövqelərini əldə etmək bacarığı. Simulyasiya edilmiş verilənlər dəstlərində xəritəçinin möhkəmliyini qiymətləndirmək üçün düzgün xəritələşdirilmiş oxunuşun yeni tərifini təqdim etdik. Orijinal başlanğıc mövqeyinə əlavə olaraq (yəni. Əvvəlki tədqiqatların əksəriyyətində istifadə edilən oxunmanın təqlid olunduğu mövqe) oxunmanın xəritələşdirilməsini düzgün kimi təsnif etmək üçün son mövqe, eləcə də düzülmədəki əlavələrin, silinmələrin və əvəzetmələrin sayından da istifadə edilmişdir. Bu tərif əvvəlkilərdən daha sərtdir, çünki bu, onun tam uzunluqlu oxunma düzülüşü olduğunu və səhv sayının düzgün olduğunu bildirir. Həqiqətən, ardıcıllıqla səhvlər oxunmanın orijinal yerinin mütləq ən yaxşı uyğunlaşma yeri olmadığını ifadə edə bilər. Bütün mümkün hitləri ("hamısı" rejimi) bildirmək və simulyasiya edilmiş oxunuşlarda təqdim edilən səhv nisbətindən daha yüksək xəta dərəcəsini qəbul etmək üçün tənzimlənmiş xəritəçilərdən istifadə edərək, potensial ekvivalent və ya daha yaxşı hitlərə əlavə olaraq orijinal yeri əldə etmək mümkün olmalıdır. Bu tədqiqatda istifadə edilən düzgün xəritələşdirilmiş oxunmanın yeni tərifi ilə biz xəritəçinin oxunmalarda qaçılmaz ardıcıllıq xətalarına baxmayaraq gözlənilən orijinal hizalanmanı əldə edə bildiyini təmin etdik və bununla da xəritəçinin möhkəmliyinin həqiqi qiymətləndirilməsinə imkan verdik.

Təhlil əsasən kiçik genomların ardıcıllığına həsr olunmuş yeni gələn texnologiya olan İon Torrent Şəxsi Genom Maşını (PGM) tərəfindən yaradılan məlumatlara tətbiq edildi, bunun üçün xəritəçinin performansı hələ qiymətləndirilməmişdir. Həqiqi verilənlər toplusundan oxunuşlardan və süni şəkildə simulyasiya edilmiş oxunuşlardan istifadə edilmişdir. Simulyasiya edilmiş oxunuşlar yeni fərdiləşdirilə bilən oxu simulyatoru, CuReSim istifadə edərək yaradılıb, o, istifadəçi tərəfindən müəyyən edilmiş uzunluqların oxunuşlarını idarə olunan sürətdə daxil edilmiş əlavələr, silmələr və əvəzetmələrlə və oxunma zamanı tənzimlənən xəta paylanması ilə yarada bilir. Xəritəçəkmə keyfiyyətini qiymətləndirmək üçün istifadə edilə bilən CuReSim və CuReSimEval skript Java-da bütün əməliyyat sistemlərində işləmək üçün işlənib hazırlanmışdır (ətraflı məlumat üçün Əlavə fayl 1-in 2-ci bölməsinə baxın) və http://www.pegase- saytında sərbəst şəkildə mövcuddur. biosciences.com/tools/curesim/. Biz göstərdik ki, mikrob genomunun ardıcıllaşdırılmasında segemehl kimi bəzi xəritəçəkənlər, xüsusən də ardıcıllıq xətalarının sayı çox olduqda, digərlərinə nisbətən daha yüksək möhkəmlik nümayiş etdirirlər. Digər mapperlər digər keyfiyyət meyarlarını tələb edən digər tətbiqlər üçün daha möhkəmdir. Məsələn, BWASW, SHRiMP2, SMALT, SSAHA2 və TMAP, variasiyaların güclü ayrı-seçkiliyini nümayiş etdirdiyinə görə, nadir variantların kəşfinə yönəlmiş ardıcıllıq üçün xüsusilə yaxşı performans göstərə bilər. SMALT təkrar bölgələrdə yerləşən oxunma mövqelərinin əksəriyyətini lokallaşdıra bilər. Novoalign, SMALT və SRmapper kimi bəzi xəritəçilərə çox kiçik yaddaş resursları (təxminən 20 MB) lazım idi, SNAP isə çox sürətli idi və bu tədqiqatda istifadə edilən daha böyük verilənlər toplusunu emal etmək üçün cəmi iki dəqiqə tələb edirdi. Bu nəticələr xəritəçi seçiminin tətbiqdən asılı olduğunu və istifadəçilərin xəritəçini seçməzdən əvvəl hədəfi diqqətlə nəzərdən keçirməli olduğunu vurğulayır. Burada təqdim olunan qiymətləndirmə yanaşması, hazırlanmış alətlərlə birlikdə (imitasiya edilmiş oxunuşlar yaratmaq üçün CuReSim və xəritəçəkmə keyfiyyətini qiymətləndirmək üçün CuReSimEval) mövcud və ya inkişafda olan xəritəçilərin qiymətləndirilməsinin ümumi metodu kimi nəzərdən keçirilə bilər və onların performanslarının qiymətləndirilməsində maraqlı ola bilər. növbəti üçüncü nəsil sekvenserlər üçün başqa bir növ və xəta dərəcəsi ola biləcək mappers.


Nəticələr

Nukleotid çevrilmələrinin rəqəmsal şəkildə açılması k-mers

DUNK dörd əsas addımı yerinə yetirməklə yüksək məhsuldarlıqlı ardıcıllıq məlumat dəstlərindəki nukleotid çevrilmələrini ardıcıllıq xətasından və orijinal SNP-lərdən fərqləndirmək problemlərini həll edir (Şəkil 1): Birincisi, nukleotidlərin konversiyasından xəbərdar olan oxuma xəritələşdirilməsi alqoritmi oxunmaların uyğunlaşdırılmasını asanlaşdırır (k- mers) yüksək sayda uyğunsuzluqlarla (şək. 1a). İkincisi, 3′ UTR kimi təkrarlanan və ya aşağı mürəkkəblik bölgələrində güclü nukleotid çevrilmə oxunuşlarını təmin etmək üçün DUNK isteğe bağlı olaraq çox xəritəçəkmə oxunması üçün bərpa strategiyasından istifadə edir. Bütün multi-mapping oxunuşlarını atmaq əvəzinə, DUNK yalnız bu xəritəni iki fərqli 3′ intervalına bərabər yaxşı oxuyur. Eyni 3′ intervalına və ya tək 3′ intervalına və genomun 3′ intervalının bir hissəsi olmayan bölgəsinə çoxlu düzülmə ilə oxunmalar saxlanılır (Şəkil 1b). Üçüncüsü, DUNK SNP mövqelərində yalançı müsbət nukleotid çevrilmələrini maskalamaq üçün Tək Nukleotid Polimorfizmlərini (SNP) müəyyən edir (Şəkil 1c). Nəhayət, yüksək keyfiyyətli nukleotid-konversiya siqnalı ardıcıllıq xətasından ayrılır və oxunan əhatə dairəsi və intervalın əsas məzmunu nəzərə alınmaqla bütün 3′ intervalları üçün çevrilmə tezliklərini hesablamaq üçün istifadə olunur (Şəkil 1d).

Nukleotid çevrilmələrinin rəqəmsal şəkildə açılması k-mers: Əfsanə: Verilmiş nukleotid-konversiya üçün mümkün əsas nəticələr: istinadla uyğunluq (ağ), nukleotid-konversiya uyğunsuzluq kimi qiymətləndirilmiş (qırmızı), nukleotid-konversiya nukleotid-konversiyadan xəbərdar hesabla (mavi), aşağı keyfiyyətli nukleotid çevrilmə (qara) və süzülmüş nukleotid çevrilməsi (şəffaf) a DUNK-a qarşı sadə nukleotid-konversiya emalı və kəmiyyəti: sadəlövh oxuma mapper (solda) istinad genomuna 11 oxunuşu (boz) uyğunlaşdırır və bir çox çevrilmiş nukleotidləri (qırmızı) təşkil edən beş oxunu (açıq boz) silir. DUNK mapper (sağda) bütün 16 oxunuşu xəritələşdirir. b DUNK çox xəritəçəkmə oxunuşlarını (R5, R6, R7, sol) elə emal edir ki, birmənalı olaraq 3′ intervalına təyin edilə bilənlər (R3, R6) müəyyən edilsin və həmin bölgəyə təyin edilsin, R5 və R7 bir yerə təyin edilə bilməz. 3′ interval və aşağı axın analizlərindən silinəcək. R2 ümumi aşağı uyğunlaşma keyfiyyətinə görə atılır. c Tək Nukleotid Polimorfizmlərindən yaranan yalançı müsbət nukleotid çevrilmələri maskalanır. d Yüksək keyfiyyətli nukleotid çevrilmələri əhatə dairəsi və əsas məzmun üçün kəmiyyətcə normallaşdırılır

Aşağıda biz bir neçə dərc edilmiş və simulyasiya edilmiş verilənlər bazasına DUNK tətbiq etməklə hər bir analiz addımının performansını və etibarlılığını nümayiş etdiririk.

Nukleotid-konversiyadan xəbərdar xəritəçəkmə nukleotid-konversiya kəmiyyətini yaxşılaşdırır

Oxumaların istinad genomuna düzgün uyğunlaşdırılması əksər yüksək məhsuldarlıqlı ardıcıllıq analizlərinin mərkəzi vəzifəsidir. Oxunma və istinad genomu arasında optimal uyğunluğu müəyyən etmək üçün xəritəçəkmə alqoritmləri uyğunsuzluqlar və boşluqlar üçün cəzaları ehtiva edən bir qiymətləndirmə funksiyasından istifadə edir. Cəzalar uyğunsuzluq və ya boşluq müşahidə etmək ehtimalını əks etdirmək məqsədi daşıyır. Standart yüksək məhsuldarlıq ardıcıllığı təcrübələrində, nukleotid uyğunsuzluğunun növündən asılı olmayaraq bir uyğunsuzluq cəzası qəbul edilir (standart xal). Bunun əksinə olaraq, SLAMseq və ya oxşar protokollar xüsusi bir nukleotid çevrilməsinin digərlərindən daha tez-tez baş verdiyi məlumat dəstləri yaradır. Bunu hesablamaq üçün DUNK konversiyadan xəbərdar olan qiymətləndirmə sxemindən istifadə edir (Cədvəl 1-ə baxın). Məsələn, SLAM-DUNK istinad>read arasında T> C uyğunsuzluğunu cəzalandırmır.

Doymuş 4SU etiketləmə şərtlərində 0% (dönüşüm yoxdur), 2.4 və 7% (siçan embrion kök hüceyrəsi (mESC) SLAMseq məlumatlarında [4] və HeLa SLAMseq məlumatlarında (dərc olunmamış) müşahidə edilən dönüşüm nisbətləri) simulyasiya edilmiş SLAMseq məlumatlarından istifadə etdik. ) və Cədvəl 1-də göstərilən qiymətləndirmə sxemini qiymətləndirmək üçün 15% (Cədvəl 2-ə baxın) həddən artıq konversiya dərəcəsi. simulyasiya edilmiş “doğru” çevrilmələrə və simulyasiya edilmiş həqiqətdən nisbi səhvlərin medianı [%] hesablanmışdır (bax Metodlar). 0%-lik “çevirmə dərəcəsi” üçün hər iki qiymətləndirmə sxemi < 0,1% median xəta göstərdi (Şəkil 2a, Əlavə fayl 1: Şəkil S1). Qeyd edək ki, standart qiymətləndirmə sxeminin orta xətası konversiyadan xəbərdar olan qiymətləndirmə sxemindən (0,288-ə qarşı 0,297 nukleotid çevrilmələri) aşağıdır, beləliklə, eksperimental olaraq təqdim edilmiş nukleotid çevrilmələri olmayan verilənlər dəstləri üçün standart qiymətləndirməyə üstünlük verir. 2.4% dönüşüm nisbəti üçün standart və konversiyadan xəbərdar olan qiymətləndirmə sxemi müvafiq olaraq 4.5 və 2.3% xəta göstərdi. Dönüşüm nisbətinin 7%-ə yüksəldilməsi standart qiymətləndirmənin səhvini daha da 5%-ə çatdırdı. Bunun əksinə olaraq, SLAM-DUNK qiymətləndirmə funksiyasının səhvi 2,3% səviyyəsində qaldı. Beləliklə, konversiyadan xəbərdar olan qiymətləndirmə standart qiymətləndirmə sxemi ilə müqayisədə median çevrilmə kəmiyyət səhvini 49-54% azaldıb.

Nukleotid-konversiyadan xəbərdar oxuma xəritəsi: a Oxunma xəritələri zamanı nukleotid-konversiyadan xəbərdar olan xalla sadəlövh qiymətləndirmənin qiymətləndirilməsi: 100 bp oxunuş uzunluğu və 100x əhatə dairəsində artan nukleotid çevrilmə sürəti ilə simulyasiya edilmiş məlumatlar üçün həqiqi və bərpa edilmiş nukleotid çevrilmələrinin median xətası [%]. b Adətən rast gəlinən 0.0, 2.4 və 7.0% nukleotid çevrilmə dərəcələri, həmçinin 15, 30 və 60% həddindən artıq çevrilmə dərəcələri üçün onların 3′ mənşə intervalına düzgün təyin edilmiş oxunmaların sayı. c Standart Xəritəçəkmə və DUNK üçün artan nukleotid-konversiya məzmunu ilə 21 siçan ES hüceyrə pulse-təqib vaxtı kursu nümunələrinin xəritələşdirilməsindən sonra saxlanılan oxunmaların və 95% CI zolaqları ilə xətti reqresiyanın faizləri

DUNK, nukleotidlərə çevrilmə sürətindən asılı olmayaraq düzgün xəritələr oxuyur

SNP-lər və ya ardıcıllıq xətaları səbəbindən uyğunsuzluqlar oxuma xəritələşdirmə alətlərinin əsas problemlərindən biridir. Tipik RNT-Seq məlumat dəstləri 0,1 ilə 1,0% arasında SNP dərəcəsini və 1%-ə qədər ardıcıllıq xətasını göstərir. Kimyəvi induksiya edilmiş nukleotid çevrilmələrindən istifadə edən protokollar geniş diapazonlu uyğunsuzluq tezlikləri ilə məlumat dəstləri yaradır. Nukleotid-konversiyadan azad (etiketsiz) oxunuşlar RNT-Seq oxunuşları ilə eyni sayda uyğunsuzluqları göstərsə də, nukleotid-konversiya ehtiva edən (etiketlənmiş) oxunuşlar təcrübənin nukleotid-çevirmə sürətindən və edə bilən nukleotidlərin sayından asılı olaraq əlavə uyğunsuzluqları ehtiva edir. oxunuşda çevrilməlidir. Nukleotid-çevirmə sürətinin oxu xəritəsinə təsirini qiymətləndirmək üçün biz təsadüfi olaraq nəşr edilmiş mESC 3′ son annotasiyasından çıxarılan ifadə edilmiş transkriptlərin 1000 genomik 3′ intervalını seçdik və 2,4 və 7% nukleotid çevrilmə dərəcəsi ilə etiketli oxunuşların iki verilənlər dəstini simulyasiya etdik. (Cədvəl 2-ə baxın). Sonra, SLAM-DUNK simulyasiya edilmiş məlumatları siçan genomuna uyğunlaşdırdı və biz verilənlər bazası üçün düzgün 3′ intervalına uyğunlaşdırılmış oxuların sayını hesabladıq. Şəkil 2b göstərir ki, 50 bp oxunma uzunluğu və 2,4% nukleotid çevrilmə dərəcəsi üçün xəritələnmə sürəti (91%), etiketlənməmiş oxunuşların verilənlər toplusu ilə müqayisədə əhəmiyyətli dərəcədə fərqlənmir. Nukleotidlərə çevrilmə nisbətinin 7%-ə yüksəldilməsi düzgün xəritələnmiş oxunmaların 88%-ə qədər orta dərəcədə azalmasına səbəb oldu. Bu düşmə oxunma uzunluğunu 100 və ya 150 bp-ə qədər artırmaqla düzəldilə bilər, burada xəritəçəkmə dərəcələri 15%-ə qədər olan nukleotidlərə çevrilmə dərəcələri üçün ən azı 96% təşkil edir (Şəkil 2b).

Daha qısa oxunuşlar (50 bp) üçün daha yüksək konvertasiya dərəcələri (> 15%) üçün düzgün xəritələşdirilmiş oxunmaların faizində əhəmiyyətli azalma müşahidə etsək də, SLAM-DUNK-un daha uzun oxunuşlar üçün xəritəçəkmə dərəcəsi (100 və 150 ​​bp) verilənlər dəstləri üçün 88%-dən yuxarı qaldı. müvafiq olaraq 15 və 30%-ə qədər çevrilmə nisbətləri ilə, SLAM-DUNK xəritələrinin hətta yüksək konversiya tezlikləri üçün də nukleotid çevrilməsi ilə və ya olmayan eyni dərəcədə yaxşı oxuduğunu nümayiş etdirir.

Bu tapıntını real məlumatlarda təsdiqləmək üçün biz SLAM-DUNK-dan təxmin edilən çevrilmə nisbətləri ilə mESC-lərdə nəbz təqibi zaman kursundan dərc edilmiş 21 (hər biri üç təkrarlı 7 vaxt nöqtəsi) SLAMseq verilənlər toplusunun [4] xəritəsini çıxarmaq üçün istifadə etdik (Cədvəl 3-ə baxın) 2,4%. Təcrübənin bioloji təbiətinə görə biz gözləyirik ki, ilk zaman nöqtəsindən (4SU- yuyulma/təqibə başlama) SLAMseq məlumatı ən çox etiketlənmiş oxunuşları ehtiva edir, halbuki son vaxt nöqtəsindən əldə edilən məlumatlarda demək olar ki, heç bir etiketli oxunma yoxdur. .

Şəkil 2c gözlənilən müsbət korrelyasiyanı göstərir (Spearmanın rho: 0.565, səh-dəyər: 0.004) konversiyadan xəbərsiz xəritəçi istifadə edilərsə (standart dəyərlərlə NextGenMap) xəritələnmiş oxunmaların hissəsi ilə zaman nöqtələri arasında. Sonra SLAM-DUNK istifadə edərək təhlili təkrarladıq. Bu verilənlər toplusunda etiketlənmiş oxunmaların müxtəlif sayına baxmayaraq, biz bütün nümunələr üzrə 60-70% xəritələnmiş oxunuşların sabit bir hissəsini müşahidə etdik (Şəkil 2c) və zaman nöqtəsi ilə xəritələnmiş oxunmaların sayı (Spearman's) arasında əhəmiyyətli korrelyasiya müşahidə etmədik. rho: 0.105, səh-qiymət: 0,625). Beləliklə, DUNK xəritələri eksperimental olaraq yaradılan məlumatlarda da nukleotidlərin çevrilmə sürətindən asılı olmayaraq oxuyur.

Multi-mapper bərpası 3 'son ardıcıllıq analizi üçün əlçatan olan genlərin sayını artırır

Genomik aşağı mürəkkəblik bölgələri və təkrarlar oxu düzləşdiriciləri üçün böyük problemlər yaradır və məlumatların təhlilinin ardıcıllaşdırılmasında əsas səhv mənbələrindən biridir. Buna görə də, səhv xəritələşdirilmiş oxunuşlardan yaranan yanıltıcı siqnalları azaltmaq üçün çoxlu xəritələmə oxunuşları tez-tez atılır: Əksər transkriptlər genomun kifayət qədər uzun unikal bölgələrini əhatə edəcək qədər uzun olduğundan, bütün çox xəritəli oxunuşların ləğvinin ifadə analizinə ümumi təsiri dözümlüdür ( orta siçan (GRCm38) RefSeq transkript uzunluğu: 4195 bp). Yalnız ardıcıllıqla

Transkriptin 3′ ucunda 250 nukleotid, 3′ sonunda ardıcıllıq ötürmə qabiliyyətini artırır və dəyişən gen uzunluğunu nəzərə alan normallaşmaların qarşısını alır. Nəticədə, 3′ son ardıcıllığı adətən transkriptlərin kodlaşdırma ardıcıllığından daha az mürəkkəbliyə malik 3′ UTR bölgələrini əhatə edir [9] (Əlavə fayl 1: Şəkil S2a). Buna görə də, 3′ son ardıcıllığı çox xəritəçəkmə oxunuşlarının yüksək faizini (50 bp mESC nümunələrində 25%-ə qədər) yaradır. Bu oxunuşların istisna edilməsi böyük siqnal itkisi ilə nəticələnə bilər. Əsas pluripotentlik faktoru 4 oktyabr misaldır [10]: Oct4 mESC-lərdə yüksək şəkildə ifadə olunsa da, çox xəritəçəkmə oxunuşlarını ləğv edərkən mESC nümunələrində 3′ sonunda ardıcıllıqla xəritələnmiş oxunuşlar demək olar ki, göstərilməyib (Əlavə fayl 1: Şəkil S3a). Çox xəritəli oxunmaların yüksək hissəsi 340 bp uzunluğundakı alt ardıcıllıqla bağlıdır. 4 oktyabr 3′ UTR və intronik bölgə Rfwd2.

3′ son ardıcıllıqda oxunma sayına 3′ UTR-lərin aşağı mürəkkəbliyinin təsirini qiymətləndirmək üçün hər 3′ UTR üçün xəritələnmə qabiliyyəti ballarını [11] hesabladıq. Yüksək xəritə qabiliyyəti balı (0,0-dan 1,0-a qədər) a k3′ UTR-də -mer həmin k-merin unikallığını göstərir. Sonra, biz hər 3′ UTR üçün %-unikallığı hesabladıq, yəni onun ardıcıllığının faizi 1 xəritələşmə qabiliyyəti ilə. Sonra hər bir zibil üçün müvafiq 3′ intervalların oxunma saylarını (3 x 4SU 0 saat nümunələri, Cədvəl 3-ə baxın) RNT-Seq verilənlər bazasından müvafiq genin oxunma sayları ilə müqayisə etdik [4]. Şəkil 3a%-unikallıq artdıqca korrelyasiya artımını göstərir. Multi-mappers daxil edilərsə, korrelyasiya yalnız unikal xəritəçilərin sayılması ilə müqayisədə daha güclüdür. Beləliklə, yuxarıda təsvir olunduğu kimi çox xəritəçilərin bərpa strategiyası 3′ UTR kimi aşağı mürəkkəblik bölgələrində oxunuşları səmərəli və düzgün şəkildə bərpa edir. Xüsusilə, ümumi korrelyasiya unikal ardıcıllığın 10%-dən çoxu ilə bütün 3′ intervalları üçün ardıcıl olaraq 0,7-dən yuxarı idi.

Aşağı mürəkkəblik bölgələrində multimapper bərpa strategiyası: a mESC -4SU SLAMseq vs mESC RNT-seq nümunələrinin (hər biri 3 təkrar) çox xəritəçəkmə bərpa strategiyası ilə müqayisəsi. Müvafiq 3′ UTR-də unikal təzyiq faizi üçün kəsikləri artırmaq üçün y oxunda RNAseq tpm > 0 olan genlər üçün bütün nümunələrə qarşı bütün nümunələrin Spearman orta korrelyasiyası göstərilir. Səhv çubuqları qara rənglə göstərilir. b Multimapperləri bərpa edərkən və ya unikal xəritələmə oxunuşlarından istifadə edərkən, müvafiq olaraq 0, 2.4 və 7% və 50, 100 və 150 ​​bp oxu uzunluğu olan nukleotid çevrilmə dərəcələri üçün düzgün (sol panel) və ya yanlış (sağ panel) 3′ intervalına uyğunlaşdırılmış oxunmaların faizləri yalnız c Unikal və çox xəritəçəkmə oxu saylarının (log2) səpələnməsi

20.000 3′ interval > 0 unikal və çox xəritəçəkmə oxuma sayları olan genlər üçün 5% nisbi səhv kəsilməsi ilə rənglənir

Multi-mapper bərpa yanaşmasının performansını daha da qiymətləndirmək üçün biz simulyasiya edilmiş SLAMseq verilənlər bazasına müraciət etdik: Biz onların düzgün 3′ intervalına (simulyasiyadan məlum olduğu kimi) uyğunlaşdırılmış oxunmaların faizlərini və səhv 3-ə uyğunlaşdırılmış oxunmaların sayını kəmiyyətləşdirdik. ′ interval, yenə 0.0, 2.4 və 7.0% nukleotid-çevirmə sürətlərindən və 50, 100 və 150 ​​bp oxu uzunluqlarından istifadə etməklə (Cədvəl 2-ə baxın): Çox xəritəçinin bərpası yanaşması düzgün xəritələnmiş oxunuşların sayını 1 ilə 7% arasında artırır. , yalnız cüzi artımla < 0,03% yanlış xəritələnmiş oxunuşlar (Şəkil 3b).

Daha sonra, nukleotid-konversiyadan azad mESC nümunəsində eksperimental olaraq yaradılan 3′ son ardıcıllıq məlumatlarını (Cədvəl 3-ə baxın) təhlil etdik. Hər 3′ intervalı üçün biz çox xəritəçinin bərpası olan və olmayan oxunma saylarını müqayisə etdik (Şəkil 3c). Multimapperləri daxil edərkən, 19592 3′ intervalın 82%-i xəritələnmiş oxunmaların sayını 5%-dən az dəyişdi. Bununla belə, qalan 18% 3′ intervalının çoxu üçün çoxlu xəritəçilərin təyin edilməsi strategiyası ilə xəritələnmiş oxunmaların sayı xeyli artırıldı. Biz aşkar etdik ki, bu intervallar əhəmiyyətli dərəcədə aşağı əlaqəli 3′ UTR xəritələşmə qabiliyyətini göstərir və bu, bizim çoxlu xəritəçəkmə təyinat strategiyamızın xüsusi olaraq aşağı xəritələnmə qabiliyyəti olan intervalları hədəf aldığını təsdiqləyir (Əlavə fayl 1: Şəkil S2b,c).

Şəkil 3c, həmçinin multi-mappers daxil edildikdə oktyabrın 4-də oxunma saylarının əhəmiyyətli artımını göstərir (3 x 4SU nümunəsi yoxdur, unikal xəritəçi CPM 2.9 və orta multimapper CPM 1841.1, orta RNT seq TPM 1673.1, Əlavə fayl 1, Şəkil S3b) və oxunanların sayı bölgüsündə ən yüksək 0,2% bal toplayır. Simulyasiya təsdiqlədi ki, bunlar həqiqətən Oktyabrın 4-ündəki oxunuşlardan qaynaqlanır: çox xəritəçi təyin etmədən, simulyasiya edilmiş oxunuşların yalnız 3%-i düzgün şəkildə xəritələşdirilib. 4 oktyabr, multi-mapper bərpası tətbiq edilərkən bütün oxunuşlar düzgün şəkildə təsvir edilmişdir.

Tək nukleotid polimorfizmlərinin maskalanması nukleotidlərə çevrilmə kəmiyyətini yaxşılaşdırır

Orijinal SNP-lər nukleotid-konversiya kəmiyyətinə təsir göstərir, çünki T> C SNP-ni əhatə edən oxunuşlar nukleotid çevrilməsini ehtiva edən oxunuşlar kimi yanlış şərh olunur. Buna görə də, DUNK orijinal SNP-ləri müəyyən etmək və onların genomdakı müvafiq mövqelərini maskalamaq üçün xəritələnmiş oxunuşlarda SNP çağırır. Əgər bütün oxunmalar arasında alternativ baza daşıyan oxunuşların hissəsi müəyyən həddi (bundan sonra variant fraksiya adlanacaq) keçərsə, DUNK genomdakı hər mövqeni həqiqi SNP mövqeyi hesab edir.

Optimal həddi müəyyən etmək üçün biz nukleotidlərə çevrilməmiş üç mESC QuantSeq verilənlər bazasında 0-dan 1-ə qədər dəyişən variant fraksiyalarını 0.1 artımla müqayisə etdik (Cədvəl 3-ə baxın). Qiymətləndirmə üçün əsas həqiqət olaraq biz eyni hüceyrə xəttinin genom ardıcıllığı ilə yaradılan orijinal SNP məlumat dəstindən istifadə etdik. Biz tapdıq ki, 0 ilə 0.8 arasında olan variant fraksiyaları üçün DUNK-ın SNP çağırışı həqiqət dəstində (həssaslıq) mövcud olan SNP-lərin 93-97%-ni müəyyən edir (Şəkil 4a, -4SU). Qeyd edək ki, bu tədqiqatda istifadə olunan mESC-lər haploid mESC-lərdən [12] əldə edilmişdir. Buna görə də, SNP-lərin müvafiq genomik mövqedə oxunuşlar arasında tam nüfuz etməsi gözlənilir. 0,8-dən yüksək variant fraksiyaları üçün həssaslıq bütün nümunələr üçün ardıcıl olaraq 85%-dən aşağı düşür. Bunun əksinə olaraq, bütün nümunələr üçün həqiqət dəstində olmayan müəyyən edilmiş SNP-lərin sayı (yanlış müsbət nisbət) artan variant fraksiyaları üçün sürətlə azalır və əksər nümunələr üçün təxminən 0,8 səviyyəsinə düşməyə başlayır. Nukleotid çevrilməsinin SNP çağırışına təsirini qiymətləndirmək üçün biz təcrübəni yüksək sayda nukleotid çevrilmələri olan üç mESC nümunəsi ilə təkrarladıq (24 saat 4SU müalicəsi). Etiketlənməmiş və yüksək etiketlənmiş replikatlar arasında həssaslıqda təəccüblü fərq müşahidə etməsək də, aşağı variant fraksiyaları üçün yalan-müsbət nisbətlər daha böyük idi və bu, aşağı variant fraksiya həddindən istifadə edərkən nukleotid çevrilmələrinin SNP kimi yanlış şərh edilə biləcəyini göstərir. ROC əyrilərinə əsasən, həssaslıq və yalan müsbət nisbət arasında orta hesabla 94,2% həssaslıq və 16,8% orta yalan-müsbət nisbətlə yaxşı bir uzlaşma olaraq 0,8 variant fraksiyasını tapdıq.

Tək nükleotid polimorfizminin maskalanması: a 0.1 addımlarla 0-dan 1-ə qədər variant fraksiyaları üzrə üç etiketlənməmiş mESC replikasiyası (−4SU) və üç etiketli təkrar (+4SU) üçün ROC əyriləri. b 2.4 və 7% nukleotidlərə çevrilmə nisbətləri üçün sadə (qırmızı) və SNP-maskalı (mavi) məlumat dəstləri üçün simulyasiya edilmiş T & gt C ilə bərpa edilmiş T & gt C çevrilmələrinin Log10 nisbi səhvləri. c SNP-nin səbəb olduğu T > C çevrilmələri daxil olmaqla, T > C oxunma sayına görə sıralanan 3′ intervallı barkod qrafiki. Qara çubuqlar orijinal SNP-ləri ehtiva edən 3′ intervalı göstərir. d SNP maskalı T > C çevrilmələrinə məhəl qoymadan T > C oxunma sayına görə sıralanan 3′ intervallı ştrix-kod qrafiki

Nukleotid çevrilmələrinin miqdarını təyin etməzdən əvvəl SNP-lərin maskalanmasının təsirini nümayiş etdirmək üçün biz SLAMseq məlumatlarını təqlid etdik (Cədvəl 2): ​​Hər 3′ interval üçün biz simulyasiya edilmiş və aşkar edilmiş nukleotid çevrilmələrinin sayı arasındakı fərqi hesabladıq və onu simulyasiya edilmiş sayı ilə normallaşdırdıq. çevrilmə (nisbi səhvlər) – bir dəfə SNP maskası ilə və bir dəfə olmadan (şəkil 4b). SNP maskalanması tətbiq edilərkən nisbi xəta SNP maskası olmayan verilənlər bazası ilə müqayisədə əhəmiyyətli dərəcədə azaldı: 2,4% çevrilmə nisbəti ilə median nisbi səhv 53% -dən 0,07% -ə və 7% dönüşüm nisbəti üçün 17% -dən 0,002% -ə düşdü.

Real məlumatlarda SNP maskalanmasının təsirini araşdırmaq üçün müəyyən edilmiş nukleotid çevrilmələrinin sayını və orijinal T> C SNP-lərin sayını 3′ intervalla əlaqələndirdik. Bu məqsədlə, biz üç etiketli mESC nümunəsindən (24 saat 4SU etiketləmə) bütün 3′ intervalını oxunuşları ehtiva edən T > C sayına görə sıraladıq və həmin sıralama daxilində həqiqi T > C SNP ehtiva edən 3′ intervalların paylanmasını yoxladıq. (Şəkil 4c və d, bir təkrar göstərilmişdir). Hər üç təkrarlamada biz güclü zənginləşmə müşahidə etdik (səh-qiymətləri < 0,01, 0,02 və 0,06) SNP-lərin 3′ intervalında daha çox T > C oxunması ilə (Şəkil 4c, bir təkrar göstərilmişdir). T & gt C SNP-lərin T & gt C çevrilmələri ilə əlaqəli olmadığı güman edilir, biz onların nukleotid çevrilmələrindən düzgün ayrıldığı təqdirdə bütün 3′ intervalları üzrə bərabər paylanmasını gözləyirik. Həqiqətən də, SNP maskalanmasının tətbiqi SNP-nin zənginləşdirilməsini 3′ intervalla daha çox T & gt C ehtiva edən oxunuşlarda əhəmiyyətli deyil (səh-dəyərləri 0,56, 0,6 və 0,92) bütün təkrarlarda (şəkil 4d, bir təkrar göstərilmişdir).

SLAM-DUNK: SLAMseq verilənlər bazasında nukleotid çevrilmələrinin kəmiyyətinin müəyyən edilməsi

SLAMseq təcrübəsinin əsas oxunuşu 4SU ilə işarələnmiş transkriptlərin sayıdır, bundan sonra verilmiş nümunədə verilmiş gen üçün etiketli transkriptlər adlanır. Bununla belə, etiketlənmiş transkriptləri birbaşa müşahidə etmək olmaz, ancaq çevrilmiş nukleotidləri göstərən oxunuşların sayını hesablamaqla. Bu məqsədlə, SLAM-DUNK nümunədəki bütün 3′ intervallar üçün T> C oxuma saylarının dəqiq kəmiyyətlərini təmin edir. SLAM-DUNK-un T > C oxunuşlarını aşkar etmək qabiliyyətini təsdiq etmək üçün biz SLAM-DUNK-u simulyasiya edilmiş mESC verilənlər bazasına tətbiq etdik (ətraflı məlumat üçün Cədvəl 2-ə baxın) və düzgün müəyyən edilmiş T> C oxunmalarının faizini, yəni etiketli transkriptdən (həssaslıq) qaynaqlanan fraksiyanı kəmiyyətləşdirdik. ). Üstəlik, etiketlənməmiş transkriptlərdən (spesifiklik) qaynaqlanan oxunma faizini hesabladıq. Mükəmməl simulyasiya üçün, etiketlənmiş transkriptlərdən yaranan bütün oxunuşlarda T > C çevrilməsi var, SLAM-DUNK oxu uzunluğundan və çevrilmə sürətindən asılı olmayaraq > 95% həssaslıq və > 99% spesifiklik göstərdi (Əlavə fayl 1: Şəkil S4 ). Bununla belə, real verilənlər toplularında etiketli transkriptdən qaynaqlanan bütün oxunuşlarda T > C çevrilmələri yoxdur. Oxuma uzunluğunun və çevrilmə sürətinin SLAMseq-in etiketlənmiş transkriptlərin mövcudluğunu aşkar etmək qabiliyyətinə təsirini nümayiş etdirmək üçün biz daha real simulyasiya həyata keçirdik, burada oxumaq üçün T> C çevrilmələrinin sayı binomial paylanmadan sonra (0 T> C üçün icazə verilir) hər oxumaq üçün çevrilmə).

Gözlənildiyi kimi, spesifiklik bu dəyişiklikdən təsirlənmir (Şəkil 5a). Bununla belə, həssaslıq oxunma uzunluğundan və T > C çevrilmə sürətindən asılı olaraq kəskin şəkildə dəyişdi.150 bp oxumaq üçün 94% həssaslıq və 7% çevirmə nisbəti müşahidə etdiyimiz halda, oxunma uzunluğu 50 bp və 2,4% çevrilmə nisbəti ilə bu, 23% -ə enir. Bu tapıntılara əsaslanaraq, biz daha sonra müxtəlif ardıcıllıq dərinlikləri, oxunma uzunluqları və çevrilmə sürətləri üçün həmin gen üçün etiketlənmiş və etiketlənməmiş transkriptlərin (etiketli transkript hissəsi) hissəsini nəzərə alaraq 3′ intervalı üçün oxunan ən azı bir T> C-nin aşkarlanması ehtimalını hesabladıq ( bax Metodlar) (Şəkil 5b, Əlavə fayl 1: Şəkil S5). Əksinə, daha qısa oxu uzunluqları etiketli transkriptdən yaranan ən azı bir oxunuşun aşkarlanması üçün daha uzun oxunma uzunluqlarından üstündür, xüsusən də etiketli transkriptlərin aşağı fraksiyaları üçün. 0.1 fraksiyasında və 2.4% çevrilmə nisbətində mövcud olan etiketli transkriptdən oxunmanı aşkar etmək üçün 150 bp oxunuş üçün 26 X əhatə tələb olunduğu halda, 50 bp oxunuş üçün yalnız 22 X əhatə tələb olunur (Əlavə fayl 1: Cədvəl S1) . Bu onu göstərir ki, qısa oxunuşların daha çox olması, daha uzun oxunuşların T> C çevrilməsini müşahidə etmək ehtimalından daha çox, etiketli transkriptdən oxunmaların aşkarlanması ehtimalına daha çox töhfə verir. Dönüşüm dərəcəsinin 7%-ə qədər artırılması tələb olunan əhatə dairəsini azaldır

Etiketli transkriptlərin fraksiyaları üzrə 50%, yenə də artımdan ən çox qazanan 50 bp oxu uzunluqları. Ümumiyyətlə, 1.0 kimi daha yüksək etiketli transkript fraksiyaları üçün aşkarlama ehtimalı bütün oxunma uzunluqları üçün müvafiq olaraq 2.4 və 7% çevirmə dərəcələri üçün 2-3 X və 1 X əhatə dairəsinə yaxınlaşır (Əlavə fayl 1: Şəkil S5). Baxmayaraq ki, bu nəticələr ən yaxşı halda yaxınlaşma olsa da, etiketli transkriptləri aşkar etmək üçün T & gt C oxuma saylarına əsaslanan SLAMseq təcrübəsini tərtib edərkən nə qədər əhatə dairəsinin tələb olunduğuna dair təlimat rolunu oynaya bilər.

Nukleotid çevrilmələrinin miqdarı: a 50, 100 və 150 ​​bp oxunuş uzunluqları və 2,4 və 7% nukleotidlərə çevrilmə nisbətləri üçün oxunuşları ehtiva edən bərpa edilmiş T & gt C ilə müqayisədə simulyasiya edilmiş etiketli oxunuşlarda SLAM-DUNK-un həssaslığı və spesifikliyi. b Etiketli transkriptlərin müəyyən bir hissəsindən etiketlənmiş transkriptdən qaynaqlanan ən azı bir oxunuşun aşkarlanması ehtimalının istilik xəritəsi və 2,4% çevrilmə dərəcəsi və 50 bp oxunuş uzunluğu üçün əhatə dairəsi. Ağ rəng kodu 0,95 ehtimal sərhədini qeyd edir. c Oxuma əsaslı və SLAM-DUNK-un normallaşdırılmış T məzmununun nisbi səhvlərinin paylanması etiketli transkriptin bir hissəsi Hər biri 1000 simulyasiya edilmiş replika üçün müxtəlif T məzmunlu 18 gen üçün təxminlər. d SLAM-DUNK-un T məzmununun nisbi səhvlərinin paylanması normallaşdırıldı etiketli transkriptin bir hissəsi T> C çevrilmə nisbətləri 2,4 və 7% və ardıcıllıq dərinliyi 25 ilə 200x arasında olan 1000 gen üçün təxminlər

T > C oxunuş saylarından etiketlənmiş transkriptlərin sayının təxmin edilməsi eyni genləri müxtəlif şəraitlərdə müqayisə edən və diferensial gen ifadəsi kimi analizlər aparan təcrübələr üçün kifayət olsa da, müxtəlif genləri müqayisə edərkən ümumi transkriptlərin müxtəlif bolluğunu nəzərə almır. Bu problemi həll etmək üçün müəyyən bir gen üçün etiketlənmiş transkriptlərin sayı həmin gen üçün mövcud olan transkriptlərin ümumi sayı ilə normallaşdırılmalıdır. Bunu biz adlandıracağıq etiketli transkriptlərin bir hissəsi. Qiymətləndirmək üçün düz irəli yanaşma etiketli transkriptlərin bir hissəsi etiketli oxunmaların sayını müəyyən bir gen üçün ardıcıl oxunmaların ümumi sayı ilə müqayisə etməkdir (bax. Metodlar). Bununla belə, bu yanaşma 3′ intervalında Uridinlərin sayını nəzərə almır. U-zəngin transkriptdən və ya müvafiq genomik 3′ intervalının T-zəngin hissəsindən yaranan oxunuşların T> C çevrilməsinin daha yüksək ehtimalı var. Buna görə də, T & gt C oxunuş saylarına transkriptin əsas tərkibi və əhatə dairəsi təsir göstərir. Beləliklə, etiketli transkriptlərin bir hissəsi T-zəngin üçün həddindən artıq qiymətləndiriləcək və T-kasıb 3′ intervalları üçün aşağı qiymətləndiriləcək. Əsas kompozisiyanı normallaşdırmaq üçün SLAM-DUNK T-məzmunu tətbiq edir və əhatə dairəsini qiymətləndirmək üçün normallaşdırılmış yanaşma tətbiq edir. etiketli transkriptlərin fraksiyaları (Usullara baxın). Hər iki yanaşmanı qiymətləndirmək üçün 3′ intervalında, 3′ interval uzunluğunda və xəritələnmə qabiliyyətində dəyişən T məzmunlu 18 nümunə gen seçdik (tam siyahı üçün Əlavə fayl 1: Cədvəl S2), hər bir gen üçün simulyasiya edilmiş 1000 SLAMseq verilənlər dəsti (Cədvəl 2-ə baxın) və bərpa olunanları müqayisə etdi etiketli transkriptlərin bir hissəsi simulyasiya edilmiş həqiqətlə (şək. 5c). Orta hesabla oxuma sayına əsaslanan metod 15% orta nisbi səhv göstərdi. Bunun əksinə olaraq, SLAM-DUNK-ın T məzmununun normallaşdırılmış yanaşması yalnız orta nisbi səhv göstərdi.

2%. 18 genin təftişi oxunma sayına əsaslanan metodun qiymətləndirmələrində yüksək dəyişkənlik aşkar etdi. Hər iki üsul eyni dərəcədə yaxşı işləyir Tep1, digər 17 genin median xətası oxuma əsaslı metod üçün 6 ilə 39%, SLAM-DUNK üçün isə yalnız 1 ilə 4% arasında dəyişir. Oxuma sayına əsaslanan metoddan (Pearsonun r: 0.41) istifadə edərək nisbi səhv və T məzmununun güclü korrelyasiyasını və SLAM-DUNK-un T məzmununun normallaşdırılmış yanaşmasından istifadə edərkən çox zəif bir əlaqəni müşahidə etdik (Pearsonun r: - 0.04). Təhlilin 18-dən 1000-ə qədər genişləndirilməsi nəticəni təsdiqlədi. T > C oxuma əsaslı yanaşma üçün 3′ intervalların 23%-i 20%-dən böyük nisbi səhv göstərdi. SLAM-DUNK-un T-məzmununun normallaşdırılmış yanaşması üçün bu, cəmi 8% idi.

Nə qədər əminliklə qiymətləndirə biləcəyimiz üçün vacib amillər etiketli transkriptlərin bir hissəsi müəyyən bir genin T & gt C çevrilmə sürəti, oxunma uzunluğu və ardıcıllıq dərinliyidir. Verilmiş oxunma uzunluğu üçün nə qədər SLAMseq oxu əhatəsinin tələb olunduğunu qiymətləndirmək üçün nisbi xətanı hesabladıq. etiketli transkriptlərin bir hissəsi SLAM-DUNK-ın T məzmununun normallaşdırılmış yanaşma təxminindən istifadə edərək, 2,4 və 7% çevrilmə dərəcəsi, oxunma uzunluğu 50, 100 və 150 ​​bp və ardıcıllıq dərinliyi 25 ilə 200 (Şəkil 5d) olan verilənlər dəstləri üçün. Əvvəlcə T> C dönüşüm nisbəti 2,4% olan verilənlər bazasına baxdıq. 50 bp oxunuş uzunluğu ilə SLAM-DUNK az qiymətləndirildi etiketli transkriptlərin fraksiyaları təxminən 10%. Bu, tək 3′ intervalına təyin edilə bilməyən çox xəritəçəkmə oxunması ilə əlaqədardır. Oxuma uzunluğunu 100 və ya 150 bp-ə qədər artırmaq SLAM-DUNK-a genom üçün unikal olaraq daha çox oxunma təyin etməyə imkan verir. Beləliklə, bu məlumat dəstləri üçün orta nisbi səhv 3%-ə endirilir. Ardıcıllıq dərinliyi median nisbi səhvə heç bir təsir göstərmədi. Bununla belə, bu, təxminlərin fərqliliyinə təsir göstərir. Oxuma uzunluğu 100 bp və əhatə dairəsi 50X ilə 3′ intervallarının 18%-i > 20% nisbi səhv göstərir. Əhatə dairəsini 100X və ya 150X-ə qədər artırmaq bu rəqəmi müvafiq olaraq 6 və 0,8%-ə qədər azaldır.

T > C çevrilmə nisbətinin 7%-ə yüksəldilməsi ümumilikdə yaxşılaşmışdır etiketli transkriptlərin bir hissəsi hesablamalar nəzərəçarpacaq dərəcədədir. 100 bp oxunuş və 50X, 100X və 200X əhatə dairəsi üçün nisbi səhv > 20% olan 3′ intervallarının faizi müvafiq olaraq 3, 0,2 və 0%-ə endirilir. Oxuma uzunluğundan, əhatə dairəsindən və T> C çevrilmə sürətindən asılı olmayaraq, T> C oxunuşuna əsaslanır etiketli transkriptlərin bir hissəsi təxminlər SLAM-DUNK təxminlərindən daha pis çıxış etdi (bax. Əlavə fayl 1: Şəkil S6).

Hər ikisi etiketli transkriptlərin bir hissəsi təxminlər, eləcə də xam T> C oxunma sayları, xüsusilə T> C çevrilmə dərəcəsi aşağı olduqda, ardıcıllıq xətasından təsirlənir. Ardıcıllıq xətasının müvafiq kəmiyyət ölçülərinə təsirini azaltmaq üçün SLAM-DUNK isteğe bağlı olaraq konversiya zənglərində əsas keyfiyyətli filtr tətbiq edir. Şəkil 6c-də göstərildiyi kimi, bu strategiya səhv ardıcıllıq dövrlərindən gələn siqnalı əhəmiyyətli dərəcədə azaldır. Bundan əlavə, SLAM-DUNK kəmiyyətləri müəyyən etməyə imkan verir etiketli transkriptlərin bir hissəsi təxminlər, eləcə də xam T & gt C oxunma sayları > 1 nukleotid çevrilmələri daşıyan oxunuşlarla məhdudlaşdırılmalıdır. Muhar və b. [5] göstərdi ki, bu strategiyadan istifadə etməklə, 1 T> C çevrilməsi ilə oxunuşlardan gələn fon siqnalının töhfəsi, 2 T> C çevrilməsi ilə oxunuşlardan istifadə edildikdə demək olar ki, tamamilə aradan qaldırıldı. Alternativ olaraq, heç bir 4SU-nun fon siqnalı, Herzog et al tərəfindən yerinə yetirildiyi kimi ardıcıllıq xətasını həll etmək üçün çıxıla bilər. [4].

İnteqrasiya edilmiş keyfiyyətə nəzarət: a 6 təmsil mESC vaxt kursundan oxunmuş dəstlərin nukleotidlərə çevrilmə dərəcələri, onların müvafiq təqib müddətinə mütənasib olaraq T > C çevrilmələrinin azaldığını göstərir. b 6 mESC vaxt nöqtəsinin oxunmuş əsaslı PCA-dan ibarət T > C çevrilməsi (hər biri 3 təkrar). c Qeyri-T > C uyğunsuzluqlarının oxunmuş mövqelər üzrə paylanması aşağı T > C çevrilmə məzmunu (4SU yoxdur) və yüksək T > C dönüşümü (12 saat təqib) nümunəsi üçün səhv dərəcələrində (sarı ilə vurğulanmış) sıçrayışları göstərir. əsas keyfiyyətli filtrləmə tətbiq edildikdə aradan qaldırılır. d Güman edilən T > C çevrilmə məzmununa (zaman nöqtəsi) və 3′-ə doğru güclü baza çevrilmə meylini göstərən mESC vaxt kursu üçün 3′ UTR sonunda statik 250 bp-də 3′ son mövqelərdə nukleotid çevrilməsi paylanması. sonu (sarı ilə vurğulanmış) 3′ UTR-lərin son əsaslarında ümumiyyətlə azaldılmış T məzmunu ilə induksiya olunur

SLAMseq məlumat dəstlərinin keyfiyyətinə nəzarət və şərhi

SLAMseq nümunə şərhini asanlaşdırmaq üçün biz hər bir nümunə əsasında bir neçə QC modulunu SLAM-DUNK-a tətbiq etdik. Eksperimental kontekstdə nümunələrin təfsiri ehtiyacını həll etmək üçün biz SLAM-DUNK üçün MultiQC dəstəyi [13] təqdim edirik. SLAM-DUNK-un MultiQC modulu konversiya dərəcələrinin yoxlanılmasına, sistematik qərəzlərin və nümunələr üzrə ümumi statistikanın müəyyən edilməsinə imkan verir.

SLAM-DUNK-ın QA imkanlarını nümayiş etdirmək üçün biz onu nukleotid çevrilməsinin gözlənilən artması ilə 6 təmsilçi mESC zaman kursu məlumat dəstinə tətbiq etdik (Cədvəl 3-ə baxın). Birincisi, biz bütün zaman nöqtələrinin ümumi nukleotid çevrilmə dərəcələrini müqayisə etdik və sonrakı zaman nöqtələrində T & gt C nukleotid çevrilmələrinin gözlənilən azalmasını müşahidə etdik (Şəkil 6a, bir təkrar göstərilmişdir). Sonra, hər üç təkrardan istifadə edərək oxunuşları ehtiva edən T & gt C çevrilməsinə əsaslanan PCA həyata keçirdik. Gözlənildiyi kimi klasterin təkrarlandığını gördük. Bundan əlavə, 24 saat təqib və heç bir 4SU nümunəsi daha böyük bir çoxluq yaratmadı. Bunu izah etmək olar, çünki təqibin 24 saatında nümunələrin T> C-yə çevrilməməsi gözlənilir (Şəkil 6b).

İki təmsilçi nümunə üçün oxunan mövqelər boyunca uyğunsuzluq dərəcələrini yoxlayaraq, artan xəta dərəcələri ilə oxunma dövrlərini müəyyən edə bilərik (Şəkil 6c). Oxunma dövründən asılı olan nukleotid uyğunsuzluğu səs-küyünü azaltmaq üçün biz SLAM-DUNK-da T> C konversiya çağırışı üçün əsas keyfiyyətli kəsmə tətbiq etdik. Əsas keyfiyyət kəsimlərinin tətbiqi ümumi məlumat keyfiyyətini əhəmiyyətli dərəcədə artırdı, səhvlərə meylli oxu mövqelərini azaldıb və ya hətta aradan qaldırdı. Nəhayət, 3′ intervalları üzrə mövqe T> C çevrilmə meyllərini yoxlamaq üçün hər bir transkriptin son 250 nukleotidi üzrə orta T> C çevrilmə sürətlərini vizuallaşdırdıq. Statik 250 bp pəncərələrində T> C dönüşümlərindəki azalma istisna olmaqla, heç bir konversiya meyli aşkar etmədik

3′ ucunun yuxarı hissəsində 20 nukleotid var ki, bu da çox güman ki, mRNT 3′ son ardıcıllığının xarakterik xüsusiyyəti olan aşağı genomik T məzmunu ilə bağlıdır (bax. Əlavə fayl 1: Şəkil S7).


Bioinformatika İmtahanı №1

(3) Siz 1 milyard il əvvələ aid zülal ardıcıllığından istifadə edərək ümumi əcdad tapa bilərsiniz, halbuki DNT ardıcıllığı yalnız 600 milyon il əvvələ gedə bilər.

BLOSUM62 və PAM120: Düzləşdirmələrə keçin

Müəyyən bir nöqtədə iki homoloji zülal uyğunlaşmanın əhəmiyyətli olaraq tanınması üçün çox fərqlidir.

PAM matrisləri üçün Twilight Zone adlı bir şey var. sonra

Needleman və Wunsch-un məqsədi optimal uyğunluğu müəyyən etməkdir. Siz m+1 və ya n+1 ilə yeni matris yaradırsınız, çünki siz hər cütə bir xal təyin edəcəksiniz. Boşluq cəzaları (hər boşluq mövqeyi üçün -2) birinci sətir və sütun boyunca yerləşdirilir. Bu, bizə istənilən uzunluqda bir terminal boşluğu təqdim etməyə imkan verəcəkdir.

Əsas fərq ondan ibarətdir ki, xal mənfi ola bilməz. Əgər mənfi olacaqlarsa, sıfır bal almalıdırlar. Qiymətləndirmə: matç üçün +1 - uyğunsuzluğa görə -0,33 uzunluq 1 boşluğa görə -1,3 (boşluq nə qədər böyük olsa, cəza bir o qədər sərt olar).

BLASTN: DNT-ni DNT ilə müqayisə edir (nukleotidləri nukleotidlərlə)

BLASTX: bütün altı mümkün oxu çərçivəsini istifadə edərək DNT-ni altı protein ardıcıllığına çevirir və sonra bu zülalların hər birini zülal verilənlər bazası ilə müqayisə edir.

TBLASTN: verilənlər bazasındakı hər bir DNT ardıcıllığını altı potensial zülala çevirin və sonra protein sorğunuzu həmin tərcümə edilmiş zülalların hər biri ilə müqayisə edin.


Komanda xətti sintaksisi

Əgər BLASTZ ilə tanışsınızsa, LASTZ-ni BLASTZ-i işlətdiyiniz şəkildə, eyni seçimlər və daxiletmə faylları ilə işlədə bilərsiniz. Bu BLASTZ uyğunluğuna əlavə olaraq, LASTZ başqa seçimlər təqdim edir.

LASTZ komanda xəttinin ümumi formatı belədir

Bucaq mötərizələri <> dəyərlərinizlə əvəz edilməli olan meta-sintaktik dəyişənləri, kvadrat olanlar [] isə isteğe bağlı elementləri göstərir. Komanda sətirində boşluqları ayırır, boşluq ehtiva etməli olan sahə (məsələn, fayl adı daxilində) qoşa dırnaqlar içərisində olmalıdır "" . Elementlər istənilən ardıcıllıqla görünə bilər, yeganə məhdudiyyət odur ki, əgər varsa, <query> <target> -dən sonra görünməlidir. Müəyyən bir seçim üçün başqa cür göstərilmədiyi halda, çıxış ümumiyyətlə stdout-a yazılır.

<target> və <query> adətən FASTA, Nib və ya 2Bit formatında düzüləcək ardıcıllıqları ehtiva edən faylların adlarıdır. Bununla belə, onlar dolayı yolla ardıcıllığa istinad edən HSX indeks faylları ola bilər və həmçinin fayldan alt ardıcıllığın seçilməsi kimi ilkin emal hərəkətlərini təyin edə bilərlər (ətraflı məlumat üçün Ardıcıllıq Müəyyənedicilərinə baxın). ‑‑self kimi müəyyən seçimlərlə <query> tələb olunmur, əks halda əgər müəyyən edilməmiş qalırsa, sorğu ardıcıllığı stdin-dən oxunur (baxmayaraq ki, bu, 2Bit kimi təsadüfi giriş formatları ilə işləmir). Xüsusi hal kimi, ‑‑targetcapsule seçimi istifadə edildikdə <target> buraxılır, çünki hədəf ardıcıllığı kapsul faylına daxil edilmişdir.

Seçimlər üçün ümumi format ‑‑<keyword> və ya ‑‑<keyword>=<value> , lakin BLASTZ uyğunluğu üçün bəzi seçimlərin alternativ sintaksisi də var <letter>=<number> . (Aşağıdakı cədvəllərdən seçimləri köçürərkən diqqətli olun, çünki buradakı bəzi tirelər müəyyən veb brauzerlərdə yöndəmsiz sətirlərin sarılmasının qarşısını almaq üçün xüsusi simvollardır. Əgər probleminiz varsa, əmr satırınızda yapışdırılmış tireləri adi yazılmış olanlarla əvəz edin.)

LASTZ-nin mürəkkəb proqram olduğunu və onun seçimlərinin hamısının müstəqil olmadığını, yəni bəzi seçimlərin bəzi digərləri ilə birlikdə etibarlı olmadığını anlayın. Mümkün olan hər bir münaqişəni burada sadalamağa cəhd etmək çətin və çətin olardı, əvəzində biz əsas olanlardan bəzilərini qeyd edək. Müəyyən bir kombinasiyadan əmin deyilsinizsə, davam edin və sınayın və buna icazə verilmədiyini LASTZ sizə xəbər verəcəkdir.

Hər hansı bir arqument olmadan lastz əmrinin icrası ən çox istifadə edilən seçimlərlə kömək mesajı çap edir, icra edərkən bütün variantları siyahıya alır.

Hara baxmaq

‑‑querydepth=keep:<n> bu cür sorğular/tellər üçün bəzi düzülmələri saxlamaq olarsa istifadə edilə bilər.

<n> real rəqəmdir və əhatə dairəsinin dərinliyinə uyğundur. Məsələn, 5.0 dəyəri sorğunun/strandın sorğudakı hər bir baza üçün orta hesabla beş uyğunlaşdırmaya malik olması ilə nəticələnəcək. Numerator uyğunluqların və ya əvəzetmələrin sayıdır (lakin boşluqlar deyil), məxrəc sorğu ardıcıllığının uzunluğudur.

Bu seçimin məqsədi vaxta qənaət etməkdir. Təkrarlanan məzmunla işləməyin digər üsullarının uğursuz olduğu yüksək təkrar məzmunlu sorğuların işlənməsini avtomatik dayandırmaq üçün faydalıdır.

Xal

Bunlar, bir neçə mərhələdə istifadə olunan uyğunlaşmanın qiymətləndirilməsi üçün əsas parametrlərdir.

Nəzərə alın ki, ‑‑match-in müəyyən edilməsi, onların müvafiq bölmələrində təsvir olunduğu kimi, bəzi digər seçimlər üçün defoltları dəyişir (məsələn, boşluqlar üçün hesablama cəzaları və müxtəlif genişləndirmə hədləri). Adi defoltlar BLASTZ ilə uyğunluq üçün seçilir, lakin BLASTZ ‑‑match-i dəstəkləmədiyinə görə, LASTZ belə nəticəyə gəlir ki, siz bu qaçış üçün BLASTZ uyğunluğunu gözləmirsiniz, ona görə də təkmilləşdirilmiş defoltlardan istifadə etmək pulsuzdur.

<penalti> müəyyən edilə bilər ki, bu da N ilə bağlı istənilən uyğun olmayan əvəzetmə üçün tətbiq olunacaq. Əgər <reward> də göstərilibsə, o, N və N uyğunluğuna şamil edilir (əks halda, bu matçlar sıfır kimi hesablanır). Qeyd edək ki, <penalty> bal matrisində inkar edilir, <reward> isə yox.

Daha ətraflı müzakirə üçün Qeyri-ACGT Simvollarına baxın. Bu seçim kvant DNT ilə keçərli deyil.

<penalty> müəyyən edilə bilər ki, bu da qeyri-müəyyən nukleotidin iştirak etdiyi hər hansı uyğun olmayan əvəzetmə üçün tətbiq olunacaq. Əgər <reward> də göstərilibsə, o, qeyri-müəyyən nukleotidlərin iştirak etdiyi uyğunluğa şamil edilir (əks halda, bu uyğunluqlar sıfır kimi hesablanır). Qeyd edək ki, <penalty> bal matrisində inkar edilir, <reward> isə yox.

Daha ətraflı müzakirə üçün Qeyri-ACGT Simvollarına baxın. Bu seçim kvant DNT ilə keçərli deyil.

Qeyd edək ki, bu olur yox o deməkdir ki, LASTZ hər bir simvolla əlaqəli olan spesifik qeyri-müəyyənliyi nəzərə alır (məsələn, R A və ya G ilə uyğundur, lakin C və ya T ilə deyil). Əvəzində onların hamısı N kimi xallanır.

Defolt boşluq cəzaları aşağıdakı kimi müəyyən edilir. Əgər ‑‑match göstərilibsə, açıq cəza uyğunsuzluq cəzasının 3,25 misli, uzadılması cəzası isə uyğunsuzluq cəzasının 0,24375 mislidir. (Bunlar BLASTZ&rsquos defoltları ilə eyni nisbətlərdir.) Hər iki cəza ən yaxın tam ədədə yuvarlaqlaşdırılır. Əks halda, boşluq cəzaları açıq üçün 400, uzadılması üçün 30-dur.

İndeksləmə

Bunu faiz olaraq təyin etmək, qaçışlar arasında ardıcıllığı saxlamağı asanlaşdırır. Həqiqi say ardıcıllığın uzunluğundan və tərkibindən, həmçinin addım ofsetindən və toxum modelindən asılıdır. Məsələn, Şəkil 4 ‑‑seed=match13 , ‑‑step=15 və ‑‑maxwordcount=90% üçün hg18-də insan xromosomları arasında dəyişikliyi göstərir. Boz çubuqlar saxlanılan əsas söz mövqelərinin faizini göstərir (qırmızı xətt ideal 90%-i göstərir). Mavi rəqəmlər çox fərqli olan ekvivalent sayını göstərir.

Xüsusilə, hər bir hədəf yerinin düzülmə sayının məcmu hesablanması saxlanılır. Hər sorğu ardıcıllığı və zəncir işləndikdən sonra ən azı <count> uyğunlaşdırma bloklarında çıxarılan hər hansı yerlər maskalanır, beləliklə, onlar əkmə mərhələsindən xaric ediləcəklər. sonrakı sorğu ardıcıllığı. Bir ardıcıllıq zəncirinin işlənməsi zamanı aşkar edilən təkrarlama yalnız sonrakı ardıcıllıq telləri üçün maskalandığından, bu seçim sorğu faylındakı birinci ardıcıllığın birinci zolağına heç bir təsir göstərmir.

Bu seçim <count> -dən asılı olaraq hər bir hədəf yeri üçün bir, iki və ya dörd bayt yaddaş tələb edir. Əgər <count> 254 və ya daha azdırsa, 65,534 və ya daha azdırsa, bir bayt istifadə olunur, iki bayt istifadə olunur.

Toxum əkmək

HSP-lərin tapılması (boşluqsuz genişlənmə)

‑‑uyğunluq hesabından istifadə edilərsə, defolt x-düşmə xitam həddi uyğunsuzluq cəzasının kvadrat kökünün 10 qatıdır və ən yaxın tam ədədə yuvarlaqlaşdırılır. Əks halda defolt A-ya qarşı-A əvəzetmə balının 10 qatıdır.

‑‑uyğunluq hesabından istifadə edilərsə, defolt HSP xal həddi matç mükafatının 30 qatıdır (30-bp dəqiq uyğunluğun hesabına ekvivalentdir). Əks halda standart 3000-dir.

Zəncirləmə

SeçimBLASTZ ekvivalentiMəna
--zəncir C=1 və ya C=2 Heç bir cəza olmadan HSP-lərin zəncirlənməsini həyata keçirin.
--zəncir=<diag>,<anti> C=1 və ya C=2
G=<diag>
R=<anti>
DP matrisində diaqonal və anti-diaqonal üçün verilmiş cəzalarla zəncirləmə aparın. Bunlar hesabdan müsbət dəyərlərin çıxarılmasının dolayısı ilə qəbul edildiyi kimi göstərilir.
--nochain C=0 və ya C=3 Zəncirləmə mərhələsini keçin.
Defoltlar: Varsayılan olaraq, zəncirləmə mərhələsi atlanır.

Boşluqlu Uzatma

‑‑uyğunluq hesabından istifadə edilərsə, defolt y-düşmə həddi x-düşmə həddinin iki qatıdır (yaxud x-düşmə genişlənməsi yerinə yetirilməsəydi, defolt x-düşmə həddi iki dəfə olar), əks halda bu, 300-bp boşluq hesabı.

Boşluqlu xal həddi üçün standart HSP həddi ilə eyni dəyərdən istifadə etməkdir (bu, ‑‑hspthresh vasitəsilə tənzimlənə bilər). Əgər HSP həddi adaptiv idisə, bu defolt üçün saxlanılan ən aşağı xallı HSP istifadə olunur. Əgər x-drop uzadılması həyata keçirilməyibsə, istifadə edilən dəyər standart HSP həddi nə olursa olsun.

Arxa uç filtrləmə

İnterpolyasiya

Çıxış

Lav formatlarından hər hansı biri üçün, əgər <output_file> buraxılıbsa, siyahıyaalma çıxışa xüsusi misra kimi daxil edilir. Bütün digər formatlar üçün <output_file> məcburidir.

Ev təsərrüfatı

Yasra üçün qısa yollar

Yasra Xəritəçəkmə assemblerini dəstəkləmək üçün bir neçə qısayol variantı var. Bunlar yığılmış istinad ardıcıllığını (hədəf kimi) ov tüfəngi oxunuşları dəsti ilə (sorğu kimi) uyğunlaşdırmaq üçün yaxşı işləyən seçim parametrlərinin konservləşdirilmiş dəstlərini təmin edir. Onlar ardıcıllıqlar arasında gözlənilən eynilik səviyyəsinə əsasən seçilirlər. Məsələn, 90% şəxsiyyət gözlədiyimiz zaman ‑‑yasra90 istifadə edilməlidir. ‑‑yasraXXshort variantları oxunuşlar çox qısa olduqda (50 bp-dən az) uyğundur.

Seçim Ekvivalent
--yasra98 T=2 Z=20 ‑‑uyğun=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikasiya:98 ‑‑birmənalı=n ‑’ 8209noytrim
--yasra95 T=2 Z=20 ‑‑uyğun=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikasiya:95 ‑‑birmənalı=n ‑’ 8209noytrim
--yasra90 T=2 Z=20 ‑‑uyğun=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikasiya:90 ‑‑birmənalı=n ‑’ 8209noytrim
--yasra85 T=2 ‑‑match=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikasiya:85 ‑‑birmənalı=n ‑‑noytrim
--yasra75 T=2 ‑‑match=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filtr=identifikasiya:75 ‑‑birmənalı=n ‑‑noytrim
--yasra95short T=2 ‑‑match=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filtr=identifikasiya:95 ‑‑birmənalı=n ‑‑noytrim
--yasra85short T=2 ‑‑match=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filter=identity:85 ‑‑birmənalı=n ‑‑noytrim

Bəzən LASTZ-in daha yeni buraxılışları Yasra qısayol seçimlərini dəyişir. Bu, təkmilləşdirmə kimi edilir, ona görə də əksər istifadəçilər yuxarıda göstərilən qısa yollardan istifadə etmək istəyəcəklər. Bununla belə, əvvəlki nəticələri təkrarlamaq istəyən istifadəçilər üçün geriyə uyğunluğu dəstəkləmək üçün qısayolların bütün əvvəlki versiyaları daxil edilmişdir. Sintaksis ‑‑<shortcut>:<version> , burada <version> qısayolu ehtiva edən LASTZ versiya nömrəsidir.

Seçim LASTZ versiyası Ekvivalent
--yasra98:<versiya> 1.02.45 və ya daha əvvəl T=2 Z=20 ‑‑uyğunluq=1,6 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=şəxsiyyət:98
--yasra95:<version> 1.02.45 və ya daha əvvəl T=2 Z=20 ‑‑uyğunluq=1,5 O=8 E=1 Y=20 K=22 L=30 ‑‑filtr=şəxsiyyət:95
--yasra90:<version> 1.02.45 və ya daha əvvəl T=2 Z=20 ‑‑uyğunluq=1,5 O=6 E=1 Y=20 K=22 L=30 ‑‑filtr=şəxsiyyət:90
--yasra85:<version> 1.02.45 və ya daha əvvəl T=2 ‑‑uyğunluq=1,2O=4 E=1 Y=20 K=22 L=30 ‑‑filtr=şəxsiyyət:85
--yasra75:<versiya> 1.02.45 və ya daha əvvəl T=2 ‑‑uyğunluq=1,1O=3 E=1 Y=20 K=22 L=30 ‑‑filtr=şəxsiyyət:75
--yasra95short:<version> 1.02.45 və ya daha əvvəl T=2 ‑‑uyğunluq=1,7O=6 E=1 Y=14 K=10 L=14 ‑‑filtr=identifikasiya:95
--yasra85short:<version> 1.02.45 və ya daha əvvəl T=2 ‑‑uyğunluq=1,3O=4 E=1 Y=14 K=11 L=14 ‑‑filtr=identifikasiya:85

Sequence Specifiers

Hədəf və ya sorğu ardıcıllığı spesifikatoru adətən düzləşdirmədə istifadə olunacaq faylı göstərir, lakin müxtəlif əvvəlcədən emal hərəkətləri də müəyyən edilə bilər. Bunlar ardıcıllıqlar fayldan oxunduqca yerinə yetirilir və bunlara müəyyən ardıcıllığın və/və ya alt diapazonun seçilməsi, maskalanması, ardıcıllıq adlarının tənzimlənməsi və s. daxil ola bilər.

Ardıcıllıq təyinedicisinin formatı belədir

<file_name> sahəsi tələb olunur, hərəkətlər siyahısı isteğe bağlıdır. Qeyd edək ki, <ksiyalar> hərfi kvadrat mötərizələr içərisindədir (yalnız onların isteğe bağlı olduğunu göstərən meta olanlara əlavə olaraq) və vergüllə ayrılmış siyahıdan (boşluq olmadan) ibarətdir, məs. [fəaliyyət1, fəaliyyət2. ]. * işarəsi göstərir ki, bir neçə fəaliyyət siyahısı əlavə oluna bilər, onlara eyni siyahıda olduğu kimi yanaşılır.

Alternativ olaraq, hərəkətlər ‑‑action:target=<action> və ‑‑action:query=<action> əmrləri ilə təyin oluna bilər. Bu, kvadrat mötərizələrdən istifadə etmədən hərəkətləri təyin etməyə imkan verir (bəzi əmr qabıqlarında kvadrat mötərizələr problemlidir).

Nəzərə alın ki, hərəkətlər fayldakı hər ardıcıllığa aiddir. Məsələn, məsələn, [100..] alt diapazonunu təyin etsəniz, hər ardıcıllıqla ilk 99 bp-ni atlayacaqsınız.

Aşağıdakı hərəkətlər dəstəklənir:

BLASTZ uyğunluğu üçün alternativ sintaksis <start>,<end> də tanınır. Bu halda həm <start>, həm də <end> tələb olunur.

<start>..<end>+<zoom>% sintaksisindən istifadə etməklə “kiçiltmə faktoru” də daxil edilə bilər. Göstərilən interval hər ucda <zoom> faiz genişlənir. Bu, məsələn, bir genin yerini bildiyiniz zaman və uyğunlaşmaya cinah bölgələrini daxil etmək istədiyiniz zaman faydalıdır.

Bunun üçün başqa bir faydalı sintaksis <start>#<length>-dir ki, o, verilmiş mövqedə məlum uzunluq intervalını təyin etmək üçün əlverişlidir, o, <start>..<start+length&minus1> ilə bərabərdir. Eynilə, <center>^<length> verilmiş mövqedə mərkəzləşdirilmiş məlum uzunluq intervalını təyin edir. İstənilən halda M və ya K vahidlərindən istifadə etməklə böyük uzunluqlar təyin edilə bilər, məs. 10,2 milyon.

Əlavə olaraq, əgər alt diapazonda <start> <end> -dən böyükdürsə, çıxarılan bölgənin əks tamamlayıcısı istifadə olunur. Bununla belə, bu, strand hesabatı, ardıcıllığın maskalanması və seqment faylları kimi digər xüsusiyyətlərlə qeyri-aşkar qarşılıqlı əlaqəyə səbəb ola bilər, ona görə də ondan ehtiyatla istifadə edilməlidir. Adətən əvəzinə ‑‑strand variantlarından istifadə etmək daha sadədir.

Xarakter istənilən çap edilə bilən ASCII simvolu ola bilər. Bununla belə, istifadə olunan daxiletmə formatında vacib olan simvollar (məsələn, fasta-da &ldquo>&rdquo) bu məqsəd üçün istifadə edilməməlidir. Üstəlik, bir çox giriş formatları nukleotidlərdən başqa simvolları təmsil etmək üçün məhdud imkanlara malikdir. Göstərilən <character> &mdash ilə bağlı heç bir səhv yoxlaması yoxdur, əgər bu simvol girişdə ümumiyyətlə baş vermirsə, heç bir ayırma aparılmır.

Yuxarıda göstərilən ardıcıllıq təyinedici sintaksisinə əlavə olaraq, LASTZ daha mürəkkəb sintaksisi dəstəkləyir. Bu, BLASTZ və LASTZ-in ilkin versiyaları ilə uyğunluğu qorumaq üçündür. Burada təsvir edilən bütün funksiyalar yuxarıdakı daha yeni sintaksisdən istifadə etməklə həyata keçirilə bilər.

Ardıcıllıq təyinedicisinin tam formatı belədir

Daha sadə sintaksisdə olduğu kimi, <file_name> sahəsi tələb olunur, bütün digər sahələr isteğe bağlıdır. <file_name> və <actions> sahələri daha sadə sintaksisdəki kimi eyni məna daşıyır.

<nickname>:: ləqəb=<name> fəaliyyətindəki <name> sahəsinə bərabərdir.

/<select_name> yalnız 2Bit fayl formatı üçün və yalnız fayl adı ".2bit" ilə bitdikdə etibarlıdır. O, bütün ardıcıllıqları deyil, istifadə ediləcək fayldan tək ardıcıllığı təyin edir. Bu, subset=<names_file> əməliyyatına bənzəyir, istisna olmaqla, burada adlar faylı əvəzinə tək ardıcıllıq adı verilir. Qeyd edək ki, ad fayldan çıxarılan manipulyasiya ardıcıllığı adına uyğun olmalıdır.

<<mask_file>>xmask=<mask_file> əməliyyatı ilə eynidir.

A - (mənfi işarəsi) <subrange> hərəkətində son nöqtələrin dəyişdirilməsinə bərabərdir, bu, ardıcıllığın özü əvəzinə ardıcıllığın əks tamamlayıcısının istifadə edilməsinə səbəb olur. Yenə də bu ehtiyatla istifadə edilməlidir, çünki bu, digər xüsusiyyətlərlə qaranlıq qarşılıqlı əlaqəyə səbəb ola bilər. BLASTZ-də yalnız mənfi ipi axtarmaq üçün lazım idi, lakin LASTZ bunun üçün ‑‑strand seçimini təmin edir.


Məlumatın mövcudluğu haqqında bəyanat

Chorus2 proqramı https://github.com/zhangtaolab/Chorus2 ünvanında saxlanılır. Proqram təlimi videoları həm YouTube, həm də bilibili-yə yüklənib (https://chorus2.readthedocs.io/en/latest/videos.html). İstifadəçilərə proqram təminatından addım-addım istifadə etməyə istiqamət vermək üçün ən yaxşı təcrübə təlimatı əlavə fayl (Fayl S1) kimi təqdim olunur. Ərəbidopsis istinad genomu TAIR10 www.arabidopsis.org saytından endirilib (Initiative, 2000). Düyü istinad genomu TIGR7 http://rice.plantbiology.msu.edu/ (Kawahara) saytından endirilib. və başqaları, 2013). Qarğıdalı istinad genomu B73 AGPv3 və AGPv4 MaizeGDB (www.maizegdb.org) (Jiao) saytından endirilib. və başqaları, 2017). Kartof istinad genomu DM v404 PGSC verilənlər bazasından (http://solanaceae.plantbiology.msu.edu/) endirilib (Xu). və başqaları, 2011). Pomidor istinad genomu SL3.0 https://solgenomics.net/ (Sato və başqaları, 2012). Arpa istinad genomu IBSC_v2 http://plants.ensembl.org/Hordeum_vulgare/ (Mascher) saytından endirilib. və başqaları, 2017). Soya istinad genomu Gmax_ZH13_v2.0 https://bigd.big.ac.cn/gwh/Assembly/652/show (Shen) saytından endirilib. və başqaları, 2019). İnsan genomu hg38, siçan genomu mm10 və zebra balığı genomu danRer11 UCSC Genome Browser Gateway saytından (https://hgdownload.soe.ucsc.edu/downloads.html) endirilib (Qonzales). və başqaları, 2021). Genomik ov tüfənginin ardıcıllığı A. taliana SRR5658649, Genomik ov tüfəngi ardıcıllığı ilə NCBI Sequence Read Arxivindən (SRA) əldə edilmişdir. O. sativa SRR1630928, Genomik ov tüfənginin ardıcıllığı ilə NCBI SRA-dan əldə edilmişdir. Z. mays SRR2960981 qoşulması ilə NCBI SRA-dan alındı. Genomik ov tüfənginin ardıcıllığı Solanum tuberosum, Solanum etuberosumSolanum jamesii müvafiq olaraq SRR5349606, SRR5349573 və SRR5349574 qoşulmaları ilə NCBI SRA-dan əldə edilmişdir (Hardigan və başqaları, 2017). Genomik ov tüfənginin ardıcıllığı Hordeum vulgare ERR3183755 (Monat və başqaları, 2019). Genomik ov tüfənginin ardıcıllığı Glisin maks CRR031689 (Shen) qoşulması ilə Pekin Genomiya İnstitutunda (BIG) Genom Arxivindən əldə edilib və başqaları, 2019). Genomik ov tüfənginin ardıcıllığı Homo sapiens SRR1298980 (Altshuler) qoşulması ilə NCBI SRA-dan alındı və başqaları, 2015 Sudmant və başqaları, 2015). Genomik ov tüfənginin ardıcıllığı Musculus SRR067844 (Geniş İnstitutu) qoşulması ilə NCBI SRA-dan alındı. Genomik ov tüfənginin ardıcıllığı Danio rerio SRR10751463 (Freire) qoşulması ilə NCBI SRA-dan alındı və başqaları, 2020). Bütün dizayn edilmiş oliqo-FISH zond məlumat dəstləri http://zhangtaolab.org/download/oligo_datasets və ya http://jianglab.plantbiology.msu.edu/oligo_datasets.html saytında mövcuddur.

Şəkil S1 Chorus2-nin iş axını və qrafik interfeysi.

Şəkil S2 ChorusNoRef boru kəmərinin axın diaqramı.

Şəkil S3 Illumina ov tüfəngi ardıcıllığı kitabxanasının k-mer spektri SRR2960981.

Cədvəl S1 Chorus tərəfindən hazırlanmış təkrarlarla əlaqəli oliqoların xülasəsi.

Cədvəl S2 Chorus2 və OligoMiner tərəfindən hazırlanmış oliqos.

Cədvəl S3 Chorus2 və OligoMiner tərəfindən hazırlanmış oliqoslar RepeatExplorer2 tərəfindən müəyyən edilmiş ən yaxşı 200 təkrarlanan klasterə daxil edilmişdir.

Cədvəl S4 Chorus2 və OligoMiner tərəfindən vaxt və yaddaş istehlakı.

Cədvəl S5 Doqquz növ üçün nəzərdə tutulmuş oliqo-FISH zondları haqqında məlumat.

Diqqət edin: Nəşriyyatçı müəlliflər tərəfindən verilən hər hansı dəstəkləyici məlumatın məzmununa və ya funksionallığına görə məsuliyyət daşımır. İstənilən sorğu (çatışmayan məzmundan başqa) məqalə üçün müvafiq müəllifə ünvanlanmalıdır.


Giriş seçimləri

Tək məqalə alın

Tam məqalə PDF-ə dərhal giriş.

Vergi hesablanması yoxlama zamanı yekunlaşacaq.

Jurnalına abunə olun

2019-cu ildən etibarən bütün məsələlərə dərhal onlayn giriş. Abunəlik hər il avtomatik yenilənəcək.

Vergi hesablanması yoxlama zamanı yekunlaşacaq.


Qabaqcıl Mövzular

Interval koordinatları

Bioloji tədqiqat cəmiyyəti DNT zəncirindəki intervalları təsvir edən bir neçə rəqabətli standart yaratmışdır. Fərqli proqramlar çox vaxt fərqli standartlardan istifadə edir. LASTZ bir neçə giriş və çıxış formatını dəstəklədiyi üçün onun intervalı təsvir etmək üçün birdən çox üsuldan istifadə etməsi qaçınılmazdır. Biz burada müxtəlif konvensiyaları təsvir edirik.

Bu müzakirə üçün fərz edək ki, 50-nükleotidlik DNT zəncirimiz aşağıdakı kimidir:

Qeyd edək ki, bu DNT olduğundan onun 5' və 3' ucları var, biz bütün giriş ardıcıllığının solda 5' ucu olan əsasları siyahıya salmaq üçün standart təcrübəyə əməl etdiyini güman edirik. Burada biz ardıcıllığı vurğuladıq ATTACCTA ona görə də onun tutduğu intervalı necə təsvir edəcəyimizi müzakirə edə bilərik. Bunu etmək üçün çox istifadə edilən iki üsul var. Hər ikisi 5'-dən 3'-ə qədər sayılır (soldan sağa). Bir yol, , birdən saymağa başlayır. Digər yol, , sıfırdan saymağa başlayır. Beləliklə, mənşə-birdə ATTACCTA 11-ci mövqedən başlayır, mənşə-sıfırda isə 10-cu mövqedən başlayır.

Bitmə mövqeyini təsvir etmək üçün çox istifadə olunan iki üsul da var. Bir yol, sonuncu nukleotidin mövqeyinin verildiyidir. Digəri isə son nukleotiddən sonrakı mövqenin verildiyi . Bunlar mənşəyə dair konvensiyalardan nəzəri cəhətdən müstəqildirlər, lakin praktikada birləşmələrdən yalnız ikisi ümumi istifadə olunur: və . Birincidə ATTACCTA-nın (11,18), ikincisində isə (10,18) intervalı tutduğu deyilir. Diqqət yetirin ki, bu iki paradiqma arasında yalnız birinci nömrə dəyişir, ikinci nömrə eyni qalır.

Nəzərə alınmalı başqa bir amil DNT-nin adətən ikiqat zəncirli olmasıdır ki, bu da belə görünür:

Bəzi hallarda tamamlayıcı zəncir boyunca intervala istinad etmək məntiqlidir. Məsələn, yuxarıdakı ardıcıllıq sorğu idisə və hədəf TAGGTAAT-dan ibarətdirsə, bu ikisinin düzülməsinin sorğu mövqeyi necə təsvir edilməlidir? Bir yol hələ də irəli zəncir boyunca olan intervala istinad etmək olardı (bunu biz və ya zəncir də adlandırırıq) və sadəcə olaraq bunun, düzülən intervalın əks tamamlayıcısı olduğunu göstərin. Biz buna deyirik. Başqa bir yol, tamamlayıcı zəncirinin digər ucundan, 5' ucundan saymaqdır (biz buna , və ya zəncir də deyirik). Biz bunu adlandırırıq və aydınlıq üçün "onun 5' ucundan" əlavə edə bilərik. Bu misalda mənşəli-bir, qapalı hesablamadan istifadə etsəydik, deyərdik ki, TAGGTAAT tərs tel boyunca (33,40) baş verir. Başqa cür qeyd edilmədiyi halda (məsələn, R Dotplot çıxış formatı üçün), irəli və ya tərs zəncir boyunca sayarkən LASTZ zəruri hallarda intervalın son nöqtələrini dəyişdirir, buna görə başlanğıc adlanan mövqe ədədi olaraq &le end adlanan mövqedir. Bu ümumi bir konvensiyadır, lakin onları dəyişdirilməyən başqa proqramlar da var.

Qeyd edək ki, mövqeləri hesablayarkən ardıcıllıqdakı bütün simvollar, o cümlədən N s və ya X s və hətta etibarsız simvollar sayılır. Bu, digər proqramların birbaşa orijinal ardıcıllıqlara indeksləşdirmək üçün bildirilən mövqelərdən istifadə edə bilməsi üçün vacibdir.

ACGT olmayan personajlar

A , C , G və T-dən başqa simvolların DNT-ni təmsil etməsi lazım olan ardıcıllıqla idarə olunması problemlidir. Adi (kvant olmayan) DNT ardıcıllığında LASTZ hazırda bunlardan ikisini, N və X-i dəstəkləyir. Onlar ya orijinal daxiletmə faylında mövcud ola bilər (Nib və 2Bit formatlarının X-ləri ehtiva edə bilməməsi istisna olmaqla) və ya ardıcıllıq təyinedicisində xmask və ya nmask hərəkətindən istifadə etməklə əlavə edilə bilər. LASTZ həmçinin digər IUPAC-IUB qeyri-müəyyənlik kodlarına dözmək üçün konfiqurasiya edilə bilər.

Bir çox verilənlər bazası ardıcıllığı həqiqi nukleotidin bilinmədiyi əsasları təmsil etmək üçün N-ləri ehtiva edir (ən azı, heç bir əminlik səviyyəsində bilinmir). N s (və ya daha yaxşısı, X s) əvvəllər heç bir maraq kəsb etmədiyi müəyyən edilmiş və buna görə də uyğunlaşdırılmamalı olan bölgələri maskalamaq üçün də istifadə edilə bilər. Təəssüf ki, bir ardıcıllıqla işləmək üçün məhdud olan proqramlarla işləyərkən səmərəlilik əldə etmək üçün çoxsaylı ardıcıllığı birləşdirmək üçün X və ya N sətirlərindən istifadə etmək ənənəsi də mövcuddur.

Birləşmə BLASTZ-də faydalı olsa da, LASTZ üçün artıq lazım deyil. LASTZ çoxlu hədəf ardıcıllığını idarə edə bildiyindən (hədəf faylın ardıcıllıq təyinedicisindəki çoxsaylı hərəkət vasitəsilə) istifadəçilərə üstünlük verilir. yox yapışdırmağa müraciət edin. Bununla belə, mövcud boru kəmərində BLASTZ-ni LASTZ ilə əvəz etmək hələ də birləşdirilmiş ardıcıllıqları əhatə edə bilər, ona görə də LASTZ-nin ACGT olmayan simvolların defolt şərhi BLASTZ ilə eynidir: X s hizalanma səpmə mərhələsindən xaric edilir və uyğunlaşma hesabı ilə o qədər ciddi cəzalandırılır ki, onlar adətən heç bir düzülüşdə görünməyəcəklər. N-lər də əkməkdən xaric edilir və transversiya uyğunsuzluğu ilə eyni şəkildə cəzalandırılır. Konkret olaraq, X ilə hər hansı əvəzləmə &minus1000, başqa hər hansı bir şeylə (A , C , G və ya T dən başqa) hər hansı əvəzləmə &minus100 kimi qiymətləndirilir.Nəzərə alın ki, ardıcıllıqlar arasında "kifayət qədər" X və ya N s qoymalısınız ki, heç bir hizalama bloku birləşməni keçməsin. Bu çətin ola bilər, çünki boşluqların hesablanması boşluqdakı simvollardan deyil, yalnız boşluğun uzunluğundan asılıdır. Beləliklə, birləşmə ilə eyni uzunluqdakı boşluq y-düşmə parametrindən daha çox cəzalandırılmazsa, hizalanma birləşə bilər. Təxminən bir qayda olaraq, standart parametrlərlə 50-lik bir birləşmə uzunluğu adətən kifayətdir, lakin buna zəmanət verilmir.

Qeyri-ACGT simvollarının bu defolt müalicəsi, düzülməməli olan bölgələri maskalamaq üçün X s və ya N s istifadə edildikdə də yaxşı işləyir. Bununla belə, ardıcıllıqlar qeyri-müəyyən əsasları təmsil etmək üçün N-ləri ehtiva etdikdə uyğun deyil. Bu işi idarə etmək üçün LASTZ ‑‑birmənalı=n seçimini təmin edir ki, bu da N ilə əvəzlənmələrin sıfır kimi qiymətləndirilməsinə səbəb olur. Əlavə olaraq, ‑‑birmənalı=iupac seçimi digər IUPAC-IUB qeyri-müəyyənlik kodlarına ( B, D, H, K, M, R, S, V, W, Y ) eyni mənalı N kimi baxılmasına səbəb olur.

Hər iki halda, əkmə mərhələsində qeyri-ACGT simvolları nəzərə alınmır. Yalnız A, C, G və/və ya T-dən ibarət olan toxum sözləri, hətta ACGT olmayan simvollar toxum modelində "qayğı vermə" mövqelərində baş versə belə, toxum səpilməsində iştirak edir.

Qiymətləndirmə faylı göstərildiyi halda yuxarıda təsvir edilmiş xal dəyərləri dəyişdirilə bilər. &minus1000 balı pis_score, &minus100 balı isə dolgu_skoru adlanır. Bundan əlavə, hansı simvolun "pis" hesab edildiyi (defolt olaraq bu X-dir) qiymətləndirmə faylında da göstərilə bilər və əslində hədəf və sorğu arasında fərqli ola bilər. Bu sənəddə DNT ardıcıllığında görünən X simvoluna istinad etdiyimiz zaman biz ümumiyyətlə "pis" kimi göstərilən simvolu nəzərdə tuturuq və bu, standart olaraq X-dir. .

Kvant DNT ardıcıllığı fərqlidir: onlar ixtiyari, istifadəçi tərəfindən müəyyən edilmiş simvollar əlifbasından istifadə edirlər, buna görə də N və X üçün yuxarıda qeyd olunan xüsusi müalicələr tətbiq edilmir. Kvant ardıcıllıqları üçün defolt "pis" simvol null baytdır ( 00 hexadecimal), buna ardıcıllıqda belə icazə verilmir, lakin xal faylı vasitəsilə etibarlı əlifba simvollarından birinə dəyişdirilə bilər. Kvant ardıcıllığı üçün qeyri-müəyyən N-lərin analoqu yoxdur, çünki adətən hər bir simvol müəyyən dərəcədə qeyri-müəyyənliyə malikdir.

Ardıcıllıq Adı Mangling

Çox vaxt giriş ardıcıllığı fayllarında adlar aşağı axın emal üçün əlverişsizdir və ya müəyyən çıxış formatları ilə bağlı problemlər yaradır. Bu, bəzi daxiletmə formatlarının (əsasən Nib) ardıcıl adlarını ehtiva etməməsi ilə daha da çətinləşir, ona görə də belə hallarda ad fayl adından götürülməlidir. LASTZ giriş ardıcıllığını adlandırmaq üçün bir neçə seçim təqdim edir. Bu alternativlər bir-birini istisna edir, müəyyən bir giriş faylı üçün eyni anda yalnız biri istifadə edilə bilər.

Daxili olaraq LASTZ adlandırma tapşırığını iki mərhələdə həyata keçirir. Birincisi, ardıcıllıq üçün bir yaradır. Daxiletmə formatı ad və ya başlıq təqdim edərsə, bu, tam başlığa çevrilir. Əks halda, tam başlıq fayl adından qurulur.

İkinci mərhələdə LASTZ tam başlığı ləqəblə qısaldır. Tam başlıq fayl adı ilə başlayırsa, istənilən yol prefiksi silinir və çox istifadə olunan fayl genişləndirilməsi şəkilçiləri də silinir ( .fa , .fasta , .nib , .2bit ). Sonra defolt olaraq, LASTZ ardıcıllıq adı kimi qalan sətirin ilk sözündən (boşluq, şaquli zolağın və ya iki nöqtədən başqa simvollardan ibarət) istifadə edir. Beləliklə, " >" kimi bir FASTA başlığı

someuser/human/hg18/chr1.fa İnsan Xromosomu 1 " sadəcə olaraq chr1-ə qısaldılır.

Ardıcıllıq təyinedicisində nameparse=darkspace və nameparse=alphanum hərəkətləri ilk sözün necə təyin olunduğunu dəyişir. qaranlıq boşluq (yəni, "boşluqdan kənar") sözdə şaquli çubuqların və iki nöqtənin görünməsinə imkan vermək üçün son simvollar dəstini daraldır, alfanum isə onu genişləndirir ki, söz yalnız əlifba, rəqəm və alt xətt simvolları ilə məhdudlaşdırılır. Yol prefiksləri və fayl uzantıları hələ də silinir.

Defolt qısaltma çox vaxt adekvatdır. Məsələn, aşağıdakı FASTA faylını nəzərdən keçirin. Varsayılan olaraq, adlar 000007_3133_3729 və 000015_3231_1315 olacaq.

Bununla belə, istifadəçi qoşulma nömrələrindən istifadə etməyi daha rahat hesab edə bilər. Bunu həyata keçirmək üçün o nameparse=tag:uaccno= fəaliyyətindən istifadə edə bilər. LASTZ hər başlıqda uaccno= teq sətirini axtaracaq və onu izləyən simvollardan əlifba, rəqəm və ya alt xətt olmayan ilk simvola qədər adı oxuyacaq. Bu halda ardıcıllığın adları FX9DQEU13H5YZN və FX9DQEU13HUTXE olacaqdır. Teq sətri müəyyən bir ardıcıllığın tam başlığında tapılmazsa, əvəzində defolt qısaldılma istifadə olunur.

İndi bu FASTA faylını nəzərdən keçirin:

Bu halda standart hərəkət bizim istədiyimizi etmir (bütün ardıcıllıqlar gi adlandırılacaq). Fəaliyyət nameparse="tag:gi|" bizə 197102135, 169213872 və 34784771 adlarını verir. (Sitatlara diqqət yetirin ki, bu, komanda xətti qabığının | boru simvolu kimi şərh edilməsinin qarşısını almaq üçün lazımdır.) Baxın ki, ref| işləməyəcək, çünki üçüncü ardıcıllığa gb| lazımdır əvəzinə.

Bəzən sadəcə müəyyən bir ad təyin etmək daha rahatdır. Bu nickname=<name> hərəkəti ilə edilə bilər. Məsələn, hədəf və sorğu faylı təyinedicilərindən istifadə etməklə

someuser/human/ponAbe2/chr1.nib[ləqəb=orang] , çıxış ardıcıllığı hər ikisini chr1 adlandırmaqdansa insan və orang kimi göstərəcək. Əgər <name> alt sətri ehtiva edirsə , ləqəb fayl daxilində ardıcıllığın nömrəsini ehtiva edəcək. Bu, faylda birdən çox ardıcıllıq olduqda xüsusilə faydalıdır.

Əgər adların dəyişdirilməsini tamamilə aradan qaldırmaq istəyirsinizsə, nameparse=full hərəkətindən istifadə edə bilərsiniz. Bu, ardıcıllığın adı kimi tam başlıqdan istifadə edir. Ancaq nəzərə alın ki, boşluqlar varsa, nəticədə düzəliş faylları aşağı axın alətləri tərəfindən oxunmaya bilər.

Yuxarıdakı müzakirə FASTA, Nib və ya 2Bit formatında adi DNT ardıcıllığına aiddir. HSX indeks faylları fərqli şəkildə idarə olunur: defolt olaraq LASTZ indeksdəki adı qısaltmadan olduğu kimi istifadə edir və müxtəlif ad analizi hərəkətlərinə icazə verilmir. Ləqəb hərəkətindən istifadə edilə bilər, lakin ümumiyyətlə lazım deyil, çünki istədiyiniz adları birbaşa indeksdə saxlaya bilərsiniz.

Nəzərə alın ki, əgər alt dəst=<names_file> əməliyyatından istifadə olunarsa, <names_file>-dəki adlar dəyişdirilmiş (və ya indekslənmiş) adlara uyğun olmalıdır.

FASTA faylları üçün standart Unix komanda xətti alətlərindən istifadə etməklə daha mürəkkəb adların dəyişdirilməsi həyata keçirilə bilər. Yuxarıdakı ikinci misalda biz hər adı NM_001133512.1 , XM_001716177.1 və BC006342.2 NCBI qoşulma nömrələrinə qısaltmaq üçün girişi sed vasitəsilə bir neçə dəfə keçirə bilərik.

Toxum Nümunələri

Toxumlar hədəf və sorğu ardıcıllığı arasında qısa yaxın uyğunluqlardır, burada "qısa" adətən 20 bp-dən az deməkdir. İlkin uyğunlaşdırma proqramları toxum kimi dəqiq uyğunluqlardan (məsələn, uzunluq 12) istifadə edirdi, lakin ardıcıllıqlar ayrıldıqda həssaslığı yaxşılaşdıra bilər.

A, qısa sözlə, toxumun uyğunsuzluqları ehtiva edə biləcəyi mövqelərin siyahısıdır. Məsələn, toxum nümunəsini nəzərdən keçirin 1100101111 . 1, bu mövqedə uyğunluğun tələb olunduğunu, 0 isə uyğunsuzluğa icazə verildiyini göstərir (effektiv olaraq bu, "fərq etmə" mövqeyidir). Aşağıdakı nümunədən göründüyü kimi, bu toxum modelindən istifadə edərək, toxum sözü GTAGCTTCAC ACGTGACATCACACATGGCGACGTCGCTTCACTGG ardıcıllığında iki dəfə vurur.

Aralıq toxumların spesifiklikdə az dəyişikliklə, dəqiq uyğunluq toxumlarından daha həssas olduğu göstərilmişdir. Bu, ardıcıllıqlar daha az oxşarlığa malik olduqda, məsələn, insan və siçan və ya toyuq kimi daha sərfəlidir. Hansı toxum modelinin daha yaxşı olması müqayisə edilən ardıcıllıqlardan asılıdır. Aralıqlı toxumların müzakirəsi və onların dizaynı üçün bax [Buhler 2003].

LASTZ-in əkmə variantları "istifadəçiyə" çoxlu seçim imkanı verir. Məqsəd odur ki, bunlar hansısa proqram tərəfindən seçiləcək (buna görə də "istifadəçi" ətrafında dırnaq işarələri var), lakin onlar hər kəs üçün əmr satırından mövcuddur.

N-mer matçı:

Ümumi toxum nümunələri:

Yarımçəkili toxum nümunələri:

Tək, ikiqat və ya keçidsiz:

Transverslər və uyğunluqlar üzrə filtrləmə:

Əkiz hit toxumları:

Hər hansı və ya heç bir uyğunlaşma

Bəzən, bir hizalayıcıdan istədiyiniz yeganə cavab, sorğunun hədəfə güclü uyğunlaşması olub-olmamasıdır. Məsələn, siz ardıcıllıqda hansı oxuların olduğunu bilmək istəyə bilərsiniz yox istinad genomu ilə uyğunlaşma. Bu halda, əgər oxunuş müəyyən bir xromosomda min müxtəlif yerə düzülürsə, onun uyğun olub-olmadığını bilmək sizə maraqlı deyil.

‑‑anyornone seçimi belə hallar üçün nəzərdə tutulmuşdur və hizalanma sürətini əhəmiyyətli dərəcədə yaxşılaşdıra bilər. İstənilən uyğunlaşma tapıldıqdan sonra cari sorğunun işlənməsi dayandırılır. Hizalanma çıxışa bildirilir və biz dərhal növbəti sorğunun emalına başlayırıq. Kvalifikasiyaya uyğun düzülmə digər parametr parametrləri nəzərə alınmaqla, məsələn, hesablama hədlərini ( ‑‑hspthresh və/və ya ‑‑gappedthresh ) və hər hansı arxa filtrləri ödədiyi halda, normal olaraq çıxarılacaq uyğunlaşdırmadır.

İstinad ardıcıllığı ilə ən azı bir "yaxşı" uyğunluğu olan oxunuşların siyahısını əldə etmək üçün belə bir şey edə bilərsiniz:

Bu seçim Ümumi Baxışda təsvir edilən adi emal qaydasını bir qədər dəyişir. Bütün toxumlarda boşluqsuz genişləndirmə yerinə yetirmək, onları HSP siyahısına toplamaq və sonra boşluqlu genişləndirmə yerinə yetirmək əvəzinə, hər bir HSP boşluq genişləndirilir və dərhal süzülür. Bu, ilk uyğunlaşma tapılan kimi dərhal tərk ediləcək hitlər üzrə tam ilkin mərhələdə emal yerinə yetirmək üçün sərf olunan işin qarşısını alır.

Y-damcı Uyğunsuz Kölgə

LASTZ-də boşluqlu genişlənmənin standart konfiqurasiyası, balın ən yüksək olacağı yerdə düzülüşü bitirməkdir. Bu o deməkdir ki, düzülmənin hər hansı prefiksi və ya şəkilçisi mənfi olmayan hesaba sahib olacaqdır. Bu, iki uzun ardıcıllığın ortasında yerləşən düzülmələr üçün uyğun olsa da, düzülmə bir və ya hər iki ardıcıllığın sonuna yaxın olduqda arzuolunan deyil və bu, qısa oxunuşları uyğunlaşdırarkən olduqca tez-tez baş verir.

50 əsaslı sorğunun xromosom hədəfinə aşağıdakı uyğunlaşdırılmasını nəzərdən keçirin və tutaq ki, biz ‑‑match=1,5 , ‑‑gap=6,1 , ‑‑identity=97 və & istifadə edirik. #8209‑əhatə=95 . Göstərildiyi kimi bütün düzülmə 97,9% eyniliyə (46/47) və 100% əhatəyə malikdir. Bununla belə, ilk beş baza ( AGAAC vs. AGAAG ) mənfi hesaba malikdir: hər biri +1 olan dörd uyğunluq və &minus5-də bir uyğunsuzluq bu prefiks üçün &minus1 xalını verir. Ən yüksək bal sıralaması 33 bal üçün 6-dan 50-yə qədər olan mövqelərdəndir (bütün düzülmə yalnız 32 xal alır). Ən yüksək balda hizalanmağı dayandırsaq, əhatə dairəsi 90%-ə düşür və düzülmə ləğv edilir. Ümumi nəticə ondan ibarətdir ki, biz istəmədiyimiz oxunuşları ləğv edəcəyik və oxunmaların sonunda uyğunsuzluqlara qarşı qərəzliliyi görəcəyik. (Qeyd edək ki, bu anomaliya, düzülmənin normal olaraq aşağı bal toplayan bölgə tərəfindən deyil, ardıcıllığın sonunda kəskin şəkildə dayandırılması səbəbindən yaranır, həmçinin ‑‑əhatə seçimi daha uzun ardıcıllıqla deyil, qısa oxunuşlarda daha çox istifadə olunur.)

Bu davranışın qarşısını almaq üçün qısa oxunuşları uyğunlaşdırarkən ‑‑noytrim seçimindən istifadə edin. Bu, LASTZ-nin bu cür düzülmələri yenidən ən yüksək bal toplayan yerə kəsməkdən çəkinməsinə səbəb olur. Xüsusilə, boşluq uzadılması prosesi ardıcıllığın sonu ilə qarşılaşarsa, bu, hizalanmanın sonu olaraq qalacaq. Bu halda mənfi bal verən prefiks və ya şəkilçi ‑‑drop dəyərindən daha pis nəticə vermədiyi müddətcə saxlanılacaq.

Şingle üst-üstə düşməsi

Bəzi tətbiqlərdə, məsələn. oxunuşları kontiglərə birləşdirərkən, ardıcıllığın sonlarının bir-biri ilə necə üst-üstə düşdüyünü müəyyən etmək istəyirik. Məsələn, aşağıda göstərilən 1-ci halda, sorğunun başlanğıcı hədəfin sonu ilə 30 əsas üst-üstə düşür və hər iki ardıcıllıq bir-birindən kənara əks istiqamətdə uzanır. Biz bu vəziyyəti "şingling" adlandırırıq (çatıdakı şingles kimi) və Ümumi çıxış formatının şingle sahəsi bunun ölçülməsini təmin edir. Müsbət dəyər sorğunun başlanğıcının hədəfin sonu ilə üst-üstə düşdüyünü göstərir (1-ci hal), mənfi dəyər isə rolların tərsinə çevrildiyini göstərir (2-ci hal). Bu halların heç biri baş vermədikdə (məsələn, hər hansı ardıcıllıq digərindən kənara çıxmazsa), NA bildirilir.

Nəzərə alın ki, bildirilən dəyərin həmin bölgədə uyğunlaşan əsasların sayı ilə heç bir əlaqəsi yoxdur və bu, düzləşdirmənin ardıcıllığın başlanğıcına və ya sonuna qədər uzandığının göstəricisi deyil. Şingle dəyəri sadəcə sübutdur ki, iki oxunuşun düzgün qeydiyyatı onları verilmiş dəyər və mdash məlumatı ilə üst-üstə düşməkdən ibarətdir ki, bu da assemblerin bu oxunuşları kontigəyə yığmaqda istifadə edə bilər.

Hədəf kapsul fayllarından istifadə

Hədəf kapsul faylları eyni kompüterdə birdən çox CPU nüvəsi eyni hədəf ardıcıllığı ilə LASTZ işlədərkən iş vaxtı yaddaşından istifadəni yaxşılaşdırmaq üçün təmin edilir. Onlar böyük daxili məlumat strukturlarının aslan payının proseslər arasında bölüşdürülməsinə icazə verirlər. Bu, LASTZ-nin daha çox nüsxəsini eyni vaxtda daha az fiziki yaddaşla işlətməyə imkan verir ki, bu da ötürmə qabiliyyətini yaxşılaşdıra bilər, məsələn, böyük oxunuşlar dəstini tək (böyük) istinad ardıcıllığına uyğunlaşdırarkən.

Kapsul faylı yaratmaq üçün belə bir əmrdən istifadə edin: Tətbiq edilə bilən əkmə seçimləri ‑‑seed , ‑‑step , ‑‑maxwordcount , və ‑‑word .

Kapsul faylından istifadə etmək üçün LASTZ-ni bu şəkildə işlədin: Kapsul məlumatlarının ayrı-ayrı dövrələr arasında paylaşılmasını idarə etmək üçün istifadəçidən əlavə səy tələb olunmur. Demək olar ki, bütün variantlara icazə verilir, lakin ‑‑seed , ‑‑step , ‑‑maxwordcount , və ‑‑word səpmə seçimlərinə icazə verilmir, çünki bunlar (və ya onların əlavə məhsulları) artıq kapsulda saxlanılır. fayl. Bundan əlavə, ‑‑maskalamaya icazə verilmir, çünki bu, həm hədəf ardıcıllığının, həm də kapsulda olan hədəf toxum sözünün mövqeyi cədvəlinin dəyişdirilməsini tələb edəcəkdir.

Daxili LASTZ əməliyyat sistemindən kapsul faylını yalnız oxumaq üçün işləyən proqramın yaddaş sahəsinə birbaşa xəritələşdirməyi xahiş edir. Birdən çox işləyən nümunə eyni faylı xəritələyə bilər, hər bir nümunənin kapsul məlumatları üçün öz virtual ünvanları olacaq, lakin fiziki yaddaş paylaşılır. Kapsulu eyni vaxtda istifadə etmək üçün birdən çox nümunəyə ehtiyac yoxdur. ‑‑targetcapsule ilə lastz-in tək nüsxəsini işlətmək yaxşı işləyəcək və əslində kapsulsuz eyni hizalanma ilə müqayisədə kiçik sürət artımı ola bilər.

Bu texnikanın mənfi tərəfi, kapsul fayllarının çox böyük olması və eyni zamanda maşından asılı olmasıdır. Məsələn, insan 1-ci xromosom üçün fayl təxminən 1,4 Gb-dir. Nəzərə alın ki, uyğun olmayan kompüterdə qurulmuş kapsulu işə salmaq cəhdləri aşkar edilir və rədd edilir.

Nəticə Xal Dəstləri

Xal çıxarma, uyğun əvəzləmə xallarını və/və ya boşluq cəzalarını birbaşa uyğunlaşdırılan ardıcıllıqlardan müəyyən etmək üçün avtomatlaşdırılmış üsuldur. Nəticədə əldə edilən qiymətləndirmə parametrləri faylda saxlanıla və/yaxud ardıcıllıqları uyğunlaşdırmaq üçün dərhal istifadə edilə bilər. Ümumiyyətlə, bunlar xüsusi bölgələrdən çox növlərdən asılıdır, buna görə də bir cüt növ üçün uyğun qiymətləndirmə dəsti əldə edildikdən sonra nəticə yox hər hizalama qaçışı üçün yerinə yetirilməlidir. Bu bölmədə biz nəticə çıxarma prosesinin qısa icmalını veririk, daha ətraflı təsvir üçün [Harris 2007]-ə baxın.

Nəticə 18 müxtəlif uyğunlaşma hadisəsinin (boşluğun açılması, boşluğun genişləndirilməsi və 16 əvəzetmə) hər birinin ehtimalını hesablamaqla əldə edilir. Bu ehtimallar ardıcıllıqların düzülüşündən təxmin edilir. Əlbəttə ki, əvvəlcə bizim düzülmələrimiz yoxdur, ona görə də xallar sabitləşənə və ya "birləşənə" qədər düzülmələr yaratmaq, onlardan xallar çıxarmaq, sonra yenidən uyğunlaşdırmaq və s. üçün ümumi qiymətləndirmə dəstindən istifadə etməklə başlayırıq. Əvəzetmə balları yaxınlaşana qədər boşaldılmış düzülmələr yerinə yetirilir, sonra boşluq cəzaları yaxınlaşana qədər boşluqlu düzülmələr yerinə yetirilir (əvəzetmə balları sabit saxlanılır).

LASTZ hesablama parametrlərinə sahib olmaq üçün LASTZ-in uyğun şəkildə aktivləşdirilmiş quruluşundan istifadə edin (aşağıya baxın) və ‑‑infer və ya ‑‑inferonly” seçimlərini təyin edin. (Sonuncu parametrlər nəticə çıxardıqdan sonra, son uyğunlaşdırmanı həyata keçirmədən dayanacaq.) Nəticə prosesi üçün parametrlər bu seçimlərə daxil olan nəzarət faylında göstərilə bilər.

‑‑infscores seçimi nəticələnən qiymətləndirmə parametrlərinin ayrıca fayla yazılmasına səbəb olur. Əgər <output_file> göstərilməyibsə, o, şərh kimi hizalanma çıxış faylının başlığına yazılır. Son çarə olaraq, heç bir hizalama yerinə yetirilmədikdə, qiymətləndirmə dəsti stdout-a yazılır. Parametrlər qiymətləndirmə dəstlərini daxil etmək üçün istifadə olunan eyni formatda yazılır.

Adətən nəticə çıxarmaq üçün bütün hizalama bloklarından istifadə etmək arzuolunmazdır. Əvəzetmə nisbəti yüksək (aşağı eynilik) olan blokların yanlış pozitiv olma ehtimalı var. Digər tərəfdən, hansı hesablama parametrlərinin istifadə olunmasından asılı olmayaraq, bir neçə əvəzetmə (yüksək eynilik) olan bloklar tapılacaq. Beləliklə, nəticənin yalnız orta şəxsiyyət diapazonundan gələn statistikaya əsaslanması arzu edilir. Varsayılan olaraq orta 50% istifadə olunur (yəni şəxsiyyət paylanmasından 25-dən 75-ə qədər olan faiz), lakin bu, nəzarət faylında dəyişdirilə bilər.


2. AB SOLiD Oxuyur: Kodlaşdırma və Texnoloji Artefaktlar

SOLiD Sistemi [21] muncuqlarla əlaqəli klonal gücləndirilmiş DNT fraqmentlərinin kütləvi şəkildə paralel ardıcıllığını təmin edir. Bu ardıcıllıq texnologiyası boya ilə işarələnmiş oliqonukleotid zondlarının ardıcıl bağlanmasına əsaslanır, hər bir zond eyni anda iki əsas mövqeyi müəyyən edir. Sistem on altı mümkün 2 əsaslı birləşməni kodlaşdırmaq üçün dörd flüoresan boyadan istifadə edir. Nəticə etibarı ilə, bir DNT fraqmenti ilkin baza ilə təmsil olunur, ardınca hər biri bir neçə qaydaya cavab verən degenerasiya kodlaşdırma sxemindən istifadə edərək dörd rəngdən biri ilə kodlanmış üst-üstə düşən dimerlərin ardıcıllığı ilə təmsil olunur. Beləliklə, oxunuşda bir rəng dörd dimerdən hər hansı birini təmsil edə bilsə də, dimerlərin üst-üstə düşən xüsusiyyətləri və rəng kodunun təbiəti qeyri-müəyyənliyi aradan qaldırır və səhvləri düzəltmək xüsusiyyətlərinə imkan verir.

Bizim işimiz oxunma zamanı xətanın paylanmasının modelləşdirilməsinə əsaslandığı üçün biz bu paylanmaya təsir edən ardıcıllıq texnologiyasının bir neçə aspekti ilə xüsusilə maraqlanırıq.

Birincisi, oxunuşun hər bir rəngi iki bitişik əsası kodladığından və buna görə də hər bir baza iki bitişik rəngə təsir etdiyindən, hər hansı tək əsas mutasiyası oxunuşda iki bitişik rəngin dəyişməsi ilə nəticələnir.

İkincisi, oxu səhvləri ilə əlaqədar olaraq, ardıcıllıq kimyası ([21, 22]-də təsvir edilmişdir) oxunuş boyunca dövri qərəzliliyi təklif edir. Əsasən, SOLiD platforması daxilində ligasiya prosesi ilə ardıcıllıq, ardıcıllaşdırılacaq şablonda 8-mer oliqonukleotidlərin ardıcıl hibridləşməsinə əsaslanır.Oliqonukleotidlər 3 universal baza, 3 degenerativ əsas və 2 bitişik əsasdan ibarətdir ki, onlar şablonda iki mövqeyi müəyyən edir və onların 5 ucunda flüoresan etiketlərin eyniliyi ilə əlaqələndirilir. Bağlamadan sonra 6 əsasları flüoresan boya ilə birlikdə ayrılır və 5 ucu başqa ligasyon üçün əlçatan qalır. Beləliklə, iki mövqe səhsəh + 1, bir oliqonukleotid bağladıqdan sonra düzgün əsas qoşalaşmışdır və 5 məsafədəki mövqelər (səh + 5 və səh + 6) növbəti oliqonukleotidlə müəyyən edilir. Bu nümunəyə uyğun gəlməyən mövqelərdəki nukleotidlər sonrakı dövrlərdə müəyyən edilir. Şablonu örtmək üçün bir neçə bağlama dövründən ibarət beş dövrə lazımdır. Buna görə də, belə bir ardıcıllıq raundunda oxuma xətası meyllərinin yayılmasını gözləyirik və beləliklə, 5 dövriliyi ilə görünür.

Bu intuisiyanı təsdiq etmək üçün biz oxunuş boyu oxuma xətası ehtimalının dəyişməsini tədqiq etdik. Saccharomyces cerevisiae genom. Bu təhlildə biz keyfiyyətlərdən istifadə etdik Q l hər bir mövqe ilə əlaqələndirilir l səhv ehtimalı ilə əlaqəli olan oxunuşda səh e l vasitəsilə Q l = � · log 10(səh e l ) [23].

Aralarındakı məsafədən asılı olaraq oxunan mövqelər arasındakı keyfiyyət korrelyasiyasını hesabladıq. Formal olaraq, əgər m oxumaq uzunluğu, sonra hər biri üçün i ∈ <1,…, m − 1>, korrelyasiyanı aşağıdakı standart düstur vasitəsilə hesabladıq c ( i ) = E ( ( Q j - Q ˜ ) ( Q j + i - Q ˜ ) ) / ( σ Q ) 2, harada E(·) gözlənti, Q ˜ oxunuş boyu orta keyfiyyət və σ Q keyfiyyət dəyərlərinin standart sapması. Nəticə Şəkil 1-də verilmişdir. Bu, 5-ə çarpan məsafələrdə yerləşən mövqe cütləri arasında əhəmiyyətli dərəcədə yüksək korrelyasiya (0,63-ə qədər) göstərir.