Məlumat

5.4: Bütün Genom Hizalanması - Biologiya

5.4: Bütün Genom Hizalanması - Biologiya


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bir neçə fərqli növ üçün bütün genom sekanslarına daxil olduqdan sonra, təkamülün bu növləri fərqləndirmək üçün keçdiyi yolu başa düşmək üçün onları hizalamağa çalışa bilərik. Bu bölmədə çoxsaylı növlər arasında bütün genom hizalanmalarını həyata keçirməyin bəzi üsullarından bəhs edirik.

Qlobal, yerli və “qlokal” uyğunlaşma

2-ci fəsildə müzakirə olunan Needleman-Wunsch alqoritmi, məhdud ölçülü iki və ya daha çox genom ardıcıllığı arasında optimal uyğunlaşma yaratmaq üçün ən yaxşı yoldur. Bütün genomlar səviyyəsində isə O (n2) vaxt məhdudiyyəti qeyri -mümkündür. Bundan əlavə, k fərqli növlər arasında optimal uyğunlaşma tapmaq üçün Needleman-Wunsch alqoritminin müddəti O (n)k). Milyonlarla baza uzunluğunda olan genomlar üçün bu işləmə müddəti qadağandır (Şəkil 5.15).

Alternativlərdən biri, bütün yerli düzülmələri tapmaq üçün BLAST kimi səmərəli yerli hizalama alətindən istifadə etmək və sonra onları qlobal düzülmələr yaratmaq üçün diaqonal boyunca zəncirləməkdir. Bu yanaşma xeyli vaxta qənaət edə bilər, çünki yerli düzülmələrin tapılması prosesi çox səmərəlidir və bundan sonra biz yalnız yerli düzülmələr arasında kiçik düzbucaqlılarda vaxt aparan Needleman-Wunsch alqoritmini yerinə yetirməliyik (Şəkil 5.16).

Bütün genom hizalanmasına başqa bir yeni yanaşma, yerli uyğunlaşma axtarışını inversiya, duplikasiya və translokasiyanı əhatə etməklə genişləndirməkdir. Sonra ardıcıllıqlar arasında ən ucuz çevrilmələrdən istifadə edərək bu elementləri bir-birinə bağlaya bilərik. Bu yanaşma genomların zamanla necə inkişaf etdiyinə dair ən doğru şəkil yaratmaq üçün ən yaxşı yerli və qlobal uyğunlaşmanı birləşdirməyə çalışdığı üçün ümumiyyətlə glocal alignment adlanır (Şəkil 5.17).

Lagan: Yerli uyğunlaşmaların zənciri

LAGAN, yuxarıdakı fikirlərin çoxunu özündə cəmləşdirən və növlər arasında yerli, qlobal, qlokal və çoxsaylı hizalanmalar üçün istifadə edilə bilən məşhur bir proqram alətlər dəstidir.

Müntəzəm LAGAN alqoritmi yerli düzülmələrin tapılmasından, diaqonal boyunca yerli düzülmələrin zəncirlənməsindən və sonra yerli düzülmələr arasında optimal yolu tapmaq üçün məhdudlaşdırılmış dinamik proqramlaşdırmanın həyata keçirilməsindən ibarətdir.

Multi-LAGAN adi LAGAN ilə eyni yanaşmadan istifadə edir, lakin onu çoxlu növlərin uyğunlaşdırılması üçün ümumiləşdirir. Bu alqoritmdə istifadəçi bir genom dəsti və ona uyğun bir filogenetik ağac təqdim etməlidir. Multi-LAGAN, filogenetik ağacın rəhbər tutduğu ikili düzülməni həyata keçirir. Əvvəlcə çox əlaqəli növləri müqayisə edir, sonra da getdikcə daha çox uzaq olan növləri müqayisə edir.

Shuffle-LAGAN yerli düzülmələri tapan, kobud homologiya xəritəsini quran və sonra ardıcıl hissələrin hər birini qlobal olaraq hizalayan qlokal uyğunlaşdırma alətidir (Şəkil 5.18). Homoloji xəritə yaratmaq üçün alqoritm iki ardıcıllığın ən azı birində azalmayan zəncir meydana gətirən müəyyən boşluq və transformasiya cəzalarına əsaslanaraq, yerli düzülmələrin maksimum bal alt çoxluğunu seçir. Adi LAGAN -dan fərqli olaraq, bütün mümkün lokal hizalanma ardıcıllıqları translokasiyanı, inversiyanı və ters çevrilmiş translokasiyanı, habelə müntəzəm çevrilməmiş ardıcıllığı təmsil edə biləcəyi üçün glocal hizalanma mərhələləri hesab olunur. Kobud homologiya xəritəsi qurulduqdan sonra, alqoritm homolog bölgələri təxminən eyni davamlı yol boyunca olan yerli hizalanmalara bölür. Nəhayət, LAGAN alqoritmi hər bir hissəyə məhdudlaşdırılmış dinamik proqramlaşdırma istifadə edərək yerli hizalanmaları əlaqələndirmək üçün tətbiq olunur.

Shuffle-LAGAN və ya digər glocal hizalama vasitələrini işlədərək, fərqli növlər arasında inversiyalar, translokasiyalar və digər homoloji əlaqələri kəşf edə bilərik. Bu arxa ölçülər arasındakı əlaqələri xəritəyə salaraq, hər növün ortaq atadan necə inkişaf etdiyini anlaya bilərik (Şəkil 5.19).


Bütün genomun uyğunlaşdırılması

Bütün genom uyğunluğu (WGA) iki və ya daha çox genom arasında nukleotid səviyyəsində təkamül əlaqələrinin proqnozlaşdırılmasıdır. Həm kolinear ardıcıllıq hizalanması, həm də gen ortologiyası proqnozunun aspektlərini özündə birləşdirir və ümumiyyətlə bütün genomların ölçüsünə və mürəkkəbliyinə görə bu vəzifələrin hər ikisindən daha çətindir. Bu problemin çətinliyinə baxmayaraq, onun həlli üçün çoxsaylı üsullar işlənib hazırlanmışdır, çünki WGA-lar filogenetik nəticə, genom annotasiyası və funksiyanın proqnozlaşdırılması kimi genom miqyaslı təhlillər üçün dəyərlidir. Bu fəsildə WGA -nın mənasını və əhəmiyyətini müzakirə edirik və onu həll edən metodlara ümumi bir baxış təqdim edirik. Bütün genom hizalayıcılarını qiymətləndirmə problemini də araşdırırıq və sürətlə böyüyən bütün genom məlumat bazalarımızdan ən təsirli şəkildə istifadə etmək üçün həll edilməsi lazım olan bir sıra metodoloji problemlər təklif edirik.

Açar sözlər: Müqayisəli genomika Genomun təkamülü Homologiyanın xəritəsi Ardıcıllıq hizalanması Toporthologiya Bütün genom hizalanması.


Fon

Bioloji sualların artan siyahısını həll etmək üçün yeni nəsil yüksək məhsuldarlıqlı DNA sıralama texnologiyaları istifadə olunur [1]. Ən əsas istifadələrdən biri de novo genom montajıdır, burada məqsəd onların xarakterik qısa oxunması və səhv dərəcələri ilə məşğul olarkən yüksək məhsuldarlıqlı ardıcıllıq məlumatlarından orqanizmin genom ardıcıllığını yenidən qurmaqdır [2]. Genom montajı, hesablama biologiyası üçün əsasdır, çünki bir neçə digər sual ilə birlikdə bir genomdakı gen məzmununu, tənzimləyici bölgələri və ya təkamül əlaqələrini öyrənmək üçün müvəffəqiyyətli bir məclisə ehtiyac var. Beləliklə, tədqiqatçıların mövcud məlumatlardan mümkün olan ən yaxşı montajı yarada bilməsi çox vacibdir.

De novo genom quruluşu 20 ildən çoxdur araşdırılsa da, problem həll olunmaqdan çox uzaqdır. Mövcud montaj alqoritmləri, xüsusən də mövcud biotexnologiyaların daim dəyişən mənzərəsinə cavab olaraq, təkrarlanan ardıcıllığı toplamaq və mövcud səhvləri həll etmək üçün tətbiq olunan texnika və evristikada ən əhəmiyyətli dərəcədə fərqlənir [2-4]. Genom yığımında əsas çətinlik, təkrarlanan ardıcıllıqların yalan və ya qeyri -müəyyən üst -üstə düşməsinə səbəb ola bilər ki, bu da kontiglərin dayandırılmasına və/və ya səhvlərin daxil olmasına gətirib çıxarır [5]. Həqiqətən də, bütün montajçılar təkrar olunmayan xətasız məlumatları asanlıqla yığa bilərlər.

Nəticədə, müxtəlif de novo genom yığım alqoritmlərinin performansı eyni verilənlər bazasında çox fərqli ola bilər, baxmayaraq ki, heç bir mümkün keyfiyyət metrikasında tək assemblerin optimal olmadığı dəfələrlə nümayiş etdirilmişdir [6-8]. Bir montajı qiymətləndirmək üçün ən çox istifadə edilən ölçülərə 1) iskele və contig N50 ölçüsü kimi bitişiklik statistikası, 2) mövcud istinad genomu ilə müqayisədə tapılan struktur səhvlərinin sayı kimi dəqiqlik statistikası daxildir (GAGE (Genome Assembly Gold Standard Evaluation) qiymətləndirmə vasitəsi [8]), 3) əsas eukaryotik genlərin olması (CEGMA (Core Eukaryotic Genes Mapping Approach) [9]) və ya varsa transkript xəritələşdirmə nisbətləri və 4) ardıcıllığın remapped paired-end və mate-pair oxuyur (REAPR (Cütlənmiş Oxumalardan istifadə edərək Assambleyalarda Səhvlərin Tanınması) [10], montajın təsdiqlənməsi [11] və ya montaj ehtimalı [12]).

Bu ölçülərlə ölçülən müxtəlif montajçıların performansı bu yaxınlarda sistematik olaraq iki beynəlxalq Assemblathon yarışmasında [6, 7], eləcə də müxtəlif tədqiqatçıların müxtəlif alqoritmlərdən istifadə edərək eyni nümunənin mümkün olan ən yaxşı birləşmələrini yaratdıqları digər qiymətləndirmələrdə müqayisə edilmişdir. və parametrlər. İlk Assemblathon yarışmasında insan 13-cü xromosomunun mutasiya edilmiş versiyasından əldə edilən simulyasiya edilmiş genomdan istifadə edildi və beləliklə, həqiqəti birbaşa qiymətləndirməyə imkan verdi. İkinci Assemblathon yarışmasında üç növ - balıq (Maylandia zebra), quş (Melopsittacus undulatus) və ilan (Boa büzücü büzücü) - tam istinad genomları mövcud olmayan və buna görə də istinadsız montaj qiymətləndirmə ölçülərinə istinad edən. Hər növ üçün onlarla montaj yaradıldı və hər iki müsabiqənin nəticələri göstərir ki, müxtəlif alqoritmlərin müxtəlif güclü və zəif tərəfləri var, yəni tək bir montaj qiymətləndirmə metriklərinin alt dəstini maksimuma çatdıra bilər, lakin heç bir montaj və ya assembler bir anda bütün ölçüləri maksimuma çatdıra bilməz. hər verilənlər bazasında. Bu layihələr hətta bir alqoritmin fərqli parametr parametrlərinin nəticələri əhəmiyyətli dərəcədə dəyişə biləcəyini göstərdi.

Bu çətinliyi aradan qaldırmaq və mövcud alqoritmlərdən və məlumatlardan ən yaxşı şəkildə istifadə etmək üçün birdən çox montajı tək bir üstün məclisə birləşdirmək və optimallaşdırmaq üçün metassembler alqoritmimizi təqdim edirik. Metasötürmə, genomun hər bir bölgəsindəki bütün giriş məclislərindən ən yaxşı yerli ardıcıllığı birləşdirir və onları qurucu məclislərdən daha yaxşı və ya üstün olan son bir ardıcıllıqla birləşdirir. Birləşmə, mövcud yığılmış ardıcıllığın hər mövcud qurğu ilə cüt -cüt düzəldildiyi və iterativ, mütərəqqi bir yanaşma ilə həyata keçirilir. Mövcud yığma ardıcıllığını növbəti məclislə uyğunlaşdırdıqdan sonra, hər hansı bir ziddiyyəti qiymətləndirir və Zimin və digərlərinin təklif etdiyi sıxılma -genişləndirmə (CE) statistikası ilə qiymətləndirildiyi kimi, yerli olaraq ən yaxşı ardıcıllığı seçir. [13]. Montaj barışıq alqoritmi [13], GAM-NGS (Genomic Assemblies Merger for Next Generation Sequencing) [14] və ya GARM [15] daxil olmaqla əvvəlki işlərdən fərqli olaraq, yanaşmamız cari yüksək məhsuldarlıq ardıcıllığı məlumatları ilə işləyir və çoxları birləşdirmək üçün nəzərdə tutulmuşdur. məclislər hamısı birlikdə. Alqoritmimiz, daha çox iskele boşluqlarını bağlamaq qabiliyyətinə malikdir və hizalanma məlumatları və yerli cütlük oxuduqda belə dəyişiklikləri dəstəkləyən bir iskele funksiyasına malikdir (aşağıda müqayisə nəticələrinə baxın). Alqoritm, yaxından əlaqəli bir genom tələb edən MAIA [16] kimi digər yanaşmalardan fərqli olaraq, tamamilə de novo üslubunda işləyir. Bir-biri ilə yaxından əlaqəli genomdan istifadə etmək faydalı ola bilər, baxmayaraq ki, həqiqi bioloji fərqlər olduqda ardıcıllıqların səhv yığılmaması üçün çox diqqətli olmaq lazımdır.

Biz alqoritmimizi Assemblathon yarışlarının dörd genomunda sınaqdan keçirdik və hər birinin bitişikliyində və dəqiqliyində nəzərəçarpacaq təkmilləşmə nümayiş etdirdik. Birləşmə alqoritmlərimizin kritik tərəfi giriş qurğularının qiymətləndirilmə qaydasını təyin etməkdir. Bu sualı həll etmək üçün Assemblathon 1 yarışmasının ən yaxşı beş məclisinin bütün mümkün 120 permütasiyalarının bir araya gəlməsini sistematik olaraq hesabladıq. Alqoritmimiz, təkrarlanan ardıcıllıqların sayı və genomik tənzimləmələr kimi keyfiyyət statistikasını təkmilləşdirərkən və ya qoruyarkən, N50 iskele ölçüsü üçün orta hesabla 4.6 Mb artım əldə etdi. Assemblathon 2 yarışması üçün, mövcud olan üç növün hər biri üçün ən yaxşı altı montajı bir araya gətirdik. Bənzər inkişaflar, ümumi keyfiyyəti qoruyarkən bitişiklik statistikasını (contig və iskele N50 ölçüsü) əhəmiyyətli dərəcədə artıraraq əldə edildi. Bu nəticələr gələcəkdəki bütün genom montaj layihələri üçün yığma alqoritminin cazibədar təbiətini göstərir və BSD lisenziyası altında [17] proqram və sənədləri ictimaiyyətin açıq mənbəyinə təqdim etdik.


Nəticələr

Ticari olaraq mövcud olan exome ələ keçirmə dəstlərinin xüsusiyyətləri

İki exome tutma platforması qiymətləndirildi: NimbleGen SeqCap EZ Exome Library SR [10] və Agilent SureSelect Human All Exon Kit [11]. Bu iki kommersiya platforması, insan ekzonlarının məhlul içərisində təsirli bir şəkildə tutulmasını təmin etmək üçün hazırlanmışdır, əvvəlki nəsil sıra əsaslı hibridizasiya üsulları ilə müqayisədə daha az miqdarda giriş DNT tələb edir və ölçeklenebilir və səmərəli nümunə emal iş axınlarını dəstəkləyir. Hər iki platforma, CCDS-in 2008-ci ilin iyun versiyasına əsaslanaraq, insan hg18 (NCBI36.1) exome-nin yaxşı izahlı və çapraz təsdiqlənmiş ardıcıllığını hədəf almaq üçün hazırlanmışdır [12]. Bununla birlikdə, hər bir dəst üçün istifadə olunan zondlar xüsusi platformaya xas alqoritmlərdən istifadə edilərək hazırlandığından, iki dəst təxminən 27.5 Mb CCDS -in fərqli alt qruplarını hədəf alır. Agilent SureSelect sistemi təxminən 37,6 Mb insan genomunu təşkil edən 165,637 genomik xüsusiyyəti hədəfləmək üçün 120 əsaslı RNT zondlarından istifadə edir, NimbleGen EZ Exome sistemi isə təxminən M2.b genomunu əhatə edən 175,278 genomik xüsusiyyəti hədəfləmək üçün dəyişkən uzunluqlu DNT zondlarından istifadə edir.

Hər dəst təxminən 27.5 Mb CCDS verilənlər bazasının əksəriyyətini hədəf alır: NimbleGen 89.8% və Agilent 98.3%. Bununla birlikdə, hər biri genomun bir qədər fərqli bölgələrini əhatə edir. 37.6 Mb Agilent hədəf bazalarını 26.2 Mb NimbleGen hədəf bazaları ilə müqayisə edərək, Agilent hədəf bazalarının 67.6% -nin NimbleGen hədəflərinə və NimbleGen hədəf bazalarının 97.0% -nin Agilent hədəflərinə daxil olduğunu gördük.

1000 Genom Layihəsi trio pilot nümunələri ilə həll ekzomu ələ keçirin

1000 Genom Layihəsinin [13] yüksək əhatəli üçlüyü pilotunda ardıcıllıqla işlənmiş iki üçlükdən (ana, ata və qızı) altı nümunə istifadə edildi: bir üçlük ABŞ əhalisinin Utah, Avropa əhalisindən (CEU) və Nigeriyadan olan İbadan, Yorubadan bir üçlük (YRI). Cədvəl 1 xüsusi nümunə identifikatorlarını göstərir. Coriell Tibbi Tədqiqatlar İnstitutunun (Camden, NJ, ABŞ) Coriell Hüceyrə Anbarlarında saxlanılan hüceyrə xətlərindən təmizlənmiş genomik DNT əldə etdik və həm NimbleGen, həm də Agilent həll əsaslı ekzom tutma məhsullarından istifadə edərək bir çox ekzom tutma təcrübəsi apardıq. NimbleGen dəstindən istifadə edərək biz CEU trio nümunələrinin hər biri üçün bir müstəqil tutma, YRI ata nümunəsi üçün iki müstəqil tutma və YRI anası və YRI qızı nümunələri üçün dörd müstəqil tutma həyata keçirdik. Agilent dəstindən istifadə edərək YRI ana və YRI qız nümunələri üçün dörd müstəqil tutma həyata keçirdik (Cədvəl 1).

Tutulan hər kitabxana bir Genom Analizatorunun tək zolağında sıralanırdıIIx aləti (Illumina, Inc), cüt dövrəli 76 dövrli kimya istifadə edir. Keçid filtri Illumina ardıcıllığı məlumatları xüsusi hazırlanmış bioinformatika iş axınından istifadə edərək tutma performansı və genetik variantlar üçün təhlil edilmişdir (bax: Materiallar və metodlar). Bu iş axını variantın aşkarlanması üçün aşağı axınında istifadə edilən məlumatların yüksək keyfiyyətli olmasını və anormal xüsusiyyətlərə malik olmadığını təmin etmək üçün ciddi filtrləmə parametrləri tətbiq etdi. Tutma performansını qiymətləndirmək üçün boru kəməri aşağıdakı addımları yerinə yetirdi: (1) yekun kitabxananı yaratmaq üçün istifadə edilən Illumina PCR oliqosuna uyğun gələn verilmiş oxunuşda əsasları süzün (2) Burrows-Wheeler Aligner istifadə edərək oxunuşları insan hg18 istinadına uyğunlaşdırın. (BWA) [14] və yalnız maksimum eşleme keyfiyyəti 60 [15] olan və maksimum 1000 bp -ni əhatə edən və bir -birinə doğru yönəldilmiş oxu cütləri saxlayır (3) eyni genom koordinatlarına uyğun olan təkrar oxunan cütləri çıxarın və (4) platformaya xas zond koordinatlarına uyğun olmayan oxunuşları silin. Son addım, tutma dəstlərinin hədəfləmə qabiliyyətlərinin ciddi şəkildə qiymətləndirilməsinə və müqayisə edilməsinə imkan vermək üçün boru kəmərinə inteqrasiya edildi, çünki ələ keçirmə prosesindən əldə edilən qeyri-spesifik oxunuşlar, tutma təcrübələri arasında ziddiyyətli ola bilər (məlumatlar göstərilmir). Ardıcıllıq məlumatlarımızın əksəriyyətinin hər bir filtrləmə addımından sonra saxlanıldığını nəzərə alsaq, belə nəticəyə gəlirik ki, exome ələ keçirmə məlumatlarımızın əksəriyyəti başlamaq üçün keyfiyyətli olub. Exome ələ keçirmə məlumat analizimizin nəticələrinin tam bioinformatik hesabatı Əlavə fayl 1 -də verilmişdir.

Exome əhatə dairəsi iki həll tutma platforması arasında fərqlənir

Əvvəlcə iki platformanın nəzərdə tutulan hədəfləri ilə əlaqədar ekzom əhatəsini araşdırdıq. Bu hədəflər NimbleGen və Agilent tərəfindən verilən məlumatlar əsasında müəyyən edilib. İki şirkətin hədəflərini təyin etmələri və təmin etmələri baxımından əhəmiyyətli bir fərq var. NimbleGen, probları dizayn edə biləcəyini gözlədikləri bölgələri (exonları) özündə cəmləşdirən 'nəzərdə tutulan hədəf' təmin edir, halbuki Agilent yalnız son zond dizaynına əsaslanaraq 'nəzərdə tutulan hədəfi' təmin edir. "Nəzərdə tutulan hədəf" tərifindəki bu fərq nəzərdə tutulan hədəf ölçülərində əhəmiyyətli fərqə gətirib çıxarır: NimbleGen üçün 26,2 Mb və Agilent üçün 37,6 Mb. Digər tərəfdən, exome problarının əhatə etdiyi genomik məkan iki şirkət arasında daha çox müqayisə edilə bilər ki, bu da ehtimal ki, hibridizasiya probu dizaynındakı müxtəlif metodoloji oxşarlıqlara görədir. NimbleGen zondları 33.9 Mb genomik məkana, Agilent probları isə 37.6 Mb genomik məkana malikdir.

Bu işdə istifadə olunan hər bir ardıcıllıq zolağından əldə edilən ardıcıllıq məlumatlarının miqdarının kifayət qədər ardıcıl olduğunu qeyd etmək vacibdir: hər 5 cüt Gb-ə bərabər olan 76 dövrü zolaq başına 28 ilə 39 milyon arasında keçid filtri qrupu zolaq üzrə ardıcıllıq məlumatları. Aydınlıq üçün, Şəkil 1, 2 və 3-də göstərilən məlumatlar istisna olmaqla, bir vahid xam məlumatı təmsil etmək üçün bir zolaqdan istifadə edirik, burada müxtəlif hədəflərin əhatə dairəsi xam məlumatların miqdarının funksiyası kimi göstərilir. zolaqlar və ya əsaslar baxımından. Bu, bu tədqiqatda istifadə olunan zolaqların çıxışının dəyişkənliyini nümayiş etdirir və interpolasiya yolu ilə fərqli sıralama alətləri və ya fərqli oxu uzunluqlarından istifadə edildikdə lazım olan zolaqların sayını təxmin etməyə imkan verir.

Hedefleme səmərəliliyi və qabiliyyəti, ticari olaraq mövcud olan exome ələ keçirmə dəstləri arasında dəyişdi. (a) NimbleGen və Agilent exome dəstlərinin nəzərdə tutulan hədəfləri müvafiq olaraq 26,227,295 bp və 37,640,396 bp idi. Hər iki ekzome dəsti 1× və ya daha çox dərinlikdə nəzərdə tutulan hədəflərinin eyni dərəcədə yüksək məbləğlərini (təxminən 97%-ə qədər) tutdu, lakin NimbleGen dəsti Agilent dəstindən daha səmərəli şəkildə 20× dərinlikdə hədəf əhatə dairəsinin doymasına nail ola bildi. NimbleGen exome kiti, ekzomanın kifayət qədər əhatəsini təmin etmək və inamlı genotip analizini dəstəkləmək üçün daha az xam məlumat tələb edirdi. (b) Hər iki ekzome dəsti, 27.515.053 bp genomik məkandan ibarət olan CCDS -in 2008 -ci ilin iyun versiyasına əsaslanaraq ekzonları hədəf almaq üçün hazırlanmışdır. Qeyd edək ki, NimbleGen hədəfi CCDS-dən kiçik, Agilent hədəfi isə CCDS-dən daha böyük idi. 1 × dərinlik ardıcıllığının əhatə dairəsinə əsaslanaraq, Agilent exome dəsti NimbleGen ekzome dəstindən daha çox CCDS-ni ələ keçirdi (97% Agilent tərəfindən əhatə olunub və 88% NimbleGen tərəfindən əhatə olunub), lakin NimbleGen dəsti CCDS bölgələrini tutmaqda daha səmərəli idi. tutmaq qabiliyyətinə malik idi.

Kifayət qədər xam məlumatla, bütün genom ardıcıllığı CCDS-nin demək olar ki, tam əhatəsinə nail ola bilər (ekzom tutma dəstlərinin nəzərdə tutulan hədəfi). CCDS -in təxminən 98% -i 1 × və ya daha çox və təxminən 94% -i daha dərin ardıcıllıqla alınan qız nümunələrindən 20 × və ya daha çox əhatə olunmuşdur. CCDS əhatə dairəsinin dərinliyi və xammal ardıcıllığı məlumatlarının daxil edilməsi arasındakı əlaqəni təsvir edən bu planı yaratmaq üçün biz iki fərziyyəyə əsaslanan əhatə modeli tətbiq etdik: CCDS əhatə dairəsinin dərinliyi genomun əhatə dairəsi dərinliyinə uyğun olmalıdır və genom ölçüsü (3 Gb) arzu olunan əhatə dərinliyindən çox olmalıdır. belə dərinliyə nail olmaq üçün lazım olan xam ardıcıllıq məlumatlarının miqdarıdır (giqabazalarda). Yalnız Illumina, yalnız Illumina ardıcıllığı datasındakı hizalama faylları istifadə edilmişdir.

RefSeq ardıcıllığına əsaslanan Exome əhatə dairəsi, exome ələ keçirmə ilə tamamlanmamışdı, lakin bütün genomun yenidən sıralanması ilə demək olar ki, tamamlandı.. (a) CCDS yalnız çox yaxşı izahlı protein kodlaşdırma bölgələrini ehtiva etdiyindən, protein kodlayan ekzonlar, kodlaşdırmayan ekzonlar, 3 'və 5' UTRlər və kodlaşdırmayan RNT-ləri ehtiva edən daha əhatəli RefSeq ardıcıllığının ekzom kit əhatə dairəsini qiymətləndirdik. və 65,545,985 bp genomik məkanı əhatə edir. RefSeq ardıcıllığının ekzom dəstləri tərəfindən əhatə olunması aydın şəkildə natamam idi, RefSeq-in ən çoxu 50%-i 1× və ya daha çox dərinlikdə əhatə olunmuşdur. (b) Bunun əksinə olaraq, RefSeq-in 1000 Genom Layihəsinin üç pilotunun bütün genom məlumatları ilə əhatə olunması demək olar ki, tamamlandı, RefSeq-in təxminən 98%-i 1× və ya daha çox, təxminən 94%-i isə daha dərin ardıcıllıqla 20× və ya daha çox əhatə olundu. qız nümunələri. Bu süjet Şəkil 2-də istifadə olunan formatla eyni formatdan istifadə edir, ətraflı təsvir üçün Şəkil 2-nin başlığına baxın.

Əvvəlcə seçilmiş ardıcıllıq dərinliklərində nəzərdə tutulan hədəf əhatə dairəsini hesabladıq. Hər bir çəkiliş sırasına görə, NimbleGen hədəfi boyunca 61 × 93 × orta dərinlik və Agilent hədəfi boyunca 39 × 53 × orta dərinlik əldə etdik (Şəkil 1a). 1 × əhatə dairəsində ölçüldükdə, NimbleGen platforması nəzərdə tutulan hədəfin 95.76 ilə 97.40% -ni, Agilent platforması isə nəzərdə tutulan hədəfinin 96.47 ilə 96.60% -ni tutdu. 1 × əhatə dairəsi, potensial olaraq hədəfin nə qədər əhatə oluna biləcəyini göstərir və təəccüblü deyil ki, hər platforma üçün nəzərdə tutulan hədəflərin eyni dərəcədə yüksək əhatə dairəsini əldə etmişik. Bununla belə, etibarlı variant aşkarlamasını dəstəkləmək üçün istifadə etdiyimiz metrik olan 20× oxu dərinliyində əhatə dairəsini ölçən zaman iki dəst arasında fərqlər müşahidə etdik. 20× əhatə dairəsində NimbleGen dəsti hədəflərinin 78,68-89,05%-ni əhatə etdi, Agilent dəsti isə daha az yaxşı çıxış etdi və nəzərdə tutulan hədəflərinin 71,47-73,50%-ni əhatə etdi (Şəkil 1a). Xülasə olaraq, bu nəticələr eyni zamanda göstərir ki, çəkilmə nəticəsində oxunuşların paylanması qeyri -bərabər olduğundan, ümumi əhatə dərinliyi metrikasının çəkilmə təcrübələrində demək olar ki, heç bir dəyəri yoxdur.

Əhəmiyyətli olan, iki platformanın təkmilləşdirmə dərəcəsi və sürəti baxımından fərqli performans göstərməsinə baxmayaraq, əlavə ardıcıllıq zolaqları ilə daha yaxşı əhatə dairəsi əldə edildi (Şəkil 1a). Bir çox məlumat zolağından 20 × dərinlikdə olan NimbleGen platforması, bir məlumat zolağı ilə müqayisədə əhatə dairəsində təvazökar bir artım təmin etdi. Bununla belə, Agilent platforması bir çox məlumat zolağından 20 × dərinlikdə əhatə dairəsinin genişliyində daha əhəmiyyətli bir artım göstərdi. Beləliklə, NimbleGen dəsti daha az xam məlumat girişi ilə tutmaqda daha təsirli idi. NimbleGen platforması, iki məlumat zolağı ilə hədəf əhatə dairəsinə çatdı, halbuki Agilent platforması ən az dörd zolağa ehtiyac duydu. Bu, Agilent dəstinin hədəfdə daha az tutma vahidliyini təmin etdiyini göstərir.

Daha sonra hər bir məhsulun CCDS-də qeyd olunan eksonları necə yaxşı hədəf aldığını təhlil etdik. Təxminən 27,5 Mb hg18 CCDS treki, annotasiyaları müxtəlif verilənlər bazaları [12] arasında uyğun gələn zülal kodlayan eksonların yüksək seçilmiş təmsilidir və NimbleGen və Agilent tutma platformaları tərəfindən hədəflənən zülal kodlaşdırma bölgələrinin mənbəyi olmuşdur.

Nümunə başına bir şeritdən NimbleGen platforması 1 × dərinlikdə CCDS hədəfinin 86.58 ilə 88.04% -ni, Agilent platforması isə 1 × dərinlikdə CCDS hədəfinin 95.94 ilə 96.11% -ni əhatə etdi (Şəkil 1b). İki platforma nəzəri hesablamalarımızdan əvvəl təxmin etdiyimiz kimi çıxış etdi (yuxarıya bax). Bunun əksinə olaraq, 20 × dərinlikdə NimbleGen CCDS -in 71.25 ilə 80.54% -ni, Agilent isə 72.06 ilə 73.82% -ni əhatə etdi. Yuxarıda qeyd edildiyi kimi, nümunə başına birdən çox məlumat zolağı ilə, hər iki platforma üçün 20 × -də CCDS əhatə dairəsi yaxşılaşmış, eyni zamanda CCDS əhatə dairəsində 1 × -də cüzi bir artım əldə edilmişdir. Yenə də 20× artımı Agilent üçün əhəmiyyətli dərəcədə böyük idi. Məsələn, dörd zolaqlı məlumatla NimbleGen, hədəfin 85,81 ilə 85,98% -ni 20 × (bir zolaqla 20 × əhatə dairəsindən təxminən 10% çox), Agilent isə 90,16-90,59% (təxminən 20% daha çox) 20 × bir zolaqla əhatə). Bu nəticələr bizim müşahidəmizə uyğundur ki, NimbleGen platforması CCDS regionlarının daha kiçik faizini hədəfləsə də, ələ keçirmək üçün nəzərdə tutulmuş regionları əhəmiyyətli dərəcədə əhatə etməkdə daha səmərəlidir.

Bütün genom ardıcıllığına qarşı məhlul ekzomunun tutulmasından insan ekzomu əhatəsi

Bütün genomun sıralanması halında CCDS -ni eyni dərəcədə əhatə etmək üçün daha böyük bir ardıcıllıq dərinliyinə ehtiyac olacağını nəzərə alaraq, bütün genom sıralaması ilə əldə edilənə ekzom tutma və sıralamanın səmərəliliyini təyin etmək istədik. Bunu həyata keçirmək üçün, 1000 Genom Layihəsi [13] tərəfindən yaradılan və ictimaiyyətə təqdim edilən CEU və YRI üçlüyü nümunələri üçün bütün genom ardıcıllığı məlumatlarından istifadə etdik.

1000 Genom Layihəsi, fərdi nümunələrin əhatə dairəsi arasında əhəmiyyətli dəyişkənlik olmasına baxmayaraq, üçlük pilot nümunələri üçün orta hesabla 41.6 × genom əhatə dairəsi bildirdi. Qız nümunələrinin genomları 63,3 × (CEU qızı) və 65,2 × (YRI qızı), valideynləri isə 26,7 ×, 32,4 ×, 26,4 × və 34,7 × (CEU anası, CEU atası, YRI anası) əhatə olunub. , və YRI atası sırasıyla) [13]. CCDS hədəfi üzərindəki əhatə dairəsinin dərinliyini ölçdükdə, hizalama sənədlərini yüklədikdən və ≥ 30 [15] keyfiyyəti ilə CCDS ardıcıllığına oxunanların oxunması üçün süzgəcdən keçirdikdən sonra altı fərd üçün bir qədər aşağı orta 36.9 × müşahidə etdik.

Nümunələr arasında genom dərinliyinin dəyişkənliyi CCDS əhatə dairəsinin nəticələrini 1 × təsir etməsə də, 20x -də CCDS əhatə dairəsinə böyük təsir göstərdi. Məsələn, YRI anasının CCDS-də orta dərinliyi 16,64 × olduğu halda, CCDS-nin 37,71%-i 20 × səviyyəsində əhatə olunduğu halda, YRI qızı CCDS üzrə orta dərinliyə 65,15 ×, 94,76%-i CCDS-də 20 × əhatə olunmuşdu. Orta dərinlik və 1 × və 20 × ilə əhatə olunan faiz arasındakı əlaqə Şəkil 2 -də açıq şəkildə göstərilmişdir. bu cür əhatə dərinliklərinə nail olmaq üçün lazım olan xam məlumatlar. Ekstrapolyasiya üçün iki fərziyyə etdik. Birincisi, biz güman etdik ki, bütün genom ardıcıllığı ilə CCDS-də müəyyən bir orta dərinlik əldə etmək üçün bütün genomu eyni orta dərinlikdə əhatə etməliyik. İkincisi, 3 Gb uzunluğunda insan genomunun D dərinliyində olması üçün üç dəfə D Gb xam məlumata ehtiyacımız olacağını optimist şəkildə güman etdik (yəni heç bir məlumatın boşa getmədiyini və ya qeyri-spesifik olmadığını düşündük) genom ardıcıllığı). 1000 Genom Layihəsindən yüklədiyimiz xam məlumatları tərtib etmək əvəzinə bu iki fərziyyəni istifadə etməyi seçirik, çünki bu məlumatlar əsasən 36 bazalı keyfiyyətsiz oxunuşlardan ibarətdir. Keçən ildə bizim və digərləri tərəfindən müntəzəm olaraq əldə edilən yüksək keyfiyyətli ardıcıllıq məlumatları istehsal edən daha uzun dövrə (məsələn, 100 və ya daha çox) qoşalaşdırılmış son qaçışlarla, nikbin ikinci fərziyyəmiz yalnız bir qədər pozulur. Şəkil 2-dəki süjetin x oxunun xam məlumatlar baxımından ifadə edilməsi, Şəkil 2-dəki xam məlumat və hədəf əhatə dairəsi arasındakı əlaqəni NimbleGen-dən istifadə etməklə əldə edilən CCDS əhatə dairəsinin miqyasını göstərən Şəkil 1b-dəki süjetlə birbaşa müqayisə edilə bilən edir. və ya Agilent exome ələ keçirmə dəstləri.

20 × genom dərinliyində bütün genom sıralaması, CCDS ilə ekzonların 95% -dən çoxunu əhatə edir (Şəkil 2). Bununla birlikdə, dərindən örtülmüş qızların nəticələri nəzərə alınmaqla təxminən 200 Gb ardıcıllıq tələb olunur. Bu, yalnız təxminən 20 Gb xam ardıcıllıq tələb edən Agilent capture (və ya NimbleGen tərəfindən 85% əhatə) ilə CCDS annotasiyalarına uyğun gələn 20 × və ya daha çox bölgədə təxminən 90% əhatə ilə müqayisədədir (Şəkil 1b). Exome sıralaması üçün istifadə olunan daha yeni sıralama kimyasının bu fərqdən qismən məsul olması mümkündür. Bununla belə, aydın görünür ki, hətta mühafizəkar hesablamalarla belə ekzom ardıcıllığı CCDS annotasiyalarında təmsil olunan hədəf bölgələrin yüksək əhatə dairəsini bütün genom ardıcıllığından 10-20 dəfə səmərəli şəkildə təmin edə bilir və bu CCDS eksonlarının 5-10%-ni itirir. bütün genom ardıcıllığı ilə müqayisə.

CCDS -ə daxil olmayan bölgələri çəkmək və sıralamaq

Təxminən 27.5 Mb hg18 CCDS izi, müxtəlif məlumat bazaları arasında [12] şərhləri uyğun gələn protein kodlayan ekzonların yüksək səviyyədə qurulmuş bir nümayəndəsidir və CCDS izi, NimbleGen və Agilent tutma platformalarının hədəf aldığı zülal kodlaşdırma bölgələrinin mənbəyidir. Yuxarıda təsvir edildiyi kimi, hər iki reaktiv bu ekzonların böyük əksəriyyətini səmərəli şəkildə tutur.

Təxminən 65.5 Mb hg18 RefSeq parçası, eyni zamanda seçilmiş və ehtiyatsız olsa da, protein kodlayan ekzonlar (33.0 Mb), 5 '(4.5 Mb) və 3' (24.1 Mb) daxil olan daha böyük və daha az ciddi şəkildə izah edilmiş gen modelləri toplusudur. ) UTR-lər, həmçinin kodlaşdırmayan RNT-lər (3.9 Mb) [8, 9]. Təəccüblü deyil ki, ekzom tutma reaktivləri CCDS izahatlarına qarşı yönəldildiyindən, təxminən 6 Mb potensial protein kodlaşdırma bölgələrini, həmçinin 5 'və 3' UTR bölgələrini əhatə etməmişdir (Şəkil 3a), nəticədə ən çox təxminən 50% ExSOM dəstləri ilə əhatə olunan RefSeq şərhləri (Əlavə fayl 1). Digər tərəfdən, RefSeq-in 95%-dən çoxu altı trio nümunəsindən hər hansı birindən bütün genom məlumatlarından, RefSeq-in 98%-dən çoxu isə daha dərin ardıcıllıqla seçilmiş qız nümunələrindən hər hansı birinin bütün genom məlumatlarından əhatə olunub. Şəkil 3b Əlavə fayl 1).

Qlobal ekzom səviyyəsinə əlavə olaraq, ayrı -ayrı genlərin əhatə dairəsinə baxdıq. Gen əhatə dairəsinin iki ölçüsünü nəzərdən keçirdik: (1) nəzərdə tutulan hədəfə uyğun olaraq xüsusi bir ekzom dəsti tərəfindən hansı genlər və hər bir genin nə qədər hissəsi (2) genotip adlandıra bildiyimiz hər bir genin əsaslarının nisbəti (hər iki tədbir də RefSeq kodlaşdırma bölgələrinə əsaslanırdı). Təəccüblüdür ki, tibbi cəhətdən əhəmiyyətli bir neçə gen nə NimbleGen, nə də Agilent exome dəstləri tərəfindən birbaşa hədəf alınmamışdır. Bizim üçün xüsusi maraq doğuran iki nümunə idi CACNA1C (gərginliyə bağlı L tipli kalsium kanalı alt birliyi alfa-1C), bipolyar pozğunluq geninin az sayda namizədlərindən biridir və MLL2lösemi ilə əlaqəli olan və histon metiltransferazanı kodlayan. Bu genlərin hədəf alınmamasının səbəbi, heç birinin CCDS şərhlərinə daxil edilməməsidir. Üstəlik, genotip çağırışları üçün kifayət qədər əhatə olunmamış olsa da (məsələn, APOE (apolipoprotein E), TGFB1 (transformasiya edən böyümə faktoru beta 1), AR (androgen reseptoru), NOS3 (endotelial azot oksid sintaza)). Bu, yalnız CCDS izahatlarına əsaslanan ələ keçirmə texnologiyasından istifadənin məhdudiyyətlərinə işarə edir. Biz Əlavə fayl 2-də tam gen əhatə dairəsi hesabatını təqdim edirik. Bu məhdudiyyətlər dərc edilmiş ekzom ardıcıllığı layihələrinin nəticələrini, xüsusən də mənfi nəticələrə baxarkən vacibdir, çünki onlar CCDS annotasiyalarında mövcud olmayan əhəmiyyət eksonu və ya vacib variant kodlaşdırılmamasıdır.

Tutma performansına təsir edən amillər

Bütün genomdan və ya hibrid seçimindən asılı olmayaraq, bütün sonrakı nəsil ardıcıllıq nəticələrinə təsir edən amillərə nümunə keyfiyyəti, oxunma uzunluğu və istinad genomunun təbiəti daxildir. Güclü, xərc və vaxt baxımından effektiv vasitə olsa da, hədəf tutma əlavə xas dəyişənləri daşıyır. In addition to the nature and restrictions of probe design [10, 11], the success of target capture is particularly sensitive to sample library insert length and insert length distribution, the percent of sequence read bases that map to probe or target regions, the uniformity of target region coverage, and the extent of noise between capture data sets. These performance factors directly influence the theoretical coverage one may expect from the capture method and therefore the amount of raw sequence data that would be necessary for providing sufficient coverage of genomic regions of interest.

Our analysis pipeline generates library insert size distribution plots based on alignment results. Since the NimbleGen and Agilent platforms utilized different sizing techniques in their standard sample library preparation workflows, the greatest difference in insert size distribution was observed between libraries prepared for different platforms (Figure 4). The NimbleGen workflow involved a standard agarose gel electrophoresis and excision-based method, whereas the Agilent workflow applied a more relaxed small-fragment exclusion technique involving AMPure XP beads (Beckman Coulter Genomics). Overall, there were tight and uniform insert size distributions for the NimbleGen capture libraries, ranging from 150 to 250 bp and peaking at 200 bp, whereas the insert size distributions for the Agilent libraries were broader, starting from approximately 100 bp and extending beyond 300 bp. Despite producing inserts that are more narrowly distributed, the process of gel-based size selection is more susceptible to variation inherent to the process of preparing electrophoresis gels and manually excising gel slices. The bead-based size selection process provides the benefit of less experiment-to-experiment variation.

Insert size distributions differed between the sample libraries prepared for the NimbleGen and Agilent exome capture kits. Sample libraries were produced independently and were prepared according to the manufacturer's guidelines. The insert size distributions were generated based on properly mapped and paired reads determined by our capture analysis pipeline. The NimbleGen library preparation process involved agarose gel electrophoresis-based size selection, whereas the Agilent process involved a more relaxed, bead-based size selection using AMPure XP (Beckman Coulter Genomics). Bead-based size selection is useful for removing DNA fragments smaller than 100 bp but less effective than gel-based size selection in producing narrow size distributions. Yet, from a technical standpoint, the gel-based process is more susceptible to variability of mean insert size. The two different size selection processes are illustrated by our group of NimbleGen capture libraries and our group of Agilent capture libraries. PDF, probability distribution function.

One of the most important metrics for determining the efficiency of a capture experiment is the proportion of targeted DNA inserts that were specifically hybridized and recovered from the capture. Our analysis pipeline calculates enrichment scores based on the proportion of sequence bases that map specifically to target bases. With the NimbleGen platform 87.20 to 90.27% of read pairs that properly mapped to the genome were also mapped to probe regions, whereas with Agilent this metric was only 69.25 to 71.50%.

The more uniform the coverage across all targets, the less raw data are required to cover every target to a reasonable depth, thereby increasing the sequencing efficiency. The uniformity is represented by the distribution of the depths of coverage across the target. Figure 5 shows the depth distributions obtained with one lane from each exome capture and the average depth distributions obtained from the NimbleGen and Agilent captures. The two average distributions differed significantly, and neither displayed optimal coverage uniformity. A larger portion of the Agilent targets was insufficiently covered, whereas some of the NimbleGen targets were covered at higher depths than necessary.

Uniformity plots of exome capture data revealed fundamental differences in uniformity of target coverage between exome capture platforms. The numbers of platform-specific target bases covered from 0× to 300× depth coverage are plotted for NimbleGen (NM) and Agilent (AG) exome captures. The NimbleGen exome data were more efficient at covering the majority of intended target bases, but the corresponding uniformity plots from these data revealed that there was also some over-sequencing of these positions, which thus broadened the coverage distribution for the NimbleGen targets. The Agilent exome data, however, showed significantly more target bases with no coverage or very poor coverage compared to the NimbleGen data, thus indicating that the Agilent data provided less uniform target coverage than the NimbleGen data. The lower uniformity of coverage produced from the Agilent captures results in the need to provide more raw sequence data in order to generate adequate coverage of targets. The Agilent platform was thus less efficient at target capture than the NimbleGen platform.

Examining the results from multiple exome captures from the same source material allowed us to investigate experiment-to-experiment variation in the depth of coverage (Figure 6). Comparing the depth of target base coverage from a single replicate capture against any other replicate capture from the same individual, there was significant concordance for both the NimbleGen and Agilent exome platforms. Of note, inconsistencies were found between the NimbleGen captures, for which it appeared that captures performed with one lot of the exome kit produced slightly poorer correlations when compared to captures performed with a different lot. Although the use of different NimbleGen exome kit lots was not intentional, these results emphasize the necessity to consider potential differences between different probe lots if a given capture project will require the use of multiple lots for integrated analyses. All Agilent captures were performed with a single kit lot. Given the additional sample processing steps required for the hybrid capture workflow relative to whole genome resequencing, the consistency of the necessary reagents and procedures is an important factor that should be carefully monitored in order to minimize potential experimental artifacts.

Depth correlation plots prepared from exome capture data revealed that artificial background noise arising from the use of target capture kits might be problematic. (a) Correlations of target base coverage depth between four independent NimbleGen captures with the daughter sample from the YRI trio (YRI-D-NM). Two different lots of NimbleGen exome probe libraries were used for this analysis, and correlation anomalies were only observed when comparing data between the two lots. YRI-D-NM-LN1 was captured with one lot and YRI-D-NM-LN2, YRI-D-NM-LN3, and YRI-D-NM-LN4 were captured with the other. (b) Correlations of target base coverage depth between four independent Agilent captures with the daughter sample from the YRI trio (YRI-D-AG). Only one lot of Agilent exome probe library was used for this analysis, and data between different captures consistently correlated well. AG, Agilent exome D, YRI daughter LN, lane NM, NimbleGen exome r, correlation coefficient.

Genotyping sensitivity and accuracy of exome capture

It was previously reported that various genome capture methods, including array capture and solution capture, are capable of producing genotype data with high accuracies and low error rates [16]. These performance metrics are clearly important for properly evaluating targeted resequencing methods, which carry the caveat of generally requiring more sample handling and manipulation than whole genome resequencing. In addition, if the downstream goal of targeted resequencing is to identify sequence variants, one must consider the efficiency of exome capture for genotyping sensitivity and accuracy. Therefore, in addition to investigating the extent of the human exome that can be effectively captured in the context of exome coverage attained by whole genome sequencing, we further analyzed exome capture sequence data for these two parameters. We used the genotype caller implemented in the SAMtools package [17], and considered a genotype at a given position to be confidently called if the Mapping and Assembly with Quality (Maq) consensus genotype call [15] was ≥ 50 (10 -5 probability of being an incorrect genotype). Table 2 lists the percentage of the CCDS target for which genotypes were confidently called, and further describes the different types of variants that were called. There were more variants observed in the YRI sample than in the CEU sample, which is consistent with prior findings [18]. From this analysis it is also apparent that more data (for example, more sequencing lanes) leads to improved coverage and thus the ability to assign genotypes over a larger proportion of the region of interest. This trend is more pronounced with the Agilent exome data, which we believe to be due to factors that influence capture performance (see above). With NimbleGen exome captures, one lane of data provided enough coverage to support the assignment of genotypes to 85% of the CCDS target, and the data from four lanes provided a minor increase to 87%. With Agilent exome captures, the increase in coverage per amount of data was substantially larger: 86% of CCDS genotyped with one lane of data and 94% of CCDS genotyped with four lanes of data. While the Agilent kit provides the potential benefit of almost 10% more CCDS coverage for genotyping, it is important to note that this comes with the cost of requiring significantly more sequence data.

To support our genotyping analyses and to examine the accuracy of our single nucleotide variant (SNV) calls, 'gold standard' genotype reference sets were prepared for each of the six CEU and YRI trio individuals based on the SNPs identified by the International HapMap Project (HapMap gold standard) and based on the genotype calls we independently produced, with parameters consistent with those used for our exome data, using the aligned sequence data from the trio pilot of 1000 Genomes Project (1000 Genomes Project gold standard).

Our HapMap gold standard is based on HapMap 3 [18], which we filtered for genotyped positions that are included in the CCDS. Approximately 43,000 CCDS-specific positions were genotyped in HapMap 3 for every individual. Of these, almost a quarter (11,000 positions) were variants and roughly two-thirds (6,700 positions) of these variants were heterozygous calls (Table 3). The HapMap project focuses on highly polymorphic positions by design, whereas the exome capture and resequencing method evaluated in this study aims to describe genotypes for all exonic positions, whether polymorphic, rare, or fixed, with the polymorphic genotypes being only a minority compared to genotypes that match the human reference. Thus, in order to have a more comprehensive gold standard, we used the whole genome sequence data generated from the two sets of trio samples by the 1000 Genomes Project, and collected all of the base positions that we were able to genotype with high confidence (minimum consensus quality of 100). As discussed above, the depth of whole genome coverage for the six trio samples varied substantially, from 20× to 60×. These differences in genome depth influenced the number of gold standard positions we were able to generate for each of the different samples. For example, the data from the mother of the YRI trio provided only 2.3 million confidently genotyped positions, while the data from the daughter of the YRI trio provided 25.8 million confidently genotyped positions. Only a small subset of the 1000 Genome Project standard positions had a genotype that was not homozygous for the allele in the reference genome (Table 2).

We first assessed the accuracy of our CCDS genotype calls based on our exome capture data, which is a measure of whether our genotype calls (variant or reference) are consistent with a given gold standard. We found that we attained accuracies greater than 99% for each individual based on both types of our gold standards (Figure 7a, b). It is notable, however, that our accuracies were more than two orders of magnitude greater when we used the 1000 Genome Project gold standard (> 99.9965%) than when we used the HapMap gold standard (> 99.35%). We believe that this is due to variant genotypes being informatically harder to call with high confidence than reference genotypes, and that this is directly reflected by the variant-focused nature of our HapMap gold standard. Additionally, the 1000 Genomes Project sequence data that we used to generate our sequencing gold standard were obtained through next-generation sequencing, which is more consistent with our exome capture data than the data from the SNP arrays used for genotyping in the HapMap project.

Assessments of the genotyping performance of exome capture and resequencing over the CCDS target. Exome capture sequence data were analyzed using our capture analysis pipeline (see Materials and methods Figure 8), and genotype calls with consensus quality of at least 50 were used to determine the utility of solution exome capture for proper genotyping. These tests were performed with genotype gold standards prepared from the HapMap 3 panel and the trio pilot of 1000 Genomes Project (1000GP) for the two CEU and YRI trios used for this study (Table 3). In all panels, the color of the symbols designates the platform used, with green representing the NimbleGen platform (NM) and red representing the Agilent platform (AG). The label associated with the symbol identifies the sample using a two-letter code: the first letter identifies the trio (y for YRI and c for CEU) and the second letter identifies the family member (m for mother, f for father, and d for daughter). The shape of the symbols specifies the number of lanes of data used (rectangle for one lane, circle for two lanes, diamond for three lanes, and triangle for four lanes). (a, b) The y-axes show the percentage of the HapMap (a) and 1000 Genomes Project (b) gold standard positions that were successfully genotyped with a minimum consensus of 50 the x-axes show the percent of the called genotypes that disagree with the given gold standard genotypes. (c, d) Plots of sensitivity versus false discovery rates for the task of identifying variants: HapMap (c) 1000 Genomes Project (d). Sensitivity is defined as the percentage of positions with a variant genotype in the gold standard that have been called as variants from the exome capture data. The false discovery rate is defined as the percentage of variant calls from the exome capture data over the gold standard positions that do not have a variant genotype in the gold standard. (e, f) Plots of sensitivity versus false discovery rates for the task of identifying heterozygous variants: HapMap (e) 1000 Genomes Project (f).

We also tested the ability of our pipeline to identify positions with genotypes that differed (homozygous or heterozygous variation) from the human genome reference, and to specifically identify positions with heterozygous genotypes. For our analyses, we focused on the sensitivity of our method (the proportion of gold standard variants that were correctly called a variant from the captured data), and the false discovery rate of our method (the proportion of our variant calls at gold standard positions that were not in the list of variants within the gold standards). For both tests, we used the SNV calls generated from our exome captures and qualified them against both our HapMap and our 1000 Genomes Project gold standards (Figure 7c-f). For both our capture genotype calls and the two sets of gold standards we used, there is the possibility of missing one of the alleles of a heterozygous genotype and making an incorrect homozygous call (due to spurious or randomly biased coverage of one allele over the other), thus making the detection of heterozygous genotypes more challenging. Consistent with this challenge, we observed a larger proportion of false discoveries for heterozygous variants with respect to both gold standards. For example, up to 1.5% of our heterozygous calls were not in agreement with our HapMap gold standards. Consistent with our findings regarding the genotyping accuracy of our method, our error rates associated with correct variant identification were lower based on our 1000 Genome Project gold standards. On the other hand, we observed no differences in the genotyping sensitivity of our method based on the two types of gold standards. However, as reflected in our coverage results, we observed that the genotyping sensitivity associated with our Agilent exome captures improved with increasing amounts of sequence data. This was not necessarily the case for our NimbleGen exome captures since the coverage generated by these captures was less dependent on the data generated from multiple lanes of data. The high accuracy and high sensitivity of our exome captures are consistent with what was reported by Teer və s. [16], and support the utility of exome capture and resequencing when the entire genomic region of interest is adequately covered by the capture method.


Multiple whole-genome alignments without a reference organism

Multiple sequence alignments have become one of the most commonly used resources in genomics research. Most algorithms for multiple alignment of whole genomes rely either on a reference genome, against which all of the other sequences are laid out, or require a one-to-one mapping between the nucleotides of the genomes, preventing the alignment of recently duplicated regions. Both approaches have drawbacks for whole-genome comparisons. In this paper we present a novel symmetric alignment algorithm. The resulting alignments not only represent all of the genomes equally well, but also include all relevant duplications that occurred since the divergence from the last common ancestor. Our algorithm, implemented as a part of the VISTA Genome Pipeline (VGP), was used to align seven vertebrate and six Drosophila genomes. The resulting whole-genome alignments demonstrate a higher sensitivity and specificity than the pairwise alignments previously available through the VGP and have higher exon alignment accuracy than comparable public whole-genome alignments. Of the multiple alignment methods tested, ours performed the best at aligning genes from multigene families-perhaps the most challenging test for whole-genome alignments. Our whole-genome multiple alignments are available through the VISTA Browser at http://genome.lbl.gov/vista/index.shtml.

Rəqəmlər

Overview of the Shuffle-LAGAN algorithm.…

Overview of the Shuffle-LAGAN algorithm. S-LAGAN first locates all local areas of similarity…

SuperMap Algorithm. The sol side…

SuperMap Algorithm. The sol side (I) is a dotplot demonstrating the local alignments…

A schematic representation of the…

A schematic representation of the reconstruction of ancestral orderings. ( A ) The…

Exon alignment accuracy for vertebrate…

Exon alignment accuracy for vertebrate ( A–D ) və Drosophila ( E. ,…


3 CONCLUSIONS

Due to the size of multiple species whole genome alignments, searching through the entirety of their contents to locate desired blocks is not practical this has led to the utilization of a compression-capable indexing implementation that is a variation of the positional binning approach (Kent və s., 2002 Miller və s., 2007) stored on disk. The indexes for MAFs appearing in a user's history are generated during history item creation when an index is not available, the command-line tools will create temporary index files on the fly. For larger locally cached alignments, the source MAF files are compressed and an associated lookup table is created to allow the interoperability of the indexes with the compressed data.

It is worth mentioning that each of the alignment sets locally cached by the public Galaxy server are actually composed of several individual MAF files. These files tend to be split by and named for the chromosomes of the reference (projected) genome of the alignment. For example, the 28-way alignment is divided according to the human chromosome found within each alignment block. This results in 49 individual compressed MAF files, indexes and lookup tables this number is larger than the number of human chromosomes due to the ‘random’ chromosomal regions, several chromosomal haplotypes and the mitochondrial genome. It is not required that MAF sets be divided in this (or any) fashion, as the indices indicate which blocks are found in a particular MAF file, but this is a common release practice of the research groups creating the alignments and can allow greater flexibility with hardware and system concerns.

While all of the tools are designed to work directly out-of-the-box for personal Galaxy installations, additional steps are required to provide a collection of pre-cached source alignments to the extraction tools. These steps include obtaining source alignments, generating indexes and compressing the source MAF files (when desired) the steps required to perform these actions are outlined at the Galaxy wiki, with direct links provided in the Supplementary Material. Setting up these locally cached alignment sources is not required, as users are able to directly upload and use their own alignment files in any of the tools.

The tools described here are implemented in Python, allowing seamless cross-platform compatibility, and utilize the bx-python package (https://bitbucket.org/james_taylor/bx-python/). The GUI version of this toolset has been made available through the public Galaxy server (http://usegalaxy.org) allowing users to access not only the tools detailed above, but also additional genome analysis tools and data sources, all within one unified interface. The command-line tools and the graphical configuration files are distributed as part of the standard Galaxy distribution (http://getgalaxy.org). These tools and the entire Galaxy framework are released as open-source under the academic free license𠅊llowing developers to modify and redistribute the applications with few restrictions.


Copy Number Variant Detection Using Next-Generation Sequencing

Alex Nord , . Colin Pritchard , in Clinical Genomics , 2015

Bütün genom ardıcıllığı

Whole genome sequencing using NGS is anticipated to revolutionize clinical care, yet the general promise of whole genome sequencing is far from being fulfilled. While sequencing cost is still prohibitive for general clinical application, it continues to drop rapidly and so the larger barrier to clinical utility is now the difficulty interpreting whole genome variation data in the context of the high number of rare variants and the lack of CNV annotation for noncoding sequence. Already, exome sequencing may uncover large numbers of candidate variants, and verification can require customized functional testing [37,38] . Nonetheless, several major initiatives are underway to generate whole genome sequence data on a population level [39] and for larger patient populations. In the near term, whole genome sequencing will likely by applied when the proportional average cost of medical treatment is significantly more expensive than that of whole genome sequencing, and when molecular diagnosis by whole genome sequencing may lead to directly actionable information, such as implicating genetic disorders or informing cancer treatment. Emerging sequencing technologies are likely to play a significant role in changing this balance, with the potential for longer sequencing reads, lower costs, and single molecule sequencing expanding the potential applications of whole genome sequencing clinically [40] .

With regard to CNV detection, whole genome shotgun sequence data has several advantages compared with targeted NGS data. While overall coverage is typically far lower for whole genome data, as is necessary to cover a far larger sequence space while keeping sequencing costs economical, a combination of depth of coverage, direct sequence evidence, and mate pair sequencing strategies can be used to identify not only CNVs but also all classes of structural variation. In contrast to targeted or exome sequencing, whole genome sequencing has no comparable existing clinical technology: while aCGH can detect CNVs spanning the entire genome, it is restricted in resolution, and will fail to identify other forms of structural variation.


Təşəkkürlər

The development of early versions of MUMmer, particularly MUMmer3, was supported in part by NSF under grants IIS-9902923 (S. Salzberg) and IIS-9820497 (A. Delcher), and by NIH under grants R01-LM06845 to Steven Salzberg. MUMmer 1.0 and 2.0 were developed by Art Delcher, Steven Salzberg and colleagues (see the papers for other authors). MUMmer3.0 was a joint development effort by Stefan Kurtz of the University of Hamburg, Adam Phillippy, Art Delcher and Steven Salzberg, who were all at TIGR until 2005.
MUMmer4 is currently supported in part by NIH under grant R01-GM083873 to Steven Salzberg.


Methy-Pipe: an integrated bioinformatics pipeline for whole genome bisulfite sequencing data analysis

DNA methylation, one of the most important epigenetic modifications, plays a crucial role in various biological processes. The level of DNA methylation can be measured using whole-genome bisulfite sequencing at single base resolution. However, until now, there is a paucity of publicly available software for carrying out integrated methylation data analysis. In this study, we implemented Methy-Pipe, which not only fulfills the core data analysis requirements (e.g. sequence alignment, differential methylation analysis, etc.) but also provides useful tools for methylation data annotation and visualization. Specifically, it uses Burrow-Wheeler Transform (BWT) algorithm to directly align bisulfite sequencing reads to a reference genome and implements a novel sliding window based approach with statistical methods for the identification of differentially methylated regions (DMRs). The capability of processing data parallelly allows it to outperform a number of other bisulfite alignment software packages. To demonstrate its utility and performance, we applied it to both real and simulated bisulfite sequencing datasets. The results indicate that Methy-Pipe can accurately estimate methylation densities, identify DMRs and provide a variety of utility programs for downstream methylation data analysis. In summary, Methy-Pipe is a useful pipeline that can process whole genome bisulfite sequencing data in an efficient, accurate, and user-friendly manner. Software and test dataset are available at http://sunlab.lihs.cuhk.edu.hk/methy-pipe/.

Maraqların toqquşması bəyanatı

Competing Interests: Peiyong Jiang, Fiona M.F. Lun, K.C. Allen Chan, Rossa W.K. Chiu and Y.M. Dennis Lo have filed a United States patent application 13/842,209 “Noninvasive determination of methylome of fetus or tumor from plasma”. Y.M. Dennis Lo and Rossa W.K. Chiu are consultants to, receive research support from, and hold equities in Sequenom. This does not alter the authors’ adherence to all the PLoS ONE policies on sharing data and materials.

Rəqəmlər

Figure 1. Schematic overview of MethyC-seq protocol…

Figure 1. Schematic overview of MethyC-seq protocol and Methy-Pipe workflow.

(A) The workflow of MethyC-seq…

Figure 2. Principle of bisulfite sequencing read…

Figure 2. Principle of bisulfite sequencing read alignment by BSAligner.

Firstly, the low-quality bases and…

Figure 3. Principle of DMR detection by…

Figure 3. Principle of DMR detection by BSAnalyzer.

(A) Firstly, starting from one end of…

Figure 4. Performance evaluation of Methy-Pipe.

Figure 4. Performance evaluation of Methy-Pipe.

(A) A total of 1 million reads (75 bases)…

Figure 5. Summary of Methy-Pipe results from…

Figure 5. Summary of Methy-Pipe results from BSAnalyzer module.

Figure 6. Methylation profiling for different genomic…

Figure 6. Methylation profiling for different genomic regions.

BC: Buffy coat PLN: Placenta.

Figure 7. Performance evaluation of Methy-Pipe DMR…

Figure 7. Performance evaluation of Methy-Pipe DMR identification algorithm using methylation data from Infinium HumanMethylation450…


Materiallar və metodlar

Software and configurations

Mugsy [36] v1.23 and Mauve Aligner [31],[33] v2.3.1 were run using default parameters on assembled sequences. mauveAligner was selected instead of progressiveMauve due to improved performance on the simulated E. coli datasets, which do not contain subset relationships. kSNP v2.0 [66] was run with a k-mer size of 25 on both the raw read data and the assemblies the assemblies were merged with Ns using the provided merge_fasta_contigs.pl utility. Raw MAF/XMFA/VCF output was parsed to recover SNPs and build MultiFASTA files.

Smalt version 0.7.5 was run with default parameters for paired reads, mirroring the pipeline used in several recent SNP typing studies [90],[109]–[111]. Samtools view was used to filter for alignments with mapping qualities greater than or equal to 30. Variants were called by piping samtools mpileup output into bcftools view with the -v (variants only), -g (genotype) and -I (skip Indels) flags. Variants were then filtered with VCFUtils varFilter with the -d (minimum read depth) parameter set to 3. Variants for all samples of each set were called concomitantly by providing samtools mpileup with all BAM files.

BWA [52] was run in its standard paired-end alignment mode with default parameters, using aln to align each set of ends and sampe to produce a combined SAM file. Samtools view was used to filter for alignments with mapping qualities greater than or equal to 30. Variants were called by piping samtools mpileup output into bcftools view with the -v (variants only), -g (genotype) and -I (skip Indels) flags. Variants were then filtered with VCFUtils varFilter with the -d (minimum read depth) parameter set to 3. As with Smalt, variants for all samples of each set were called concomitantly by providing samtools mpileup with all BAM files.

FastTree v2 [88] was used to reconstruct phylogenies using default parameters.

E. coliK-12 W3110 simulated dataset

The complete genome of E. coli K-12 W3110 [112], was downloaded from RefSeq (AC_000091). This genome was used as the ancestral genome and evolution was simulated along a balanced tree for three evolutionary rates using the Seq-Gen package [113] with parameters mHKY -t4.0 -l4646332 -n1 -k1 and providing the corresponding binary tree evolved at three evolutionary rates: 0.00001, 0.0001, and 0.001 SNPs per site, per branch. This corresponds to a minimum percent identity of approximately 99%, 99.9%, and 99.99% between the two most divergent genomes, respectively, reflecting the variation seen in typical outbreak analyses. No small (<5 bp) or large Indels were introduced, but an average of 10 1 Kbp rearrangements (inversions and translocations) were added, per genome, using a custom script [114]. Paired reads were simulated to model current MiSeq lengths (2 × 150 bp) and error rates (1%). Moderate coverage, two million PE reads (64X coverage), was simulated for each of the 32 samples using wgsim (default parameters, no Indels), from samtools package version 0.1.17 [55].

Two of the simulated read sets were independently run through iMetAMOS [93] to automatically determine the best assembler. The consensus pick across both datasets was SPAdes version 3.0 [81], which was subsequently run on the remaining 30 simulated read sets using default parameters. The final contigs and scaffolds files were used as input to the genome alignment methods. For mapping methods, the raw simulated reads were used. For accuracy comparisons, Indels were ignored and called SNPs were required to be unambiguously aligned across all 32 genomes (that is, not part of a subset relationship SNPs present but part of a subset relationship were ignored).

S. sətəlcəmdataset

A full listing of accession numbers for the 31-genome S. sətəlcəm dataset is described in [36]. For scalability testing, Streptococcus sətəlcəm TIGR4 (NC_003028.3) was used to create a pseudo-outbreak clade involving 10,000 genomes evolved along a star phylogeny with on average 10 SNPs per genome.

M. vərəmdataset

We downloaded and assembled sequencing data from a recently published study of M. vərəm [98]. A total of 225 runs corresponding to project ERP001731 were downloaded from NCBI SRA and assembled using the iMetAMOS ensemble of SPAdes, MaSuRCA, and Velvet. The iMetAMOS assembly for each sample can be replicated with the following commands, which will automatically download the data for RUN_ID directly from SRA:

> initPipeline -d asmTB -W iMetAMOS -m RUN_ID -i 200:800

> runPipeline -d asmTB -a spades,masurca,velvet -p 16

The M. vərəm dataset included a mix of single and paired-end runs with a sequence length in the range of 51 to 108 bp. The average k-mer size selected for unpaired data was 26, resulting in an average of 660 contigs and an N50 size of 17 Kbp. For paired-end data, the average selected k-mer was 35, resulting in an average of 333 contigs and an N50 size of 43 Kbp. Assemblies containing more than 2,000 contigs, or 1.5X larger/smaller than the reference genome, were removed. The final dataset was reduced to 171 genomes, limited to labeled strains that could be confidently matched to the strains used in the Comas və s. study for SNP and phylogenetic comparison.

P. difficiledataset

Qeyd, Clostridium difficile was recently renamed to Peptoclostridium difficile [115]. We downloaded and assembled sequencing data from a recently published study of P. difficile [92]. A total of 825 runs corresponding to project ERP003850 were downloaded from NCBI SRA [86] and assembled within iMetAMOS this time only using SPAdes, which was identified as the best performer on the M. vərəm verilənlər bazası. The iMetAMOS assembly for each sample can be replicated with the following commands, which will download the data for RUN_ID directly from SRA:

> initPipeline -d asmPD -W iMetAMOS -m RUN_ID -i 200:800

> runPipeline -d asmPD -a spades -p 16

The P. difficile dataset included paired-end runs with a sequence length in the range of 51 to 100 bp. SPAdes was selected as the assembler and run with k-mer sizes of 21, 33, 55, and 77. The assemblies had an average of 660 contigs and an N50 size of 138 Kbp. Assemblies containing more than 2,000 contigs, or 1.5X larger/smaller than the reference genome, were removed.


Videoya baxın: Dünyanın ilk TASARLANMIŞ BEBEKLERİ doğdu! (Sentyabr 2022).


Şərhlər:

  1. Nechemya

    Fikrinizi bəyənirəm. Ümumi müzakirəyə çıxarmağı təklif edirəm.

  2. Javin

    Bu maraqlıdır. Prompt, where to me to learn more about it?

  3. Athdar

    Səni xatırlamağı unutdum.

  4. Arabei

    Təsdiq edirəm. Yuxarıda göstərilənlərin hamısı ilə razıyam. Bu mövzu haqqında danışa bilərik.



Mesaj yazmaq