Məlumat

GWAS tədqiqatlarından SNP-in-gen assosiasiyalarının şərh edilməsi

GWAS tədqiqatlarından SNP-in-gen assosiasiyalarının şərh edilməsi


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

GWAS tədqiqatlarında müəyyən edilmiş əksər SNP-lər üçün, əgər o, həqiqətən də bir fenotiplə əlaqəlidirsə (və zülal funksiyasına təsir etdiyinə görə onunla əlaqəli olduğunu fərz edək), bunun üçün bu genin iki sökülmüş nüsxəsinə ehtiyacınız olmadığına dair əsas fərziyyədir. fərd üçün həssaslıq riski verirmi?

Başqa sözlə, mənim GWAS-ın bir nüsxədə risk verən allelləri aşkar etməsi ilə bağlı fərziyyəm doğrudurmu?


Bir sözlə, bəli.

Əgər gwas tədqiqatı SNP-ni müəyyən bir fenotiplə əlaqələndirirsə, bəli, bu, tək bir nüsxənin təsiridir. Ancaq unutmayın ki, SNP nokaut və ya hətta nokaut deyil. O bacarmaq ola bilər, lakin həmişə belə olmur. SNP-lər zülal ardıcıllığında və ya bu proteinin istehsalının tənzimlənməsində dəyişiklik yarada bilər. Hər iki variasiya növü fenotipik dəyişikliklə nəticələnə bilər.

Hər halda, SNP məlumatı həmişə bir allel haqqındadır, mən təsəvvür edirəm ki, bir hüceyrənin müəyyən bir SNP üçün homozigot olduğu, lakin mütləq olmadığı və ya bildiyim qədər tez-tez olmadığı halları tapa bilərsiniz.


İnsan kəmiyyət xüsusiyyətləri üçün GWAS tapıntılarının populyasiya genetik təfsiri

İnsan genomu üzrə assosiasiya tədqiqatları (GWASs) antropomorfik və biotibbi əlamətlərin genetik arxitekturasını, yəni əlamətdə irsi dəyişkənliyə kömək edən variantların tezliklərini və təsir ölçülərini aşkar edir. Bu tapıntıları şərh etmək üçün genetik arxitekturanın əsas populyasiya genetik prosesləri, xüsusən mutasiya, təbii seçim və genetik sürüşmə ilə necə formalaşdığını başa düşməliyik. Bir çox kəmiyyət xüsusiyyətləri stabilləşdirici seçimə məruz qaldığından və bir əlamətə təsir edən genetik variasiya çox vaxt bir çox başqalarına təsir etdiyi üçün biz çoxölçülü əlamət məkanında stabilləşdirici seçim zamanı yaranan fokus əlamətin genetik arxitekturasını modelləşdiririk. Biz sabit vəziyyətdə fenotipik paylanma və allel dinamika modelini həll edirik və genetik arxitekturanın ümumi statistikası üçün möhkəm, qapalı formada həllər əldə edirik. Nəticələrimiz çatışmayan irsiyyətin sadə şərhini və onun xüsusiyyətlər arasında niyə dəyişdiyini təmin edir. Onlar proqnozlaşdırırlar ki, GWAS-larda müəyyən edilmiş lokusların yaratdığı dispersiyaların paylanması bir parametrdən asılı olan sadə funksional forma ilə yaxşı təxmin edilir: əlamətə təsir edən güclü seçilmiş sahənin genetik variasiyasına gözlənilən töhfə. Biz bu proqnozu boy və bədən kütləsi indeksi (BMI) üçün GWAS nəticələrinə qarşı sınaqdan keçiririk və onun məlumatlara yaxşı uyğun gəldiyini aşkar edirik, bu da bizə bu əlamətlər üçün pleiotropiya dərəcəsi və mutasiya hədəf ölçüsü haqqında nəticə çıxarmağa imkan verir. Nəticələrimiz boy üçün GWAS-ın BMI üçün oxşar ölçülü GWAS-dan daha çox irsi variasiyanı izah etməyə və tədqiqat nümunəsinin ölçüsü ilə izah edilən irsiyyət artımını proqnozlaşdırmağa kömək edir. Bu GWAS-ların həyata keçirildiyi Avropa populyasiyalarının demoqrafik tarixini nəzərə alaraq, biz daha sonra aşkar edirik ki, onların müəyyən etdiyi birliklərin əksəriyyəti, ehtimal ki, Afrikadankənar darboğazdan qısa müddət əvvəl və ya ətrafdakı seçim əmsalları olan ərazilərdə yaranan mutasiyaları əhatə edir. s = 10 −3 .


Psixiatrik pozğunluqların insan genetikasında vədlər və problemlər

Psixiatrik pozğunluqlar yüksək poligenikdir və həm ətraf mühit, həm də genetik faktorların təsiri altında davamlı dəyişkənlik göstərir [1]. Psixiatrik genetik tədqiqatın əsas məqsədi genetik variantların bu xüsusiyyətlərə görə məsuliyyətə təsir etmək üçün hərəkət etdiyi molekulyar mexanizmləri daha yaxşı başa düşməkdir. Yeni genetik variantların identifikasiyası psixiatrik xüsusiyyətlərin əsasını təşkil edən mürəkkəb genetik arxitekturaya əsas verir. Model orqanizmlər genetik dəyişkənliyin təsir etdiyi bioloji mexanizmləri başa düşmək üçün bir yol təqdim edir. Bu icmalda biz sonrakı eksperimental təqib və terapevtik kəşflər üçün bioloji cəhətdən mənalı yolların aşkar edilməsi ehtimalını artırmaq üçün digər növlərdən gələn çoxlu konvergent genomik məlumatı səmərəli şəkildə insan genetik tapıntılarına birləşdirən böyük məlumat yanaşmalarını təsvir edirik.

Psixiatriyada genom geniş assosiasiya tədqiqatlarının (GWAS) faydası

Psixiatrik xüsusiyyətlərin GWAS risk variantının identifikasiyası və poligenik proqnozlaşdırılmasında son kəşflərin çoxalmasına səbəb oldu. Şizofreniya kimi yüksək irsi əlamətlərdən (bunlar üçün N =�,064 [2]) problemli spirt istifadəsi kimi ümumi, lakin daha az irsi şərtlərə (bunlar üçün 29 müstəqil lokusun N =�,563 [3]) və əsas depressiya (bunun üçün 102 ümumi lokus aşkar edilmişdir. N =�,553 [4]), həmçinin psixiatrik pozğunluqlar üzrə məsuliyyətə görə (109 yer N =�,126 [5]) tərəqqi çoxdur. Bundan əlavə, maddə istifadəsi üçün, tütün çəkmənin son böyük GWAS (N siqaret çəkməyə başlamaq üçün =𠂑,232,091) və tipik içki (N içkilər üçün/həftə =�,280) 400-dən çox lokus müəyyən etmişdir [6]. Birgə tədqiqat nəticəsində yaranan əsas psixiatrik pozğunluqların tədqiqatlarında toplanan artan güc, ruhi xəstəliklərə və maddə istifadəsi pozğunluqlarına qarşı həssaslığın yeni mexanizmlərinə dair ipuçlarını ortaya qoydu. Bu geniş miqyaslı GWAS həm də çoxsaylı pozğunluqlarla əlaqəli genetik variasiya nümunələrini, habelə pozğunluğa xüsusi lokusları, məsələn, CADM2 bir çox maddələr və ümumi asılılıq mexanizmləri (məsələn, risk alma idrakı) ilə əlaqələndirilir, spirt dehidrogenaz genləri isə spirtə xas olaraq qalır (məsələn, [7, 8]).

Psixiatrik genetik tədqiqatlar üçün GWAS daxilində çətinliklər və imkanlar

Yuxarıda göstərilən psixiatrik genetik tədqiqatlardakı son nailiyyətlər GWAS daxilində bir sıra davamlı problemlərin həllinə ehtiyacı artırır. Birincisi, bir variant səviyyəsində, GWAS-ın əsas hissəsi genomun kodlaşdırılmayan bölgələrinə düşür. Psixiatrik pozğunluqların bioloji əsaslarını aşkar etmək vasitəsi kimi GWAS-ın əsas üstünlüyü ondan ibarətdir ki, a priori, gen mərkəzli fərziyyələr gücləndirici və promotor bölgələrdə, lncRNA-larda, mikroRNA-larda və gen tənzimləmə mexanizminin bir hissəsi olan hər hansı digər molekulyar varlıqda əlamətin tənzimləyici variantlarını aşkar etməyə imkan verir. Bununla belə, kodlaşdıran genlər daxilindəki variantlardan fərqli olaraq, statistik əhəmiyyətli genetik assosiasiyaları onların hərəkət etdiyi gen məhsulları və bioloji mexanizmlərlə əlaqələndirmək daha çətindir [9]. Əhəmiyyətli GWAS tapıntılarının şərhləri əlaqəli irsiyyət nümunələri (məsələn, əlaqənin tarazlığı) ilə çətinləşir, belə ki, lokusda ən güclü əlaqəli genetik variant “kausal” olmaya bilər, lakin əsl səbəbli variantı “təq” edə bilər. Bu, uzaq məsafəli genomik tənzimləmə ilə birlikdə, GWAS [10] vasitəsilə insan xüsusiyyətlərinin altında yatan spesifik genlərin və variantların açılmasında çətinliklər yaradır. Bu araşdırmada biz tənzimləyici genetik variantların birləşdirici məlumat strukturlarından istifadə edərək növlər daxilində və növlər arasında kodlaşdırma genləri ilə necə əlaqəli şəkildə inteqrasiya oluna biləcəyini vurğulayırıq.

GWAS ilə bağlı ikinci problem ondan ibarətdir ki, güc analizləri psixiatrik cəhətdən əlaqəli əlamətlər və xəstəliklərin altında yatan kütləvi poligenliyin yalnız GWAS məlumatlarından əlavə kəşflər üçün daha böyük nümunə ölçüləri tələb etdiyini ortaya qoyur [11]. Eyni şəkildə, psixiatrik pozğunluqlar üçün bir pozğunluğa ümumi genetik həssaslıq indeksi olan poligenik risk balının (PRS) proqnozlaşdırıcı gücü də GWAS kəşfinin mövcud statistik gücü ilə birbaşa bağlıdır [12]. Bununla belə, əlamətlərlə əlaqəli əlavə variantların müəyyən edilməsi SNP-irsilik təxminlərini əhəmiyyətli dərəcədə artırmağa davam edir, xüsusən də nadir variantlar halında, daha yüksək nümunə ölçüləri şərti ilə GWAS və ardıcıllıq tədqiqatlarında [13] tapılacaq daha çox siqnal olduğunu göstərir. əldə olunmağa davam edir. Bu icmalda biz model orqanizmlərin tamamlayıcı məlumat resurslarından istifadə edən yanaşmaları vurğulayırıq ki, onlar GWAS məlumatları ilə inteqrativ çərçivəyə yerləşdirildikdə aşkar edilən variantların prioritetləşdirilməsində bəzi vədlər verir.

Üçüncüsü, erkən ailə və əkiz tədqiqatlarının göstəricilərinə uyğun olaraq, psixiatrik əlamətlər arasında pleiotropiya üçün psixopatologiyanın ümumi amil modelinə paralel olaraq genetik məsuliyyətin əsas ölçüsünü göstərən bir dərəcədə dəlil var [5, 14]. Beləliklə, variantları həm onların fəaliyyət göstərdiyi əsas neyrobioloji mexanizmlər, həm də spesifikliyi tapmaq üçün bu dəyişkənliyin təsirinə məruz qalan çoxsaylı əlamətlər, eləcə də davranış əlamətlərinin altında yatan bioloji mexanizmlər kontekstində nəzərdən keçirmək vacibdir.

GWAS siqnallarını şərh etmək qabiliyyətimizə əlamətdar töhfə variantların funksional və tənzimləyici annotasiyası üçün platforma olan FUMA [15]-dən irəli gəlir. GWAS-dan əldə edilən ümumi statistika asanlıqla toxuma və hüceyrə tipinə məxsus ifadə məlumatları ilə və istifadəçiyə heç bir hesablama yükü olmadan müxtəlif tənzimləyici və xromatin imzalarla uyğunlaşdırıla bilər ki, bu da FUMA-nı geniş şəkildə əlçatan edir. Gen əsaslı xəritəçəkmə üsullarına alternativ olaraq proqram alətləri kodlaşdırmayan transkriptomun variantlarını da xəritələyə bilər (məsələn, LincSNP 3.0 [16]). Variantların xəritələşdirilməsindən başqa, çoxşaxəli omik məlumat mənbələrindən istifadə bir xəstəlik vəziyyəti üçün gen dəstlərini (məsələn, SMR [17], iRIGs [18], PAINTOR [19], FOCUS [19], FOCUS [ 20]). PRS-lərin oxşar tənzimləyici zənginləşdirilməsinin proqnozlaşdırmanı nə dərəcədə artıra biləcəyini nümayiş etdirmək üçün müxtəlif müvəffəqiyyət dərəcələri ilə də səylər davam etdirilir (məsələn, AnnoPred [21], LDpred-funct [22]). Bununla belə, bu yanaşmaların əksəriyyəti insan genetikası və genomika məlumatları ilə məhdudlaşır. Bu icmalda biz genetik və genomik tapıntıları biodavranış kontekstində yerləşdirən, yaxşı idarə olunan model orqanizm tədqiqatlarının genişliyini və dərinliyini bir araya gətirən yanaşmaları vurğulayırıq və bu və ya digər şərh alətləri dəstləri üzərində genişlənir.


Nəticələr

Funksional effekt balları

UKBB-dən əldə edilən kohortu təhlil etdik. Of

18K zülal kodlayan genləri təhlil etdi, 17,843-ü UKBB-də bildirilən ən azı bir qeyri-sinonim variantdan təsirləndi. Orta hesabla, bu genlərin hər biri 35,9 belə variantdan təsirlənmişdir (Şəkil 2a).

UKBB kohortunda proqnozlaşdırılan genetik funksional təsir balları. a UKBB-nin (təxmin edilən) genetik məlumatlarına əsasən, onun kodlaşdırma ardıcıllığına (CDS) təsir edən gen başına sinonim olmayan variantların sayının paylanması. Günlük miqyasda təqdim olunur. b paylanması

640K variant effekti balları. Hər bir xal 0 (funksiyanın tam itirilməsi) və 1 (zülal məhsulunun zədələnməsi) arasında olan rəqəmdir. c, d Dominantlara görə ümumiləşdirilmiş gen balları (c) və resessiv (d) miras modelləri. Üst panellər: bütün UKBB kohortu üzrə 18,053 analiz edilmiş zülal kodlaşdıran genlərin təsir xallarının orta (bərk xətt) və standart sapması (kölgələnmiş sahə) (orta hesabla sıralanır). Alt panel: z təsadüfi seçilmiş 10 nümunə üzrə gen effektinin qiymətləri (bütün

UKBB-də 500K nümunə). 10 nümunənin hər biri fərqli rəngdə göstərilir

Gen effekti bal matrislərinin əldə edilməsi iki mərhələdən ibarətdir. Birincisi, FIRM hər bir proteinə təsir edən variant üçün təsir xalını proqnozlaşdırmaq üçün istifadə olunur (Şəkil 2b). İntuitiv olaraq, bu proqnozlaşdırılan təsir balları variantdan təsirlənmiş zülalın öz funksiyasını saxlamaq ehtimalı kimi şərh edilə bilər. Variant xalları daha sonra kohort genotipləri ilə inteqrasiya olunur və gen səviyyəsində hər bir nümunə üzrə dominant və resessiv təsir xallarını əldə etmək üçün bir araya toplanır (Şəkil 2c, d). Gözlənildiyi kimi, dominant genetik təsirlər (tək vuruşların tutulması) resessiv təsirlərdən (ikiqat vuruşların) daha çox yayılmışdır. Əldə edilmiş gen skorları hətta az sayda nümunədə müşahidə edilən UKBB populyasiyasında genetik dəyişkənliyi ələ keçirir. PWAS-ın məqsədi bu funksional genetik dəyişkənliyin fenotiplərlə əlaqəli olub olmadığını yoxlamaqdır.

Simulyasiya təhlili

GWAS və SKAT ilə müqayisədə PWAS-ın kəşf potensialını araşdırmaq üçün biz simulyasiya təhlili apardıq (Şəkil 3). Simulyasiya real genetik məlumatlar (UKBB kohortundan) əsasında aparılıb, fenotiplər genetik siqnal və səs-küyün qarışdırılması ilə simulyasiya edilib. PWAS-ın FIRM-in qaçılmaz qeyri-dəqiqliklərinə həssaslığını yoxlamaq üçün səs-küy parametrinin təsirini araşdırdıq (ϵ) onun proqnozlarına təsir edir. Xüsusilə, biz standart sapmanın əlavə Qauss səs-küyü ilə FIRM tərəfindən proqnozlaşdırılan variant effekti ballarını (0 və 1 aralığında) təhrif etdik. ϵ. Görünür ki, simulyasiyanın modelləşdirmə fərziyyələrinə əsasən, PWAS əsas maşın öyrənməsi proqnozlaşdırıcısının məhdud qeyri-dəqiqliklərinə çox həssas deyil.

Simulyasiya təhlili. GWAS, SKAT və PWAS arasında müqayisə edilən simulyasiya analizinin nəticələri. Hər bir metodun statistik gücü kohort ölçüsündən asılı olaraq göstərilir (1000, 10,000, 50,000, 100,000 və ya bütün 332,709 süzülmüş UKBB nümunələri, log miqyasında göstərilir). Təxmini dəyərlər yarı şəffaf sahə zolaqları kimi yan tərəflərdə 95% etibarlılıq intervalları ilə möhkəm xətlər kimi göstərilir. Simulyasiyanın hər bir iterasiyası formanın simulyasiya edilmiş davamlı fenotipinə təsir edən bir protein kodlaşdıran gen hesab olunur. y = βx + σ, harada x genin fenotipə təsiridir (UKBB populyasiyasında orta 0 və standart sapma 1 olması üçün normallaşdırılıb), β ∈ <0.01,0.05> genin təsir ölçüsüdür və σ

N(0, 1) təsadüfi Qauss səs-küyüdür. Gen təsiri x dominant, resessiv və ya əlavə miras ilə PWAS modelinə uyğun olaraq simulyasiya edilmişdir. Səs-küy parametri ϵ ∈ <0,0.25>variantların zərərini qiymətləndirən əsas maşın öyrənmə modeli olan FIRM-ə təqdim edildi. Gen arxitekturası, genotipləmə məlumatları və daxil edilmiş 173 kovariat UKBB kohortundan götürülüb.

Simulyasiya nəticələrinə əsasən, resessiv irsiyyətlə məşğul olan zaman PWAS-ın üstünlüyünün ən əhəmiyyətli olacağını gözləyirik. Biz tapırıq ki, kiçik effekt ölçüsü ilə (β = 0.01), kifayət qədər statistik güc əldə etmək üçün ən azı 100K nümunə tələb olunur (173 kovariat verilir). Təsir ölçüsü daha yüksək olduqda (β = 0.05), 10K nümunədən ibarət kohortlar kifayət ola bilər.

Fenotiplərin PWAS fərziyyələrinə uyğun gələn modelləşdirmə sxemi ilə genetik məlumatlardan simulyasiya edildiyini bildirmək vacibdir. Buna görə də, bu nəticələr real dünyada GWAS və ya SKAT üzərində PWAS-ın üstünlüyünün sübutu kimi qəbul edilməməlidir. Əksinə, bu simulyasiyalar sadəcə olaraq metodun tətbiqi diapazonunu yoxlayır və onun nəzərdə tutulduğu parametrlər altında kifayət qədər statistik güc üçün tələb olunan məlumatların miqdarını qiymətləndirir. Bu zülal mərkəzli modelləşdirmə sxeminə əlavə olaraq biz standart xətti model altında simulyasiya edilmiş fenotipləri, həmçinin ikili fenotipləri də araşdırdıq (Əlavə fayl 1: Şəkil S1).

Case study: kolorektal xərçəng

PWAS-ı real fenotiplər üzərində araşdırmaq üçün kolorektal xərçəngin bir nümunəsi ilə başlayırıq. Germline variantları vasitəsilə kolorektal xərçəng riskinin artmasına səbəb olan meylli genləri aşkar etmək üçün UKBB-dən 260,127 nəzarət və 2822 hadisədən ibarət bir kohort əldə edilmişdir.

PWAS-ın necə işlədiyini misal göstərmək üçün biz müəyyən bir gen üzərində analizin nümayişi ilə başlayırıq—MUTYH (Şəkil 4a), kolorektal xərçəng üçün məşhur bir meyl geni [23]. Tədqiq olunan kohortda genin zülal ardıcıllığına təsir edən 47 qeyri-sinonim variant var. Standart hər variant GWAS tərəfindən nəzərdən keçirildikdə, bu variantlardan ən əhəmiyyətlisi a səh 1.2E−03 dəyəri. Genin bütün yan bölgəsi nəzərə alınsa belə (açıq oxu çərçivəsinin hər tərəfindən 500.000 bp-ə qədər), əldə edilən ən güclü əhəmiyyət hələ də yalnız səh = 6.3E−04, ekzom miqyasında əhəmiyyətlilik həddindən (5E−07) uzaqdır. PWAS tərəfindən təhlil edildikdə, digər tərəfdən, bu birləşmə böyük əhəmiyyətə malikdir (FDR q dəyər = 2.3E−06), ümumi istifadə olunan FDR əhəmiyyət həddindən çox (q < 0,05).

Kolorektal xərçəng nümunəsi. a Xüsusi gen-fenotip birliyinin nümayişi: MUTYH və kolorektal xərçəng. Protein ardıcıllığına təsir edən variantlar genin ekzonlarının üstündə göstərilir. Gözlənildiyi kimi, domenlərdəki variantlar daha çox zərər verir. Zülala təsir edən variantlardan heç biri ekzom əhəmiyyətlilik həddinə yaxın olmasa da (səh < 5E−07), assosiasiya PWAS (FDR q dəyər = 2.3E−6). 47 variantın tam xülasə statistikası Əlavə fayl 2-də təqdim olunur: Cədvəl S1. b Bütün 18,053 genin PWAS QQ planı kolorektal xərçənglə əlaqəsi üçün sınaqdan keçirilmişdir

PWAS çox sayda müxtəlif variantlarda yayılmış siqnalı birləşdirərək, zülala təsir edən 47 variantdan 5-də mülayim assosiasiyalar göstərərək assosiasiyanı aşkar edə bildi (səh < 0,05). Bu 5 variant ardıcıl istiqamət göstərdiyinə görə (bütün risk artır) və onların əksəriyyətinin zərərli olacağı proqnozlaşdırıldığı üçün, hallar və nəzarətlər arasında əhəmiyyətli dərəcədə fərqlənən gen skorlarına effektiv şəkildə birləşdirildi. Konkret olaraq, MUTYH gen, PWAS çərçivəsinə uyğun olaraq idarələrə nisbətən hallarda əhəmiyyətli dərəcədə daha çox zədələnir. Assosiasiya yalnız resessiv modelə görə əhəmiyyətlidir, təxmini təsir ölçüsü ilə d = − 0,079 (hallar və nəzarətlər arasında gen effekti ballarında standartlaşdırılmış orta fərq). Bu müşahidə əvvəlki hesabatlara uyğundur MUTYH, resessiv irsiyyət rejimini iddia edir [23].

PWAS-a uyğun olaraq kolorektal xərçənglə əlaqəli bütün protein kodlaşdıran genləri bərpa etmək üçün 6 əhəmiyyətli assosiasiya aşkar edərək 18.053 geni (Şəkil 4b) təhlil etdik (Cədvəl 1). Bu 6 assosiasiyadan 5-i bəzi ədəbiyyat sübutları ilə dəstəklənir, onlardan 3-ü sübut səviyyəsi ilə güclü hesab edirik. Dəstəklənən 5 assosiasiyadan 4-də ədəbiyyatda bildirilmiş assosiasiyanın istiqaməti (yəni qoruyucu və ya risk geni) təsir ölçüsü ilə uyğun gəlir (Cohen's d) PWAS tərəfindən aşkar edilmişdir (yalnız POU5F1B tərsinə çevrilir). 6 gendən yalnız POU5F1B ekzom miqyasında əhəmiyyətini aşan variantdan təsirlənir (rs6998061, səh = 1.4E−07). Digər 5 gen, hətta genin bölgəsindəki bütün variantları (gendən 500.000 bp-ə qədər) nəzərə alsaq belə, GWAS tərəfindən aşkar edilmir. Qeyd edək ki, GWAS əhəmiyyəti Bonferroni tərəfindən düzəldilmiş əhəmiyyət səviyyəsi ilə müəyyən edir (səh < 5E−07 kodlaşdırma bölgələri üçün), PWAS əhəmiyyətini FDR ilə müəyyən edir (q < 0.05), digər gen əsaslı üsullar kimi.

PWAS-ın 49 müxtəlif fenotipdə tətbiqi

Müəyyən bir fenotip üçün PWAS-ı tədqiq etdikdən sonra, onun 49 görkəmli fenotipdən ibarət müxtəlif dəst üçün tətbiq oluna biləcəyini nəzərdən keçirəcəyik (Şəkil 5a). Biz eyni UKBB kohortunda 49 fenotip üzrə həm standart GWAS, həm də PWAS tətbiq etdik (

330K nümunələri), zəngin assosiasiyalar kolleksiyasının əldə edilməsi (Şəkil 5b, c). Ümumilikdə, PWAS 12.444 gen-fenotip assosiasiyasını kəşf etdi, onlardan yalnız 5294-ü (43%) genin kodlaşdırma bölgəsində GWAS əhəmiyyətli qeyri-sinonim variantı ehtiva edir (Şəkil 5b). Başqa sözlə, PWAS eyni variantlar dəstini nəzərdən keçirsə də, assosiasiyaların 57% -də, variantların hər birini ayrı-ayrılıqda nəzərdən keçirərkən GWAS tərəfindən nəzərdən qaçırılan ümumiləşdirilmiş siqnalı bərpa edə bilir. LD üçün genin yaxınlığındakı bütün variantları nəzərə alsaq belə (kodlaşdırma bölgəsinin hər tərəfinə 500.000 bp-ə qədər), 12.444 PWAS birləşməsindən 2743-ü (22%) hələ də GWAS tərəfindən qaçırılır (Şəkil 5c, d).

PWAS fenotiplər üzrə GWAS kəşflərini zənginləşdirir. a Biz 23 ikili fenotipi, 25 davamlı fenotipi və 1 kateqoriyalı fenotipi (kişi-keçəl nümunələri) təhlil etdik.

330K UK Biobank nümunələri. İkili fenotiplər daxilində halların sayı böyüklük sırasını əhatə edir (sistemik sklerozda cəmi 127-dən hipertoniyada 62K-a qədər). b, c GWAS, PWAS və ya hər ikisi tərəfindən aşkar edilmiş əhəmiyyətli protein kodlayan genlərin müxtəlif fenotiplər üzrə bölünməsi. Əhəmiyyətli genlərin ümumi sayı mötərizədə göstərilir. In b, genin kodlaşdırma bölgəsindəki qeyri-sinonim variant ekzom əhəmiyyətlilik həddini keçərsə, bir gen GWAS tərəfindən əhəmiyyətli hesab edilmişdir (səh < 5E−07). In c, genin kodlaşdırma bölgəsinin hər tərəfinə 500,000 bp daxilində olan bütün variantları nəzərə alaraq, rahat bir meyar götürüldü (burada yalnız PWAS əhəmiyyətli genləri göstərilir). d Burada müəyyən edildiyi kimi GWAS-ın rahat meyarına uyğun olaraq, yalnız PWAS tərəfindən tapılan fenotip başına əhəmiyyətli genlərin sayı c (yəni, 500.000 bp daxilində əhəmiyyətli variant olmadan)

Bütün 49 test edilmiş fenotipin tam xülasəsi, hər gen üzrə tam ümumi statistika ilə Əlavə fayl 3: Cədvəl S2 (bütün əhəmiyyətli PWAS assosiasiyaları üçün) və Əlavə fayl 4: Cədvəl S3 (bütün 18,053 test edilmiş protein kodlaşdıran genlərlə) . Bütün 49 fenotipin QQ qrafikləri Əlavə fayl 1-də mövcuddur: Şəkil S2.

Variantlara təyin edilmiş proqnozlaşdırılan funksional təsir ballarının əhəmiyyətini təsdiqləmək üçün biz PWAS-ın bir versiyasının performansını sınaqdan keçirdik, burada qeyri-sinonim variantların effekt xalları onların gen ballarına birləşməsindən əvvəl qarışdırılır. Həqiqətən, biz PWAS-ın orijinal versiyasının (gen funksiyasını ələ keçirmə) qarışdırılmış versiyanı üstələdiyini görürük (Əlavə fayl 1: Şəkil S3).

SKAT ilə müqayisə

Standart GWAS-dan kənarda PWAS-ın kəşf gücünü müəyyən etdikdən sonra biz onu gen səviyyəsində genetik assosiasiyaları aşkar etmək üçün ən çox istifadə edilən metod olan SKAT [18] ilə müqayisə edirik. Əhəmiyyətli odur ki, SKAT bütün mövcud genetik assosiasiyaları bərpa etməyə çalışsa da, PWAS xüsusi olaraq protein funksiyası vasitəsilə bir fenotiplə əlaqəli olan zülal kodlayan genlərə diqqət yetirir.

Biz PWAS-ın əksər fenotiplər üçün aşkar edilmiş birləşmələrin sayına görə SKAT-dan üstün olduğunu görürük (Şəkil 6a). Biz həmçinin iki metodun hər biri ilə bildirilən nəticələr arasında üst-üstə düşmə dərəcəsini araşdırdıq (Şəkil 6a-dakı “konsensus” çubuqlarına baxın). Görünür ki, PWAS və SKAT fərqli gen dəstlərini bərpa etməyə meyllidir, buna görə də iki üsul bir-birini tamamlayan hesab edilə bilər.

PWAS və SKAT tamamlayıcı nəticələr verir. a PWAS, SKAT tərəfindən aşkar edilən əhəmiyyətli genlərin sayı və hər ikisinin konsensusu, sınanmış 49 fenotip üzrə (UKBB-dən alınan eyni kohortlar üzərində). Fenotiplər üç ədəddən ən böyüyünə görə sıralanır. b Gen-fenotip assosiasiyalarının sübut hesabı (Açıq Hədəflər Platformasından əldə edilir) PWAS, SKAT və ya hər ikisinin konsensusu tərəfindən aşkar edilən əhəmiyyətli genlər üzərində orta hesabla fenotiplər üzrə göstərilir. Əhəmiyyətli genlərin sayı (ortalamanın aparıldığı) çubuqların üzərində göstərilir. c FDR-in müqayisəsi q Açıq Hədəflər Platformasının güclü dəstəyi ilə 4944-dən çox gen-fenotip assosiasiyası üzərində PWAS və SKAT tərəfindən əldə edilən dəyərlər. d OMIM tərəfindən bildirilən 202 assosiasiya üzərində oxşar müqayisənin məlum molekulyar əsası var. Sağ süjet (qırmızı çərçivələrlə işarələnmiş) solun böyüdülməsidir

Kəşflərin keyfiyyətini qiymətləndirmək üçün biz Open Targets Platforma (OTP) [32], çoxsaylı dəlillərə əsaslanan müəyyən edilmiş gen-xəstəlik assosiasiyalarını kurasiya edən hərtərəfli resurs və OMIM [33] ilə əlaqəli insan genlərinin ən görkəmli kataloquna müraciət edirik. genetik pozğunluqlarda. OTP-də qeydə alınan 24 sınaqdan keçmiş xəstəlik üzrə OTP-dən əldə edilən sübut ballarına əsasən, iki üsulla aşkar edilmiş assosiasiyaların keyfiyyətini müqayisə etdik (Şəkil 6b). Bu metrikaya görə, PWAS və SKAT nəticələri, daha güclü sübutlar göstərən konsensus genləri ilə əsasən müqayisə oluna bilər.

Biz daha sonra iki metodun (PWAS və SKAT) OTP (Şəkil 6c) və OMIM (Şəkil 6d) tərəfindən təmin edilən xaricdən təsdiqlənmiş assosiasiyaları necə bərpa etdiyini araşdırırıq. OTP tərəfindən güclü dəstək alan 4944 assosiasiyadan 9-u SKAT tərəfindən bərpa edildi, 6-sı PWAS tərəfindən bərpa edildi. Məlum molekulyar əsasa malik 202 yüksək keyfiyyətli gen-xəstəlik assosiasiyasının daha məhdud siyahısını təqdim edən OMIM vəziyyətində, PWAS bir qədər üstün idi (12 bərpa olunmuş assosiasiya ilə müqayisədə, 7-si 12-nin alt hissəsidir). Biz fenotiplərin növləri (məsələn, xərçəng və ya digər xəstəliklər) və iki üsulla əldə edilən birləşmələrin əhəmiyyəti arasında heç bir açıq tendensiya müşahidə etmirik (Şəkil 6c, d-də rənglərə baxın).

Bu müqayisəli təhlilə əsasən, PWAS və SKAT-ın bir-birini tamamladığı qənaətinə gəlirik və hər ikisindən assosiasiya tədqiqatlarında istifadə etmək faydalı ola bilər. Biz vurğulayırıq ki, bu iki metod axtardıqları assosiasiyaların növü və onları necə modelləşdirdikləri baxımından çox fərqlidir.

Tək variantların üstünlük təşkil etmədiyi yüksək əhəmiyyətli assosiasiyalar

Kəşf edilmiş bütün assosiasiyalar arasında biz yeni metodumuz üçün xüsusilə xarakterik olanları, yəni PWAS tərəfindən unikal şəkildə aşkar edilən və səbəbli əlaqənin güclü sübutunu göstərən nəticələri vurğulamağa çalışırıq. Bu məqsədlə biz assosiasiyaları çox ciddi meyarlar üzrə süzgəcdən keçirdik: (i) güclü əhəmiyyət (FDR) q dəyəri < 0,01), (ii) regionda heç bir əhəmiyyətli gen və (iii) tək dominant variant assosiasiyası yoxdur. PWAS tərəfindən unikal olaraq tapılan 2743 gen-fenotip assosiasiyasından (Şəkil 5d) 48-i bu meyarlara cavab verir və “PWAS-a xas” assosiasiyalar kimi istinad edilir (Cədvəl 2, tam siyahı Əlavə fayl 5: Cədvəl S4-də verilmişdir).

Gözlənildiyi kimi, PWAS-eksklüziv genlər heç bir GWAS siqnalı göstərmir və PWAS assosiasiyaları əlaqəli genlərlə məhdudlaşır (Şəkil 7a). SKAT tərəfindən nəzərdən keçirildikdə, 48 assosiasiyadan heç biri əhəmiyyət kəsb etmir (Şəkil 7b), baxmayaraq ki, SKAT həmin assosiasiyaların müəyyən edilməsi meyarlarına daxil edilməmişdir. Maraqlıdır ki, PWAS-ın eksklüziv birləşmələrinin əksəriyyəti resessiv mirasla idarə olunur. Cədvəl 2-də sadalanan on gen arasında yalnız biri (SLC39A8) dominant irsiyyət nümunəsini göstərir. Bu, resessiv irsiyyətin modelləşdirilməsinin GWAS üzərində PWAS-ın unikal üstünlüyü olduğunu göstərir.

PWAS-eksklüziv birliklər. a Gözdaxili təzyiq fenotipi ilə əlaqəli 3 gen ilə 48 PWAS-eksklüziv birləşmənin nümunəsi. 3 gen genlərin yaxınlığında hər hansı bir GWAS modelinin tam çatışmazlığını nümayiş etdirir (hər genin hər iki istiqamətinə 500.000 bp-ə qədər). Təsvir edilən 3 gen bölgəsinin hər biri 200 zibil qutusuna bölündü və hər bir qutuda ən əhəmiyyətli variantı nümayiş etdirdi. PWAS FDR də göstərilir q həmin xromosom bölgələrində bütün təhlil edilən zülal kodlayan genlərin dəyərləri. b FDR-in müqayisəsi q 48 assosiasiya üçün PWAS və SKAT tərəfindən əldə edilən dəyərlər

Sadalanan birliklərin bəziləri ədəbiyyat tərəfindən güclü şəkildə dəstəklənir. Məsələn, interleykin 6 (IL6), burada böyük əhəmiyyətə malik qırmızı qan hüceyrələrinin yüksək işıq səpilməsi (HLS) retikulosit faizi (PWAS FDR) ilə əlaqədardır q dəyər = 1.8E−126), hemoglobin istehsalını və eritroid olgunlaşmasını pozmaq qabiliyyəti ilə tanınır. Bir əlaqə IL6 eritroidin olgunlaşmasına, anemiyaya və mitoxondrial funksiyanın pozulması nəticəsində iltihaba səbəb olduğu da müəyyən edilmişdir [34]. Üstəlik, IL6 uşaqlarda xroniki böyrək çatışmazlığı anemiyasının (CKD anemiyası) inkişafında rol oynayır. Bu IL6-asılı patoloji eritropoietin (Epo) oxuna təsiri ilə qırmızı qan hüceyrələrinin məhv edilməsi ilə induksiya olunur, bu da IL6-nın qırmızı qan hüceyrələrinin faizi ilə birbaşa əlaqəsini təsdiqləyir [35].

Eynilə, PWAS (FDR) uyğun olaraq resessiv miras yolu ilə qırmızı qan hüceyrələrinin paylanma genişliyi ilə əlaqəli görünən MLLT3 q dəyər = 8.5E−06, r = - 0.01), həqiqətən də sümük iliyində əsas tənzimləyici gen olduğu bildirildi [36]. Bu işdə sınaqdan keçirilmiş 49 fenotip arasında biz genin çoxsaylı digər qan hüceyrəsi xüsusiyyətlərində, eləcə də əl tutma gücündə əhəmiyyətli olduğunu gördük (Əlavə fayl 3: Cədvəl S2). Eynilə, PWAS-ın eozinofillə əlaqəli olduğu CD80 resessiv irsi (FDR) vasitəsilə sayılır. q dəyər = 1.1E−06, r = − 0,01), həqiqətən də eozinofillər tərəfindən antigen təqdim edilməsində mühüm rola malikdir [37]. FOXP1, PWAS (FDR) uyğun olaraq resessiv miras yolu ilə eozinofillərin sayı ilə əlaqəli başqa bir gendir. q dəyər = 9.8E−17, r = − 0,016). Bu assosiasiya üçün birbaşa dəlil bildirilməsə də, FOXP1-in monositlərin diferensiasiyasına və makrofaq funksiyasına təsir etdiyi məlumdur [38].

Digər misallarda, bildirilən birləşmə üçün aydın bir əlamət olmasa da, güclü molekulyar inandırıcılıq mövcuddur. Çəngəlli baş ailəsinə aid olan başqa bir transkripsiya faktorudur FOXG1, retinanın inkişafında əsas rol oynayır (bütün onurğalılarda qorunan funksiya) [39]. Genin həm siçanlarda, həm də insan kohortlarında görmə pozğunluğu ilə əlaqəli olduğu göstərildi [40]. Bununla belə, bu, heç vaxt gözdaxili təzyiqlə birbaşa əlaqəli olmamışdır, PWAS-ın (FDR) resessiv modelinə görə, biz burada müşahidə edirik. q dəyər = 2.6E−15). Xüsusilə, genin normal funksiyası (yəni, zədələyici variantların olmaması) müsbət korrelyasiya kimi görünür (r = 0,031) göz içi təzyiqi ilə.

Başqa bir misaldır INPP1, inositol polifosfat-1-fosfataz fermentini kodlayan. Mövcud ədəbiyyatda bu, əsasən autizm və əhval pozğunluqları kontekstində bildirilir [41], Açıq Hədəflər Platformasında [32] bildirilmiş genetik assosiasiyalar əsasən otoimmün pozğunluqlara və qan xüsusiyyətlərinə diqqət yetirir. Bununla belə, bunun limfositlərin sayı ilə əlaqəli olduğu görünmür, burada müşahidə etdiyimiz bir əlaqə (resessiv FDR) q dəyər = 1.9E−12, r = − 0,014). Ümumiyyətlə, qan fenotiplərinin genetik tədqiqi bir qədər laqeyd görünür və bu cür birləşmələrin klinik nəticələrlə necə əlaqəsi çox vaxt qeyri-müəyyəndir.

Bəzi hallarda, biz PWAS-a məxsus eksklüziv assosiasiyalara dair heç bir ədəbiyyat sübutu tapmırıq. Misal üçün, GAPTCLVS2 göz içi təzyiqi ilə əlaqəli olduğu aşkar edilmişdir. GAPT (böyümə faktoru reseptoru ilə bağlı zülal 2-bağlayıcı adapter zülalı, transmembran) B hüceyrələrinin aktivləşdirilməsinin tənzimlənməsində və marjinal zonanın düzgün saxlanmasında rol oynayır [42]. CLVS2 (clathrin vesicle ilə əlaqəli Sec14 protein 2) hüceyrə membranının ticarətində iştirak edir [43]. Hər iki halda, göz içi təzyiqi ilə əlaqə hələ bildirilmir. Ədəbiyyat dəstəyi olmayan digər əhəmiyyətli PWAS birliyi FAM160B1 lösemi ilə əlaqədar. Bu əlaqələr üçün mövcud ədəbiyyat dəstəyinin olmamasına baxmayaraq, PWAS tərəfindən yaradılmış güclü assosiasiyalar əlavə araşdırmaya layiq olan potensial əlaqələr üçün güclü dəlillər təqdim edir.


Metodlar

İkili Effektlər Fərziyyəsi

Çərçivəmizdə iki fərziyyə irəli sürən tədqiqatlar arasında heterojenliyi təsvir etmək üçün sadələşdirilmiş modeldən istifadə edirik. Birinci fərziyyə belədir Tədqiqatlarda təsir ya mövcuddur, ya da yoxdur. Bu fərziyyə normal paylanmış təsir ölçülərini qəbul edən ənənəvi fərziyyədən fərqlidir [27]–[29]. Bizim fərziyyəmiz təsir ölçülərinin bəzən bəzi tədqiqatlarda digərlərinə nisbətən daha kiçik olduğu fenomenindən ilhamlanır. Bildirilir ki, müxtəlif populyasiyalar belə hadisəyə səbəb ola bilər [19], [20], [30], [31]. Məsələn, üçün homozigotluq APOE 4 variantının afrikalı amerikalılarda asiyalılara nisbətən beş qat daha az Alzheimer xəstəliyi riski verdiyi məlumdur [19], [30]. əhatə edən HapK haplotipi LTA4H gene is shown to confer threefold smaller risk of myocardial infraction in the populations of Europeans decent than in African Americans [31]. The HNF4A P2 promoter variants are shown to be associated with type 2 diabetes in Ashkenazi and the results have been replicated [20]. However, in the same study, the same variants did not show associations in four different cohorts of UK population suggesting a heterogeneous effect. Gene-environmental interactions can also cause such phenomenon. If a study lacks an environmental factor necessary for the interaction, the observed effect size can be much smaller in that study. It is generally agreed that the gene-environmental interactions exist in many diseases such as cardio vascular diseases [32], respiratory diseases [33], and mental disorders [34].

The second assumption is that if the effect exists, the effect sizes are similar between studies. We call these two assumptions together the binary effects assumption. While other types of heterogeneity structures are possible such as arbitrary effect sizes, for identifying which studies have an effect and which studies do not have an effect, we expect that this model will be appropriate.

M-Value

We propose a statistic called the m-value which is the posterior probability that the effect exists in each study of a meta-analysis. Suppose that we analyze studies together in a meta-analysis. Let ( ) be the observed effect size of study and let be the estimated variance of . It is a common practice to consider the true variance. In the current GWASs, the distribution of is well approximated by a normal distribution due to the large sample sizes. Let denote the observed data.

If there is no effect in study , where is the probability density function of a normal distribution whose mean is and the variance is . If there is effect in study , where is the unknown true effect size.

Since we want a posterior probability, the Bayesian framework is a good fit. We assume that the prior for the effect size is A possible choice for in GWASs is 0.2 for small effect and 0.4 for large effect [35], [36].

Let be a random variable which has a value 1 if study has an effect and a value 0 if study does not have an effect. Let be the prior probability that each study will have an effect such that Then we assume a beta prior on Through this paper, we use the uniform distribution prior ( and ), but other priors can also be chosen.

Let be the vector indicating the existence of effect in all studies. can have different values. Let be the set of those values.

Our goal is to estimate the m-value , the posterior probability that the effect exists in study . By the Bayes' theorem, (1) where is a subset of whose elements' th value is 1. Thus, we only need to know for each the posterior probability of , consisting of the probability of given and the prior probability of .

The prior probability of is where is the number of 1's in and is the beta function.

And the probability of given is (2) where is the indices of 0 in and is the indices of 1 in . We can analytically work on the integration to obtain where where is the inverse variance or precision. The summations are all with respect to .

is a scaling factor such that The details of the derivation is in Text S1 in Supporting Information S1. As a result, we can calculate for every and therefore obtain for each study .

The drawback of the exact calculation of m-value is that we need to iterate over all which is exponential to . This is not problematic in most of the current meta-analyses of GWASs, but will be problematic in future studies if increases over several tens. Therefore, here we propose a simple Markov Chain Monte Carlo (MCMC) method to estimate m-value.

We propose the following Metropolis-Hastings algorithm [37].

  1. Start from a random .
  2. Choose a next .
  3. If , move to . Otherwise, move to with probability .
  4. Repeat from step 2.

The set of moves we use for choosing is . is a simple flipping move of between 0 and 1. is a move that shuffles the values of . This move is introduced to avoid being stuck on one mode in a special case that there are two modes which can happen when the observed direction of the effect is opposite in some studies. At each step, we randomly choose a move from this set assuming a uniform distribution. We allow burn-in and sample times. After sampling, samples gives us an approximation of the distribution over , which subsequently gives the approximations of m-values by the formula (1).

Interpretations and predictions.

The m-value has a valid probabilistic interpretation that it is the posterior probability that the effect exists in each study under our binary effects model. If we are to choose studies predicted to have an effect and studies predicted to not have an effect, a threshold is needed. In this paper, we use the threshold of m-value for the former and m-value for the latter. Although this thresholding is arbitrary, the actual level of threshold is often not of importance because outlier studies showing different characteristics from the other studies usually stand out in the plotting framework described below.

Relationship to PPA.

The m-value is closely related to the posterior probability of association (PPA) based on the Bayes factor (BF) [35] in the sense that the presence and absence of effects are essentially describing the same things as the alternative and null models in the association testing. There are two fundamental differences. First, in the usual PPA, the prior probability of association ( ) is given by a point prior which is usually a very small value in GWAS reflecting the fact that the true associations are few. In our framework, we focus on interpreting meta-analysis results after we find associations using meta-analysis. Thus, reflects our belief on the effect conditioned on that the associations are already significant. For this reason, we need not use a very small value but instead choose to use a distribution prior. Second, the PPA is calculated for each study separately. However, the m-value is calculated using all studies simultaneously utilizing cross-study information. Thus, if the binary effects assumption approximates the truth, the m-value is more effective in predicting effects than the PPA or equivalently the BF, as we show by simulations in Results.

P-M Plot

We propose plotting the studies' p-values and m-values together in two dimensions. This plot, which we call the P-M plot, can help interpreting the results of a meta-analysis. Figure 1 shows that how to interpret such a plot. The right-most (pink) region is where the studies are predicted to have an effect. Often, a study can be in this region even if the p-value is not very significant. The left-most (light-blue) region is where the studies are predicted to not have an effect. This suggests that the sample size is large but the observed effect size is close to zero, suggesting a possibility that there exists no effect in that study. The middle (green) region is where the prediction is ambiguous. A study can be in this region because the study is underpowered due to a small sample size. If the sample size increases, the study will be drawn to either the left or the right side.


Genome-Wide Association Studies

Genome-wide association studies (GWAS) use high-throughput genomic technologies to scan entire genomes of large numbers of subjects quickly, in order to find genetic variants correlated with a trait or disease. Understanding the genetic architecture of complex diseases relies heavily on discovery and characterization of disease-associated variants such as single nucleotide polymorphisms (SNPs) and copy number variations (CNVs).

GWAS for Common Variant Discovery

Complex diseases are often characterized by common variants, while the contribution of rare or low-frequency variants remains largely unknown. Large-scale GWAS using microarrays are efficient and cost-effective for identifying loci and imputing common SNP variants associated with disease. However, arrays are limited in detecting low-frequency SNP variants. The base-by-base resolution of whole-genome sequencing allows for the identification of both common and rare variants that may be associated with disease.

Benefits of Genome-Wide Association Studies

  • Identification of novel variant-trait associations, with more than 50,000 trait- and disease-associations reported to date 1
  • Genotype information that can be leveraged for clinical applications, including development of polygenic risk scores used for early detection, prevention, or treatment of disease as well as drug development, selection, and dosage
  • Generation of easily sharable data, facilitating analysis on increasingly large and diverse sample sets
Opportunities for GWAS and Genetic Disease

GWAS for many diseases and disorders have not yet been performed, and the large majority (79%) of participants in GWAS to date are of European ancestry. As the European population accounts for just

16% of the global population, there is a recognized need for more diverse GWAS datasets. 2

In addition to ethnic diversity, there is a need to perform GWAS on diverse disease indications for specific sub-groups. This will help provide clues about which genes and gene pathways could be involved in disease mechanisms and pathogenesis.

Successfully Identified Variants for Specific Complex Diseases

GWAS with the commonly used case-control setup approach, which compares two large groups of individuals–one case group affected by a disease and one healthy control group–have successfully identified variants for specific complex diseases, such as:

  • Type 2 diabetes
  • Parkinson xəstəliyi
  • Crohn’s disease
  • Various types of heart disease including coronary artery, atrial fibrillation, cardiomyopathy, etc.
  • Multiple types of cancer including breast, colorectal, etc.

Understanding Variant to Function Research

Researchers study populations and groups to find connections that help us understand how variants relate to each other and various diseases. Genomics is essential in driving this research. Start making these connections in your research and share your stories using the hashtag #V2Fnow.

Understanding Variant to Function Research

Using GWAS to Map Complex Genetic Traits

Researchers perform large GWAS studies to identify disease-associated DNA risk loci and develop polygenic risk scores.

From GWAS to NGS: Genetics of Children's Complex Diseases

Professors at Children's Hospital of Philadelphia discuss how they use NGS to map variants to causal genes.

Featured GWAS Products

Infinium Global Diversity Array-8 v1.0 Kit

The Global Diversity Array-8 (GDA) v1.0 BeadChip combines exceptional coverage of clinical research variants with optimized multi-ethnic, genome-wide content.

Infinium Global Screening Array-24 Kit

The Infinium Global Screening Array-24 v3.0 BeadChip is a next-generation genotyping array for population-scale genetics, variant screening, pharmacogenomics studies, and precision medicine research.

Infinium Multi-Ethnic AMR/AFR-8 Kit

A cost-effective array for understanding complex disease in diverse human populations, focused on Hispanic and African American populations.

Prioritizing Functional Genetic Variants Through Advanced Sequencing Approaches

Genome-wide association studies have identified thousands of variants with putative roles in different diseases. However, going from statistical associations to true insight into disease mechanisms remains a challenge. Recent advances in sequencing technologies have facilitated the development of strategies for assaying GWAS SNPs for potential functional relevance.

Related Solutions

Whole-Genome Sequencing

Obtain a high-resolution view of the entire genome.

Mikroarraylar

Analyze genetic variation on any scale, for a broad range of applications.

New to NGS?

Find resources designed to educate on the basics of next-generation sequencing.

İstinadlar
  1. Tam V, Patel N, Turcotte M, et al. Benefits and limitations of genome-wide association studies. Nat Reviews. 201920:467-484.
  2. Martin, A.R.. et al. Clinical use of current polygenic risk scores may exacerbate health disparities. Nature Genetics. 2019 51: 584-591

Innovative technologies

At Illumina, our goal is to apply innovative technologies to the analysis of genetic variation and function, making studies possible that were not even imaginable just a few years ago. Müştərilərimizin ehtiyaclarını ödəmək üçün yenilikçi, çevik və miqyaslana bilən həllər təqdim etmək bizim üçün mühüm vəzifədir. As a global company that places high value on collaborative interactions, rapid delivery of solutions, and providing the highest level of quality, we strive to meet this challenge. Illumina innovativ ardıcıllıq və massiv texnologiyaları həyat elminin tədqiqatı, tərcümə və istehlakçı genomikası və molekulyar diaqnostikada əsaslı irəliləyişlərə təkan verir.

Yalnız Tədqiqat İstifadəsi Üçün. Diaqnostik prosedurlarda istifadə olunmur (xüsusi qeyd olunanlar istisna olmaqla).


Metabolite-based genome-wide association studies in plants

mGWAS in plants benefit from huge diversity of the plant metabolome.

mGWAS is powerful in dissecting the genetic basis of the plant metabolome.

mGWAS provides an useful strategy for plant functional genomics.

mGWAS can be further applied to the dissection of complex traits in plants.

The plant metabolome is the readout of plant physiological status and is regarded as the bridge between the genome and the phenome of plants. Unraveling the natural variation and the underlying genetic basis of plant metabolism has received increasing interest from plant biologists. Enabled by the recent advances in high-throughput profiling and genotyping technologies, metabolite-based genome-wide association study (mGWAS) has emerged as a powerful alternative forward genetics strategy to dissect the genetic and biochemical bases of metabolism in model and crop plants. In this review, recent progress and applications of mGWAS in understanding the genetic control of plant metabolism and in interactive functional genomics and metabolomics are presented. Further directions and perspectives of mGWAS in plants are also discussed.


Naidoo P, Cloete S, Olivier J. Heritability estimates and correlations between subjectively assessed and objectively measured fleece traits in Merino sheep. South African J Animal Sci. 200434(6):13–4.

Hardy MH, Lyne AG. The pre-Natal development of wool follicles in Merino sheep. Aust J Biol Sci. 19569(3):423–41.

Fraser AS, Short BF: The biology of the fleece. Q Rev Biol. 1960(3):108.

Parry AL, Nixon AJ, Craven AJ, Pearson AJ. The microanatomy, cell replication, and keratin gene expression of hair follicles during a photoperiod-lnduced growth cycle in sheep. Cells Tissues Organs. 1995154(4):283–99.

Nixon A. Regulation of prolactin receptor expression in ovine skin in relation to circulating prolactin and wool follicle growth status. J Endocrinol. 2002172(3):605–14.

Auber L. VII.—the anatomy of follicles producing wool-Fibres, with special reference to keratinization. Earth Environmental Sci Transactions Royal Soc Edinburgh. 195262(01):191–254.

Hynd PI, Schlink AC, Phillips PM, Scobie DR. Mitotic activity in cells of the wool follicle bulb. Aust J Biol Sci. 198639(4):329.

Kaufman CK, Zhou P, Amalia PH, Michael R. GATA-3: an unexpected regulator of cell lineage determination in skin. Genes Dev. 200317(17):2108–22.

Rogers GE. Biology of the wool follicle: an excursion into a unique tissue interaction system waiting to be re-discovered. Exp Dermatol. 200615(12):931–49.

Wang Z, Zhang H, Yang H, Wang S, Rong E, Pei W, Li H, Wang N. Genome-wide association study for wool production traits in a Chinese Merino sheep population. PLoS One. 20149(9):e107101.

Hirschhorn JN, Daly MJ. Genome-wide association studies for common diseases and complex traits. Nat Rev Genet. 20056(2):95–108.

Jiang Z, Michal JJ, Chen J, Daniels TF, Kunej T, Garcia MD, et al. Discovery of novel genetic networks associated with 19 economically important traits in beef cattle. Int J Biol Sci. 20095(6):528.

Zhang C, Wang Z, Bruce H, Kemp R, Plastow G. Genome-wide association studies (GWAS) identify a QTL close to PRKAG3 affecting meat pH and colour in crossbred commercial pig lines. In: World Congress on Genetics Applied to Livestock Production 2014.

Irene VDB, Boichard D, Lund MS. Multi-breed GWAS and meta-analysis using sequences of five dairy cattle breeds improve accuracy of QTL mapping. In: Book of Abstracts of the Meeting of the European Federation of Animal Science 2015.

Zhang L, Liu JS, Ling-Yang XU, Zhao FP, Jian LU, Zhang SF, Wang HH, Zhang XN, Wei CH, Guo-Bin LU. Genome-wide Association Studies for Body Weight Traits in Sheep. China Animal Husbandry Vet Med. 2014.

Abdoli R, Mirhoseini SZ, Ghavi H-ZN, Zamani P, Gondro C. Genome-wide association study to identify genomic regions affecting prolificacy in Lori-Bakhtiari sheep. Anim Genet. 201849(5):488-91.

Jiang DI, Liu J, Xinming XU, Wang Q, LazateAiniwaer LYU. Genome-wide Association Studies for Wool and Body Mass Traits in Yearling Fine Wool Sheep. Acta Agriculturae Boreali-occidentalis Sinica. 201625(4):496-501.

Bolormaa S, Swan AA, Brown DJ, Hatcher S, Moghaddar N, van der Werf JH, Goddard ME, Daetwyler HD: Multiple-trait QTL mapping and genomic prediction for wool traits in sheep. Genet Sel Evol. 201749(1):1–22.

Meadows JR, Kijas EKCW. Linkage disequilibrium compared between five populations of domestic sheep. BMC Genet. 20089(1):1–10.

Sing CF: Introduction to Quantitative Genetics. Am J Human Genet. 199046(6):1231.

By I, Nagy J, Ölkner L, Komlósi L. Genetic parameters of production and fertility traits in Hungarian Merino sheep. J Animal Breeding Genet. 1999116(5):399–413.

Safari E, Fogarty NM, Gilmour AR. A review of genetic parameter estimates for wool, growth, meat and reproduction traits in sheep. Livest Prod Sci. 200592(3):271–89.

Di J, Zhang Y, Tian K-C, Lazate LJ-F, Xu X-M, Zhang Y-J, Zhang T-H. Estimation of (co) variance components and genetic parameters for growth and wool traits of Chinese superfine merino sheep with the use of a multi-trait animal model. Livest Sci. 2011138(1–3):278–88.

Yu J, Pressoir G, Briggs WH, Bi IV, Yamasaki M, Doebley JF, Mcmullen MD, Gaut BS, Nielsen DM, Holland JB. A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nat Genet. 200638(2):203–8.

Marchini J, Cardon LR, Phillips MS, Donnelly P. The effects of human population structure on large genetic association studies. Nat Genet. 200436(5):512–7.

Vanraden PM. Efficient methods to compute genomic predictions. J Dairy Sci. 200891(11):0–4423.

Kang HM, Sul JH, Service SK, Zaitlen NA, Kong SY, Freimer NB, Sabatti C, Eskin E. Variance component model to account for sample structure in genome-wide association studies. Nat Genet. 201042(4):348–54.

Bing-ru Z, Xue-feng F, Li-juan Y, Yue-zhen T, Jun-ming H, Xu-guang W, Xi-xia H, Ke-chuan T. The difference analysis of wool traits among strains in Chinese Merino (Xinjiang type). Xinjiang Agricultural Sci. 201653(11):2135–41.

Armstrong RA. When to use the Bonferroni correction. Ophthalmic Physiol Optics J Br Coll Ophthalmic Opticians. 201434(5):502–8.

Roberts T, Chetty M. Hypohidrotic ectodermal dysplasia: genetic aspects and clinical implications of hypodontia. Die Tydskrif Van Die Tandheelkundige Vereniging Van Suid Afrika. 201873:253–6.

Megdiche S, Mastrangelo S, Ben Hamouda M, Lenstra JA, Ciani E. A combined multi-cohort approach reveals novel and known genome-wide selection signatures for wool traits in Merino and Merino-derived sheep breeds. Ön Genet. 201910:1025.

Xuemei T, A CP. Keratin 17 modulates hair follicle cycling in a TNFalpha-dependent fashion. Genes Dev. 200620(10):1353–64.

Plafker KS, Farjo KM, Wiechmann AF, Plafker SM. The human ubiquitin conjugating enzyme, UBE2E3, is required for proliferation of retinal pigment epithelial cells. Invest Ophthalmol Vis Sci. 200849(12):5611–8.

Gaur U, Aggarwal BB. Regulation of proliferation, survival and apoptosis by members of the TNF superfamily. Biochem Pharmacol. 200366(8):1403–8.

Kondo S, Yoneta A, Yazawa H, Kamada A, Jimbow K. Downregulation of CXCR-2 but not CXCR-1 expression by human keratinocytes by UVB. J Cell Physiol. 2000182(3):366–70.

Rezza A, Wang Z, Sennett R, Qiao W, Wang D, Heitman N, Mok KW, Clavel C, Yi R, Zandstra P, et al. Signaling networks among stem cell precursors, transit-amplifying progenitors, and their niche in developing hair follicles. Cell Rep. 201614(12):3001–18.

Liu C, Sello CT, Sun Y, Zhou Y, Lu H, Sui Y, Hu J, Xu C, Sun Y, Liu J et al: De Novo Transcriptome Sequencing Analysis of Goose (Anser anser) Embryonic Skin and the Identification of Genes Related to Feather Follicle Morphogenesis at Three Stages of Development. Int J Mol Sci. 201819(10):3170.

Peck JW, Oberst M, Bouker KB, Bowden E, Burbelo PD. The RhoA-binding protein, rhophilin-2, regulates actin cytoskeleton organization. J Biol Chem. 2002277(46):43924–32.

McMullan R, Lax S, Robertson VH, Radford DJ, Broad S, Watt FM, Rowles A, Croft DR, Olson MF, Hotchin NA. Keratinocyte differentiation is regulated by the rho and ROCK signaling pathway. Curr Biol. 200313(24):2185–9.

Koyama S, Purk A, Kaur M, Soini HA, Novotny MV, Davis K, Kao CC, Matsunami H, Mescher A. Beta-caryophyllene enhances wound healing through multiple routes. PLoS One. 201914(12):e0216104.

Calautti E, Cabodi S, Stein PL, Hatzfeld M, Kedersha N, Dotto GP. Tyrosine phosphorylation and src family kinases control keratinocyte cell–cell adhesion. J Cell Biol. 1998141(6):1449–65.

Gay DL, Yang CC, Plikus MV, Ito M, Rivera C, Treffeisen E, Doherty L, Spata M, Millar SE, Cotsarelis G. CD133 expression correlates with membrane beta-catenin and E-cadherin loss from human hair follicle placodes during morphogenesis. J Invest Dermatol. 2015135(1):45–55.

Santoro T, Maguire J, McBride OW, Avraham KB, Copeland NG, Jenkins NA, Kelly K. Chromosomal organization and transcriptional regulation of human GEM and localization of the human and mouse GEM loci encoding an inducible Ras-like protein. Genomics. 199530(3):558–64.

Popova NV, Suleimanian NE, Stepanova EA, Teti KA, Wu KQ, Morris RJ. Independent inheritance of genes regulating two subpopulations of mouse clonogenic keratinocyte stem cells. J Investig Dermatol Symp Proc. 20049(3):253–60.

Wiley LA, Dattilo LK, Kang KB, Giovannini M, Beebe DC. The tumor suppressor merlin is required for cell cycle exit, terminal differentiation, and cell polarity in the developing murine lens. Invest Ophthalmol Vis Sci. 201051(7):3611–8.

Ohyama M, Terunuma A, Tock CL, Radonovich MF, Pise-Masison CA, Hopping SB, Brady JN, Udey MC, Vogel JC. Characterization and isolation of stem cell-enriched human hair follicle bulge cells. J Clin Invest. 2006116(1):249–60.

Carvajal-Gonzalez JM, Mulero-Navarro S, Roman AC, Sauzeau V, Merino JM, Bustelo XR, Fernandez-Salguero PM. The dioxin receptor regulates the constitutive expression of the vav3 proto-oncogene and modulates cell shape and adhesion. Mol Biol Hüceyrə. 200920(6):1715–27.

Giannoni E, Buricchi F, Raugei G, Ramponi G, Chiarugi P. Intracellular reactive oxygen species activate Src tyrosine kinase during cell adhesion and anchorage-dependent cell growth. Mol Cell Biol. 200525(15):6391–403.

Chang C-H, Jiang T-X, Lin C-M, Burrus LW, Chuong C-M, Widelitz R. Distinct Wnt members regulate the hierarchical morphogenesis of skin regions (spinal tract) and individual feathers. Mech Dev. 2004121(2):157–71.

Sick S, Reinker S, Timmer J, Schlake T. WNT and DKK determine hair follicle spacing through a reaction-diffusion mechanism. Elm. 2006314(5804):1447–50.

Holland JD, Klaus A, Garratt AN, Birchmeier W. Wnt signaling in stem and cancer stem cells. Curr Opin Cell Biol. 201325(2):254–64.

Iwamoto Y, Nishikawa K, Imai R, Furuya M, Uenaka M, Ohta Y, Morihana T, Itoi-Ochi S, Penninger JM, Katayama I, et al. Intercellular communication between keratinocytes and fibroblasts induces local osteoclast differentiation: a mechanism underlying Cholesteatoma-induced bone destruction. Mol Cell Biol. 201636(11):1610–20.

Sambrook JRD. A laboratory manual 2000.

Li H, Durbin R. Fast and accurate short read alignment with burrows-wheeler transform. Bioinformatika. 200925(14):1754–60.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. Genome project data processing S: the sequence alignment/map format and SAMtools. Bioinformatika. 200925(16):2078–9.

Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nuklein turşuları Res. 201038(16):e164.

Yang J, Lee SH, Goddard ME, Visscher PM. GCTA: a tool for genome-wide complex trait analysis. Mən J Hum Genet. 201188(1):76–82.

Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatika. 200521(2):263–5.

Gilmour AR, Thompson R, Cullis BR. Average information REML: an efficient algorithm for variance parameter estimation in linear mixed models. Biometrics. 199551(4):1440–50.

Zhou X, Stephens M. Genome-wide efficient mixed-model analysis for association studies. Nat Genet. 201244(7):821–4.


ADDRESSING PROBLEMS IN ANALYSIS

Quality Control

One disadvantage of a case–control study design compared with family-based association studies is the lack of an internal check on genotyping quality. Standard laboratory practice of assigning both cases and controls to each plate, checking for differences in genotype frequency across plates, and genotyping duplicate samples can help eliminate systematic errors. Testing for HWE in controls can also identify problems with genotyping quality.

Hardy–Weinberg Equilibrium

Under HWE, alleles segregate randomly in the population, allowing expected genotype frequencies to be calculated from allele frequencies. A comparison of the expected and observed genotype frequencies provides a test of HWE (e.g., using a chi-square statistic). For alleles G and T, in which the frequency of allele G is səh and the frequency of allele T is q = (1 – səh), the expected frequencies of genotypes GG, GT, and TT are səh 2 , 2pq, və q 2 . Allele frequencies (p, q) are usually estimated from the genotype sample under test, rather than obtained from external genotyping data.

Departure from HWE is generally tested for by using the Pearson chi-square test to assess goodness of fit (of the observed genotype counts to their expectation under HWE). Table 2 shows the step-by-step calculation with observed counts for genotypes GG, GT, and TT of a, b, c, and an application to a data set of 100 control genotypes (GG: 60, GT: 30, TT: 10). The estimated frequency of allele G is 0.75 (= [2 × 60 + 30]/200), noting the division by the number of alleles (2N) here, not genotypes (N). The chi-square goodness-of-fit test statistic is then calculated from summing (O – E)/E 2 across genotypes, giving chi-square = 4.0. Under the null hypothesis of no departure from HWE, the test statistic has one degree of freedom (not two degrees of freedom, as implied by the table dimensions), because the allele frequency səh has been estimated from the observed data. In this test data set, a səh value of 0.046 is obtained, giving slight evidence of departure from HWE, with a deficit in the number of observed heterozygotes.

Testing for departure from Hardy–Weinberg equilibrium

Departures from HWE in control samples may be caused by the following:

1. Genotyping error. In many genotyping platforms, calling heterozygotic individuals is more challenging than homozygotic individuals, and a higher rate of missing individuals for this genotype can distort HWE.

2. Assortative mating. HWE requires random mating for the SNP under test, which is reasonable for a random SNP across the genome, but may be violated for SNPs that affect mate choice, such as height.

3. Selection. Any genotype increasing the risk of fetal loss or early death is likely to be underrepresented.

4. Population stratification. Control samples that arise from a combination of genetically distinct subpopulations may not be in HWE.

5. Chance. HWE səh values for studies of more than one SNP should be corrected appropriately for multiple testing.

Departures from HWE may be caused by any of these factors, but also by the genotyped SNP playing a role in disease susceptibility. Case genotypes for a disease mutation will only be in HWE if the genetic model is multiplicative, with genotype relative risks of 1, r, r 2 . However, for modest effect sizes, the power to detect departures from HWE may be low in cases.

No standard guidelines for rejecting SNPs that depart from HWE have been developed. In practice, all SNPs for which HWE səh values decrease below a predetermined threshold should be checked manually for genotyping quality. Investigators should also be aware of SNPs showing significant association in which HWE səh values are close to this threshold and unsupported by neighboring SNPs in LD.

Missing Genotypes

Another indication of poor genotyping quality is low call rates, with many missing genotypes for each SNP or each individual. This is a major issue in GWAS, but it is also applicable to candidate gene association studies. Genotypes that are missing at random will not bias a test, but poor genotype call rates may indicate nonrandom missingness, with one specific genotype (often heterozygotes) having a lower call rate. This may bias tests of association. Differential rates of missingness between cases and controls (for example, because of differences in DNA extraction and storage) may also be a problem (Clayton et al. 2005).

Population Stratification

Population stratification arises in case–control studies when the two study groups are poorly matched for genetic ancestry. Confounding then occurs between disease state (case, control) and genetic ancestry, with a subsequent increase in false-positive associations. For population stratification to occur, the underlying populations must differ in SNP allele frequency and be represented at different frequencies in the case and control groups. Detecting and controlling for population stratification is important, particularly in GWAS, in which even subtle differences between cases and controls can have major effects on the analysis. Several methods are available to detect and correct for population stratification, including genomic control, the Cochran/Mantel–Haenszel test, and the transmission disequilibrium test.

Genomic control (GC) assumes that population stratification inflates the association test statistics by a constant factor λ, which can be estimated from the median or mean test statistic from a series of unlinked SNPs genotyped in both cases and controls (Devlin and Roeder 1999). Test statistics are then divided by λ and compared with a chi-square distribution or an F distribution) to test for association (Devlin et al. 2004). Genotypes at SNPs uncorrelated with disease status can also be used to infer population ancestry, assigning the samples to distinct population groups, which can then be controlled for in the analysis (Pritchard et al. 2000). In GWAS, population substructure can be identified through a principal components analysis, which models ancestral genetic differences between cases and controls and then corrects for this in the analysis (Price et al. 2006).

Where individuals can be classified into known subgroups (e.g., by birthplace), analysis can be performed within each subgroup and combined using a Cochran/Mantel–Haenszel test (Clayton et al. 2005). The issue of population stratification can be avoided by using family-based studies. The most widely used method is the transmission disequilibrium test (TDT) (Spielman et al. 1993), which tests for non-Mendelian transmission of SNP alleles from heterozygous parents to affected offspring overtransmission suggests that the SNP allele increases risk of disease.


Estimating genetic nurture with summary statistics of multi-generational genome-wide association studies

Marginal effect estimates in genome-wide association studies (GWAS) are mixtures of direct and indirect genetic effects. Existing methods to dissect these effects require family-based, individual-level genetic and phenotypic data with large samples, which is difficult to obtain in practice. Here, we propose a novel statistical framework to estimate direct and indirect genetic effects using summary statistics from GWAS conducted on own and offspring phenotypes. Applied to birth weight, our method showed nearly identical results with those obtained using individual-level data. We also decomposed direct and indirect genetic effects of educational attainment (EA), which showed distinct patterns of genetic correlations with 45 complex traits. The known genetic correlations between EA and higher height, lower BMI, less active smoking behavior, and better health outcomes were mostly explained by the indirect genetic component of EA. In contrast, the consistently identified genetic correlation of autism spectrum disorder (ASD) with higher EA resides in the direct genetic component. Polygenic transmission disequilibrium test showed a significant over-transmission of the direct component of EA from healthy parents to ASD probands. Taken together, we demonstrate that traditional GWAS approaches, in conjunction with offspring phenotypic data collection in existing cohorts, could greatly benefit studies on genetic nurture and shed important light on the interpretation of genetic associations for human complex traits.


Videoya baxın: GWAS Analysis in R: By Catherine Danmaigona Clement (Yanvar 2023).