Məlumat

Mikroarray eksperimentinin doğrulanması mənası

Mikroarray eksperimentinin doğrulanması mənası


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tez sualım var: mikroarray eksperimentinin doğrulanması nə deməkdir?

Mən bir kağız oxuyurdum, orada deyirlər ki, təcrübənin məlumatları 3 genin olduğunu göstərir radB, dp1 və dp2 "mikroarray təcrübəmizi təsdiqləyən" qamma şüalanmasından sonra birgə tənzimlənir.

Google-da bir şey tapmağa çalışdım, amma hələ aydın deyil.


Oliqonukleotid mikroarray

19.3 Müzakirə

Oliqonukleotid mikroarrayının əsas üstünlüyü onun tək bir test çərçivəsində çoxsaylı və yeni patogenləri aşkar etmək qabiliyyətidir. Qeyri-spesifik gücləndirmə və ana RNT-nin çıxarılmasında texniki təkmilləşdirmələr həssaslığı yaxşılaşdırır, virusa xüsusi əks transkripsiya-polimeraza zəncirvari reaksiya (RT-PCR) kimi texnologiyalarla birbaşa müqayisə aparıldıqda əsas məhdudlaşdırıcı amildir. Bundan əlavə, təkmilləşdirilmiş zond dizayn proqramı da daha yüksək həssaslığa kömək etdi və yeni patogenlərin yaranmasına cavab olaraq oliqonukleotidlərin dizaynını sadələşdirdi. Yüksək sıxlıqlı mikroarraylara yeni zondların əlavə edilməsi indi sürətli və nisbətən ucuzdur, bu da xəstəliyin epidemiologiyasındakı dəyişikliklərə vaxtında reaksiya verməyə imkan verir.

Lissaviruslar üçün mövcud qızıl standart testlər, hətta virusun klinik nümunələrdən bərpa oluna bildiyi halda belə, müxtəlif növlər arasında fərq qoymur. PCR amplikonlarının avtomatlaşdırılmış ardıcıllığı və ya növbəti nəsil ardıcıllığı spesifikasiyaya potensial alternativlər təklif edir, lakin bunlar baha başa gələ bilər və yüksək səviyyəli təcrübə və əhəmiyyətli kapital qoyuluşu tələb edə bilər. Oliqonukleotid mikroarraylar nisbətən daha az təcrübə tələb edən və daha kiçik laboratoriyalar üçün əlverişli olan alternativ təklif edir. Bu, birdən çox lissavirusun mövcud olduğu və xəstəyə quduzluq diaqnozu qoyulduğu yerlərdə xüsusilə vacibdir. Son illərdə Avropa yarasa lyssavirus tip 2 (EBLV-2), Duvenhage virusu (DUVV) və İrkut virusu ilə yoluxma nəticəsində insan ölümləri, ictimai səhiyyə orqanlarına RABV-nin olduğuna əmin olmaq üçün törədicinin təsdiqlənməsi üçün intensiv araşdırma tələb etdi. cavabdeh deyil.

Oliqonukleotid mikroarrayının əsas çatışmazlığı, xüsusən də digər lissavirusların və RABV-nin xəstəliyə səbəb olduğu dünyanın hissələrinə yayılmasında açıq şəkildə baha başa gəlir. Siqnal intensivliyini ölçmək üçün nuklein turşusunun gücləndirilməsi, hibridləşdirilməsi və skanerlər üçün xüsusi avadanlıqların alınması üçün ilkin investisiya tələb olunur. İstehlak materialları və reagentlərin məsrəfləri, o cümlədən mikroarray slaydlarının qiyməti də təhlili yerinə yetirmək üçün personal üçün təlim və bacarıqların saxlanması xərclərinə əlavə olaraq, tətbiq üçün maneədir. Virusların mikroarray aşkarlanması real vaxt rejimində RT-PCR kimi digər texnologiyalarla müqayisədə xeyli yavaş olur və məhz bu texnologiya inkişaf etməkdə olan dünyaya tədricən yayılmaqla quduzluq diaqnozunda yeniliklərə üstünlük verir.

Yekun olaraq, oliqonukleotid mikroarraylar RABV və 6,23 lissavirus cinsinin digər üzvlərinin aşkarlanması üçün tətbiq edilmişdir və xüsusi nümunədə lissavirus növlərini müəyyən etmək qabiliyyətinə malikdir. Bununla belə, pan-viral və ya pan-patogen platformadan başqa, onun geniş tətbiqi qarşısındakı maneələr əhəmiyyətlidir və oliqonukleotid mikroarrayının diaqnostik test kimi RABV-nin aşkarlanmasında geniş tətbiq tapması ehtimalı azdır.


Drosophila Yaşlanma Modelləri

Satomi Miwa, Alan Koen, İnsan Qocalması üçün Modellər Kitabçasında, 2006

Mikroarray analizi

Mikroarray analizi minlərlə müxtəlif mRNA-nın bağlana və ölçülə bilən gen çiplərindən istifadə edən bir üsuldur. Fərqli toxumalarda və ya müxtəlif müalicələr altında olan fərdlərdə mRNT səviyyələrini ölçmək üçün bu cür çiplərdən istifadə etməklə, toxuma və ya müalicə ilə əlaqədar olaraq fərqlənən onlarla və ya yüzlərlə spesifik gen müəyyən edilə bilər ki, bu da fərqlərin mexaniki anlayışına kömək edir. Daha sonra namizəd yerləşdirmə yanaşmalarından istifadə etməklə əlavə işlər aparıla bilər (aşağıya bax). Allelik variasiyaya baxan QTL-dən fərqli olaraq, mikroarray analizi gen tənzimlənməsinə baxır: potensial olaraq, lakin mütləq deyil, allel dəyişkənliyinin nəticəsidir.

QTL-lərdə olduğu kimi, yalnız genetik fon və ətraf mühitə nəzarət etmək üçün deyil, həm də nəticələrin təfsirinin öyrənilən genetik fon və mühitlə məhdudlaşdırılmasına diqqət yetirilməlidir. Həmçinin, yadda saxlamaq lazımdır ki, mikroarray analizi öz təbiətinə görə korrelyativdir və aydın təfsir üçün ümumiyyətlə nümunələrin əlavə öyrənilməsi lazımdır. Bununla belə, mikroarray analizi fizioloji dəyişkənliyin altında yatan genetik prosesləri araşdırmaq üçün ən güclü üsullardan biri olaraq qalır.

Drosophila Xüsusilə mikroarray analizi üçün yaxşı uyğundur (a) genom nisbətən kiçik olduğundan, onun çox hissəsi tək bir mikroarray ilə təhlil edilə bilər və potensial əhəmiyyətli nümunələrin qaçırılma ehtimalı daha azdır və (b) funksiyaları nəticələrin şərhini asanlaşdıran bir çox gen artıq öyrənilmişdir. Mikroarray analizindən istifadə edilmişdir Drosophila pəhriz məhdudiyyəti zamanı və yaşlanma ilə gen ifadə dəyişikliklərini xarakterizə etmək (Pletcher və başqaları, 2002 ).


Mikroarray eksperimentinin doğrulanması mənası - Biologiya

Data mərkəzimizdə texniki xidmətə görə 8 saat. Bu interval işin gedişatından asılı olaraq potensial olaraq daha qısa ola bilər. Narahatçılığa görə üzr istəyirik. *** --> *** DAVID data mərkəzimizdəki texniki xidmətlə əlaqədar 24/6/2011-ci il tarixində saat 17:00-dan 26/6/2011-ci il EST Bazar günü saat 15:00-a qədər işləməyəcək. Bu interval işin gedişatından asılı olaraq potensial olaraq daha qısa ola bilər. Narahatçılığa görə üzr istəyirik. *** --> *** Hazırda biz müxtəlif proqramlaşdırma dillərindən DAVID-ə daxil olmağa imkan verən yeni DAVID Veb Xidmətimiz üçün Beta istifadəçilərini qəbul edirik. Giriş üçün bizimlə əlaqə saxlayın. *** --> *** Siyahının yüklənməsi və çevrilməsi üçün Gen Simvolunun xəritələşdirilməsi dəyişdi. Ətraflı məlumat üçün DAVID forum elanına baxın. --> *** Müxtəlif proqramlaşdırma dillərindən DAVID-ə daxil olmağa imkan verən yeni DAVID Veb Xidmətini elan edir. Daha çox məlumat. *** --> *** DAVID 6.8 23/2/2016 Cümə axşamı, 9AM-1PM EST arasında təmir üçün işləməyəcək *** -->
*** DAVID 6.8-ə xoş gəlmisiniz ***
*** Əgər siz DAVID 6.7 axtarırsınızsa, lütfən inkişaf saytımıza daxil olun. ***
-->
*** Yenilənmiş Bilik bazası ilə DAVID 6.8-ə xoş gəlmisiniz (ətraflı məlumat). ***
*** Əgər siz DAVID 6.7 axtarırsınızsa, lütfən inkişaf saytımıza daxil olun. ***
-->
*** Yenilənmiş Bilik bazası ilə DAVID 6.8-ə xoş gəlmisiniz (ətraflı məlumat). ***
*** DAVID 6.7 serveri hazırda texniki xidmət üçün sıradan çıxıb. ***
--> *** Zəhmət olmasa oxuyun: Data mərkəzinə texniki xidmət göstərilməsi ilə əlaqədar olaraq, DAVID 17 İyun Cümə günü @ saat 16:00 EST-dən 19 İyun Bazar gününə qədər oflayn olacaq və daha tez onlayn olmaq imkanı ilə. *** -->


Müzakirə

Burada, mikroarraylarla müqayisədə klinik son nöqtələri proqnozlaşdırmaq üçün RNT-seq potensialını qiymətləndirdik. Biz RNT seq və mikroarraylardan istifadə edərək 498 əsas neyroblastoma nümunəsindən gen ifadə profillərini yaratdıq, bu, bildiyimiz qədər tək bir xərçəng varlığının transkriptomunun ən əhatəli təsvirini təmsil edir. Biz nümayiş etdiririk ki, neyroblastomaların gen ifadəsi profilləri çox mürəkkəbdir və bu yaxınlarda dərc olunmuş digər insan hüceyrələrinin transkriptomik mənzərəsi ilə bağlı tapıntılara uyğundur [9, 12, 30]. Bütün neyroblastoma kohortunda biz AceView verilənlər bazasında qeyd edilmiş bütün xüsusiyyətlərin müvafiq olaraq 86,7% və 77,3%-ni təşkil edən 48,415 gen və 204,352 transkript tapdıq. Biz həmçinin neyroblastomada ifadə olunacaq 39 000-dən çox yeni ekzon müəyyən etdik və bu, insan transkriptomunun hələ də RefSeq, Gencode və AceView kimi cari istinad verilənlər bazaları tərəfindən əks olunan mürəkkəbliyi aşmasına dair əlavə sübut təqdim etdik. Dörd əsas klinik-genetik alt qrupun gen ifadə profillərinin müqayisəsi RNT-seq-nin mikroarraylarla müqayisədə demək olar ki, iki dəfə çox DEG müəyyən etdiyini ortaya qoydu. Qeyd edək ki, RNT-seq ilə müəyyən edilmiş DEG-lər mikroarraylar tərəfindən aşkar edilən DEG-lərin 80,1%-ni təşkil edir ki, bu da hər iki üsulla DEG-lərin müəyyən edilməsinin etibarlılığına işarə edir. RNT-seq və mikroarraylar tərəfindən alınan uyğunsuz ədədlərin bir səbəbi, RNT-seq tərəfindən müəyyən edilmiş 6,939 DEG-nin mikroarrayda bir zond ilə təmsil edilməməsindən irəli gəlir. Bundan əlavə, genlər bir zond ilə təmsil olunsa da, 4776 DEG mikroarraylar tərəfindən aşkar edilmədi, bu, ən azı qismən transkript səviyyəsində ifadə profillərini nəzərə alan analitik yanaşmamıza aid edilə bilər. Birlikdə götürdükdə, tədqiqatımız RNT-seq-nin mikroarraylarla müqayisədə neyroblastomaların transkriptomik xüsusiyyətlərinə dair daha ətraflı məlumat verməyə qadir olduğunu əsaslandırır.

Klinik son nöqtənin proqnozlaşdırılması üçün RNT-seq- və mikroarray əsaslı modellərin potensialını sistematik şəkildə müqayisə etmək üçün biz müxtəlif məlumat annotasiya boru kəmərlərindən istifadə etdik və bir ifadə profili ilə tamamlanan RNT-seq məlumatlarından alınan nümunə başına doqquz ifadə profili yaratmaq üçün müxtəlif xüsusiyyət səviyyələrini nəzərdən keçirdik. mikroarray analizlərindən əldə edilmişdir. Biz proqnozlaşdırma çətinliklərinin geniş spektrini əhatə edən altı son nöqtə üçün 360 proqnozlaşdırıcı model yaratdıq. Doğrulama dəstində proqnoz göstəricilərinin qiymətləndirilməsi müəyyən etdi ki, son nöqtə model performanslarına təsir edən ən uyğun amili təmsil edir və bu, MAQC-II tədqiqatının nəticələrinə yaxşı uyğun gəlir [7]. Bunun əksinə olaraq, nə texniki platforma (yəni, RNT-seq vs. mikroarraylar), nə də RNT-seq data annotasiya kəməri proqnoz göstəricilərinin dəyişkənliyinə əhəmiyyətli dərəcədə təsir göstərməmişdir. Kollektiv olaraq, məlumatlarımız RNT seq və mikroarray əsaslı modellərin klinik son nöqtənin proqnozlaşdırılmasında oxşar şəkildə çıxış etdiyini nümayiş etdirir.

Fərqli xüsusiyyət səviyyələrinə əsaslanan modellərin klinik son nöqtələri müqayisə edilə bilən dəqiqliklə proqnozlaşdırdığını da müşahidə etdik. Öz növbəsində, bu nəticə o deməkdir ki, ekzon-qovşaq səviyyələrinə əsaslanan modellər gen səviyyələrinə əsaslanan modellər kimi eyni dərəcədə yaxşı işləyir. Bu tapıntılar yüksək məhsuldarlıqlı analizlərdən RT-qPCR əsaslı analizlərə tez-tez köçürülən klinik şəraitdə istifadə olunacaq ekspressiyaya əsaslanan təsnifatçıların inkişafına təsir göstərə bilər [6, 20]: Gen ifadə səviyyələrinə əsaslanan analizlərdə spesifiklik olmaya bilər. Əsas müvafiq transkript variantları ilə bağlı qeyri-müəyyənliklərə görə, RNT-seq tərəfindən müəyyən edilmiş ekson-qovşaqlar xüsusi diaqnostik testlərin hazırlanması üçün birmənalı ifadə məlumat mənbəyini təmin edir.

Nəticələrimiz mikroarraylarla müqayisədə RNT-seq tərəfindən təmin edilən daha geniş transkriptomik məlumatın ümumiyyətlə gen ifadəsinə əsaslanan proqnoz göstəricilərini yaxşılaşdıra biləcəyi fərziyyəsini dəstəkləmir. Bu tapıntının mümkün izahı ola bilər ki, RNT-seq məlumatlarının xas mürəkkəbliyi modelin inkişaf prosesində həddən artıq uyğun təsirləri təşviq edə bilər və bu, xarici doğrulama kohortlarında təkrarlana bilməyən həddən artıq optimist daxili proqnoz göstəricilərinə gətirib çıxara bilər [31]. Bununla belə, qeyd etdik ki, daxili və xarici təsdiqləmə performanslarının korrelyasiyası RNT seq və mikroarray əsaslı modellər üçün demək olar ki, eyni idi və bu, həddindən artıq uyğunlaşma effektlərinin texnoloji platformadan müstəqil olduğunu göstərir. Nəticələrimiz üçün alternativ izahat, proqnozlaşdırma modellərində RefSeq-annotasiya edilmiş xüsusiyyətlərin nisbətinin əksər son nöqtələr üçün AceView verilənlər bazasında onların nisbəti diapazonunda və ya hətta ondan yuxarı olması ilə bağlı müşahidədən nəticə çıxara bilər. Bu tapıntı, standart mikroarraylarla təmsil olunan RefSeq-annotasiyalı genlərin proqnozlaşdırıcı məlumatının doymuş olduğunu və RNT-seq tərəfindən təmin edilən daha mürəkkəb transkriptomik məlumatların proqnozlaşdırıcı məlumatının böyük ölçüdə lazımsız olduğunu göstərə bilər. Bununla belə, qeyd etmək lazımdır ki, proqnozlaşdırılması çətin olan son nöqtələr üçün modellər (yəni, EFS HR, OS HR) RefSeq-də qeyd olunmayan xüsusiyyətləri qeyri-mütənasib şəkildə işə götürməyə meyllidir və bu xüsusiyyətlərin proqnozun düzgünlüyünə əhəmiyyətli dərəcədə töhfə verə biləcəyini göstərir. bu son nöqtələrdə.

RNT seq və mikroarray analizlərindən əldə edilən həm gen ekspressiyasına əsaslanan modellər bütün neyroblastoma kohortunda xəstənin nəticəsini dəqiq proqnozlaşdırmağa qadir idi, bununla da əvvəlki tədqiqatların nəticələrini təsdiqlədi və neyroblastoma riskinin qiymətləndirilməsi üçün onların potensial klinik faydasını vurğuladı [16-18, 20. ]. Qeyd edək ki, orta hesabla 100-dən 1000-ə qədər xüsusiyyəti olan modellərin daha az funksiyaya malik modellərdən daha yaxşı performans göstərdiyini müşahidə etdik. Bu tapıntı, keçmişdə edildiyi kimi, proqnozlaşdırıcı modellərdə xüsusiyyət nömrələrini minimuma endirmək üçün iddialı səylərə qarşı çıxa bilər [20, 32]. Bundan əlavə, biz tapdıq ki, ən yaxşı performans göstərən modellər yüksək riskli xəstələrin nəticələrini əvvəllər dərc edilmiş multigen imzaları [18, 20, 33] kimi dəqiqliklə və cari proqnostik markerlərdən asılı olmayaraq proqnozlaşdıra bildi. Bu cür multigen imzalarının proqnostik dəyəri müstəqil yüksək riskli neyroblastoma kohortlarında təsdiq edilməli olsa da, bu tapıntılar bu çətin xəstə alt qrupunda biomarkerə əsaslanan risk qiymətləndirməsinin qurulması üçün başlanğıc nöqtəsi ola bilər.


Metodlar

Normallaşma

E-MEXP-1091 və <"type":"entrez-geo","attrs":<"text":"GSE12930","term_id":"12930">> GSE12930 məlumat dəstlərindən istifadə edərək empirik qiymətləndirmə üçün ən aşağı verilənləri normallaşdırmaq üçün [24] yanaşmadan istifadə edilmişdir. Daha sonra ifadə məlumatlarını medianla mərkəzləşdirərək gen başına normallaşdırma aparıldı. Analiz bayraqlardan asılı olmayaraq bütün genlər üzrə aparılıb.

GSEA və Qlobal

Bütün təhlillər R [25]-də aparılmışdır. Bioconductor [26] kitabxanası və GSEA 1.0 R paketi [5] istifadə edilmişdir. Qlobal metodologiya üçün əhəmiyyətli yolları müəyyən etmək üçün Qlobal test kitabxanasındakı Qlobal test funksiyasından istifadə edilmişdir.

Reytinq Testi

Fərz edək ki, bir yola aid M genləri var. Hər bir gen ifadə dəyərindən, birləşmiş müalicə və nəzarət qruplarından əldə edilən median ifadə dəyərini çıxarın. Bu proses məlumatları uyğunlaşdırır və bununla da sonrakı təhlilləri orta dəyərdəki dəyişikliklərə həssas olmağa sövq edir. Sonrakı üçün j ci qrupda mövzu i, qoy ωij, uyğunlaşdırılmış intensivlik dəyərlərinin dərəcə vektorunu təmsil edir M yolunda genlər. Set

Rütbələrin istifadəsi iki məqsədə xidmət edir. Birincisi, o, hər bir mövzu üçün uyğunlaşdırılmış ifadə dəyərlərinin korrelyasiya modelini çəkir. İkincisi, o, sonrakı qeyri-parametrik təhlilə imkan verir.

Feyqin və Alvonun [27] metodlarından istifadə edərək, biz test statistikasını təklif edirik

burada baş vektorun transpozisiyasını göstərir. İki qrup arasında heç bir dəyişiklik olmadığı fərziyyəsinə görə, statistik S miqyası kiçik olmalıdır. Qoy Sobsmüşahidə olunan statistik göstəricinin dəyəri olsun.

Sonra, əsaslanan bir permutasiya testini təklif edirik S. Heç bir dəyişiklik baş vermədiyi sıfır fərziyyəyə əsasən, iki qrupdakı subyektlər bir-birini əvəz edə bilər. Beləliklə, hər bir seçim üçün hesablayırıq n1mövzulardan n statistik dəyəri S. Nominal p-dəyəri daha sonra verilir

Mümkün permutasiyaların ümumi sayı çox olduqda, biz təsadüfi olaraq onların arasından 1000 dəyişdirmə seçirik.

Dəyişdirilmiş Reytinq Testi

Rank testi mikroarrayda olan digər genlərdən asılı olmayaraq müəyyən edilir. Efron və Tibşirani [28] yolun statistik əhəmiyyətinin qiymətləndirilməsi problemi ilə bağlı iki müxtəlif fərziyyəni nəzərdən keçirdilər. Təsadüfi sıfır hipotezi göstərir ki, M maraq yolunda olan genlər massivdən təsadüfi olaraq seçilmişdir. Beləliklə, test statistikasının sıfır paylanması onun bütün mümkün çoxluqlar üzərindəki dəyərini nəzərə alaraq əldə edilir. M massivdəki genlər. Digər tərəfdən, hər bir mövzuya uyğun gəlir M-ifadə qiymətlərinin vektoru. Bu vəziyyətdə permutasiya fərziyyəsi vektorların müstəqil və eyni şəkildə paylandığını bildirir və buna görə də test statistikasının paylanması vektorların dəyişdirilməsi ilə əldə edilir. Efron və Tibşiraninin [28] qeyd etdiyi kimi, hər iki fərziyyənin çatışmazlıqları var. Birincisi, genlər arasında korrelyasiyaya məhəl qoymur, ikincisi isə genlərin çəkildiyi massivi nəzərə almır. Bunun əvəzinə onlar müşahidə edilən statistikanı yenidən standartlaşdıran düzəliş edilmiş statistika təklif etdilər Sobsorta ilə m* və standart sapma σ* aşağıdakı kimidir:

harada m*, σ* bütün mikroarray və gen dəstlərinin təsadüfi seçilməsi ilə əldə edilən orta və standart sapmadır. msvə σs xüsusi yol üçün etiketlərin dəyişdirilməsi ilə əldə edilən orta və standart kənarlaşmadır.


Diferensial Tənzimlənən Genlərin Seçilməsi və Məlumat Təhlili

Həm kiçik, həm də böyük mütləq ifadə səviyyələrindən hədsiz dərəcədə təsirləndiyi məlum olan, sadəcə olaraq, bir ixtiyari qat-dəyişmə kəsilməsindən asılılığın qarşısını almaq üçün obyektiv gen seçimi metodu axtarıldı. Seçilmiş metoda (A) mütləq ifadə səviyyələrinin dar qutuları daxilində ən yüksək qat dəyişikliklərinin yuxarı X%-nin təyin edilməsi, (B) çox kiçik mütləq dəyərlərin rədd edilməsi və (C) birləşmiş qatla genlərin sonrakı sıralanması daxildir. dəyişmə/mütləq fərqin hesablanması.

(A) Qablaşdırılmış mütləq ifadə səviyyələri daxilində ən yüksək qat dəyişikliklərinin yuxarı X%-nin seçilməsi

Tipik Affymetrix təcrübəsindən əldə edilən məlumatlar orta fərqi ehtiva edir (Ort.Fərq) dəyəri, mükəmməl uyğunluq oliqonukleotid ilə uyğunsuzluq oliqonukleotid arasındakı intensivlik fərqi kimi təsvir edilə bilər. Hazırkı model baxımından bu parametri aydınlaşdırmaq üçün "orta fərq" əvəzinə "mütləq ifadə" termini istifadə ediləcək. Adətən ədəbiyyatda göstərildiyi kimi, mənfi ifadə səviyyələri olan genləri aradan qaldırmaq və mahiyyətcə şərh olunmayan məlumatları rədd etmək üçün həm minimal, həm də mənfi mütləq ifadə dəyərləri ümumi rəqəmə təyin edilir. Buna görə də, ilk keçid filtri olaraq, mütləq ifadə dəyərləri 20-dən az olan genlər 20-yə təyin edildi və bütün dörd pəhrizdə 20 dəyəri olan bütün genlər dərhal rədd edildi. Bu proses, Mu11K GeneChip-də təmsil olunan orijinal 13179 gendən qaraciyərdə 9391 gen buraxdı. Daha sonra bu qalan genlərə əlavə parametr, ən yüksək qat dəyişikliyi tətbiq edildi. HFC aşağıdakı kimi müəyyən edilə bilər:

burada A,B,C,D və s. hər bir gen üçün fərdi mikroarray nəticələrini təmsil edir

Təklif olunan HFC təyini mütləq ifadədən yüksək dərəcədə təsirlənir və HFC-nin mütləq ifadə ilə mənfi əlaqədə olduğu məlumat dəstimizdə tendensiyaları asanlıqla müşahidə etmək olar. Məsələn, görünə bilər ki, 5000-dən yuxarı mütləq ifadə dəyərləri ilə, HFC-nin 1,5-dən çox olması ehtimalı azdır, lakin 50-yə yaxın mütləq ifadə dəyərlərində HFC-ni ≥ 2 müşahidə etmək çox asandır. Qeyd etmək lazımdır. hazırkı təcrübə dörd pəhriz və ya müalicədən ibarətdir, lakin HFC istənilən sayda eksperimental şərait üçün asanlıqla hesablana bilər. Bundan əlavə, oxşar tendensiyalar araşdırdığımız çoxsaylı Affymetrix verilənlər bazasında müşahidə oluna bilər (məlumatlar göstərilmir).

Son məqsəd, qat dəyişikliyində genləri süzərkən mütləq dəyərləri nəzərə alacaq bir model hazırlamaq idi. Diferensial şəkildə ifadə olunan genlərin seçilməsi mahiyyət etibarilə kənar göstəricilərin axtarışıdır, yəni. nəzarət vəziyyətinə nisbətən fərqlərin normal paylanmasından kənarda qalan və təsadüf və ya təbii dəyişkənliyə aid edilə bilməyən gen məlumatları. Kənar olan genləri müəyyən etmək üçün ya sistemin dəyişkənliyini ölçmək, ya da dəyişkənliyin normal paylanması ilə bağlı etibarlı fərziyyələr etmək lazımdır. Hazırkı modeldə biz fərz edirik ki: (1) gen ifadəsi ölçmələrindəki dəyişkənlik mütləq ifadə səviyyəsi ilə bağlıdır və (2) transkriptomun geniş nümunəsi ölçülürsə, o zaman yalnız az sayda gen faktiki olaraq, hətta aşağıdakı hallarda da kənar olacaq. eksperimental müalicələrin ən sərti. Fərziyyə (1) kifayət qədər ümumi analitik anlayışdır, yəni. ki, məlumat ölçmə həddinə nə qədər yaxındırsa, həmin ölçmədə dəyişkənlik bir o qədər yüksəkdir. Fərziyyə (2) kalori məhdudiyyətindən [10,11] apoptoza [12,13] kimi ağır bioloji hadisələri qiymətləndirən yüksək sıxlıqlı mikroarray təcrübələri üçün ədəbiyyatı araşdırarkən empirik olaraq etibarlı görünür. Bu təcrübələrdə, müxtəlif seçim üsulları vasitəsilə, araşdırılan genlərin ümumi sayının 5% -dən azının diferensial şəkildə tənzimləndiyi aşkar edilmişdir. Buna görə də, gen seçilməsinin indiki modelini inkişaf etdirmək üçün, əhalinin 5%-dən yuxarı olan bir sıra yüksək dəyişkən genlər üçün kənar göstəricilərin seçilməsinin etibarlılığı qiymətləndirilmişdir.

Mövcud model gen ifadə məlumatlarını mütləq ifadə dəyərləri diapazonunda sıx siniflərə birləşdirərək hazırlanmışdır. yəni. 20-50, 50-100, 100-150, və s. və sonra əlavə nəzərdən keçirmək üçün HFC dəyərlərinin yuxarı 5%-i seçilir. Qablaşdırma elə bir şəkildə həyata keçirildi ki, heç vaxt sıfır gen və ya davam edən zibil qutusundan daha az gen olan zibil qutusu olmasın, buna görə də zibil ölçüləri həmişə bərabər olmur. Hər bir sinifdə ən böyük HFC-lərə malik genlərin 5%-ni ayrıca axtarmaq mümkündür, lakin ümumi seçimi sadələşdirmək üçün biz MIN(pəhriz A,B,C,D) kimi müəyyən edilmiş mütləq ifadə arasındakı əlaqəni modelləşdirdik. dəyər və HFC (ekn 1) limit qat dəyişikliyini (LFC) təyin etmək üçün. Əlaqə formanın sadə tənliyindən istifadə edərək modelləşdirilə bilər LFC = a+b/x (ile ab seçiləcək genlərin sayından asılı olaraq). Şəkil 1a göstərir ki, seçim meyarları daha sərtləşdikcə (genlərin ilk 5% → 3% → 1%) LFC əyriləri dəyişir, lakin 1000-dən yuxarı ifadə səviyyələrində birləşir. Sadə tənlik gen üzərində müxtəlif təsirləri olan iki parametrdən ibarətdir. seçim. İlk olaraq, a hər hansı bir mütləq dəyərdə müşahidə oluna bilən minimum ən yüksək qat dəyişmə dəyərinə uyğun gələn asimptot təyin edir. İkincisi, b verilmiş mütləq dəyərdə LFC-yə təsir edir və buna görə də bu sonuncu dəyərdən yüksək dərəcədə təsirlənir. Məsələn, mütləq dəyərlər nə qədər aşağı olarsa, LFC bir o qədər böyükdür və əksinə.

Mütləq dəyər, limit qatının dəyişməsi (LFC) və mütləq ifadə diapazonu üzrə variasiya arasındakı əlaqə. A) Müxtəlif əyrilər əhəmiyyətli dərəcədə dəyişdirilmiş gen hesab edilmək üçün fərqli mütləq dəyərlərdə tələb olunan LFC-ni göstərir. Seçim meyarları artdıqca, LFC artır və bu, 5% qat dəyişmə modelinin (yaşıl xətt) 1% qat dəyişmə modelindən (qırmızı xətt) daha icazəli olduğunu göstərir. Müxtəlif qat dəyişmə modelləri aşağıdakı tənliklərlə əyrilər əmələ gətirdi: A) qaraciyərdə: 5% LFC modeli = 1.52 + (100/mütləq dəyər) 3% LFC modeli = 1.55 + (140/mütləq dəyər) 1% LFC modeli = 1,70 + (185/mütləq dəyər). B) Dörd pəhriz müalicəsi üzrə hər bir genin variasiyasını araşdırmaq, əhəmiyyətli dərəcədə dəyişdiyi təyin olunan bu genləri müəyyən etməyə imkan verir. (•) 99,9% etibarlılıq səviyyəsindən aşağı olan genləri, () 5% qat dəyişmə modeli ilə seçilmiş genləri və (+) 99,9% etibarlılıq səviyyəsindən yuxarı olan genləri təmsil edir. Müxtəlif xətlər müxtəlif güvən səviyyələrini təmsil edir (i. 99.9%, ii. 99,999% və iii. 99,99997%). Qatlanma dəyişikliyi modeli artdıqca (5% → 1%), qat dəyişmə modeli ilə dispersiya məlumatları (99.9% etibarlılıq səviyyəsində) arasında uyğunluq artdı (qoşulmuş cədvəl: x(y%), burada x rəqəmlərin sayını əks etdirir. uyğunluğu olan genlər (və y uyğunluğu olan genlərin faizi)).

Şəkil 1a-dakı tənliklərdən istifadə edərək, sonrakı nəzərdən keçirmək üçün genlərin seçimi obyektiv, sadə və qlobaldır. MAX(A,B,C,D)/Min(A,B,C,D) > a+b/Min(A,B,C,D) olduqda gen HFC yanaşması ilə seçilir. 5% LFC gen filtrini tətbiq etdikdən sonra GeneChip-də təmsil olunan orijinal 13179 gendən seçilmiş, potensial olaraq diferensial şəkildə ifadə olunan 9391 gendən 489 gen siyahıda qaldı. Əhəmiyyətli genlərin yalnız ilk 3%-i və ya 1%-i ilə maraqlandıqda, LFC tələblərinə cavab verən genlərin ümumi sayı və müvafiq olaraq zibil qutusuna düşən genlərin sayı sürətlə azalır (müvafiq olaraq 245 və 102 gen).

(B) Çox kiçik mütləq dəyərlərin rədd edilməsi

Nəhayət, minimum ifadə səviyyəsinin kəsilməsini obyektiv şəkildə müəyyən etmək üçün biz qalan genlər dəstində mövcud olmayan və mövcud çağırışların (Absence Call) son paylanmasını araşdırdıq. Affymetrix yoxluq/varlıq zənglərindən istifadə edilməyəcəyi müəyyən edilmişdir a priori əhəmiyyətli dərəcədə tənzimlənən genlərin seçilməsi üçün kritik meyar kimi, lakin daha çox seçimdən sonrakı meyar kimi istifadə oluna bilər. Gəlməmə çağırışının daha əvvəl problemli olduğu qeyd edilmişdir və iki potensial çatışmazlıq var: 1) iştirak etməmə çağırışının təyin edilməsi ad hoc Etibarlılığı əvvəllər mübahisə edilən oliqonukleotid uyğunluqlarının və uyğunsuzluqlarının xarakteristikası və 2) fərdi genlər üçün empirik olaraq etibarlı deyil; yəni. çağırışına inam yüksək deyil [14]. Bununla belə, gözlənilən idi ki, bir sıra mütləq ifadə səviyyələrində bir çox genlər arasında olmayan çağırışların paylanması təsadüfi olmayacaq və bu tendensiya aşağı ifadə səviyyələrində dəyişdirilmiş genlərə qoyulan inam üçün mühüm çarpaz yoxlama olacaq.

Gözlənildiyi kimi, olmamış çağırışların paylanması göstərdi ki, bu, əsasən Affymetrix analiz proqramı tərəfindən bütün dörd pəhriz üzrə yox adlandırılan çox aşağı ifadəli genlərdir (95% yox, mütləq ifadə ≤ 207). Bu təhlil həm də tədqiq edilən hər bir məlumat dəsti üçün mütləq minimum ifadə səviyyəsi üçün həddin empirik şəkildə hazırlana biləcəyi fikrini dəstəkləyir. İndiki halda, bu, bir eksperimental vəziyyətdə ən azı 207 dəyəri olmayan hər hansı bir genin ölçülən qat dəyişikliyindən asılı olmayaraq rədd edilməsini nəzərdə tutur. Təcrübədə bu meyarlara cavab verən genlərin 95%-dən çoxu da bütün eksperimental şərtlərdə ardıcıl olaraq yox olduğu qeyd edildiyi üçün rədd ediləcəkdir. Buna görə də, belə genlər gen filtrasiyasının sonuncu üsulunda aradan qaldırıldı. Bu aşağı ifadə olunan genlər çıxarıldıqdan sonra, bu obyektiv meyarlara əsaslanaraq, orijinal 13179 gen zond dəstindən 329 gen siyahıda qaldı. Seçilmiş genlər bizim pəhriz müalicələrimizlə potensial olaraq diferensial şəkildə tənzimlənmiş hesab edilmişdir, o mənada ki, bunlar hazırkı təcrübə kontekstində ən yüksək diferensial şəkildə tənzimlənən genlərdir.

(C) Gen dərəcəsinin təyin edilməsi

Ümumi gen seçimindən sonra hər bir seçilmiş genə həm qat dəyişməsinin böyüklüyünə, həm də mütləq ifadə dəyərlərinə əsaslanaraq Rank Number (RN) kimi müəyyən edilən "əhəmiyyət" və ya "maraq səviyyəsi" təyin edildi. Hər bir gen üçün RN, RV = HFC * (Maks - Min) kimi müəyyən edilə bilən Rank Dəyəri (RV) hesablanması ilə müəyyən edilmişdir. RV mücərrəd dəyərdir və sadəcə olaraq yüksək qat dəyişikliyinə və eyni zamanda mütləq ifadə dəyərlərində yüksək fərqlərə malik olan genlərə böyük əhəmiyyət verir. RV-nin hesablanmasından sonra gen siyahıları çeşidləndi və sonra 1,2,3,4 sadə rütbəsi verildi. 329 RV əhəmiyyəti sırasına görə, burada RN 1 olan gen ən yüksək RV olan genə uyğundur. Həm RV, həm də RN, seçilmiş genlər arasında nisbi çəki və ya "əhəmiyyət" anlayışını əlavə edən diferensial gen effektlərinin müzakirəsi üçün sadəcə köməkçilərdir. Daha sonra bu konsepsiya aşağıda təfərrüatlı olduğu kimi doğrulama tədqiqatları üçün genlərin seçilməsi üçün əlavə əsas yaradır.

(D) Modelin yoxlanılması

Real vaxtda polimeraza zəncirvari reaksiya

Mikroarray eksperimentindən əldə edilən nəticələr massiv istehsalından nümunənin hazırlanmasına və tətbiqi təsvirin təhlilinə qədər eksperimental prosedurun hər bir addımından təsirlənir [15]. cDNT nümunəsinin hazırlanması əks transkripsiya mərhələsinin effektivliyi ilə yüksək dərəcədə əlaqələndirilir, burada reagentlər və fermentlər reaksiyanın nəticəsinə təsir edə bilər. Bütün bu amillər müvafiq olaraq transkriptlərin yekun cDNA zondunda təmsil olunmasına təsir edir ki, bu da tamamlayıcı üsullarla yoxlamaların aparılmasını zəruri edir. Ədəbiyyatda şimal ləkəsi və RNT-dən qorunma testləri ilə təhlillər tez-tez bildirilir, lakin ortaya çıxan "qızıl standart" qiymətləndirmə texnikası RT-PCR-dir [16]. Mikroarraylar aşağı dinamik diapazona malik olur və bu, gen ifadəsində qat dəyişikliklərinin kiçik, lakin əhəmiyyətli dərəcədə az təmsil olunmasına səbəb olur, daha yüksək dinamik diapazonlu RT-PCR, çip tərəfindən əldə edilən mütləq dəyərləri təkrarlamaqdansa, müşahidə olunan tendensiyaları təsdiqləmək üçün daha çox istifadə olunur. təcrübələr [17,16,18].

Reytinq sistemində yer alan genləri seçərək, RT-PCR eyni yığılmış qaraciyər RNT ehtiyatlarından (5 siçan/təcrübə) istifadə edərək hər bir eksperimental vəziyyət (Pəhriz A, B, C, D) üçün üç nüsxədə həyata keçirildi. Genlər, həm LFC (mikroarray məlumatları), həm də bir tələbə tərəfindən pəhriz müalicələri boyunca əhəmiyyətli dərəcədə dəyişmədiyi müəyyən edilən endogen nəzarət β-aktin və GAPDH ilə müqayisə edildi. t-test (RT-PCR). Sonradan, RT-PCR ilə əhəmiyyətli dəyişikliklər tələbənin t-testi ilə əvvəlcədən təyin edilmiş 0,05 nominal α səviyyəsi ilə hesablandı, burada Pəhriz B, C və D müstəqil olaraq A nəzarət pəhrizi ilə müqayisə edildi. İki texnika arasında tendensiyaların ümumi uyğunluğu 73% idi (məs. mikroarray tərəfindən görülən gen ifadəsində artım/azalma RT-PCR ilə də görüldü). Nəticələri iki eksperiment arasında razılaşan genlər üçün bu nəticələrin 68%-i RT-PZR ilə serial analizi ilə müəyyən edilənlərdən daha böyük qat dəyişikliklərini göstərdi. Bu uyğunluq həm əhəmiyyətli dərəcədə dəyişmiş, həm də əhəmiyyətli dərəcədə dəyişməmiş genləri əhatə edir. Yalnız RT-PCR ilə əhəmiyyətli dərəcədə dəyişdirilmiş hesab edilən genlər tədqiq edildikdə, uyğunluq bir qədər artaraq 80% -ə çatdı.

Rəng sxemi (Cədvəl 1) vasitəsilə dərhal nəzərə çarpan odur ki, yüksək RN (aşağı RV) olan genlər iki üsul arasında az və ya heç bir uyğunsuzluğa malikdir, burada qırmızı rəng uyğunsuzluğu, mavi isə bir və ya ikisini (üçdən) göstərir. nəticələr razılaşmadı. Yüksək ifadə olunan bir gen olan yağ turşusu sintazasını (FAS) xüsusi olaraq tədqiq edərkən, mikroarray qatının 2-dən az dəyişməsinin iki eksperimental üsul arasında təsdiqlənə biləcəyini tez bir zamanda görmək olar ki, bu qat dəyişmə modelinin gücünü gücləndirir.

Mikroarray məlumatları ilə seçim meyarları HFC-nin LFC modelindən böyük olması olduğundan, gözlənti LFC trend xəttinin RT-PCR ilə təsdiqlənə bilməsidir. Bu, RAS onkogeni kimi çox aşağı ekspressiv genlər istisna olmaqla, model tərəfindən seçilmiş məlumatların tam dinamik diapazonunda üstünlük təşkil edir. ABCA1 və HSP5 kimi bir qədər aşağı RN (daha yüksək RV) olan genlər üçün müəyyən uyğunluq müşahidə olunur ki, bu da bu genlərlə qazanmada inamın olduğunu və bir qrup olaraq gen ifadəsində meylləri axtararkən hələ də nəzərə alına biləcəyini göstərir. . RN-i 176-dan aşağı olan genlər üçün (RV > 1156 məsələn, USF-2) uyğunluq tez bir zamanda 100%-ə yaxınlaşır, bu, gen meylləri və ya fərdi gen nəticələrini müzakirə edərkən yüksək inamı göstərir. Bu nəticələr, RN-nin LFC modelindən əldə edilən seçilmiş gen dəsti daxilində etibarlılıq / etibarlılıq ilə əlaqəli olduğu konsepsiyasını ümumi şəkildə gücləndirir.

Bu hesabatda müzakirə edilən və təsdiq edilən genlər 5% qat dəyişmə modelindən istifadə etməklə müəyyən edilmişdir, lakin qat dəyişmə faizi həm tədqiqatçının, həm də təcrübənin ehtiyaclarını ödəmək üçün dəyişdirilə bilər. It must be stressed that the 5% fold change model was chosen under the assumption that a relatively small percentage of genes will have their expression altered under any given condition. Therefore, selecting a fold change model of 5% may be either too permissive, where false positives are selected as differentially changed, or too restrictive, where true positives are not selected. Within the context of the present study, validation of the microarray results indicates that genes with low rank values are often more difficult to confirm by complementary techniques. Using the data obtained from RT-PCR, if one assumes that all genes with a RN below 176 (corresponding to RV > 1156) can be validated, then one would expect that these genes would be concentrated at higher expression levels. However, when the spread of those genes with a rank of 1 to 176 is examined, it was observed that these genes comprise a wide range of expression levels, indicating that the fold change model is objectively selecting differentially regulated genes across a wide range of absolute expression levels (data not shown), and that confidence in that selection increases with RV.

Variance Analysis with Real-time PCR

Variability is introduced into microarray data from two sources: biological variation (whether in vitro və ya in vivo) and measurement variation (hybridization, processing, scanning, etc.). In a brief effort to examine variability between individual mice, yəni. biological variability, RT-PCR measurements across control mice were examined using a subset of the genes examined by RT-PCR. Each gene was examined in triplicate in each of the five mice, and the variation in ΔCt (detection threshold) was determined. The Ct indicates the relative abundance of any particular gene, and when normalized to an endogenous control (β-actin and GAPDH) allows the relative amounts of a gene to be calculated. RT-PCR indicated as did the microarray variance data, that lowly expressed genes have a higher variation thereby hinting that biological and measurement variance are both influenced by absolute expression levels. The equation of the line was deemed significant (with a p-value of 0.014 and 0.013 when normalized against β-actin and GAPDH, respectively). This again confirms the concept that highly expressed genes have little variance, and that small fold changes do represent a meaningful biological event.

Validation of the LFC model via characterization of measurement variability

The concept that variability and absolute expression are related has recently been examined by Coombes and colleagues however, they examined only the variability of replicate spots on a single slide [19]. This concept has now been further extended here to the examination of variability between genes on different microarrays. Measurement variance was examined following the development of the LFC model, and was therefore treated as a separate method for the confirmation of this model. To further understand the nature of measurement variability within the current study, duplicate Mu11K Affymetrix microarrays for the controls were examined. A pooled RNA sample from mice (n = 5) fed the control diet was hybridized to two different chips, and the data was analyzed in order to characterize measurement variability (data not shown). It was apparent from the trend that as absolute expression levels increase, the coefficient of variation (CV= SD/MAE) decreases. By overlaying the trendline of the variability data on those genes determined to be significantly regulated by the LFC model, the CV upper confidence level for these selected genes could be elucidated.

In order to estimate the CV without taking into account extreme values of the duplicate we used a robust estimator, represented by the following equation:

Harada n = 2 and p = 0.5 (as the median CV of duplicate gene sample was used), the above equation enabled the CV to be determined by narrow bins of mean expression level, where extreme values are not accounted for.

The mean absolute expression of 13057 data points (genes) across the four diets were plotted against CV, and indicated a similar trend for the variability data where a high mean absolute expression results in a low CV (Figure 1b). Applying the CV derived from the duplicate sample data (eqn. 2) to the quadruplicate diet data enables the calculation of the CV upper confidence level (by bins of absolute expression level) using the following equation:

Where n= 4 and p= 0.001, 0.00001, 0.0000003, depending on the level of confidence desired (1-p).

Equation 3 allows us to identify those genes with a variance above the measurement variability . This greater variability arose due to combined pool (biological) and treatment variabilities.

This confidence level, by altering səh, could then be raised or lowered according to the level of confidence desired therefore, modeling the variance data provides an objective method for examining the variation of genes across the complete range of absolute expression values. The spread of the data indicates that most of the 13000 genes are both lowly expressed and highly variable across the four chips. A further examination of the data indicated that 95% of the genes determined to be 'absent' across all four diets by Affymetrix software had a mean absolute expression less than 207.

With the LFC model, genes were initially selected if they were in the top X% of the bin highest fold changes however the starting point (X%) was solely chosen based on the percentage of genes shown to be differentially regulated across a wide-range of published biological studies. However, the genes selected by the X% fold change model were then verified, with concordance results, by both RT-PCR and the variance data. Genes identified by the 5% fold change model were overlayed on the variance data corresponding to the four diets, and the confidence level for the X%-data selection was determined (Figure 1b). Concordance of 94.1%, 96.6% and 98.4% for the 5%, 3% and 1% fold change models, respectively, was observed with an upper confidence level selection of 99.9% (Figure 1b, inset table). In addition, overall concordance between microarray data and RT-PCR was examined in the different fold change models and indicated 73.3%, 81.5%, and 94.4% concordance for the 5%, 3%, and 1% fold change models, respectively (Figure 1a). The degree of concordance with RT-PCR results and the high confidence level (99.9%) obtained with the variance data reinforces that the X% fold change model is a simple, efficient, objective and statistically valid method for the identification of significantly differentiated genes.


FGT Part 5 - Design of Microarray Experiments


1. Replication
averaging replicates will give better estimates of the mean. replicates allow statistical inferences to be made.

Biological vs Technical Replication. Techincal ccome from the same sample i ndifferent chips. biological came from different samples. replicates is a scale between biological and technical

3. Level of Inference
Always compromise between precision and generality
what level do conclusion need to be made --> to just the technical sample, to all experiment in cell lines, to all mices?
More general solution inferences capture more variance
more variablity mena more replicates

4. Stastitical issues
a. Level of variability
statistically significant does not always mean biologically significant
b. Multiple testing and False Discovery Rate (FDR)
Usually applies T-Test for each probesets. For each test, P-Values are the probabilities that the test would produce a result as least as extreme assuming the null hypothesis are true. We expect 5% chance that the test result in false positives for multiple test. The FDR was applied to avoid high false positives. Which accounts for the number of test applied.
c. Effect size
How large of a change we want to detect
d. Güc
Our ability to discover truth. More replication more power

Common Design Principles
1. Single Factor
varying single factor at once. example with ot wothout drug. for dual channel place comparison of interest near each other. short time can be treatesd on a single factor experiment

-Paired Samples
Microarray experiments with paired designs are often encountered in a clinical setting where for example, samples are isolated from the same patients before and after treatment. Describe the reasons that it might be attractive to employ paired design in microarray experiment!

reduces variability in biological replicates
still captures variability with respect to response between patients

-Pooling vs Amplification
Mutiple isolation are pooled to give enough biological material of the expression level
gives more robust estimation of the expression level
but it can be dominated by one unusual samples
pool only when necessary and consider amplification as alternative
making sub pools is a compromise, ex: pool 15 into 3 x 5
amplificaiton is alternative to overcame limitation due to sample availability
but its not possible to introduce amplification without bias

-Practical Design
-Usually limited by cost and sample availability
-consider other experiment for informal estimation parameters
-usually 3-5 replicate for well known strain
or 30-200 for human population inference
consider extendable desing or pilot experiment


Comparing two conditions

A simple microarray experiment may be carried out to detect the differences in expression between two conditions. Each condition may be represented by one or more RNA samples. Using two-color cDNA microarrays, samples can be compared directly on the same microarray or indirectly by hybridizing each sample with a common reference sample [4, 6]. The null hypothesis being tested is that there is no difference in expression between the conditions when conditions are compared directly, this implies that the true ratio between the expression of each gene in the two samples should be one. When samples are compared indirectly, the ratios between the test sample and the reference sample should not differ between the two conditions. It is often more convenient to use logarithms of the expression ratios than the ratios themselves because effects on intensity of microarray signals tend be multiplicative for example, doubling the amount of RNA should double the signal over a wide range of absolute intensities. The logarithm transformation converts these multiplicative effects (ratios) into additive effects (differences), which are easier to model the log ratio when there is no difference between conditions should thus be zero. If a single-color expression assay is used - such as the Affymetrix system [7] - we are again considering a null hypothesis of no expression-level difference between the two conditions, and the methods described in this article can also be applied directly to this type of experiment.

A distinction should be made between RNA samples obtained from independent biological sources - biological replicates - and those that represent repeated sampling of the same biological material - technical replicates. Ideally, each condition should be represented by multiple independent biological samples in order to conduct statistical tests. If only technical replicates are available, statistical testing is still possible but the scope of any conclusions drawn may be limited [3]. If both technical and biological replicates are available, for example if the same biological samples are measured twice each using a dye-swap assay, the individual log ratios of the technical replicates can be averaged to yield a single measurement for each biological unit in the experiment. Callow və b. [8] describe an example of a biologically replicated two-sample comparison, and our group [9] provide an example with technical replication. More complicated settings that involve multiple layers of replication can be handled using the mixed-model analysis of variance techniques described below.

'Fold' change

The simplest method for identifying differentially expressed genes is to evaluate the log ratio between two conditions (or the average of ratios when there are replicates) and consider all genes that differ by more than an arbitrary cut-off value to be differentially expressed [10–12]. For example, if the cut-off value chosen is a two-fold difference, genes are taken to be differentially expressed if the expression under one condition is over two-fold greater or less than that under the other condition. This test, sometimes called 'fold' change, is not a statistical test, and there is no associated value that can indicate the level of confidence in the designation of genes as differentially expressed or not differentially expressed. The fold-change method is subject to bias if the data have not been properly normalized. For example, an excess of low-intensity genes may be identified as being differentially expressed because their fold-change values have a larger variance than the fold-change values of high-intensity genes [13, 14]. Intensity-specific thresholds have been proposed as a remedy for this problem [15].

The ttest

The t test is a simple, statistically based method for detecting differentially expressed genes (see Box 2 for details of how it is calculated). In replicated experiments, the error variance (see Box 1) can be estimated for each gene from the log ratios, and a standard t test can be conducted for each gene [8] the resulting t statistic can be used to determine which genes are significantly differentially expressed (see below). This gene-specific t test is not affected by heterogeneity in variance across genes because it only uses information from one gene at a time. It may, however, have low power because the sample size - the number of RNA samples measured for each condition - is small. In addition, the variances estimated from each gene are not stable: for example, if the estimated variance for one gene is small, by chance, the t value can be large even when the corresponding fold change is small. It is possible to compute a global t test, using an estimate of error variance that is pooled across all genes, if it is assumed that the variance is homogeneous between different genes [16, 17]. This is effectively a fold-change test because the global t test ranks genes in an order that is the same as fold change that is, it does not adjust for individual gene variability. It may therefore suffer from the same biases as a fold-change test if the error variance is not truly constant for all genes.

Modifications of the ttest

As noted above, the error variance (the square root of which gives the denominator of the t tests) is hard to estimate and subject to erratic fluctuations when sample sizes are small. More stable estimates can be obtained by combining data across all genes, but these are subject to bias when the assumption of homogeneous variance is violated. Modified versions of the t test (Box 2) find a middle ground that is both powerful and less subject to bias.

In the 'significance analysis of microarrays' (SAM) version of the t test (known as the S test) [18], a small positive constant is added to the denominator of the gene-specific t test. With this modification, genes with small fold changes will not be selected as significant this removes the problem of stability mentioned above. The regularized t test [19] combines information from gene-specific and global average variance estimates by using a weighted average of the two as the denominator for a gene-specific t test. The B statistic proposed by Lonnstedt and Speed [20] is a log posterior odds ratio of differential expression versus non-differential expression it allows for gene-specific variances but it also combines information across many genes and thus should be more stable than the t statistic (see Box 2 for details).

The tB tests based on log ratios can be found in the Statistics for Microarray Analysis (SMA) package [21] the S test is available in the SAM software package [22] and the regularized t test is in the Cyber T package [23]. In addition, the Bioconductor [24] has a collection of various analysis tools for microarray experiments. Additional modifications of the t test are discussed by Pan [25].

Graphical summaries (the 'volcano plot')

The 'volcano plot' is an effective and easy-to-interpret graph that summarizes both fold-change and t-test criteria (see Figure 1). It is a scatter-plot of the negative log10-transformed səh-values from the gene-specific t test (calculated as described in the next section) against the log2 fold change (Figure 1a). Genes with statistically significant differential expression according to the gene-specific t test will lie above a horizontal threshold line. Genes with large fold-change values will lie outside a pair of vertical threshold lines. The significant genes identified by the S, B, and regularized t tests will tend to be located in the upper left or upper right parts of the plot.

Volcano plots. The negative log10-transformed səh-values of the F1 test (see Box 3b) are plotted against (a) the log ratios (log2 fold change) in a two-sample experiment or (b) the standard deviations of the variety-by-gene VG values (see Box 3a) in a four-sample experiment. The horizontal bars in each plot represent the nominal significant level 0.001 for the F1 test under the assumption that each gene has a unique variance. The vertical bars represent the one-step family-wise corrected significance level 0.01 for the F3 test (see Box 3b) under the assumption of constant variance across all genes. Black points represent the significant genes selected by the F2 test with a compromise of these two variance assumptions.


Target Deconvolution vs Target Discovery

The phenotypic approach to drug discovery falls within the realm of target deconvolution, and involves exposing cells, isolated tissues, or animal models, to small molecules to determine whether a specific candidate molecule exerts the desired effect – which is observed by a change in phenotype. 3 Whilst numerous animal models can be used for the characterization of small molecules and small-scale drug screening approaches, use of mammalian cells is often favored due to their compatibility with high-throughput screening (HTS) and greater physiological relevance.

The phenotypic approach goes beyond individual proteins or nucleic acids and involves the study of entire signaling pathways. The drug’s effect is determined before the specific biological (drug) target that underlies the observed phenotypic response is identified.

Target deconvolution

Advantages and challenges of phenotypic drug discovery

The greatest advantage phenotypic approaches have over target-based is their ability to demonstrate the efficacy of a drug in the context of a cellular environment. The drug is acting on the target in its ‘normal’ biological context, rather than on a purified target in a biochemical screen.

Cost, availability of cells, complex assay methodology, and throughput are all potential challenges associated with cell-based phenotypic screens. However, as assays become miniaturized and the use of three-dimensional cell models (organoids and spheroids) continue to gain momentum, both scalability and physiological relevance have been improved, leading to greater adoption of phenotypic approaches.

In addition, this resurgence in phenotypic screening has encouraged further major technological advances, including the development of iPS cell technologies, gene-editing tools, and detection and imaging assays, 5 which have again positively impacted this approach.

Target discovery

Advantages and challenges of target-based discovery

The fact that knowledge of a drug candidate’s molecular mechanism is understood from the offset presents as a key advantage over phenotypic approaches and target-based methods are typically easier to carry out, less-expensive to develop, and the process is generally faster. 6

Target-based drug discovery can exploit numerous approaches (including crystallography, computational modeling, genomics, biochemistry, and binding kinetics) to uncover exactly how a drug interacts with the target of interest, enabling: 6

  • Development of the structure-activity relationship (SAR) (the relationship between the structure and biological activity of a molecule)
  • Development of biomarkers
  • Discovery of future therapeutics that act at the specific target of interest
TexnikaDrug discovery approach
Yaxınlıq xromatoqrafiyası
Target deconvolution
Expression-cloning
Target deconvolution
Protein microarray
Target deconvolution
Reverse transfected cell microarray
Target deconvolution
Biochemical suppression
Target deconvolution
siRNA
Target deconvolution/ discovery/ validation
DNT mikroarray
Target discovery
Systems biology
Target discovery
Study of existing drugs
Target discovery

Proqram təminatı

The analysis of microarray data poses considerable computational challenges. Academic and commercial software environment and applications have been and are being developed to meet these challenges. The commercial applications have primarily focused on user-friendliness, by providing fancy point and click graphical user interfaces. While this may be a desirable feature for some, it is unlikely to be a useful feature for research. What is important to research is for the software to be flexible and extensible so as to allow the user to determine the analysis method thought to be best suited to address the scientific questions at hand. To this end, we have found the R statistical environment 48 to be an ideal match. It should be emphasized that R is not a software application designed to facilitate a certain number of prespecified analyses thought to be useful or important by the software developers, but rather “an environment to conduct statistical analyses and computation.” By providing the requisite building blocks, including an object-oriented programming language and outstanding facilities to produce graphics, the user is put in charge. These capabilities are complemented by extension packages contributed by other R users. Of special note is the Bioconductor project, 49 which provides a comprehensive library of extension packages specifically developed for the preprocessing, analysis, visualization, and annotation of molecular data. In addition to technical documentation, most Bioconductor packages offer vignettes, which serve as tutorials.

As an interpreted language, R may not be as fast as some compiled languages. It is possible to include C/C++ and FORTRAN code in R. It is also possible to call R from these languages to build stand-alone packages. Another powerful programming language used by the bioinformatics community is Python. R can be interfaced from Python through rpy and rpy2 . R can be installed on laptops, desktops, and servers running a variety of operating systems including GNU/Linux, Windows, and MacOS. It is open-source and distributed under a public license.

Many statistical algorithms and procedures used to analyze microarray data are parallelizable. Packages that allow the user to parallelize code over clusters or multicore servers include snow, multicore , and Rmpi . Graphical Processing Units (GPUs) provide another hardware resource for conducting stream computing. Two extension packages that enable the use of GPUs within R are gputools 50 and permGPU . 51

An important principle in conducting genomic research is reproducibility. This does not only apply to the scientific experiment where the use of technical or biological replicates is used to ascertain the reproducibility of the assay, but also applies to the quantitative component of the research. It should be noted that reproducibility is a necessary but not sufficient component of good research as poor research can be conducted in a reproducible fashion. The R statistical environment greatly facilitates the conduct of reproducible research by providing a framework for literate programming 57 through Sweave 56 by combining L A TEX (http://www.latex-project.org) as the typesetting engine and R as the computational engine.

Venables and Ripley 54 and Dalgaard 55 provide extensive and accessible accounts on conducting programming and statistical analyses using R. Gentleman et al. 56 and Hahne et al. 57 provide accounts on conducting statistical analysis using Bioconductor extension packages. All statistical analyses presented in this paper were conducted using R .


Videoya baxın: DNA Microarray Methodology (Dekabr 2022).