Məlumat

Daha çox məlumat verən filogenetik ağaclar

Daha çox məlumat verən filogenetik ağaclar


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Filogenetik ağacların təqdimatında ağacların həndəsi forması tez-tez bir növ özbaşına görünür və informativ səbəblərdən daha çox estetika ilə idarə olunur.

Bəs həndəsə (məsafələr və bucaqlar) konkret mənalar vermək məntiqli olmazdımı? Yoxsa bu artıq edilib (düzgün görüləndə)?

Bəzi əsas prinsiplər:

  1. Şaquli ox vaxtı təmsil edir (xətti, loqarifmik və ya "anti-loqarifmik" miqyasda).
  2. Üfüqi ox genetik dəyişikliyin miqdarını əks etdirir (uyğun vahidlərlə ölçülür).
  3. Bir növün xətti (= faktiki olaraq eyni DNT-yə malik olan populyasiya) aşağıdan yuxarıya doğru şaquli olaraq gedir.
  4. Növlərin nəsli kəsildikdə xətt bitir.
  5. Yeni növ mövcud növdən sonuncunun xəttinə perpendikulyar olan üfüqi xəttlə ayrılır.
  6. Yeni (üfüqi) xəttin uzunluğu genetik dəyişikliyin miqdarını əks etdirir.
  7. Onun sonunda xətt şaquli olaraq davam edir.
  8. Üfüqi xətt boyunca başqa budaqlar yoxdur.

Bu prinsiplərə və mükəmməl biliklərə (və genetik dəyişikliyin yaxşı bir ölçüsünə) görə, belə mükəmməl düzbucaqlı bir ağacımız olacaq:

Lakin biliklərimiz mükəmməl deyil: biz iz buraxmayan bir çox ara növlər haqqında çox az şey bilirik. Bu naməlum növlər haqqında fərziyyələr yamacları məsələn deyə bilən meylli xətlərlə əks oluna bilər:

a) Yeni növ budaqlandıqdan sonra qısa müddət ərzində onların çox açıq genetik dəyişiklikləri olmuşdur. (boz: hipotezləşdirilmiş ara növlər)

b) Budaqlandıqdan sonra uzun müddət ərzində onların bir neçə kiçik genetik dəyişikliyi olmuşdur.

Mən filogenetik ağacların bu cür çəkilməsi ilə bağlı müzakirələr/mülahizələr axtarıram (kağızlar, veb səhifələr və ya sadəcə yaxşı axtarış terminləri).


Cozef Ahrensin Quora sualına cavabında maraqlı və mənim üçün yeni bir fikir verilir:

Filogenetik ağaclarda əcdadları necə şərh edirsiniz?

Yavaş-yavaş mənə aydın olan şey: düz xəttin təfsiri ilə bağlı seqmentlər, maksimal düz xətlər, of üfüqi vs. şaquli xətlər və qovşaqlar (= budaqlanma nöqtələri) filogenetik ağaclarda, xüsusən: onlardan hansı növ kimi şərh edilməlidir?


Yaxşı düşünülmüş layihənizlə bağlı problemlər:

1/ Ağacların nisbəti üçün müvəqqəti məlumat dəstləri: Bu, yəqin ki, növlərin ölçülməsində ən çox olmayan şeydir. Böcək növləri, məməlilər, minilliklər və milyonlardakı bitkilər üçün vaxt məlumat dəstlərinə ehtiyacınız olacaq. Bu məlumatların 90+%-i yoxdur.

2/ Ağacları tənzimləmək üçün genetik yaxınlıq. Alimlər öz genom tədqiqatlarını ToL layihəsində dərc edirlər. Bütün heyvanları müqayisə etmək üçün çoxlu məsafə məlumatları var... Genetik məsafə asanlıqla qrafikləşmir, çünki eyni ağacda bəzi məsafələr digərlərindən 500 dəfə uzun ola bilər. 20 növdən ibarət bir ağacda 5 mm uzunluğunda və 5 metr uzunluğunda budaqlarınız olacaq, növlərin yarısı ekranınızda, digər yarısı isə tavandan yüksəkdir. Onları başqa bir simvolla təmsil etmək daha yaxşıdır, əks halda kompakt/böyük görünüşləri dəyişə biləcəyiniz və ağacın dəlicəsinə böyüdüyü interaktiv 3D ağacları, bu, illüstrativ və sərindir, əks halda 1+ oxşarlıq/50 olan çəkili yaxınlıq uzunluğundan istifadə edin. həqiqətən də işləmir. Hər iki halda, mən bu məlumatı ağacda aydın şəkildə göstərməyin bir yolunu tapa bilmədim.

Filogeniya ağacları informativ olaraq ölçülməyə yaxşı uyğun gəlmir. Düşünməklə başlayırsan "Oh, bunu etmək üçün gözəl bir yol tapa bilərdim" sonra verilənlər toplusunu tətbiq etdiyiniz zaman ağaclarınız eksponensial budaq uzunluqlarına görə idarə olunmaz və qarışıq olur.

Mən milyonlarla növü təmsil etmək, 3D fizika ağacları və bütün növlər üçün wiki mətnləri və şəkilləri təmin etmək üçün HTTP axtarışları etmək üçün 81MB ToL həyat ağacı layihəsi əsasında filogenetik ağacları proqramlaşdırdım. www.biostars.org bütün günü ağaclarla məşğul olan magistrlər üçün çox mehriban və faydalı bioinformatika forumu var.

Növlərin məlumatlarını vizuallaşdırmaq və təhlil etmək, müxtəlif ağaclara yerləşdirmək və onları çeşidləmək üçün akademiklər tərəfindən kodlaşdırılmış çoxlu (onlarla) informativ ağac qrafikası proqramları mövcuddur.


Təkamül ağacları

Mücərrəd

Təkamül və ya filogenetik ağaclar, ən son ortaq əcdadlarından (MRCA) bir sıra taksonların təkamülünü təsvir edir. Növlər ağacı bir növ (və ya populyasiyalar) toplusunun təkamül tarixini modelləşdirən filogenetik ağacdır. Gen ağacı bir genin şəcərəsini modelləşdirən filogenetik ağacdır. Növlər toplusundan nümunə götürülmüş müxtəlif genlərin gen ağacları müxtəlif amillərə görə bir-biri ilə, eləcə də növ ağacı ilə razılaşmaya bilər. Müxtəlif növ məlumatlardan filogenetik ağacları çıxarmaq üçün çoxlu alqoritmlər və kompüter proqramları mövcuddur. Həqiqi təkamül ağacları köklü və çox vaxt ikili (ikili) olsa da, ehtimal olunan ağaclar köksüz və ya çoxbucaqlı ola bilər.


Təsnifat səviyyələri

Taksonomiya (hərfi mənada &ldquoarrangement qanunu&rdquo deməkdir) beynəlxalq səviyyədə paylaşılan təsnifat sistemi qurmaq üçün növlərin adlandırılması və qruplaşdırılması elmidir. Taksonomik təsnifat sistemi (həmçinin ixtiraçısı, isveçli təbiətşünas Karl Linneyin adı ilə Linnaean sistemi adlanır) iyerarxik modeldən istifadə edir. İyerarxik sistemin səviyyələri var və səviyyələrdən birində olan hər bir qrup növbəti ən aşağı səviyyədə olan qrupları ehtiva edir, beləliklə, ən aşağı səviyyədə hər bir üzv bir sıra yuvalanmış qruplara aiddir. Bənzətmə kompüterin əsas disk sürücüsündə yerləşdirilmiş qovluqlar seriyasıdır. Məsələn, ən əhatəli qruplaşmada elm adamları orqanizmləri üç sahəyə bölürlər: Bakteriyalar, Arxeyalar və Eukarya. Hər bir domen daxilində krallıq adlanan ikinci səviyyə var. Hər bir domen bir neçə krallıqdan ibarətdir. Krallıqlar daxilində artan spesifikliyin sonrakı kateqoriyaları bunlardır: filum, sinif, nizam, ailə, cins və növlər.

Nümunə olaraq, ev iti üçün təsnifat səviyyələri Şəkil 12.2.2-də göstərilmişdir. Hər səviyyədə olan qrup takson adlanır (cəm: taxa). Başqa sözlə, it üçün Carnivora sifariş səviyyəsində, Canidae ailə səviyyəsində taksondur və s. Orqanizmlərin insanların adətən istifadə etdikləri ümumi bir ad var, məsələn, ev iti və ya canavar. Növlər istisna olmaqla, hər bir takson adı böyük hərflə yazılır, cins və növ adları kursivlə yazılır. Alimlər bir orqanizmə cins və növ adları ilə birlikdə istinad edirlər, adətən elmi ad və ya Latın adı deyilir. Bu ikiadlı sistem binomial nomenklatura adlanır. Qurdun elmi adı buna görədir Canis lupus. Ev itlərinin və canavarların DNT-si üzərində aparılan son araşdırmalar göstərir ki, ev iti öz növünün deyil, canavarın alt növüdür, ona görə də onun alt növ statusunu göstərmək üçün ona əlavə ad verilir, Canis lupus familiaris.

Şəkil 12.1.2, həmçinin taksonomik səviyyələrin spesifikliyə doğru necə hərəkət etdiyini göstərir. Domen daxilində ən müxtəlif orqanizmlərlə qruplaşdırılmış iti necə tapdığımıza diqqət yetirin. Bunlara göbələklər və protistlər kimi şəkildə göstərilməyən bitkilər və digər orqanizmlər daxildir. Hər bir alt səviyyədə orqanizmlər daha yaxından əlaqəli olduqları üçün daha çox oxşar olurlar. Darvinin təkamül nəzəriyyəsi inkişaf etməmişdən əvvəl təbiətşünaslar bəzən ixtiyari oxşarlıqlardan istifadə edərək orqanizmləri təsnif edirdilər, lakin təkamül nəzəriyyəsi 19-cu əsrdə irəli sürüldüyündən, bioloqlar təsnifat sisteminin təkamül əlaqələrini əks etdirməsi üçün çalışırlar. Bu o deməkdir ki, taksonun bütün üzvlərinin ortaq əcdadı olmalıdır və digər taksonların üzvlərindən daha çox bir-biri ilə yaxın qohum olmalıdır.

Son genetik təhlillər və digər irəliləyişlər müəyyən etdi ki, bəzi əvvəlki taksonomik təsnifatlar faktiki təkamül əlaqələri əks etdirmir və buna görə də yeni kəşflər baş verən kimi dəyişikliklər və yeniləmələr edilməlidir. Dramatik və son nümunələrdən biri 1970-ci illərə qədər hamısı bakteriya kimi təsnif edilən prokaryotik növlərin parçalanması idi. Onların Arxeya və Bakteriyalara bölünməsi onların böyük genetik fərqlərinin həyatın üç əsas qolundan ikisinə ayrılmasını təmin etdiyini qəbul etdikdən sonra baş verdi.

Şəkil 12.1.2: Taksonomik təsnifat sistemində hər bir alt səviyyədə orqanizmlər daha çox oxşarlaşır. Köpəklər və canavarlar eyni növdürlər, çünki onlar çoxalıb həyat qabiliyyətli nəsillər verə bilirlər, lakin onlar müxtəlif alt növlər kimi təsnif edilə biləcək qədər fərqlidirlər. (kredit &ldquoplant&rdquo: işin "berduchwal"/Flickr krediti &ldquoinsect&rdquo: işin Jon Sullivan tərəfindən dəyişdirilməsi kredit &ldquofish&rdquo: Kristian Mehlführer tərəfindən işin dəyişdirilməsi &ldquorabbit&rdquo: İşin dəyişdirilməsi "berduchwal"/Flickr krediti &ldquoinsect&rdquo: İşin dəyişdirilməsi & Kredit: Lisenziya tərəfindən işin dəyişdirilməsi. Kevin Bacher tərəfindən işin dəyişdirilməsi, NPS krediti &ldquojackal&rdquo: işin Thomas A. Hermann tərəfindən dəyişdirilməsi, NBII, USGS krediti &ldquowolf&rdquo işin Robert Dewar tərəfindən dəyişdirilməsi kredit &ldquodog&rdquo: işin "digital_image_fan"/Flickr tərəfindən dəyişdirilməsi)

Hansı səviyyələrdə pişiklər və itlər eyni qrupa aid edilir?

Taksonomiya haqqında daha çox öyrənmək üçün bu PBS saytına daxil olun. Həyatın Təsnifatı altında, İnteraktiv Başla üzərinə klikləyin.


Çətin Filogenetik Sualların Həlli: Niyə daha çox ardıcıllıq kifayət deyil

Sitat: Philippe H, Brinkmann H, Lavrov DV, Littlewood DTJ, Manuel M, Wörheide G, et al. (2011) Çətin Filogenetik Sualların Həlli: Niyə daha çox ardıcıllıq kifayət deyil. PLoS Biol 9(3): e1000602. https://doi.org/10.1371/journal.pbio.1000602

Akademik redaktor: David Penny, Massey Universiteti, Yeni Zelandiya

Nəşr olundu: 15 mart 2011-ci il

Müəlliflik hüququ: © 2011 Philippe et al. Bu, Creative Commons Attribution Lisenziyasının şərtlərinə əsasən paylanmış açıq girişli məqalədir və orijinal müəllif və mənbə qeyd olunmaqla istənilən mühitdə qeyri-məhdud istifadəyə, paylanmaya və reproduksiyaya icazə verir.

Maliyyələşdirmə: İş NSERC (www.nserc-crsng.gc.ca), CRC (www.chairs-chaires.gc.ca), Agence Nationale de la Recherche (http://www.agence-nationale-recherche.fr) tərəfindən maliyyələşdirilib. /), ARC Biomod (www.cfwb.be) və DFG (http://www.dfg.de/en/index.jsp). Tədqiqatın dizaynında, məlumatların toplanmasında və təhlilində, nəşr etmək qərarında və ya əlyazmanın hazırlanmasında maliyyə verənlərin heç bir rolu olmayıb.

Rəqabətli maraqlar: Müəlliflər heç bir rəqabət aparan maraqların olmadığını bəyan ediblər.

İxtisarlar: BS, bootstrap dəstəyi EST, ifadə edilmiş ardıcıllıq etiketi LBA, uzun filial cəlbediciliyi

Həyat Ağacını yenidən qurmaq axtarışında tədqiqatçılar getdikcə daha çox filogenomikaya, genom miqyaslı məlumatlardan istifadə edərək filogenetik əlaqələrin nəticəsinə müraciət edirlər (Qutu 1). Ardıcıllıq ötürmə qabiliyyətinin davamlı artması ilə heyran olan bir çox filogenetiklər tək və ya bir neçə gendən [1] istifadə edilən tədqiqatlarda tez-tez müşahidə olunan uyğunsuzluğun böyük multigen verilənlər bazalarının yaradılması ilə sona çatacağına ümid edirdilər. Bununla belə, tez-tez baş verdiyi kimi, reallıq daha mürəkkəbdir, çünki bu yaxınlarda üç geniş miqyaslı təhlil dərc edilmişdir. PLoS Biologiyası [2]–[4], aydınlaşdırın. Heyvanların erkən şaxələndirilməsi ilə məşğul olan tədqiqatlar əhəmiyyətli ardıcıllıq məlumatlarının istifadəsinə baxmayaraq, yüksək dərəcədə uyğun olmayan (Qutu 2) tapıntılar verdi (Şəkil 1-ə baxın). Aydındır ki, uyğunsuzluqları həll etmək üçün sadəcə daha çox ardıcıllıq əlavə etmək kifayət deyil.

Haşiyə 1. Filogenetikadan Filogenomikaya

Orqanizmlər arasında təkamül əlaqələrinin təyini olan filogenetika həyatın təkamülünü başa düşmək üçün əsasdır. Məsələn, Şəkil 1-in üç filogeniyası bütün heyvanların ümumi əcdadının mürəkkəbliyi ilə bağlı dərin fərqli şərhləri ehtiva edir. Əhəmiyyətli bədən planı simvolları (məsələn, neyrosensor və həzm sistemləri və əzələ hüceyrələri) cnidarians, ctenophores və bilaterianlarda olur, lakin süngərlərdə və placozoanlarda deyil. Schierwater və başqalarının filogeniyalarına görə. [4] və Dunn et al. [2], bu simvolların taksonomik bölgüsü ya (i) ata-baba metazoanın artıq bu əlamətləri göstərdiyini və süngərlərin (və plakozoanların) ikinci olaraq onları itirdiyini və ya (ii) bu simvolların bir-birindən müstəqil olaraq bir neçə dəfə konvergensiya ilə əldə edildiyini nəzərdə tutur (məs. , Şəkil 1A-dakı ağaca uyğun olaraq cnidarian + ctenophore və ikiqat nəsillərdə). Bunun əksinə olaraq, Filipp və başqalarının filogeniyası. [3] morfoloji simvollarla daha uyğundur və sadə metazoa əcdadı və bu simvolların yalnız bir dəfə ortaya çıxması ilə uyğun gəlir, coelenterates (cnidarians+ctenophores) və bilaterianların ortaq əcdadına aparan nəsildə.

Filogeniyalar ümumiyyətlə ağaclar kimi təsvir edilir (Şəkil 1-də olduğu kimi bunlar şəbəkəsiz qrafiklərdir), çünki şaquli təkamül, şübhəsiz ki, genetik material üçün irsiyyətin əsas mexanizmidir. Bununla belə, üfüqi ötürülmənin mövcudluğu (məsələn, yaxından əlaqəli taksonların hibridləşməsi, endosimbioz və üfüqi gen transferi yolu ilə orqanoidlərin əldə edilməsi) filogenetik ağacları yalnız praqmatik təxminlər edir, yəqin ki, uzun müddətdə filogenetik şəbəkələrlə əvəz olunacaq (xüsusilə də birhüceyrəli orqanizmlər üçün). .

Bu yaxınlarda filogenomika, təkamül əlaqələri haqqında nəticə çıxarmaq üçün genomik məlumatlardan istifadə filogenetikanın yeni sahəsi kimi meydana çıxdı. Filogenomikanın əsas gücü böyük (multigen) məlumat dəstlərinin istifadəsi nəticəsində təsadüfi (və ya seçmə) xətaların kəskin azalmasıdır. Genomik məlumatlardan faydalanmaq üçün çoxsaylı yanaşmalardan istifadə etmək olar (nəzərdən keçmək üçün [49]-a baxın). Qısaca desək, oliqonukleotid tərkibinə, gen tərkibinə və ya intron mövqelərinə əsaslanan yeni üsullar perspektivli görünür (ağlabatan ağaclar vermək qabiliyyəti ilə göstərilir), lakin onların tam potensialına nail olmaq üçün əlavə nəzəri inkişaflar tələb olunur. Buna görə də ən populyar iki filogenomik yanaşma tək gen verilənlər bazasına tətbiq olunan standart filogenetik metodların sadə uzantılarıdır. Birincisi, “supermatris” (yaxud superalignment) kimi tanınan, çoxsaylı ortoloji genlərin standart metodlardan (və ya bir neçə budaq uzunluğuna imkan verən ayrı-ayrı modellər kimi bir qədər dəyişdirilmiş metodlardan) istifadə edilərək təhlil edilən tək supergenə birləşməsindən ibarətdir [50] ). İkinci, “supertree” yanaşması, əvvəlcə verilənlər bazasındakı hər bir gen üçün ağacdan nəticə çıxararaq və sonra bu fərdi ağacları tək superağacda birləşdirərək əks yolu tutur. Supermatris yanaşması, onun superağacdan [13],[51] daha böyük dəqiqlik təklif etdiyini irəli sürən bir sıra tədqiqatlarla razılaşaraq ən çox istifadə edilən yanaşmadır, lakin bu hələ rəsmi şəkildə nümayiş etdirilməlidir.

Qutu 2. Lüğət

Homologiya/orfologiya/paralogiya/ksenologiya: Ortaq əcdaddan yaranan genlərə homologlar deyilir. İki homoloji gen, bir növləşmə hadisəsi ilə ayrıldıqları təqdirdə ortolojidir. Bunun əksinə olaraq, paraloqlar müəyyən bir nəsil daxilində tək bir genin dublikasiyası ilə yaranır, ksenoloqlar isə genin donor növdən qəbuledici növə üfüqi ötürülməsi nəticəsində yaranır (sonda onun orijinal nüsxəsini ksenoloqla əvəz edə bilər).

Homoplaziya/konvergensiya: Ümumi əcdaddan deyil, yaxınlaşma və ya geri çevrilmə ilə bağlı saxta oxşarlıq homoplaziya adlanır. Konvergensiya, müəyyən bir mövqedə eyni nukleotidin (və ya amin turşusunun) ayrı-ayrı təkamül xətti ilə müstəqil əldə edilməsini təsvir edir. Bu, çoxsaylı əvəzetmələrin birbaşa nəticəsidir.

Natamam nəsil çeşidlənməsi: Ata polimorfizmlərinin spesifikasiya hadisələri arasında müvəqqəti saxlanması. Zamanla sıxılmış spesifikasiyalar və böyük reproduktiv populyasiyalar bu fenomenin ehtimalını artırır. Üç nəslin sürətlə bir-birindən ayrıldığını nəzərə alsaq, təsadüfən bəzi ardıcıllıq mövqeləri bir cüt arasında, digərləri isə başqa bir cüt arasında, digərləri isə üçüncü mümkün cüt arasında paylaşılacaq və beləliklə, müvafiq budaqlarda filogenetik siqnal bulanıqlaşacaq.

Uyğunsuzluq: İki (və ya daha çox) filogenetik ağacın ziddiyyətli budaqlanma sıraları (yəni topologiyalar) nümayiş etdirdiyi və üst-üstə düşə bilmədiyi zaman uyğunsuz olduğu deyilir. Bu o deməkdir ki, bir ağacda mövcud olan ən azı bir düyün (həmçinin iki bölmə kimi tanınır) digər(lər)də tapılmır və burada o, alternativ takson qrupları ilə əvəz olunur.

Ardıcıllığın təkamül modeli: Nukleotid və ya amin turşusu ardıcıllığında əvəzlənmə prosesinin statistik təsviri. Kompleks modellər təkamül prosesini daha yaxşı təxmin edir, lakin daha çox parametr və hesablama vaxtı hesabına. Parametrlərlə zəngin modellər düzgün davranmaq üçün daha çox məlumat tələb etdiyindən, filogenomik məlumat dəstlərinin meydana gəlməsi ilə həqiqətən faydalı hala gəldilər.

Monofiya: Monofiletik hesab olunmaq üçün taksonomik qrup iki şərtə cavab verməlidir: (i) onun bütün taksonları tək əcdaddan törəməlidir və (ii) bu ümumi əcdaddan törəyən bütün taksonlar qrupa aid olmalıdır.

Qeyri-filogenetik siqnal: Ağacın yenidən qurulması zamanı həqiqi filogenetik siqnalla rəqabət aparan müxtəlif növ strukturlaşdırılmış səs-küyün (məsələn, aşkar edilməmiş homoplaziyalar) birləşməsi. Qeyri-filogenetik məzmun qismən çoxsaylı ardıcıl düzülüşün xassəsidirsə belə (xüsusilə onun doyma səviyyəsi ilə bağlıdır), qeyri-filogenetik siqnal əslində seçilmiş metoddan və təkamül modelindən çox asılıdır. Ehtimal metodlarında qeyri-filogenetik siqnal, əsasən, ardıcıllığın təkamül modelini pozan məlumatların nəticəsidir. Bu pozuntular ona görə yaranır ki, bizim modellərimiz təbii təkamül prosesinin mürəkkəbliyi ilə müqayisədə qaçılmaz olaraq həddən artıq sadələşdirilmişdir. Nəhayət, təhlil edilən görünən siqnal filogenetik və qeyri-filogenetik siqnalın qarışığı olacaq.

Xarici qrup/qrup: Demək olar ki, bütün ağac rekonstruksiya üsulları köksüz ağaclar əmələ gətirir ki, bunlarda təxmin edilən əlaqələr zamanın istiqaməti haqqında heç bir məlumat vermir. Bir ağacı kökləmək və onu filogeniyaya çevirmək üçün təhlilə tədqiq olunan qrupdan kənarda olduğu bilinən bir qrup takson daxil edilməlidir. Bu istinad qrupu xarici qrup adlanır, maraq dairəsi isə daxili qrupdur.

Patristik məsafə: Filogenetik ağacda iki qovşağı birləşdirən budaqların uzunluqlarının cəmi, burada həmin qovşaqlar adətən mövcud taksonları təmsil edən terminal qovşaqlarıdır. Beləliklə, o, düzülmədə iki müvafiq ardıcıllıq arasında müşahidə olunan fərqlərin sayından birbaşa hesablanan düzəldilməmiş məsafədən daha böyük hesablanmış məsafədir (birdən çox əvəzetmə nəzərə alınmaqla).

Filogenetik siqnal/sinapomorfiya: Təkamül ağacının müəyyən bir budağı boyunca baş verən əvəzləmələr. Filogenetik siqnalın gücü budaq boyunca baş verən əvəzetmələrin sayı ilə mütənasibdir. Qeyri-ehtimal metodlarında siqnal sinapomorflarda, yəni ortaq əcdaddan əldə edilən ardıcıllıqlar toplusuna xas olan düzülmüş mövqelərdə paylaşılan qalıqlarda (nukleotidlər və ya amin turşuları) kodlanır. Ehtimal metodlarında, verilmiş verilənlər toplusundan faktiki olaraq çıxarılan filogenetik siqnalın miqdarı modeldən asılıdır və modelin verilənlərə uyğunluğu (yəni, modelin məlumatları izah etmək qabiliyyəti) ilə artacağı gözlənilir.

Filogenetik ağac: Növlər qrupu arasında təxmin edilən təkamül əlaqələrini təsvir edən (əlaqəli asiklik) qrafik. Molekulyar ağaclarda budaqların uzunluğu homoloji ardıcıllığın (nukleotid və ya amin turşusu ardıcıllığının) çoxlu düzülməsinin təhlilindən əldə edilən genetik məsafələrə (və buna görə də müəyyən dərəcədə zamana) mütənasibdir.

Ehtimal üsulları: Statistik nəzəriyyəyə əsaslanan və ardıcıllığın təkamülünün açıq modellərindən istifadə edən çoxsaylı ardıcıl düzülmələrdən ağacların yenidən qurulması üsulları ailəsi. Bunlara maksimum ehtimal və Bayes çıxışı yanaşmaları daxildir və ən dəqiq, lakin eyni zamanda hesablama baxımından ən tələbkar olduğu bilinir.

Doyma: Çoxlu düzülmədəki ardıcıllıqlar o qədər çoxlu əvəzlənmələrə məruz qaldıqda, görünən məsafələr həqiqi genetik məsafələri əhəmiyyətli dərəcədə az qiymətləndirirsə, düzülmə doymuş sayılır. Filogenetik nəticə yalnız bir qədər doymuş məlumat dəstləri ilə yaxşı işləyir. Azaldılmış vəziyyət sahəsi (dörd mümkün əsas) sayəsində nukleotid ardıcıllığı zülal ardıcıllığından (20 mümkün amin turşusu) daha sürətli doyur.

Sayt-homogen/sayt-heterojen modellər: Ardıcıllığın təkamülünün əksər modelləri eyni təkamül prosesinin düzülmənin hər mövqeyində (və ya yerində) baş verdiyini güman edir. Bu cür modellərlə yalnız təkamül sürəti, adətən dərəcələrin qamma paylanması vasitəsilə saytlar arasında heterojen kimi modelləşdirilə bilər. Bununla belə, selektiv məhdudiyyətlərin mövqelər üzrə olduqca heterojen olduğu məlumdur, buna görə də sahə-homogen modellərin fərziyyələrini ciddi şəkildə pozur. Digər tərəfdən, sahə-heterojen modellər təkamül prosesinin saytlar arasında, xüsusən də məqbul amin turşuları dəstində (məsələn, CAT modelində) geniş şəkildə dəyişdiyini güman edir. Bir sıra tədqiqatlar göstərdi ki, sahənin heterojen modelləri filogenomik məlumat dəstlərinə daha yaxşı uyğun gəlir və ağacın yenidən qurulması artefaktlarına (məsələn, LBA) həssaslığı azaltmağa meyllidir.

(A) Schierwater və başqaları. [4] ağac. (B) Dunn və başqaları. [2] ağac. (C) Philippe et al. [3] ağac. Takson adlarından sonra mötərizədə göstərilən rəqəmlər müvafiq takson üçün verilənlər bazasına daxil edilən növlərin sayını göstərir. 90%-dən yuxarı yükləmə dəstəyi dəyərləri markerlə (qovşaqlar üçün) və ya altdan xətt çəkməklə (terminal taksonları üçün) göstərilir. Qeyd etmək lazımdır ki, Porifera monofiliyası birmənalı şəkildə qəbul edilmir [28],[46] yalnız zəngin takson nümunəsi və mürəkkəb təkamül modeli ilə 30.000 mövqenin təhlili onu əhəmiyyətli statistik dəstək [3] ilə bərpa edir. Baxmayaraq ki, belə seyrək filogenetik siqnal inamla həll olunmaq üçün filogenomikanın bütün potensialından istifadə etməyi tələb etsə də, bu sual bu tədqiqatın əhatə dairəsindən kənardadır. Aşağıdakı sadələşdirilmiş təsvirlər ([74]-dən yenidən çəkilmiş) beş terminal taksonu arasında mövcud olan böyük morfoloji uyğunsuzluğu göstərir. Porifera süngərlərə Cnidaria dəniz anemonlarına, meduzalara və müttəfiqləri Ctenophora jelelərə və Bilateriyaya digər bütün heyvanlara (ikitərəfli simmetriya ilə xarakterizə olunur) uyğun gəlir. Trichoplax (Placozoa), morfoloji cəhətdən ən sadə mütəşəkkil heyvan filumu kimi görünür.

Burada, bu üç araşdırmanı bir nümunə kimi götürərək, sadə ardıcıllıqların əlavə edilməsinin qarşısını ala bilməyəcəyi tələləri müzakirə edirik və müşahidə olunan uyğunsuzluğun böyük ölçüdə necə aradan qaldırıla biləcəyini və təkmilləşdirilmiş bioinformatika üsullarının filogenomikanın bütün potensialını aşkar etməyə necə kömək edə biləcəyini göstəririk.


Materiallar və metodlar

Kodun mövcudluğu

SaRTree, Perl-də yazılmış və GPL v3.0 lisenziyası altında pulsuz mövcud olan proqramdır. Ən son versiya və bu tədqiqatda istifadə olunan sadə nümunə də daxil olmaqla dəstəkləyici fayllar https://github.com/DalongHu/SaRTree ünvanından endirilə bilər. Sonuncu dəfə 31 oktyabr 2019-cu ildə daxil olub. Proqramlar və modullar üçün mənbə kodu skriptləri mövcuddur, lakin istifadə olunan kompüterin konfiqurasiyasına uyğun olaraq dəyişdirilməlidir.

Altı "Yaşayan Ağaclar" Modulunu həyata keçirən SaRTree Boru Kəmərində iştirak edən addımlar və alqoritmlər

A: Xam məlumatların emalı modulu. Bölmə A həm NGS xam oxunma məlumatlarının yığılmasından, həm də NCBI kimi onlayn verilənlər bazalarından birbaşa endirilən və həmçinin dairəvi tam istinad genomunun daxil edilməsindən ibarət yığılmış ardıcıllıqdan ibarət xam məlumatların əvvəlcədən işlənməsini təsvir edir. SaRTree yığılmış genom ardıcıllıqlarının müqayisəsi üçün nəzərdə tutulub, lakin daha qısa ardıcıllıqla işləyəcək. Son nəticə SNP çağıran fayllara çatdıqda, müxtəlif xam məlumatlar istinad genomu ilə müqayisə edilir.

A1: Ştam ardıcıllıqlarının istinad genomu ilə müqayisəsi. Burada tövsiyə olunduğu kimi progressiveMauve v2.3.1 (Darling et al. 2010) kimi uyğunlaşdırma proqramı ilə yığılmış ardıcıllığın kontiglərinin tam genomla xəritələşdirilməsi. İstifadəçilər müəyyən bir istifadəyə uyğun olaraq müxtəlif parametrlərdən və ya müxtəlif proqram təminatından istifadə etmək üçün əmrləri asanlıqla nəzərdən keçirə bilər.

A2: Əhatə dairəsinin kəsilməsi. Kəsmədən istifadə edərək (adətən genomdakı əsas genlərin nisbətinin layihə təxmininə əsaslanaraq) istinada nisbətən aşağı əhatə dairəsi olan ştamlar E moduluna, yüksək əhatə dairəsinə malik olanlar isə əsas tədqiqatda iştirak etmək üçün B moduluna göndərilir. ağac tikmə.

B: SaRTree əsas modulu. B bölməsindəki proqramlar və alətlər boru kəmərində mərkəzi rol oynayır, SNP məlumatı yığılır, çevrilir, təhlil edilir və nəticədə D bölməsi üçün giriş kimi "real" mutasiya siyahısına, rekombinasiya siyahısına və SNP-nin düzülmə ardıcıllığına dəqiqləşdirilir.

B1: SNP fayllarının birləşməsi və çevrilməsi. Bir SNP siyahı faylı bütün SNP yerlərini və istinad genomuna nisbətən əsas fərqləri daxil etmək üçün bütün suşlar üçün SNP fayllarını birləşdirərək hazırlanmışdır.

B2: Ştamlar arasında SNP paylanma modelini müəyyənləşdirin. SNP-ləri olan hər bir lokus üçün eyni əsas tipli ştammlar markerlə (“A” və ya “B” kimi) qruplaşdırılır, onlar daha sonra ştammların defolt sırası ilə bir-birinə bağlanır ki, budaqlar üzərində ehtimal olunan budaqlara ekvivalent olan paylama modelini təmsil edirlər. ağac. Sonra bütün SNP-lər müxtəlif paylama nümunələrinə bölünür, çünki rekombinasiya hadisəsi daxilində SNP-lər ardıcıl nümunə göstərir.

B3: SNP arası məsafə siyahısının hazırlanması. Eyni paylama modelinə malik SNP-lər eyni filialda olacaq və SNPlərarası məsafə həmin ehtimal olunan filialdakı hər bir qonşu SNP cütü üçün müəyyən edilir.

B4: Rekombinasiya hadisələrinin siyahısını hazırlamaq. Məsafə siyahılarından istifadə edərək rekombinasiya hadisələrinin aşkarlanması SaRTree əsas bölməsində əsas tərkib hissəsi kimi çıxış edir ki, bu da məlumatların C bölməsinə göndərilməsini və çıxış kimi Rekombinasiya siyahısının alınmasını nəzərdə tutur.

B5: “Real” mutasiyalar əldə etmək. Rekombinasiya bölgələrindəki SNP-lər "real" mutasiyalar siyahısını əldə etmək üçün çıxarılır.

B6: Ağac əkmək üçün SNP uyğunlaşdırma ardıcıllığının hazırlanması. Hər bir nümunə və istinad genomu üçün SNP yerlərindəki əsasları birləşdirmək, D bölməsində filogenetik ağacı qurmaq üçün istifadə olunan SNP uyğunlaşdırma ardıcıllığı faylını yaradır.

C: RecDetect modulu. Statistik testlərlə RecDetect adlı bu proses SaRTree-də müstəqil komponentdir. Mutasiyaların təsadüfi paylanmasına dair yeganə fərziyyə ilə statistik modeldən istifadə edərək, rekombinasiya hadisələri B3-də SNP yer siyahısından yaradılan SNPlərarası məsafə siyahısından təxmin edilir. RecDetect minlərlə ardıcıllıqla yaxşı işləyir və paylanmış hesablama sistemlərində tətbiq etmək asandır. Sürət və dəqiqlik arasında tarazlıq var və bu, SaRTree-də standart proqramdır. RecDetect daha sonra əl ilə yoxlanılacaq bir neçə ştamla yüksək ayırdetmə qabiliyyətinə malik iş üçün uyğundur və minlərlə ştamla möhkəmdir və yalnız bir nəsildən olan genomlara uyğun gəlir (əlavə şək. 3, Əlavə material onlayn) və həmçinin çox yüksək rekombinasiya sürətinə malik genomlar . İstifadəçilər boru kəməri skriptinə yenidən baxaraq RecDetect-i hər hansı digər üçüncü tərəf rekombinasiyası ilə əl ilə əvəz edə bilər.

C1: Məsafələr üçün çeşidləmə və ilkin sınaq. SNP-lər arasındakı məsafələri uzunluğa görə çeşidlədikdən və kəsməni sıfır olaraq başlatdıqdan sonra, eksponensial paylanmanın giriş məsafələrinə necə uyğun olduğunu qiymətləndirmək üçün məsafələr siyahısı ilk Kolmogorov-Smirnov testinə göndərilir.

C2 və C3: Uyğun olmayan nəticə ilə iterasiya addımı. C1-də test nəticəsi məsafələrin eksponensial paylanmaya (uyğun olmayan nəticə) uyğun olması fərziyyəsini rədd edərsə, 10-dan az olan SNP-ləri silməklə SNP-lərin yer siyahısının filtrasiyasını təkrar etmək üçün kəsmə 10 (standart) artırılacaqdır. qonşulara olan məsafələri əsaslandırır. Bundan sonra, yenilənmiş SNP yer siyahısı C1-də olduğu kimi yenidən sınaqdan keçirilməli olan məsafə siyahısını yenidən hesablamaq üçün istifadə olunur.

C4: Uyğun nəticə ilə tamamlama addımı. Testin nəticəsi məsafələrin eksponensial paylanmaya uyğun olmasıdırsa, məsafələri ən uyğun kəsmə nöqtəsindən (cf) az olan yerlər rekombinasiya bölgəsi kimi yerləşdirilir.

C5: Rekombinasiya hadisələri üçün sərhədlərin hesablanması. Bu rekombinasiya hadisələrinin sərhədləri daxil edilmiş DNT-də SNP-lər arasında orta məsafənin yarısını hər bir ucuna əlavə etməklə daxil edilmiş DNT fraqmentlərinin uzunluğunu təxmin etmək üçün genişləndirilir.

C6: Rekombinasiya regionunun siyahısı ixrac edilir. C bölməsində son addım rekombinasiya siyahısını yenidən B bölməsinə göndərməkdir.

D: Ağac və divergensiya tarixləri modulu. Bu modul dəqiq filogenetik ağac yaratmaq üçün “real” mutasiya siyahısından və yenidən işlənmiş rekombinasiyadan, üstəgəl təcrid olunmuş tarix siyahısı varsa, fərqlilik tarixlərindən istifadə edir.

D1: Hədəf ağacının qurulması. Üçüncü tərəf proqram təminatından istifadə etməklə (RAxML versiyası 8 tövsiyə olunur), hədəf filogenetik ağac kimi maksimum ehtimal ağacı qurulur.

D2: müvəqqəti ağacın köklənməsi. Filogenetik ağac müvafiq qrup ardıcıllığının nominasiyası əsasında və ya istifadəçi tərəfindən müəyyən edilmiş strategiyadan istifadə etməklə TreeRooter (Module F) tərəfindən köklənə bilər.

D3: Divergensiya tarixinin təxmin edilməsi (isteğe bağlı). Təcrid tarix siyahısı və SNP uyğunlaşdırma ardıcıllığı ilə üçüncü tərəf proqram təminatı olan BEAST istifadə edərək, MCMC prosesi fərqlilik tarixlərini göstərən “.ağaclar” şəkilçisi ilə müvəqqəti fayl yaradır. BEAST yalnız təcrid tarixləri budaqların dərinliyinə görə kifayət qədər yayıldıqda mənalı nəticələr verə bilər ( Comas et al. 2013). Yalnız terminal filialları uzun olduqda və ya izolyasiya tarixləri qısa bir zaman aralığını əhatə edərsə, faydalı nəticələr verə bilməz ( Comas et al. 2013). BEAST-da təyin edilməli olan bir çox parametr var.

D4: Hədəf ağacında fərqlilik tarixlərinin qeyd edilməsi. Müvəqqəti ağaclar faylı BEAST-a daxil olan üçüncü tərəf TreeAnnotator proqram təminatından istifadə etməklə şərh olunur (Drummond et al. 2012). Çıxış ağacı artıq tarixə görə formatlanıb.

D5: Filogenetik ağacda təkamül təfərrüatlarının qeyd edilməsi. “Əsl” mutasiyaların və rekombinasiya hadisələrinin nömrələri və yerləri ayrılıq tarixləri ilə yekun ağaca qaytarılır. Bu biooperl skript proqramı SaRTree boru kəməri tamamlandıqdan sonra əl ilə tətbiq üçün SaRTree-yə daxil edilmişdir.

E: StrainLocater modulu. Mövcud SaRTree tərəfindən yaradılan ağacda yeni ştammları tapmaq üçün sadə bir alqoritm həyata keçirilir. StrainLocater, yerləşmə üçün yeganə əsas kimi budaqlar üzrə ayrılmış təkamül hadisələrindən istifadə edir və SaRTree boru kəməri əsasında aşağı axın tədqiqatlarına imkan verir.

E1: Yeni nümunə ardıcıllığının ilkin müalicəsi. StrainLocater girişi kimi formatlaşdırılmış xəritələşdirmə siyahısını əldə etmək üçün yeni nümunə ardıcıllıqları ilkin olaraq SaRTree daxilində Modul A tərəfindən işlənməlidir.

E2: Mövcud mutasiya siyahısı ilə müqayisə. Hədəf budaqındakı əsaslardan hansının da sorğu ardıcıllığında olduğunu və hansının yeni qovşaqdan əvvəl, hansının sonra yerləşəcəyini müəyyən etmək üçün parsimoniya metodu həyata keçirilir. Bu, hər bir sorğu ardıcıllığının xəritələşdirilməsi siyahısını SaRTree tərəfindən hədəf ağac üçün yaradılmış mövcud mutasiya siyahısı ilə müqayisə etməklə həyata keçirilir, hər bir mutasiya nöqtəsi üçün sorğu suşlarının hansı budağa aid olduğunu göstərmək üçün saxta mutasiya siyahısı qurulur.

E3: Hər sorğuda mutasiyaların sayının müəyyən edilməsi. Hesab matrisi və hədəf ağac faylından istifadə edərək, hər bir mutasiya nöqtəsinin sorğu ştammının mövcud/yox/boşluğunun nömrələri ümumiləşdirilir və hər bir budağın uyğunluğunu təmsil edən hesaba çevrilir.

E4: Filialların yekun ballarının hesablanması və ən yaxşı filiala sorğunun yerləşdirilməsi. E3-dən alınan ballar, sıfır və ya mənfi xalları olan filialları nəzərə almayaraq, hər bir filialın yekun xalını ilkin xalın və kökə gedən yoldakı bütün əcdad budaq xallarının cəmi kimi hesablamaq üçün istifadə olunur. Ən yüksək yekun bal toplayan filial daha sonra nəticə namizədi seçiləcək. Yekun nəticə budaq namizəd filialdan və onun iki nəslindən ən az homoplastik SNP-ləri yaradandır.

F: TreeRooter modulu. The StrainLocater function can be used to locate an appropriate outgroup on an existing tree to root the tree. The traditional way to root a tree is to run the tree program with the outgroup strain included to root the tree. This always reduces the amount of shared sequence for generating the tree. In cases when no outgroup sequences are available or in other special situations, users could do the rooting manually or use third-party software such as pplacer ( Matsen et al. 2010) or EPA algorithm ( Berger et al. 2011) recommended by RAxML ( Stamatakis 2014).

F1: Pretreatment of outgroup sequences. The outgroup sequence or sequences must be initially processed by Module A within SaRTree to get a formatted mapping list as the input for TreeRooter.

F2: Locating outgroup onto unrooted tree. The outgroup mapping list created in the last step and the target unrooted tree generated in section D with its mutation list generated in section B are used as input for StrainLocater to locate an outgroup strain onto a branch of the target tree.

F3: Weighing new branch lengths. After locating the outgroup onto the main tree to get a new rooted tree, the resulting branch should be separated as two new branches by outgroup. The two new branch lengths are weighted by the proportion of mutation events on them.

Phylogenetic Reconstructions and Comparative Genomic Analysis, For Examples

All the examples in this study are processed by the High Performance Computing system in The University of Sydney, which is a cluster of computing systems based on Dell PowerEdge R630 Servers using Intel Xeon E5-2680 V3 CPU (2.6 GHz) and Dell PowerEdge C6320 Servers using Intel Xeon E5-2697A-V4 CPU (2.6 GHz). The general profile of all the trees built in this study is shown in supplementary table 4 , Supplementary Material online and the original files of those trees can be found at https://figshare.com/s/ac165d520410c994f587 last accessed October 31, 2019.

For the example run shown in supplementary figure 2 , Supplementary Material online, which was generated directly by FigTree v1.4.3 ( Drummond et al. 2012), we showed the simplest default run and its raw output of eight A. baumannii global clone II strains randomly selected from the NCBI refseq database (O’Leary et al. 2016). Strain ACICU was used as the reference and global clone I strain 307-0294 was set as the outgroup. As a quick-start demonstration, in the configuration file for this example, the parameter of RecDetect was set as “-f -t -x 40000” to indicate the simplest “fast” and “strict” algorithm.

Üçün A. baumannii Global Clone I phylogenetic tree, we downloaded sequences of all strains used in the study by Holt et al. (2016) and built a SaRTree tree using the strain 1656-2 as the outgroup to root the tree by TreeRooter. Strains TG19582 and 307-0294, which are described as strains with low quality or confusing location in the previous study, were excluded manually in the first run and then located onto the tree using StrainLocater. The tree is displayed by Figtree v1.4.3 in figure 3. For the serotypes of the strains, note that there are at least 3 naming systems for these oligosaccharides, and we have retained that used in the original paper to avoid confusion.

For the second example, we downloaded 2003 A. baumannii-calcoaceticus complex genome DNA sequences from the NCBI refseq database (O’Leary et al. 2016). Then we ran the standard SaRTree pipeline with strain ACICU as reference ( Snitkin et al. 2011) applying 90% cutoff value to filter out 725 low coverage strains, and 1,278 strains were input to the SaRTree main script. Owing to our lack of knowledge of the origins of A. baumannii major clones, the output tree was manually rooted after comparing with some published trees ( Wallace et al. 2016). The tree shown in supplementary figure 3 , Supplementary Material online is displayed by GraPhlAn v0.9.7 ( Asnicar et al. 2015). The MLST analysis follows the Pasteur protocol ( Diancourt et al. 2010). The 7 marker genes were extracted from 2003 genome sequences by blast+ v2.2.26 ( Camacho et al. 2009) and compared with the database at https://pubmlst.org/abaumannii/. The MLST result is shown in supplementary table 1 , Supplementary Material online. Comparative genomic analysis on antibiotic resistance genes is based on the CARD database ( Jia et al. 2017) using nucleotide sequences of antibiotic resistance genes to implement a Blast search with “-e 1e-100” as threshold and hits with coverage above 50% being recorded as antibiotic resistance genes. The result is also displayed by GraPhlAn v0.9.7 in supplementary figure 3 , Supplementary Material online.

Based on the tree with 1,287 strains, 73 Global Clone II related representatives were then selected for a second SaRTree run to generate the high-resolution phylogenetic tree shown in figure 2. All had a known date of isolation. We used the same ACICU strain as the reference and chose ST 25 strains XH857 and AB-HKU3-08 as the outgroup, rooting the tree with “-r man” using the manual rooting option in SaRTree. BEAST v1.10.4 ( Drummond et al. 2012) was used under a relaxed molecular clock using a coalescent constant population size and a general time-reversible model with gamma correction, which are selected as the best models based on effective sample size comparing to other combinations of models, to estimate the divergence dates of the branches. The first 1,000,000 from 10,000,000 chains are removed as burn-in. The final tree with divergence dates was built by TreeAnnotator within the BEAST package. The remaining 1,097 Global Clone II related strains are then located onto this tree by a third run of SaRTree with “-l” setting and “-m formatted” module to save computing time. A total of 460 strains failed to locate onto specific branches due to missing sequences or low quality and two ST215 strains T271 and AB-HKU3-10 are located out of the tree. The other 635 strains are effectively located. The final result in supplementary figure 4 , Supplementary Material online combines information on antibiotic resistance genes and isolation detail.

For the example shown in figure 4 and supplementary figure 5 , Supplementary Material online, we downloaded the 411 available E. coliŞigella complete genomes from the NCBI refseq database (O’Leary et al. 2016) and selected 351 strains with good background information to implement a SaRTree run with “-e both” setting to filter out low-quality SNP calling due to the unknown genomic diversity in this set of sequences. The genotype grouping is done by adding strains onto the tree described by Clermont et al. (2013) to define the 7 groups, based on 13 homology genes. Then the strains which located onto existing branches for those 7 groups are identified as in the same groups. The ones on none of those 7 branches are treated as new groups and also some strains lack some of the 13 genes and could not be identified by this method. Then we selected 29 strains from the 351-strain tree and some Shigella strains from groups not on the tree to rebuild an accurate tree as shown in figure 2. Same parameters, reference genome and outgroup are set for the 29-strain tree and all 11,162 available assembled E. coliŞigella genomes on NCBI genbank database were located onto the 29-strain tree by a modified StrainLocater script to optimize the running speed and memory requirement on the specific computing system due to the large number of input strains. The raw result is shown in supplementary table 5 , Supplementary Material online. The grouping results obtained by the traditional method for the 11,162 strains were generated by same method as the 351-strain tree. The grouping result for Şigella strains is based on their molecular serotyping result ( The et al. 2016), using blast+ v2.2.26 ( Camacho et al. 2009), by a Blast search for their wzxwzy genes on a set of standard wzxwzy genes of each serotype described before ( Liu et al. 2008). A comparison of grouping results using by the traditional method and the StrainLocater method is shown in supplementary table 3 , Supplementary Material online.

Üçün V. xolerae example shown in figure 5, the raw sequencing data ( supplementary table 1 , Supplementary Material online) was downloaded from the NCBI SRA database ( Kodama et al. 2012) and then assembled by SPAdes v3.10 with “–careful” setting ( Bankevich et al. 2012). Then a SaRTree pipeline was run with “-l” and default for other settings to load a standard StrainLocater Module. A published tree with mutation list from our previous study ( Hu et al. 2016) is used as the target tree. The figure was generated by FigTree v1.4.3 ( Drummond et al. 2012) in figure 5 which has manual decoration.


Estimating relatedness

Cladograms can be constructed with the aid of technologies that estimate molecular divergences in key sequences of DNA or protein amino acids. Similar to the progress seen in estimating the age of organic substances with the use of radioactive decay technologies and carbon dating, the advent of molecular biological technologies in the later half of the 20th century have increasingly allowed scientists to more accurately estimate the degree of evolutionary relatedness at the genetic level. Taking two homologous DNA sequences in different species, one can estimate evolutionary distance by measuring the number of nucleotide substitutions that have occurred over time. Alternatively, using protein products of DNA expression, one can measure the number of amino acid substitutions that have occurred between homologous protein sequences.


Pulsuz Cavab

How does a phylogenetic tree relate to the passing of time?

The phylogenetic tree shows the order in which evolutionary events took place and in what order certain characteristics and organisms evolved in relation to others. It does not relate to time.

Some organisms that appear very closely related on a phylogenetic tree may not actually be closely related. Niyə bu?

In most cases, organisms that appear closely related actually are however, there are cases where organisms evolved through convergence and appear closely related but are not.


ÜSULLAR

This investigation was conducted during the second course of a two-course introductory biology series for science majors at a large, public university with very high research activity (Carnegie Foundation, 2013) in the midwestern United States. The large-enrollment course (n = 88) served students pursuing a number of majors (Table 2) at various stages in their academic careers (24% freshmen, 33% sophomores, 18% juniors, and 25% seniors). The first course in the introductory series focused on cell biology and included little or no exposure to phylogenetic trees. Although recommended, completion of the first course was not a prerequisite for the second course.

Table 2. Course enrollment by major group

Course Context

The instructor used a learner-centered approach to teaching biology, in which multiple forms of active engagement were used in place of passive lectures. Course activities included letter card questions (Freeman və b., 2007), collaborative learning groups (Smith, 2000 Tanner və b., 2003), small-group and whole-class discussions, think–pair–share sessions (Lyman, 1981), and case studies (Herreid, 1994). Model-based instruction (Hestenes, 1987 Hmelo və b., 2000 Brewe, 2008 Liu and Hmelo-Silver, 2009) was a prominent pedagogical strategy, as students frequently constructed box-and-arrow models of complex biological processes, such as evolution, nutrient cycles, and energy flow through ecosystems. Students worked in permanent, self-selected groups of three or four individuals on nearly all aspects of the course, including pyramid exams (Eaton, 2009) with individual and group components (75 and 25% of points, respectively). Learning objectives, instruction, and assessments largely targeted higher-order cognitive skills of analysis, synthesis, and evaluation (Bloom və b., 1956 Crowe və b., 2008 Momsen və b., 2010, 2013).

The introductory biology course included three primary units: evolution, form and function, and ecology (Figure 2). Although most prominent during the evolution unit, phylogenetic trees were used throughout the course when appropriate. For example, phylogenetic trees appeared in the form and function unit to help students visualize and reason about evolved traits required for plant survival on land.

Figure 2. Timeline of primary course units and data collection from assessments.

Instruction and Data Collection

Two homework assignments and two exams were the data sources for this study (Figure 2). The initial phylogenetic tree homework was completed in groups soon after phylogenetic trees were introduced as part of the evolution unit. The introduction consisted of a series of questions posed by the instructor and answered by students using letter cards. The questions familiarized students with structural characteristics of phylogenetic trees, such as nodes (represent common ancestors) and monophyletic groups, and presented the idea that taxa relatedness is determined by common ancestry. Letter card questions were followed by small-group and whole-class discussions until the entire class established the correct answer using appropriate reasoning. All phylogenetic tree questions used during class and for assessments referred to cladograms, in which only branching patterns have meaning. Chronograms (which show absolute time) and phylograms (which show amount of change) were briefly mentioned by the instructor, but students were never required to interact with or reason from them during the course (for further descriptions of phylogenetic tree types, see Baum and Offner, 2008Omland və b., 2008).

The initial phylogenetic tree homework featured a short series of open-ended questions designed around a phylogenetic tree of chordates. In addition to prompts about recent common ancestors, synapomorphies, and monophyletic groups, one question regarding taxa relatedness appeared on the group homework (Figure 3). Poor group performance for this question compelled the instructor to revisit phylogenetic tree interpretations during class. The question was presented to students again and debated through directed, small-group discussions. A subsequent whole-class discussion acknowledged most recent common ancestry as an appropriate reasoning strategy for determining taxa relatedness on phylogenetic trees. After the initial homework was revisited during class, taxa relatedness was specifically targeted through two additional letter card questions. Instruction specific to phylogenetic trees and evolutionary relatedness occurred across three consecutive course meetings, ending in week 5. We therefore include each student's average attendance across these 3 d in subsequent analysis as a reflection of the potential impact of instruction on student reasoning with phylogenetic trees.

Figure 3. Phylogenetic tree and taxa-relatedness question from the initial homework.

Phylogenetic trees and taxa-relatedness questions similar to the initial homework were placed on three subsequent assessments, which followed the end of instruction by 1, 10, and 12 wk, respectively (Figure 2). Such prompts were included on both the individual and group components of the evolution unit exam in which students completed the individual component before the group component (Supplemental Figures S1 and S2). A phylogenetic tree was provided for the individual component, but the group component required students to construct a phylogenetic tree from data before answering a taxa-relatedness question. Students were never asked to construct phylogenetic trees before completing the evolution unit exam. A phylogenetic tree and taxa-relatedness questions were also placed on the review homework 2 wk before the final exam (Figure S3) and on the individual component of the final exam (Figure S4). The prompt structure for the review homework and final exam was changed slightly from a two-choice prompt with open-ended reasoning to a four-choice prompt with open-ended reasoning. This alteration was made for several reasons. First, students had seen several taxa-relatedness questions throughout the semester to avoid retest concerns, we created prompts that were familiar to students but offered a somewhat new opportunity to interpret relatedness. Second, the multiple-choice foils prevented students from feeling obligated to select one taxon or the other, providing students with the option to identify taxa as equally related or unrelated. In both the review homework and final exam, the taxa involved were equally related. The phylogenetic tree on the final exam was also the only phylogenetic tree used as part of this investigation that did not include labeled synapomorphies.

Rubric Development and Coding

The initial rubric for coding student responses to taxa-relatedness questions was developed using a grounded theory approach (Glaser and Strauss, 1967). This reflected the nature of the project as developing in real time in response to classroom experiences and student learning difficulties.

Existing literature on phylogenetic tree interpretations (Table 1) was then used to confirm and refine some categories for the final rubric (Supplemental Material) and to identify two new reasoning strategies. Specifically, we found evidence that students determine relatedness by counting synapomorphies (taxa relatedness is determined by counting synapomorphies between the taxa on phylogenetic trees) and by using negation reasoning (reasoning includes descriptions of how not to interpret taxa relatedness on phylogenetic trees in all cases, this reasoning occurs concurrently with other reasoning see the Supplemental Material). In addition, we found evidence of students using monophyletic grouping (taxa in the same monophyletic group are more closely related to each other than to a taxon outside the monophyletic group) to reason about relatedness. While some research has identified monophyletic grouping as a possible reasoning approach, no one has provided evidence to show that students actually use monophyletic grouping.

For training the raters, all responses from the initial homework and both components of the evolution unit exam were numbered, and a random number generator was used to select 20 initial responses (15% of the total at the time). Two independent raters coded the initial responses and reached consensus through discussion. Following rubric calibration, agreement between the two raters was 94% for the remaining 258 responses from all four assessments, and disagreements were resolved through discussion. Student responses often included more than one form of reasoning and consequently fell into multiple rubric categories, resulting in 360 total reasoning codes assigned to 278 group and individual responses. Coding was partially blind, in which one rater was aware of group and individual identities while the second rater was not. Due to high agreement between independent raters, we do not believe rater bias was a significant issue for this investigation.

The taxa-relatedness questions used throughout the course required students to choose an answer and provide reasoning for their selection. Because answers selected by students were not always consistent with their reasoning, responses were coded again for answer (correct or incorrect) and reasoning used to support the answer (correct, incorrect, or mixed, i.e., a mix of correct and incorrect reasoning). The categories of most recent common ancestry and monophyletic grouping were considered correct reasoning, while negation reasoning always appeared with other forms of reasoning and was considered neither correct nor incorrect. All other rubric categories were deemed incorrect reasoning for taxa relatedness. This coding procedure identified students who guessed correct answers (correct answer with incorrect reasoning), and students who memorized correct reasoning without understanding its application (incorrect answer with correct reasoning). Only responses with both correct answers and correct reasoning demonstrated understanding of taxa relatedness on phylogenetic trees.

Statistical Analyses

Following the suggestion of Theobald and Freeman (2014), we constructed statistical models to test various hypotheses regarding student reasoning about phylogenetic trees. To assess hypotheses related to reasoning and answer selection, we constructed statistical models that accounted for variables affecting reasoning and answer selection. In addition, random effects were used to capture repeated measurements on the same groups and individuals on multiple assessments. Specifically, mixed-effect ordinal logistic-regression models were used to analyze taxa-relatedness reasoning, while mixed-effect logistic-regression models were used to analyze correct answers. For group reasoning, group assignment was modeled as a random effect, and assessment was a fixed effect. For individual reasoning, student was modeled as a random effect, while assessment, class attendance, year in school, and academic major were fixed effects. For group correctness, group assignment was modeled as a random effect, and assessment and reasoning (correct, incorrect, or mixed) were fixed effects. For individual correctness, student was modeled as a random effect, while reasoning, assessment, class attendance, year in school, and academic major were fixed effects. F-tests were used to determine significance of batches of explanatory variables (e.g., major), while t tests were used to determine significance of individual explanatory variables. Additional details of the statistical analyses (e.g., odds ratios) are available in the Supplemental Material.


Continental drift over geologic time helps explain species distributions

Over geologic time, not only have species diversity and composition changed, but also the location of the continents themselves have shifted. Continental drift is the very gradual movement, assembly, and rifting of the crustal plates and their associated continents. This process means that when a taxon arose millions of years ago, it probably lived in different location with respect to the equator and poles, and in a location that may have been connected physically with what are now separate continents. The short animation below shows the projected movement of continents, based on evidence from the magnetic rock record and other geological clues. As you view it, consider a specific group, such as reptiles, and when they arose and flourished globally.


'Tree of life' for 2.3 million species released

This circular family tree of Earth's lifeforms is considered a first draft of the 3.5-billion-year history of how life evolved and diverged. Credit: opentreeoflife.org

A first draft of the "tree of life" for the roughly 2.3 million named species of animals, plants, fungi and microbes—from platypuses to puffballs—has been released.

A collaborative effort among eleven institutions, the tree depicts the relationships among living things as they diverged from one another over time, tracing back to the beginning of life on Earth more than 3.5 billion years ago.

Tens of thousands of smaller trees have been published over the years for select branches of the tree of life—some containing upwards of 100,000 species—but this is the first time those results have been combined into a single tree that encompasses all of life. The end result is a digital resource that available free online for anyone to use or edit, much like a "Wikipedia" for evolutionary trees.

"This is the first real attempt to connect the dots and put it all together," said principal investigator Karen Cranston of Duke University. "Think of it as Version 1.0."

The current version of the tree—along with the underlying data and source code—is available to browse and download at https://tree.opentreeoflife.org.

It is also described in an article appearing Sept. 18 in the Milli Elmlər Akademiyasının Materialları.

Evolutionary trees, branching diagrams that often look like a cross between a candelabra and a subway map, aren't just for figuring out whether aardvarks are more closely related to moles or manatees, or pinpointing a slime mold's closest cousins. Understanding how the millions of species on Earth are related to one another helps scientists discover new drugs, increase crop and livestock yields, and trace the origins and spread of infectious diseases such as HIV, Ebola and influenza.

Rather than build the tree of life from scratch, the researchers pieced it together by compiling thousands of smaller chunks that had already been published online and merging them together into a gigantic "supertree" that encompasses all named species.

The initial draft is based on nearly 500 smaller trees from previously published studies.

To map trees from different sources to the branches and twigs of a single supertree, one of the biggest challenges was simply accounting for the name changes, alternate names, common misspellings and abbreviations for each species. The eastern red bat, for example, is often listed under two scientific names, Lasiurus borealisNycteris borealis. Spiny anteaters once shared their scientific name with a group of moray eels.

"Although a massive undertaking in its own right, this draft tree of life represents only a first step," the researchers wrote.

For one, only a tiny fraction of published trees are digitally available.

A survey of more than 7,500 phylogenetic studies published between 2000 and 2012 in more than 100 journals found that only one out of six studies had deposited their data in a digital, downloadable format that the researchers could use.

The vast majority of evolutionary trees are published as PDFs and other image files that are impossible to enter into a database or merge with other trees.

"There's a pretty big gap between the sum of what scientists know about how living things are related, and what's actually available digitally," Cranston said.

As a result, the relationships depicted in some parts of the tree, such as the branches representing the pea and sunflower families, don't always agree with expert opinion.

Other parts of the tree, particularly insects and microbes, remain elusive.

That's because even the most popular online archive of raw genetic sequences—from which many evolutionary trees are built—contains DNA data for less than five percent of the tens of millions species estimated to exist on Earth.

"As important as showing what we do know about relationships, this first tree of life is also important in revealing what we don't know," said co-author Douglas Soltis of the University of Florida.

To help fill in the gaps, the team is also developing software that will enable researchers to log on and update and revise the tree as new data come in for the millions of species still being named or discovered.

"It's by no means finished," Cranston said. "It's critically important to share data for already-published and newly-published work if we want to improve the tree."

"Twenty five years ago people said this goal of huge trees was impossible," Soltis said. "The Open Tree of Life is an important starting point that other investigators can now refine and improve for decades to come."


Videoya baxın: Ağaclar haqqında məlumat (Oktyabr 2022).