JoVE Logo

Войдите в систему

Для просмотра этого контента требуется подписка на Jove Войдите в систему или начните бесплатную пробную версию.

В этой статье

  • Резюме
  • Аннотация
  • Введение
  • протокол
  • Результаты
  • Обсуждение
  • Раскрытие информации
  • Благодарности
  • Материалы
  • Ссылки
  • Перепечатки и разрешения

Резюме

Здесь мы опишем шаг за шагом трубопровод для генерации надежных филогении из наборов данных последовательности нуклеотидов или аминокислот. Это руководство стремится служить исследователей или студентов новых к филогенетического анализа.

Аннотация

Многие исследователи, по невероятно разнообразной очагов, подаете заявление филогенетики их исследовательской вопрос (ы). Тем не менее, многие исследователи новичок в этой теме, и поэтому он представляет внутренние проблемы. Здесь мы собираем практическое введение в филогенетики для неспециалистов. Мы выделяем в шаг за шагом образом, трубопровод для генерации надежных филогении из наборов данных последовательностей гена. Начнем с пользовательским руководством для подобия инструменты поиска через интернет-интерфейсов, а также местные исполняемых файлов. Затем мы исследуем программы для создания нескольких выравнивания последовательностей с последующим протоколов на использование программного обеспечения, чтобы определить наиболее подходящее моделей эволюции. Мы тогда наметить протоколы для восстановления филогенетические связи через максимального правдоподобия и байесовских критериев и, наконец, описать инструменты для визуализации филогенетических деревьев. Хотя это ни в коем случае исчерпывающее описание филогенетических подходов, она дает читателю практической начиная информаион по ключевым программных приложений обычно используемых филогенетиков. Видение этой статье будет то, что она может служить в качестве практического учебного пособия для исследователей, приступающих к филогенетических исследований, а также служить в качестве образовательного ресурса, которые могли бы быть включены в классе или учебно-лаборатории.

Введение

Для того, чтобы понять, как два (или более) вид эволюционировал, в первую очередь необходимо для получения последовательности или морфологические данные из каждого образца; эти данные представляют величины, которые мы можем использовать, чтобы измерить их отношения через эволюционного пространства. Так же, как при измерении линейное расстояние, имея больше данных доступны (например, мили, дюймы, мкм) будет приравнять к более точного измерения. Ergo, точность, с которой исследователь может вывести эволюционный расстояние во многом зависит от объема информационных данных, доступных для измерения отношения. Кроме того, поскольку различные образцы развиваться с разной скоростью и по различным механизмам, метод, который мы используем для измерения отношения между двумя таксонов также напрямую влияет на точность эволюционных измерений. Таким образом, поскольку эволюционные отношения непосредственно не наблюдается, но вместо этого были экстраполированы из последовательности или морфологических данных, проблема выведения эволюционнымотношения становится одним из статистики. Филогенетика является отраслью биологии заинтересованной с применением статистических моделей с особенностями эволюции для того, чтобы оптимально восстановить эволюционную историю между таксонов. Эта реконструкция между таксонов называют филогении таксонов в.

Чтобы помочь преодолеть разрыв в компетенции между молекулярными биологами и эволюционных биологов описанных здесь шаг за шагом трубопровода для выведения филогении из набора последовательностей. Во-первых, мы подробно шаги, участвующие в опросе базы данных, используя Basic Local Alignment Search Tool (BLAST 1) алгоритм через веб-интерфейс, а также за счет использования местных исполняемые, это часто является первым шагом в получении список похожих последовательностей неопознанный запрос, хотя некоторые исследователи также можете быть заинтересованы в сборе данных для одной группы с помощью веб-интерфейсов, таких как Phylota (http://www.phylota.net/). BLAST является алгоритмом сomparing первичной аминокислотной или нуклеотидной последовательности данных к базе данных последовательностей искать "хитов", которые напоминают последовательность запросов. Программа BLAST был разработан Стивеном Altschul соавт. в Национальных Институтов Здоровья (NIH) 1. Сервер BLAST состоит из целого ряда различных программ, и вот список некоторых из наиболее распространенных программ BLAST:

я) нуклеотидов нуклеотидов BLAST (BLASTN): Эта программа требует ввода последовательности ДНК и возвращает наиболее похожие последовательности ДНК из базы данных ДНК, который пользователь указывает (например, для конкретного организма).

II) белок-белковых BLAST (BLASTP): Здесь пользователь вводит последовательность белка и программа возвращается наиболее сходные последовательности белка из базы данных белков, которые пользователь задает.

III) Статус-Удельная Итерационное BLAST (PSI-BLAST) (blastpgp): пользовательский ввод PROTEв последовательности, которая возвращает набор тесно взаимосвязанных белков, и с этого набора данных сохраняется профиль генерируется. Следующая новый запрос генерируется с использованием только эти консервативные "мотивы", который используется для опроса базы данных белка, и это возвращает большую группу белков, из которых новый набор консервативных "мотивов" извлекаются и затем используется для допросить базу данных белка до даже больший набор белков настраивали и другого профиля генерируется и процесс повторяется. В том числе связанные белки в запросе на каждой стадии эта программа позволяет пользователю идентифицировать последовательности, которые являются более расходящимся.

IV) нуклеотидов 6-рамка перевод-белок (BLASTX): Здесь пользователь предоставляет вход нуклеотидной последовательности, которая преобразуется в шесть-каркасных концептуальных продуктов перевода (т.е. обе нити) в базе данных белковых последовательностей..

у) нуклеотидных 6-кадра перевода-нуклеотидПеревод 6-кадр (tblastx): При этом программа занимает вход нуклеотидной последовательности ДНК и переводит вход во все шесть кадров концептуальных продуктов трансляции, которые он сравнивает с переводами шесть рамочных базе данных нуклеотидной последовательности.

VI) Белки-нуклеотид 6-рамка перевод (TBLASTN): Эта программа использует входной последовательности белка для сравнения всех шести рамок считывания базы данных нуклеотидной последовательности.

Затем мы опишем часто используемые программы для создания Multiple Sequence Выравнивание (MSA) от последовательности набора данных, и это сопровождается руководстве пользователя к программам, которые определяют наиболее подходящую моделей эволюции для последовательности данных. Филогенетический реконструкция представляет собой статистический проблема, и из-за этого, филогенетические методы должны включать статистической основы. Это статистические рамки становится эволюционная модель, которая включает изменение последовательности в наборе данных. Этот эволюционный месдель состоит из набора предположений о процессе нуклеотидных или аминокислотных замен, и наиболее подходящую модель для конкретного набора данных могут быть выбраны посредством статистических испытаний. Подгонка данным различных моделей можно сравнить с помощью отношения правдоподобия тестов (LRTs) или информационных критериев для выбора наиболее подходящую модель в наборе возможных. Две общие критерии информации являются информационный критерий Акаике (АИК) 2 и байесовский информационный критерий (BIC) 3. После того, как оптимальное выравнивание генерируется, существует много различных методов для создания филогению из выровненных данных. Есть многочисленные методы выведения эволюционные отношения; широко, их можно разделить на две категории: расстояние на основе методов и методов на основе последовательности. Расстояние Методы, основанные на вычисления попарные расстояния из последовательностей, а затем использовать эти расстояния, чтобы получить дерево. Последовательность методов, основанных на использовании выравнивание последовательности непосредственно, и, как правило поиск по тРЗЭ пространство с помощью критерия оптимальности. Мы выделяем два метода последовательности на основе для реконструкции филогенетических взаимоотношений: это PhyML 4, который реализует максимальную рамки правдоподобия, и MrBayes 5, который использует байесовский цепь Маркова Монте-Карло вывод. Вероятность и байесовских методов обеспечения статистической базы для филогенетического реконструкции. Предоставляя информацию о пользователе на часто используемых инструментов дерево-строительных, введем читателя необходимых данных, необходимых для вывода филогенетические связи.

протокол

1. Основные Часовой Выравнивание Инструмент поиска (BLAST): интерфейс онлайн

  1. Нажмите на эту ссылку, чтобы посетить BLAST 1 веб-сервер в Национальном центре биотехнологической информации (NCBI). - http://blast.ncbi.nlm.nih.gov/Blast.cgi (рис. 1).
  2. Введите FASTA форматированный текст последовательность (см. рисунок 2, например) в строке запроса.
  3. Нажмите соответствующую программу BLAST и соответствующую базу данных или отдельных видов, представляющих интерес для использования в поиске и нажмите кнопку "Blast".
    Примечание: FASTA отформатирован последовательность начинается с описания линии, указанной на знаке ">". Описание должно следовать сразу после значок ">", последовательности (то есть. Нуклеотидов или аминокислот) следуют описание на следующей строке. Выход из поиска BLAST рассматривается как HTML, простой текст, XML, или ударил таBLES (Текст или CSV) с установленным в HTML умолчанию (рис. 3).

2. Основные Часовой Выравнивание Инструмент поиска (BLAST): Местные Исполняемые

  1. Загрузите последние BLAST командной строки BLAST исполняемые по этой ссылке:
    ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ -
  2. EM> Для пользователей ПК: дважды щелкните последний файл взрыв win32.exe и принять условия лицензионного соглашения и нажмите установить.
    Примечание: Каталог установки по умолчанию C: NCBI-доменный 2.2.27 +.
  3. Настройте переменную окружения ПК следующим образом:
    1. Нажмите на ПК "Пуск" кнопку, а затем щелкните правой кнопкой мыши "компьютер",
    2. Нажмите кнопку "Свойства" и в всплывающем окне нажмите на вкладку "Дополнительно"
    3. Нажмите кнопку "Переменные среды" и в новом всплывающем окне нажмите кнопку "новый" под гое "Пользовательские переменные для пользователя" раздела
    4. В всплывающем добавить имя переменной "Path" и значение переменной "C: NCBI-доменный 2.2.27 + бен.
      Примечание: каталог бен содержит исполняемый файл (т.е. BLASTP, и т.д..)..
  4. EM> Для пользователей Mac: Откройте терминальное приложение (для этого просто откройте "Finder" и поиск "Терминал", и это будет отображаться значок "Терминал"). В терминал типа окна:
    > FTP ftp.ncbi.nih.gov
    Примечание: можно также введите адрес используется выше в примере для ПК
  5. Чтобы получить доступ к NCBI тип FTP-сайт "анонимный" для имя и пароль, а затем введите:
    > Кд взрыва / исполняемых файлов / ПОСЛЕДНИЕ
  6. Перечислите исполняемые, набрав:
    > Ls
  7. Получить последнюю версию, введя следующее (или как там последняя версия в настоящее время):
    2; получить NCBI-доменный 2.2.7-macosx.tar.gz
  8. Выйдите на сайт NCBI FTP-сервер, введя «выход».
  9. Распакуйте загруженные файлы с помощью команды:
    > Тар-xzf NCBI-доменный 2.2.7-macosx.tar.gz
  10. Добавить местоположение с программами для доменной исполняемого на вашем пути, чтобы оболочка можете найти через этот каталог при поиске команд, набрав:
    > PATH = $ PATH: new_folder_location
  11. Проверьте это добавило расположение в путь, набрав:
    > Эхо $ PATH
  12. Скачать предформатированый баз данных BLAST (которые обновляются ежедневно), нажав здесь:
    ftp://ftp.ncbi.nlm.nih.gov/blast/db/
  13. Поместите базу данных в папке "DB".
  14. EM> На ПК: Откройте MS-DOS (для этого нажмите кнопку "Пуск" и введите "ЦМД" в строке поиска) и изменить каталог в папку NCBI взрыва, набрав:
    C: Пользователи> CD .. [движетсядо одной папке]
    C: > CD NCBI-доменный 2.2.27 +
    Это изменит каталог для:
    C: NCBI-доменный 2.2.27 +>
  15. Создание базы данных с помощью следующей команды "makedb":
    > Makedb в дБ / briggsae.fasta-DbType прот выезда дБ / briggsae
    Примечание: В приведенном ниже примере (рис. 4) базы данных называется "briggsae" и состоит из одной группы сцепления из организма Caenorhabditis briggsae.
  16. Создайте последовательность белка запрос под названием "тест", вставив FASTA форматированный текст последовательность белка в папку "DB".
  17. Опросить базе данных через поиск BLASTP, введя следующую команду:
    > ДБ BLASTP-запрос / test.txt-дБ дБ / briggsae выезда text.txt
  18. EM> На Mac: скачать базу данных для локального поиска Blast путем доступа к FTP сайта NCBI в соответствии с инструкциями выше (шаг 2.4) иТип н:
    > ЖК .. / базы данных /
  19. Скачать геном или последовательность интерес, набрав:
    > Получить NC_ [Присоединение #]. Фна
    Примечание: ". Фна" относится к FASTA отформатирован нуклеотидной последовательности и "АВС." Относится к FASTA отформатирован аминокислотных последовательностей.
  20. Тип "бросить", чтобы выйти из FTP-сайт.
  21. Сделать базу данных, введя:
    > Makeblastdb в дБ / mouse.faa выезда мыши DbType прот
  22. Вставьте БЫСТРО отформатированный последовательность запросов в папку "бин" и допросить базу данных с помощью следующей команды:
    > BLASTP-запрос "Ваш query.fasta"-дБ "база данных" выезда results.txt

3. Создание множественного выравнивания последовательностей

  1. Нажмите на эти ссылки для доступа к часто используемым Получение последовательности Alignment (MSA) программы:
    ClustalW 6 http://www.clustal.org/
    Калидп 7 http://msa.sbc.su.se/cgi-bin/msa.cgi
    MAFFT 8,9 http://mafft.cbrc.jp/alignment/software/
    MUSCLE 10 http://www.drive5.com/muscle/
    Т-Кофе 11 http://www.tcoffee.org/Projects/tcoffee/
    PROBCONS 12 http://toolkit.tuebingen.mpg.de/probcons
  2. Щелкните по этой ссылке - http://tcoffee.crg.cat/apps/tcoffee/do:regular - и вход FASTA данных отформатированных последовательности в строке запроса
    Примечание: Ниже приводится пример вывода из T-кофе можно увидеть на рисунке 5, аналогичные отходы имеют цветовую маркировку.
  3. Скачать Clustal MSA как версии для командной строки (ClustalW) или графическом Version (ClustalX), нажав на эту ссылку: http://www.clustal.org/clustal2/ - нажмите на соответствующую исполняемый (т.е. победа, Linux, Mac OS X).
  4. Выгрузка данных как FASTA форматированный текст последовательности и выровнять (рис. 6).

4. Определение наиболее подходящей модели эволюции

  1. Нажмите здесь, чтобы скачать программу ProtTest 13:
    http://darwin.uvigo.es/our-software/
  2. После ProtTest загружается, дважды щелкните по файлу ProtTest.jar
  3. После ProtTest запускается, нажмите на кнопку "выберите файл" и загрузите данные последовательности (рис. 7).
  4. Затем нажмите кнопку "Пуск" и программа начнет (рис. 8).
    Примечание: После завершения пробега (рис. 8), программа укажет лучшую модель на основе критериев например "Лучший модель в соответствии с АПК: WAG + I + G"

5. Вывод последовательности на основе филогении по максимуму правдоподобия, или байесовский вывод

  1. Скачано PhyML 4 здесь:
    https://code.google.com/p/phyml/
  2. Запустите исполняемый файл, дважды щелкнув соответствующее приложение (т.е. phyml для Windows, phyml Linux, и т.д..) И окно интерфейс появится (рисунок 9).
  3. Загрузите входную последовательность как PHYLIP отформатированный последовательностью, набрав:
    > "Имя файла". PHY
    Примечание: Для преобразования между форматами секвенции, использовать "Readseq" веб-программы, доступные в - http://iubio.bio.indiana.edu/cgi-bin/readseq.cgi .
  4. Запустите программу, набрав "Y".
  5. Скачать MrBayes 5 здесь:
    rceforge.net / download.php "> http://mrbayes.sourceforge.net/download.php
  6. Чтобы запустить программу, щелкните на исполняемый файл и читать данные последовательности NEXUS отформатирован в программу, набрав:
    > Выполнить "Имя файла". NEX
  7. Установите эволюционную модель.
  8. Выберите число поколений, чтобы запустить, набрав:
    > Mcmcp NGEN = 1000000 [это задает число поколений 1000000]
    > Картер горю = 10000 [это устанавливает Burnin 10000]
  9. Сохранить длины филиал в файле результатов, набрав:
    > Mcmcp savebrlens = да
  10. Запустите анализ, набрав:
    > MCMC
  11. Кратко деревья с помощью команды "SUMT".

6. Визуализация филогений

  1. Просмотр списка программ зрителя деревьев здесь:
    http://www.treedyn.org/overview/editors.html
  2. Скачать TreeView 14 прогрнахожусь здесь:
    http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

Результаты

Поиск сходство с запросом позволяет исследователям приписывать потенциальную личность к новым последовательностей, а также вывести отношения между последовательностями. Тип входного файла для BLAST 1 является FASTA отформатирован последовательность текст или GenBank инвентарный номе...

Обсуждение

Наша надежда для этой статьи является то, что он будет служить в качестве отправной точки для руководства исследователей или студентов, которые являются новыми для филогенетики. Секвенирования генома проекты стали дешевле, в течение последних нескольких лет, и, как следствие, спроса п?...

Раскрытие информации

Нам нечего раскрывать.

Благодарности

Мы благодарим членов лаборатории О'Халлоран замечания по рукописи. Мы благодарим Отделе Университета Джорджа Вашингтона биологических наук и Колумбийский колледж искусств и наук для финансирования Д. O'Halloran.

Материалы

NameCompanyCatalog NumberComments
BLAST webpage http://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST executables ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Preformatted BLAST databasesftp://ftp.ncbi.nlm.nih.gov/blast/db/
Clustalhttp://www.clustal.org/
Kalignhttp://msa.sbc.su.se/cgi-bin/msa.cgi
MAFFThttp://mafft.cbrc.jp/alignment/software/
MUSCLEhttp://www.drive5.com/muscle/
T-Coffeehttp://www.tcoffee.org/Projects/tcoffee/
PROBCONShttp://toolkit.tuebingen.mpg.de/probcons 
Se-Al http://tree.bio.ed.ac.uk/software/seal/
BSEdit http://www.bsedit.org/
JalViewhttp://www.jalview.org/
SeaViewhttp://pbil.univ-lyon1.fr/software/seaview.html
ProtTest https://code.google.com/p/prottest3/
Java Runtime http://www.java.com/en/download/chrome.jsp
Readseqhttp://iubio.bio.indiana.edu/cgi-bin/readseq.cgi
jModelTesthttps://code.google.com/p/jmodeltest2/
PhyMLhttps://code.google.com/p/phyml/
MrBayeshttp://mrbayes.sourceforge.net/download.php
TreeViewhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html
TreeDynhttp://www.treedyn.org/

Ссылки

  1. Altschul, S. F., Carroll, R. J., Lipman, D. J. Weights for data related by a tree. J. Mol. Biol. 207 (4), 647-653 (1989).
  2. Akaike, H. A new look at the statistical model identification. IEEE Trans. Automat. Contr. 19 (6), 706-723 (1974).
  3. Schwarz, G. Estimating the dimension of a model. Ann. Stat. 6 (2), 461-464 (1978).
  4. Guindon, S., Gascuel, O. A simple, fast, and accurate algorithm to estimate large phylogenies by maximum likelihood. Syst. Biol. 52 (5), 696-704 (2003).
  5. Huelsenbeck, J. P., Ronquist, F. MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics. 17 (8), 754-755 (2001).
  6. Thompson, J. D., Higgins, D. G., Gibson, T. J. CLUSTAL W: Improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22 (22), 4673-4680 (1994).
  7. Lassmann, T., Sonnhammer, E. L. Kalign--an accurate and fast multiple sequence alignment algorithm. BMC Bioinformatics. 6, 298 (2005).
  8. Katoh, K., Kuma, K., Toh, H., Miyata, T. MAFFT version 5: Improvement in accuracy of multiple sequence alignment. Nucleic Acids Res. 33 (2), 511-518 (2005).
  9. Katoh, K., Misawa, K., Kuma, K., Miyata, T. MAFFT: A novel method for rapid multiple sequence alignment based on fast fourier transform. Nucleic Acids Res. 30 (14), 3059-3066 (2002).
  10. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
  11. Notredame, C., Higgins, D. G., Heringa, J. T-coffee: A novel method for fast and accurate multiple sequence alignment. J. Mol. Biol. 302 (1), 205-217 (2000).
  12. Do, C. B., Mahabhashyam, M. S., Brudno, M., Batzoglou, S. ProbCons: Probabilistic consistency-based multiple sequence alignment. Genome Res. 15 (2), 330-340 (2005).
  13. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. ProtTest 3: Fast selection of best-fit models of protein evolution. Bioinformatics. 27 (8), 1164-1165 (2011).
  14. Page, R. D. TreeView: An application to display phylogenetic trees on personal computers. Comput. Appl. Biosci. 12 (4), 357-358 (1996).
  15. Darriba, D., Taboada, G. L., Doallo, R., Posada, D. jModelTest 2: More models, new heuristics and parallel computing. Nat. Methods. 9 (8), 772 (2012).
  16. Chevenet, F., Brun, C., Banuls, A. L., Jacq, B., Christen, R. TreeDyn: Towards dynamic graphics and annotations for analyses of trees. BMC Bioinformatics. 7, 439 (2006).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

84BLAST

This article has been published

Video Coming Soon

JoVE Logo

Исследования

Образование

О JoVE

Авторские права © 2025 MyJoVE Corporation. Все права защищены