Этот загрузчик может быстро получить гены с одинаковым названием от разных видов с известными номерами GenBank в базе данных нуклеотидов NCBI. Полученным файлам будут присвоены имена в формате « имя вида_номер генбанка_имя гена_позиция последовательности.fasta ».
Скачанный файл можно использовать для сравнения нуклеотидных последовательностей определенного гена у разных видов и построения генетического эволюционного дерева (требуются другие программы).
Целью этой работы является создание крупномасштабного автоматизированного метода загрузки определенных последовательностей генов (нуклеотидов) в базу данных NCBI, чтобы уменьшить ненужную повторяющуюся работу и повысить эффективность анализа генетической эволюции.
Этот загрузчик написан на языке Python.
Автоматический анализ веб-страниц выполняется с помощью selenium и lxml, а загрузка ресурсов — с помощью urllib.
Selenium необходимо настроить.
Измените путь сохранения загруженных файлов.
Измените savepath_prefix на индивидуальный путь к папке.
savepath_prefix = 'file save path prefix'Измените путь для импорта таблицы Gebank.
На данный момент поддерживается только формат csv.
Измените csv_path на индивидуальный путь к файлу.
csv_path = '*.csv'CSV-файл необходимо заполнить строго в соответствии с тремя заголовками столбцов: сыворотка_тип, представитель_штамм и GenBank: тип сыворотки , представитель_штамм — репрезентативный штамм , а GenBank — номер . Требуется тип сыворотки и номер GenBank. и репрезентативный штамм не является обязательным.
Выполните код downloader.py, чтобы начать сканирование и загрузку.
В настоящее время этот код поддерживает только последовательность фрагментов гена трех ключевых слов продукта, указанных в note gene product , которые представляют собой hexon hexon protein fiber fiber protein fiber1 fiber1 protein fiber2 fiber2 protein , как показано на рисунке ниже.
Если у вас есть какие-либо вопросы, отправьте электронное письмо на адрес [email protected].