Скачать starcode - Скачать исходный код starcode

StarCode: кластеризация последовательностей на основе поиска по всему пар

Содержание:

 1. What is starcode?
2. Source file list.
3. Compilation and installation.
4. Running starcode.
5. Running starcode-umi.
6. File formats.
7. License.
8. Citation.

I. Что такое звездный код?

StarCode - это программное обеспечение кластеризации последовательности ДНК. Кластеризация StarCode основана на поиске всех пар в указанном расстоянии Levenshtein (позволяет вставить и удаления), за которым следует алгоритм кластеризации: передача сообщения, сферы или подключенные компоненты. Как правило, файл, содержащий набор последовательностей ДНК, передается как вход, совместно с желаемой расстоянием кластеризации и алгорихтм. StarCode возвращает каноническую последовательность кластера, размер кластера, набор различных последовательностей, которые составляют кластер и номера входных линий компонентов кластера.

StarCode имеет много приложений в области биологии, таких как восстановление мотив ДНК/РНК, кластеризация штрих -кода/UMI, восстановление ошибок секвенирования и т. Д.

II Список исходных файлов

Скрипт StarCode-UMi StarCode для кластера UMI-меченных последовательностей.
Main-starcode.c Main File (анализа параметров).
starCode.c Главный алгоритм звездного кода.
Trie.c Trie Search and Construction Functions.
View.c Графическое представление выхода StarCode.
Makefile Сделайте файл инструкции.

Iii. Компиляция и установка

Чтобы установить StarCode, клонировать этот репозиторий GIT (или вручную загрузить последний выпуск StarCode v1.3):

git clone https://github.com/gui11aume/starcode

Файлы должны быть загружены в папке с именем «StarCode». Используйте Make для компиляции (пользователи Mac требуют «xcode», доступны в Mac Appstore):

сделать -c StarCode

Будет создан бинарный файл «звездный код». При желании вы можете сделать символическую ссылку для запуска StarCode из любого каталога:

Sudo ln -s StarCode/StarCode/usr/bin/starcode

IV Запуск звездного кода

StarCode работает на Linux и Mac. Он не был протестирован в Windows.

Использование:

StarCode [Options] {[-i] input_file | -1 paired_end_file1 -2 paired_end_file2} [-o output_file]

Звокоды по умолчанию (пожалуйста, прочитайте это):

По умолчанию StarCode использует параметры кластеризации, которые имеют значение для многих задач. Тем не менее, выход может выглядеть не так, как вы ожидаете. Это может быть по следующим причинам:

Метод кластеризации - передача сообщения. Это означает, что кластеры построены снизу вверх, объединяя небольшие кластеры в более крупные. Процесс является рекурсивным, поэтому последовательности в кластере могут быть не соседями , то есть они могут не находиться в пределах указанного расстояния Левенштейна. Если это должно иметь место, вместо этого используйте кластеризацию сфер (см. Опцию -S или - -Spheres ниже).
Коэффициент кластеризации составляет 5. Это означает, что кластер может поглощать меньший только если он по крайней мере в пять раз больше. Практическое значение состоит в том, что кластеры аналогичного размера не объединяются . Вы можете выбрать еще один порог для слияния кластеров (см. Опцию -R или - -кластер -ритио ниже).

Параметры поиска:

-Д или -расстояние дистанции

 Defines the maximum Levenshtein distance for clustering.
 When not set it is automatically computed as:
 min(8, 2 + [median seq length]/30)

Алгоритм кластеризации:

-r или соотношение -кластер

 (Message passing only) Specifies the minimum sequence count ratio to cluster two matching
 sequences, i.e. two matching sequences A and B will be clustered together only if
 count(A) > ratio * count(B).
 Sparse datasets may need to set -r to small values (minimum is 1.0) to trigger clustering.
 Default is 5.0.

-s или - -сферы

 Use sphere clustering algorithm instead of message passing (MP). Spheres is more greedy than MP:
 sorted by size, centroids absorb all their matches.

-c или-Connected-Comp

 Clusters are defined by the connected components.

Выходной формат:

-НЕПРАВИЛЬНЫЙ

 Removes redundant sequences from the output. Only the canonical sequence of each cluster is
 returned.

-Прат-кластеры

 Adds a third column to the starcode output, containing the sequences that compose each cluster.
 By default, the output contains only the centroid and the counts.

-seq-id

 Shows the input sequence order (1-based) of the cluster components.

Входные файлы:

Однопрочный режим:
-i или файл - -Input
Определяет входной файл.
Файлы FASTQ в паре:
-1 file1 -2 file2
Определяет два парных файла FASTQ для режима кластеризации парных.

Стандартный ввод используется, когда не установлены ни -i , ни -1/-2 .

Выходные файлы:

-О или файл - -вывод

 Specifies output file. When not set, standard output is used instead.

--output1 file1 -output2 file2

 (Paired-end mode with --non-redundant option only). Specifies the output file names of the
  processed paired-end files.

Стандартный выход используется, когда -o не установлен.

Когда--output1/2 не указан в режиме парного конца-не-восстановленного, выходные имена файлов-это имена входных файлов с суффиксом «-starcode».

Другие варианты:

-t или -threads Threads

 Defines the maximum number of parallel threads.
 Default is 1.

-q или -quiet

 Non verbose. By default, starcode prints verbose information to
 the standard error channel.

-v или -Версия

 Prints version information.

-h или -help

 Prints usage information.

V. Запуск StarCode-Umi

StarCode-UMi-это скрипт Python, который использует starcode для кластера UMI-меченных последовательностей. Предполагается, что последовательности, меченные UMI, содержат уникальный молекулярный идентификатор в начале чтения, за которой следует какая-то другая (более длинная) последовательность. StarCode-UMi выполняет двойной раунд кластеризации и слияния, чтобы найти наилучшие возможные кластеры пар и последовательности.

Использование:

StarCode-UMi [OPTION]-UMI- LEN NOUNT_FILE1 [input_file2]

Требуемые аргументы:

-Количество

 Defines the length of the UMI tags. Adding some extra nucleotides may improve the clustering
 performance.

-Таркод- пут

  Path to `starcode` binary file. Default is `./starcode`.

Параметры кластеризации:

-UMI-D расстояние

 Match distance (Levenshtein) for the UMI region.

-SEQ-D расстояние

 Match distance (Levenshtein) for the sequence region.

-Алгоритм кластеризации кластеризации

 Clustering algorithm to be used in the UMI region. ('mp' for message passing, 's' for spheres,
 'cc' for connected components). Default is message passing.

-Алгоритм кластеризации кластеризации

 Clustering algorithm to be used in the seq region. ('mp' for message passing, 's' for spheres,
 'cc' for connected components). Default is message passing.

-Алгоритм кластеризации кластеризации кластера-кластера

 (Only for message passing in UMI). Minimum clustering ratio (same as -r option in starcode).

-Алгоритм кластеризации кластеризации кластера-кластера

 (Only for message passing in seq). Minimum clustering ratio (same as -r option in starcode).

-Seq-Trim Trim

  Use only *trim* nucleotides of the sequence for clustering. Starcode becomes memory inefficient
  with very long sequences, this parameter defines the maximum length of the sequence that will
  be used for clustering. Set it to 0 to use the full sequence. Default is 50.

Параметры вывода:

-seq-id

 Shows the input sequence order (1-based) of the cluster components.

Другие варианты:

-ТЕМЫ ТЕРЫ

 Defines the maximum number of parallel threads to be used in the UMI process.
 Default is 1.

-Сек- Трипты

 Defines the maximum number of parallel threads to be used in the sequence process.
 Default is 1.

VI Форматы файлов

VI.I. Поддерживаемые форматы входных файлов:

VI.II Простой текст:

Состоит из файла, содержащего одну последовательность на строку. Поддерживаются только стандартные символы ДНК-базы ('a', 'c', 'g', 't'). Последовательности могут не содержать пустых пространств в начале или на конце строки, так как они будут считаться символами выравнивания. Файл может не содержать пустые линии, так как они будут рассматриваться как последовательности нулевой длины. Последовательности не должны быть отсортированы и могут быть повторены.

Пример:

 TTACTATCGATCATCATCGACTGACTACG
ACTGCATCGACTAGCTACGACTACGCTACCATCAG
TTACTATCGATCATCATCGACTGACTAGC
ACTACGACTACGACTCAGCTCACTATCAGC
GCATCGACCGCTACTACGCATACTACGACATC

VI.I.II. Простой текст с количеством последовательностей:

Если подсчет последовательностей известен, он может быть указан во входном файле, используя следующий формат:

[Последовательность] t [count] n

Где ' t' обозначает символ TAB и ' n' символ Newline. Последовательности не должны быть отсортированы и могут быть повторены. Если повторная последовательность найдена, их количество будет добавлено вместе. Как и прежде, последовательности могут не содержать никаких дополнительных символов, и файл может не содержать пустых строк.

Пример:

 TATCGACTCTATCTATCGCTGATGCGTAC       200
CGAGCCGCCGGCACGTCACGACGCATCAA       1
TAGCACCTACGCATCTCGACTATCACG         234
CGAGCCGCCGGCACGTCACGACGCATCAA       17
TGACTCTATCAGCTAC                    39

VI.I.III. FASTA/FASTQ

StarCode также поддерживает файлы FASTA и FASTQ. Обратите внимание, однако, что StarCode не использует качественные коэффициенты, а единственная соответствующая информация - сама последовательность. Метки FASTA/FASTQ не будут использоваться для идентификации последовательностей в выходном файле. Последовательности не должны быть отсортированы и могут быть повторены.

Пример FASTA:

 > FASTA sequence 1 label
ATGCATCGATCACTCATCAGCTACAG
> FASTA sequence 2 label
TATCGACTATCTACGACTACATCA
> FASTA sequence 3 label
ATCATCACTCTAGCAGCGTACTCGCA
> FASTA sequence 4 label
ATGCATCGATTACTCATCAGCTACAG

Пример FASTQ:

 @ FASTQ sequence 1 label
CATCGAGCAGCTATGCAGCTACGAGT
+
-$#'%-#.&)%#)"".)--'*()$)%
@ FASTQ sequence 2 label
TACTGCTGATATTCAGCTCACACC
+
,*#%+#&*$-#,''+*)'&.,).,

VI.II. Выходные форматы:

Vi.ii.i Стандартный выходной формат:

StarCode напечатает линию для каждого обнаруженного кластера со следующим форматом:

[Canonical Sequence] T [Cluster Size] T [кластерные последовательности] n

Где ' t' обозначает символ TAB и ' n' символ Newline. «Каноническая последовательность» - это последовательность кластера с большим количеством количества, «размер кластера» - это агрегированный счет всех последовательностей, которые образуют кластер, а «последовательности кластеров» - это список всех последовательностей кластера, разделенных запятыми и в произвольный порядок. Линии печатаются сортированы по «размеру кластера» в порядке убывания.

Например, выполнение со следующим вводом и расстоянием кластеризации 3 (-d3):

 TAGCTAGACGTA   250
TAGCTAGCCGTA   10
TAAGCTAGGGGT   16
ACGCGAGCGGAA   155
ACTTTAGCGGAA   1

создаст следующий выход:

 TAGCTAGACGTA    260       TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA    156       ACGCGAGCGGAA,ACTTTAGCGGAA
TAAGCTAGGGGT    16        TAAGCTAGGGGT

Тот же пример, выполненный с более ограничительным расстоянием -d2, даст следующий выход:

 TAGCTAGACGTA    260       TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA    155       ACGCGAGCGGAA
TAAGCTAGGGGT    16        TAAGCTAGGGGT
ACTTTAGCGGAA    1         ACTTTAGCGGAA

Vi.ii.ii не избыточный формат вывода:

В режиме не избыточного вывода StarCode печатает только каноническую последовательность каждого кластера, по одному на строку. Следуя примеру из предыдущего раздела, выход с расстоянием 3 (-d3) будет:

  TAGCTAGACGTA
  ACGCGAGCGGAA

тогда как для -D2:

  TAGCTAGACGTA
  ACGCGAGCGGAA
  TAAGCTAGGGGT
  ACTTTAGCGGAA

VII. Лицензия

StarCode лицензируется по общедоступной лицензии GNU, версии 3 (GPLV3), для получения дополнительной информации прочитайте файл лицензии или см.

http://www.gnu.org/licenses/

VIII. Цитирование

Если вы используете наше программное обеспечение, укажите:

Зорита Е., Куско П., Филион Г.Дж. 2015. StarCode: кластеризация последовательности на основе поиска по всему пар. Биоинформатика 31 (12): 1913-1919.

Расширять