
1. What is starcode?
2. Source file list.
3. Compilation and installation.
4. Running starcode.
5. Running starcode-umi.
6. File formats.
7. License.
8. Citation.
StarCode - это программное обеспечение кластеризации последовательности ДНК. Кластеризация StarCode основана на поиске всех пар в указанном расстоянии Levenshtein (позволяет вставить и удаления), за которым следует алгоритм кластеризации: передача сообщения, сферы или подключенные компоненты. Как правило, файл, содержащий набор последовательностей ДНК, передается как вход, совместно с желаемой расстоянием кластеризации и алгорихтм. StarCode возвращает каноническую последовательность кластера, размер кластера, набор различных последовательностей, которые составляют кластер и номера входных линий компонентов кластера.
StarCode имеет много приложений в области биологии, таких как восстановление мотив ДНК/РНК, кластеризация штрих -кода/UMI, восстановление ошибок секвенирования и т. Д.
Чтобы установить StarCode, клонировать этот репозиторий GIT (или вручную загрузить последний выпуск StarCode v1.3):
git clone https://github.com/gui11aume/starcode
Файлы должны быть загружены в папке с именем «StarCode». Используйте Make для компиляции (пользователи Mac требуют «xcode», доступны в Mac Appstore):
сделать -c StarCode
Будет создан бинарный файл «звездный код». При желании вы можете сделать символическую ссылку для запуска StarCode из любого каталога:
Sudo ln -s StarCode/StarCode/usr/bin/starcode
StarCode работает на Linux и Mac. Он не был протестирован в Windows.
StarCode [Options] {[-i] input_file | -1 paired_end_file1 -2 paired_end_file2} [-o output_file]
По умолчанию StarCode использует параметры кластеризации, которые имеют значение для многих задач. Тем не менее, выход может выглядеть не так, как вы ожидаете. Это может быть по следующим причинам:
Метод кластеризации - передача сообщения. Это означает, что кластеры построены снизу вверх, объединяя небольшие кластеры в более крупные. Процесс является рекурсивным, поэтому последовательности в кластере могут быть не соседями , то есть они могут не находиться в пределах указанного расстояния Левенштейна. Если это должно иметь место, вместо этого используйте кластеризацию сфер (см. Опцию -S или - -Spheres ниже).
Коэффициент кластеризации составляет 5. Это означает, что кластер может поглощать меньший только если он по крайней мере в пять раз больше. Практическое значение состоит в том, что кластеры аналогичного размера не объединяются . Вы можете выбрать еще один порог для слияния кластеров (см. Опцию -R или - -кластер -ритио ниже).
-Д или -расстояние дистанции
Defines the maximum Levenshtein distance for clustering.
When not set it is automatically computed as:
min(8, 2 + [median seq length]/30)
-r или соотношение -кластер
(Message passing only) Specifies the minimum sequence count ratio to cluster two matching
sequences, i.e. two matching sequences A and B will be clustered together only if
count(A) > ratio * count(B).
Sparse datasets may need to set -r to small values (minimum is 1.0) to trigger clustering.
Default is 5.0.
-s или - -сферы
Use sphere clustering algorithm instead of message passing (MP). Spheres is more greedy than MP:
sorted by size, centroids absorb all their matches.
-c или-Connected-Comp
Clusters are defined by the connected components.
-НЕПРАВИЛЬНЫЙ
Removes redundant sequences from the output. Only the canonical sequence of each cluster is
returned.
-Прат-кластеры
Adds a third column to the starcode output, containing the sequences that compose each cluster.
By default, the output contains only the centroid and the counts.
-seq-id
Shows the input sequence order (1-based) of the cluster components.
Однопрочный режим:
-i или файл - -Input
Определяет входной файл.
Файлы FASTQ в паре:
-1 file1 -2 file2
Определяет два парных файла FASTQ для режима кластеризации парных.
Стандартный ввод используется, когда не установлены ни -i , ни -1/-2 .
-О или файл - -вывод
Specifies output file. When not set, standard output is used instead.
--output1 file1 -output2 file2
(Paired-end mode with --non-redundant option only). Specifies the output file names of the
processed paired-end files.
Стандартный выход используется, когда -o не установлен.
Когда--output1/2 не указан в режиме парного конца-не-восстановленного, выходные имена файлов-это имена входных файлов с суффиксом «-starcode».
-t или -threads Threads
Defines the maximum number of parallel threads.
Default is 1.
-q или -quiet
Non verbose. By default, starcode prints verbose information to
the standard error channel.
-v или -Версия
Prints version information.
-h или -help
Prints usage information.
StarCode-UMi-это скрипт Python, который использует starcode для кластера UMI-меченных последовательностей. Предполагается, что последовательности, меченные UMI, содержат уникальный молекулярный идентификатор в начале чтения, за которой следует какая-то другая (более длинная) последовательность. StarCode-UMi выполняет двойной раунд кластеризации и слияния, чтобы найти наилучшие возможные кластеры пар и последовательности.
StarCode-UMi [OPTION]-UMI- LEN NOUNT_FILE1 [input_file2]
-Количество
Defines the length of the UMI tags. Adding some extra nucleotides may improve the clustering
performance.
-Таркод- пут
Path to `starcode` binary file. Default is `./starcode`.
-UMI-D расстояние
Match distance (Levenshtein) for the UMI region.
-SEQ-D расстояние
Match distance (Levenshtein) for the sequence region.
-Алгоритм кластеризации кластеризации
Clustering algorithm to be used in the UMI region. ('mp' for message passing, 's' for spheres,
'cc' for connected components). Default is message passing.
-Алгоритм кластеризации кластеризации
Clustering algorithm to be used in the seq region. ('mp' for message passing, 's' for spheres,
'cc' for connected components). Default is message passing.
-Алгоритм кластеризации кластеризации кластера-кластера
(Only for message passing in UMI). Minimum clustering ratio (same as -r option in starcode).
-Алгоритм кластеризации кластеризации кластера-кластера
(Only for message passing in seq). Minimum clustering ratio (same as -r option in starcode).
-Seq-Trim Trim
Use only *trim* nucleotides of the sequence for clustering. Starcode becomes memory inefficient
with very long sequences, this parameter defines the maximum length of the sequence that will
be used for clustering. Set it to 0 to use the full sequence. Default is 50.
-seq-id
Shows the input sequence order (1-based) of the cluster components.
-ТЕМЫ ТЕРЫ
Defines the maximum number of parallel threads to be used in the UMI process.
Default is 1.
-Сек- Трипты
Defines the maximum number of parallel threads to be used in the sequence process.
Default is 1.
Состоит из файла, содержащего одну последовательность на строку. Поддерживаются только стандартные символы ДНК-базы ('a', 'c', 'g', 't'). Последовательности могут не содержать пустых пространств в начале или на конце строки, так как они будут считаться символами выравнивания. Файл может не содержать пустые линии, так как они будут рассматриваться как последовательности нулевой длины. Последовательности не должны быть отсортированы и могут быть повторены.
Пример:
TTACTATCGATCATCATCGACTGACTACG
ACTGCATCGACTAGCTACGACTACGCTACCATCAG
TTACTATCGATCATCATCGACTGACTAGC
ACTACGACTACGACTCAGCTCACTATCAGC
GCATCGACCGCTACTACGCATACTACGACATC
Если подсчет последовательностей известен, он может быть указан во входном файле, используя следующий формат:
[Последовательность] t [count] n
Где ' t' обозначает символ TAB и ' n' символ Newline. Последовательности не должны быть отсортированы и могут быть повторены. Если повторная последовательность найдена, их количество будет добавлено вместе. Как и прежде, последовательности могут не содержать никаких дополнительных символов, и файл может не содержать пустых строк.
Пример:
TATCGACTCTATCTATCGCTGATGCGTAC 200
CGAGCCGCCGGCACGTCACGACGCATCAA 1
TAGCACCTACGCATCTCGACTATCACG 234
CGAGCCGCCGGCACGTCACGACGCATCAA 17
TGACTCTATCAGCTAC 39
StarCode также поддерживает файлы FASTA и FASTQ. Обратите внимание, однако, что StarCode не использует качественные коэффициенты, а единственная соответствующая информация - сама последовательность. Метки FASTA/FASTQ не будут использоваться для идентификации последовательностей в выходном файле. Последовательности не должны быть отсортированы и могут быть повторены.
Пример FASTA:
> FASTA sequence 1 label
ATGCATCGATCACTCATCAGCTACAG
> FASTA sequence 2 label
TATCGACTATCTACGACTACATCA
> FASTA sequence 3 label
ATCATCACTCTAGCAGCGTACTCGCA
> FASTA sequence 4 label
ATGCATCGATTACTCATCAGCTACAG
Пример FASTQ:
@ FASTQ sequence 1 label
CATCGAGCAGCTATGCAGCTACGAGT
+
-$#'%-#.&)%#)"".)--'*()$)%
@ FASTQ sequence 2 label
TACTGCTGATATTCAGCTCACACC
+
,*#%+#&*$-#,''+*)'&.,).,
StarCode напечатает линию для каждого обнаруженного кластера со следующим форматом:
[Canonical Sequence] T [Cluster Size] T [кластерные последовательности] n
Где ' t' обозначает символ TAB и ' n' символ Newline. «Каноническая последовательность» - это последовательность кластера с большим количеством количества, «размер кластера» - это агрегированный счет всех последовательностей, которые образуют кластер, а «последовательности кластеров» - это список всех последовательностей кластера, разделенных запятыми и в произвольный порядок. Линии печатаются сортированы по «размеру кластера» в порядке убывания.
Например, выполнение со следующим вводом и расстоянием кластеризации 3 (-d3):
TAGCTAGACGTA 250
TAGCTAGCCGTA 10
TAAGCTAGGGGT 16
ACGCGAGCGGAA 155
ACTTTAGCGGAA 1
создаст следующий выход:
TAGCTAGACGTA 260 TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA 156 ACGCGAGCGGAA,ACTTTAGCGGAA
TAAGCTAGGGGT 16 TAAGCTAGGGGT
Тот же пример, выполненный с более ограничительным расстоянием -d2, даст следующий выход:
TAGCTAGACGTA 260 TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA 155 ACGCGAGCGGAA
TAAGCTAGGGGT 16 TAAGCTAGGGGT
ACTTTAGCGGAA 1 ACTTTAGCGGAA
В режиме не избыточного вывода StarCode печатает только каноническую последовательность каждого кластера, по одному на строку. Следуя примеру из предыдущего раздела, выход с расстоянием 3 (-d3) будет:
TAGCTAGACGTA
ACGCGAGCGGAA
тогда как для -D2:
TAGCTAGACGTA
ACGCGAGCGGAA
TAAGCTAGGGGT
ACTTTAGCGGAA
StarCode лицензируется по общедоступной лицензии GNU, версии 3 (GPLV3), для получения дополнительной информации прочитайте файл лицензии или см.
http://www.gnu.org/licenses/
Если вы используете наше программное обеспечение, укажите:
Зорита Е., Куско П., Филион Г.Дж. 2015. StarCode: кластеризация последовательности на основе поиска по всему пар. Биоинформатика 31 (12): 1913-1919.