
1. What is starcode?
2. Source file list.
3. Compilation and installation.
4. Running starcode.
5. Running starcode-umi.
6. File formats.
7. License.
8. Citation.
Starcode هو برنامج تجميع تسلسل الحمض النووي. يعتمد تجميع النجوم على جميع الأزواج على مسافة Levenshtein المحددة (مما يتيح الإدراج والحذف) ، تليها خوارزمية التجميع: تمرير الرسائل أو المجالات أو المكونات المتصلة. عادةً ما يتم تمرير ملف يحتوي على مجموعة من تسلسل الحمض النووي كمدخل ، بشكل مشترك مع مسافة التجميع المطلوبة والخوارزف. يقوم Starcode بإرجاع التسلسل الكنسي للمجموعة ، وحجم الكتلة ، ومجموعة التسلسلات المختلفة التي تشكل الكتلة وأرقام خط الإدخال لمكونات الكتلة.
يحتوي Starcode على العديد من التطبيقات في مجال البيولوجيا ، مثل الاسترداد الزخارق للحمض النووي/الحمض النووي الريبي ، وتجميع الباركود/UMI ، واستعادة خطأ التسلسل ، إلخ.
لتثبيت StarCode ، استنساخ مستودع GIT هذا (أو قم بتنزيل أحدث إصدار من أحدث إصدار من StarCode v1.3):
git clone https://github.com/gui11aume/starcode
يجب تنزيل الملفات في مجلد يسمى "StarCode". استخدم Make للتجميع (يتطلب مستخدمو Mac "Xcode" ، المتوفر في Mac AppStore):
جعل -C starcode
سيتم إنشاء ملف ثنائي "Starcode". يمكنك اختياريًا إنشاء رابط رمزي لتشغيل Starcode من أي دليل:
sudo ln -s starcode/starcode/usr/bin/starcode
يعمل Starcode على Linux و Mac. لم يتم اختباره على Windows.
starcode [Options] {[-i] input_file | -1 FAID_END_FILE1 -2 FAID_END_FILE2} [-O OUTPORT_FILE]
بشكل افتراضي ، يستخدم Starcode معلمات التجميع ذات معنى في العديد من المشكلات. ومع ذلك ، قد لا يبدو الناتج كما تتوقع تمامًا. قد يكون هذا للأسباب التالية:
طريقة التجميع هي تمرير الرسالة. هذا يعني أن المجموعات مبنية من أسفل إلى أعلى من خلال دمج مجموعات صغيرة في مجموعات أكبر. هذه العملية متكررة ، لذلك قد لا تكون التسلسلات في الكتلة جيرانًا ، أي أنها قد لا تكون على مسافة Levenshtein المحددة. إذا كان هذا هو الحال ، فاستخدم مجموعات المجال بدلاً من ذلك (انظر الخيار -S أو -الخواص أدناه).
نسبة التجميع هي 5. وهذا يعني أن الكتلة يمكن أن تمتص نسبة أصغر فقط إذا كان أكبر خمس مرات على الأقل. الآثار العملية هي أن مجموعات ذات حجم مماثل لم يتم دمجها . يمكنك اختيار عتبة أخرى لدمج المجموعات (انظر الخيار -R أو - -Cluster Ratio أدناه).
-D أو المسافة -المسافة
Defines the maximum Levenshtein distance for clustering.
When not set it is automatically computed as:
min(8, 2 + [median seq length]/30)
-R أو- نسبة نسبة النقل
(Message passing only) Specifies the minimum sequence count ratio to cluster two matching
sequences, i.e. two matching sequences A and B will be clustered together only if
count(A) > ratio * count(B).
Sparse datasets may need to set -r to small values (minimum is 1.0) to trigger clustering.
Default is 5.0.
-S أو -spheres
Use sphere clustering algorithm instead of message passing (MP). Spheres is more greedy than MP:
sorted by size, centroids absorb all their matches.
-C أو-compliced-comp
Clusters are defined by the connected components.
--لا لزوم
Removes redundant sequences from the output. Only the canonical sequence of each cluster is
returned.
-طباعة النطاقات
Adds a third column to the starcode output, containing the sequences that compose each cluster.
By default, the output contains only the centroid and the counts.
-seq-id
Shows the input sequence order (1-based) of the cluster components.
وضع ملف واحد:
-i أو -ملف المدخل
يحدد ملف الإدخال.
ملفات FastQ المقترنة:
-1 file1 -2 file2
يحدد ملفين سريعين مقترن لوضع التجميع المقترن.
يتم استخدام المدخلات القياسية عند تعيين لا -أنا ولا -1/-2 .
-O أو -ملف الإخراج
Specifies output file. When not set, standard output is used instead.
-output1 file1 -output2 file2
(Paired-end mode with --non-redundant option only). Specifies the output file names of the
processed paired-end files.
يتم استخدام الإخراج القياسي عندما لا يتم تعيين -O .
عندما-لا يتم تحديد output1/2 في الوضع المقترن-لا يكرر عن الحاجة ، فإن أسماء ملفات الإخراج هي أسماء ملفات الإدخال مع لاحقة "-starcode".
-t أو -الخيوط
Defines the maximum number of parallel threads.
Default is 1.
-Q أو -Quiet
Non verbose. By default, starcode prints verbose information to
the standard error channel.
-v أو -
Prints version information.
-H أو -help
Prints usage information.
Starcode-umi هو برنامج نصي Python يستخدم starcode لتجميع تسلسلات UMI. من المفترض أن تحتوي تسلسلات UMI على معرف جزيئي فريد في بداية القراءة متبوعة ببعض التسلسل (الأطول). يقوم Starcode-umi بإجراء جولة مزدوجة من التجميع والاندماج للعثور على أفضل مجموعات ممكنة من UMI وأزواج التسلسل.
starcode-umi [خيارات]-umi-len n input_file1 [input_file2]
-رقم un- len
Defines the length of the UMI tags. Adding some extra nucleotides may improve the clustering
performance.
-مسار مسار STARCODE
Path to `starcode` binary file. Default is `./starcode`.
-مسافة أوماي-د
Match distance (Levenshtein) for the UMI region.
-مسافة seq-d
Match distance (Levenshtein) for the sequence region.
-خوارزمية التجميع cluster
Clustering algorithm to be used in the UMI region. ('mp' for message passing, 's' for spheres,
'cc' for connected components). Default is message passing.
-خوارزمية التجميع الجماعية
Clustering algorithm to be used in the seq region. ('mp' for message passing, 's' for spheres,
'cc' for connected components). Default is message passing.
-خوارزمية التجميع-Ratio
(Only for message passing in UMI). Minimum clustering ratio (same as -r option in starcode).
-خوارزمية التجميع النسبية
(Only for message passing in seq). Minimum clustering ratio (same as -r option in starcode).
-seq-trim trim
Use only *trim* nucleotides of the sequence for clustering. Starcode becomes memory inefficient
with very long sequences, this parameter defines the maximum length of the sequence that will
be used for clustering. Set it to 0 to use the full sequence. Default is 50.
-seq-id
Shows the input sequence order (1-based) of the cluster components.
-المواضيع الخيطية
Defines the maximum number of parallel threads to be used in the UMI process.
Default is 1.
-threads threads
Defines the maximum number of parallel threads to be used in the sequence process.
Default is 1.
يتكون من ملف يحتوي على تسلسل واحد لكل سطر. يتم دعم أحرف قاعدة الحمض النووي القياسية فقط ("A" ، "C" ، "G" ، "T"). قد لا تحتوي التسلسلات على مساحات فارغة في بداية أو نهاية السلسلة ، حيث سيتم حسابها كحرف محاذاة. قد لا يحتوي الملف على خطوط فارغة حيث سيتم اعتبار هذه تسلسلات ذات طول صفري. لا تحتاج إلى فرز التسلسلات وقد تتكرر.
مثال:
TTACTATCGATCATCATCGACTGACTACG
ACTGCATCGACTAGCTACGACTACGCTACCATCAG
TTACTATCGATCATCATCGACTGACTAGC
ACTACGACTACGACTCAGCTCACTATCAGC
GCATCGACCGCTACTACGCATACTACGACATC
إذا كان عدد التسلسلات معروفًا ، فقد يتم تحديده في ملف الإدخال باستخدام التنسيق التالي:
[تسلسل] t [العد] n
حيث يشير " t" إلى حرف علامة التبويب و " n 'الحرف الجديد. لا تحتاج إلى فرز التسلسلات وقد تتكرر أيضًا. إذا تم العثور على تسلسل متكرر ، فسيتم إضافة تهمهم معًا. كما كان من قبل ، قد لا تحتوي التسلسلات على أي أحرف إضافية وقد لا يحتوي الملف على خطوط فارغة.
مثال:
TATCGACTCTATCTATCGCTGATGCGTAC 200
CGAGCCGCCGGCACGTCACGACGCATCAA 1
TAGCACCTACGCATCTCGACTATCACG 234
CGAGCCGCCGGCACGTCACGACGCATCAA 17
TGACTCTATCAGCTAC 39
يدعم StarCode ملفات Fasta و FastQ أيضًا. لاحظ ، مع ذلك ، أن STARCODE لا يستخدم عوامل الجودة والمعلومات الوحيدة ذات الصلة هي التسلسل نفسه. لن يتم استخدام ملصقات FARTA/FASTQ لتحديد التسلسلات في ملف الإخراج. لا تحتاج إلى فرز التسلسلات وقد تتكرر.
مثال fasta:
> FASTA sequence 1 label
ATGCATCGATCACTCATCAGCTACAG
> FASTA sequence 2 label
TATCGACTATCTACGACTACATCA
> FASTA sequence 3 label
ATCATCACTCTAGCAGCGTACTCGCA
> FASTA sequence 4 label
ATGCATCGATTACTCATCAGCTACAG
مثال FastQ:
@ FASTQ sequence 1 label
CATCGAGCAGCTATGCAGCTACGAGT
+
-$#'%-#.&)%#)"".)--'*()$)%
@ FASTQ sequence 2 label
TACTGCTGATATTCAGCTCACACC
+
,*#%+#&*$-#,''+*)'&.,).,
يقوم Starcode بطباعة خط لكل مجموعة مكتشفة بالتنسيق التالي:
[التسلسل الكنسي] t [حجم الكتلة] t [تسلسل الكتلة] n
حيث يشير " t" إلى حرف علامة التبويب و " n 'الحرف الجديد. "التسلسل الكنسي" هو تسلسل الكتلة التي لديها المزيد من التهم ، "حجم الكتلة" هو العدد المجمعة لجميع التسلسلات التي تشكل الكتلة ، و "تسلسلات الكتلة" هي قائمة بجميع تسلسل الكتلة مفصولة بواسطة الفواصل وفي في أمر تعسفي. يتم طباعة الخطوط بواسطة "حجم الكتلة" بترتيب تنازلي.
على سبيل المثال ، تنفيذ مع الإدخال التالي ومسافة التجميع 3 (-d3):
TAGCTAGACGTA 250
TAGCTAGCCGTA 10
TAAGCTAGGGGT 16
ACGCGAGCGGAA 155
ACTTTAGCGGAA 1
سوف ينتج الإخراج التالي:
TAGCTAGACGTA 260 TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA 156 ACGCGAGCGGAA,ACTTTAGCGGAA
TAAGCTAGGGGT 16 TAAGCTAGGGGT
نفس المثال الذي تم تنفيذه بمسافة أكثر تقييدًا -يؤدي D2 إلى إنتاج الإخراج التالي:
TAGCTAGACGTA 260 TAGCTAGACGTA,TAGCTAGCCGTA
ACGCGAGCGGAA 155 ACGCGAGCGGAA
TAAGCTAGGGGT 16 TAAGCTAGGGGT
ACTTTAGCGGAA 1 ACTTTAGCGGAA
في وضع الإخراج غير الملتوي ، يطبع Starcode فقط التسلسل الكنسي لكل مجموعة ، واحدة لكل سطر. باتباع المثال من القسم السابق ، سيكون الإخراج بالمسافة 3 (-d3):
TAGCTAGACGTA
ACGCGAGCGGAA
بينما من أجل -d2:
TAGCTAGACGTA
ACGCGAGCGGAA
TAAGCTAGGGGT
ACTTTAGCGGAA
تم ترخيص StarCode بموجب ترخيص GNU General Public ، الإصدار 3 (GPLV3) ، لمزيد من المعلومات ، اقرأ ملف الترخيص أو الرجوع إلى:
http://www.gnu.org/licenses/
إذا كنت تستخدم برنامجنا ، يرجى الاستشهاد:
Zorita E ، Cusco P ، Filion GJ. 2015. Starcode: تجميع التسلسل بناءً على البحث عن جميع الأزواج. المعلوماتية الحيوية 31 (12): 1913-1919.