CIMS هي أداة لاستخراج الزخارف القابلة للطي بشكل شائع من تسلسل RRNA 16S-23S. يتطلب الأمر fasta أو رقمًا على الأقل من انضمام GenBank ويعيد قائمة من الزخارف مع ملصقاتها الخاصة لكل من التسلسلات المقدمة. مكرسة لأبحاث البكتيريا الزرقاء التي تقضي ساعات طويلة في تسليط الضوء على الزخارف في MS Word.
========
CIMS ؟فاصل 16S-23S RRNA الداخلي المكتوبة (ITS) هو علامة phylogenetic شائعة الاستخدام في علم البكتيريا الزرقاء. يسمح فحص مناطقها للباحثين باكتشاف التطابقات والآبومورفيات بين أنواع البكتيريا الزرقاء. وهذا يمنح الباحث المزيد من الأدلة عند إقامة الأصناف المشفرة الجديدة أو تحليل العلاقات التصنيفية التي لم يتم حلها مسبقًا. ومع ذلك ، فإن التحدي هو أنه يجب على الباحثين تاريخيين البحث يدويًا من خلال بيانات التسلسل للعثور على زخارف التسلسل وتحديده بصريًا. هذه العملية المضنية تمنع الباحثين من استخدام زخارفها ، وتؤدي إلى أخطاء ، ناهيك عن ... يسبب الصداع.
كنا نعلم أن هناك طريقة أفضل للقيام بذلك ، لذلك بعد تشريح العملية اليدوية ، أنشأنا CIMS .
يجد CIMS الزخارف القابلة للطي بشكل شائع مثل D1-D1 'و Box B و TRNA-ILE و TRNA-ALA لضمان أن الباحثين يستخدمون الأوبرا المتماثلة عند مقارنة هياكلها الثانوية بين الأصناف.
CIMS هو تطبيق طرفي مكتوب في بيثونفي الإصدار الحالي من البرنامج ، فإن الزخارف المدرجة في الإخراج القياسي هي:
نحصل عليه ، أنت عالم أحياء ، لقد حصلنا عليك. كل ما تحتاجه هو مستوى المبتدئين في المحطة ... ربما لا حتى هذا القدر. إذا كنت تعرف كيفية تصفح الدليل ( cd ) وتشغيل قابلة للتنفيذ ( ./cims ) ، فأنت على ما يرام.
لإبقاء الأمور بسيطة ، قمنا بتعبئة CIMS مسبقًا مع كل تبعياتها في ملف واحد وتجميعها لنظام التشغيل Windows و Linux و MacOS. هذه الملفات متوفرة تحت الإصدارات.
cd على هذا الدليل ، وقم بتشغيل CIMS كقابلة للتنفيذ ، عادةً عن طريق الكتابة ./cims . للحفاظ على الأمور بسيطة ، نقترح حفظ CIMS إلى الدليل حيث سيكون لديك ملفات fasta التي تريد معالجتها. إذا كنت تسحب تسلسلاتك مباشرة من GenBank ، فلا يهم حقًا.
إذا كنت ترغب في إجراء تغييرات خاصة بك على المناطق المرفحة ، أو إجراء تغييرات على الرمز ، يمكنك ببساطة تنزيل CIMS.py من Python وتشغيله. (لكن ربما كنت تعرف بالفعل أنه إذا كان هذا ما تريده).
لتشغيل CIMS ستحتاج:
$ pip install Biopython$ pip install colorama يسمح Biopython CIMS بالتواصل مع GenBank لتنزيل التسلسلات. Colorama يسمح لنا بسهولة إخراج الزخارف بألوان جميلة.
بمجرد تثبيت تلك التبعيات (سواء على الصعيد العالمي أو في بيئة افتراضية) ، ما عليك سوى تشغيل cims.py
يدير CIMS في المحطة. يتم توفير تسلسل إما من خلال ملف fasta أو عن طريق جلبها من GenBank بناءً على أرقام الانضمام. يجب أن تكون إما مدخلات هذه الأداة إما ملف fasta مع واحد أو أكثر من تنسيق 16S-23S تسلسله أو رقم انضمام GenBank إلى تسلسله 16S-23.
انتقل إلى الموقع الذي تم فيه حفظ CIMS .
على سبيل المثال ، في Windows ، يمكنك استخدام cd للانتقال إلى دليل على هذا النحو:
cd C:/Users/{your-username}/Desktop/PathtoFile
أو في Linux/Mac:
cd /home/{your username}/{where you downloaded cims}
لتشغيل CIMS ، ما عليك سوى تنفيذها عن طريق التشغيل ./cims أو python cims.py من الدليل حيث تم حفظه.
عند تشغيل هذا على المحطة الخاصة بك ، سيتضمن الإخراج جميع الأشكال الموجودة في التسلسلات المقدمة للبرنامج. إذا كنت ترغب في حفظ إخراج التشغيل الخاص بك ، فاحلم استخدام ">>" لحفظ الإخراج في ملف نصي:
cims -f myfasta.fasta >> motifs.txt
قائمة الأعلام والوسائط وأوصافها أدناه:
Usage: cims [-f or -g ] [file or accession number] [OPTIONS]
Options:
-f, --fasta PATH-TO-FASTA-FILE Provide FASTA to be processed.
-g, --genbank ACCESSION1 [ACCESSION2 ...] Provide one or more Genbank Accession Numbers to fetch and process.
-s, --select {leader,d1d1,sp_v2_sp,trna_ile,trna_ala,boxa,boxb,d4,v3,all} Select which motifs to print out. By default it prints all.
-e, --email Provide an email to be used when querying Genbank. An NCBI requirement.
-j, --json Create a json file in the working directory with the output.
-t, --trna Returns ONLY how many tRNAs were found per sequence. cims =f allmycyanos.fasta
النتيجة: ستعمل CIMS على معالجة ملف fasta المقدم وإرجاع جميع الزخارف التي يجدها.
cims -f ~/home/me/fasta/limnothrix_16-23_ITS.fasta -s d1d1, trna_ile, trna_ala, boxb
النتيجة: يعالج ملف limnothrix_16-23_its.fasta المخزّن في دليل يتواجد في/me/me/fasta ويطلب من CIMS فقط إخراج D1D1 و TRNAs و BoxB.
cims -g KU574618.1 -e [email protected]
النتيجة: يجلب تسلسل KU574618.1 من GenBank (توفير بريد إلكتروني مطلوب بواسطة NCBI) ، يعالج التسلسل ، ويعيد الزخارف.
cims -f allmycyanos.fasta -t
النتيجة: يجلب التسلسل من GenBank ، ويعيد عدد الحمض النووي الريبي الموجود على كل كائن حي. هذا يسمح بسهولة للتحقق مما إذا كانت الكائنات الحية في FASTA هي الأوبرا المتماثلة.
ملاحظة إذا فقدت أي وقت مضى ، يمكنك دائمًا تشغيل cims -h أو python cims.py -h -وستحصل على مرجع سريع للخيارات المتاحة.
“Could not find the end of 16S to determine the ITS region boundaries”هذا الخطأ يعني أن التسلسل المعطى للبرنامج لم يحتوي على التسلسل الذي يمثل نهاية منطقة 16S (CCTCCTT). يمكنك المتابعة مع التشغيل إذا كنت قد أطعمت البرنامج في منطقته فقط وسيتم تشغيل كل شيء بشكل طبيعي خلاف ذلك ، فهذا إحباط التشغيل لهذا التسلسل عن طريق كتابة "N" عند مطالبة "متابعة البحث على أي حال؟ (Y/N)". سيسمح ذلك للبرنامج بالانتقال إلى التسلسل التالي في ملف FASTA أو يسمح لك بالمحاولة مرة أخرى بملف/انضمام آخر #.
“Region length too short. Skipped.”سيتم طباعة هذا إذا كانت منطقتها بعد نهاية الجين 16S أقل من 20 بتر في الثانية. يتم ترميز هذه الميزة لإزالة التسلسلات مع مناطقها صغيرة جدًا بحيث لا يمكن استخدامها للعثور على أي من الزخارف.
“Not found in this sequence.”سيتم طباعة هذا المخرج عندما لم يتم العثور على عزر معين في تسلسله. قد يكون هذا لأن المناطق المرافعة فريدة من نوعها أو نادرة ، وبالتالي لم يجد البرنامج هذه. إذا حدث هذا بشكل متكرر في مجموعة البيانات الخاصة بك ، فيرجى الإبلاغ عن هذا لنا في صفحة "المشكلات" الخاصة بـ GitHub حتى نتمكن من معالجة هذا الخطأ وتحسين الرمز.
“Not present in this operon”سيتم طباعة هذا فقط فيما يتعلق بالروامناس في التسلسل. إذا لم يجد البرنامج TRNA-ALA أو TRNA-ILE ، فسوف يفترض أن هذا الأوبرا لا يحتوي على واحد أو كلاهما. تذكر أنه من الأفضل استخدام الأوبرا المتماثلة عند مقارنة زخارفها بين الأصناف (أي الأوبرا التي تحتوي على نفس العدد من TRNAs).