يهدف Project Crane (عنصرية الأزمات وتقييم السرد) إلى دعم الباحثين والمنظمات المناهضة للعنصرية التي ترغب في استخدام خوارزميات تحليل النص على أحدث طراز لدراسة كيفية تأثير الأحداث المحددة على خطاب الكراهية عبر الإنترنت والروايات العنصرية . Crane Toolbox هي حزمة Python : بمجرد تثبيت الأدوات في Crane ، تتوفر كوظائف يمكن للمستخدمين استخدامها في برامج Python الخاصة بهم أو مباشرة من خلال محطةهم. يستهدف كرين المستخدمين بالبرمجة الأساسية ولكن لا توجد مهارات في تعلم الآلة .
تخطي إلى البداية السريعة

العودة إلى الأعلى
ولدت عنصرية الأزمات وتقييم السرد ، أو الرافعة لفترة قصيرة ، خلال تحدي المرونة ، وهو Hackathon الذي يحركه Covid19. خلال تسعة أسابيع ، طور فريق متعدد التخصصات يتألف من الطلاب والمصممين المحترفين والمبرمجين وباحثو علوم الكمبيوتر موقعًا أوليًا للمراقبة في الوقت الفعلي للخطاب العنصري المرتبط بود Covid19 . تم اقتراح المشروع من قبل Gianluca Stringhini ، جامعة بوسطن ، في أعقاب عمله في الظهور المبكر للسلوك الثابت عبر الإنترنت خلال جائحة Covid19 (SARS-COV-2). قد يجد القراء مزيدًا من التفاصيل حول النهج الذي تم اتخاذه لتحدي المرونة على صفحة DevPost المقابلة وفرع ركل المرونة في هذا المستودع.
أثناء إجراء مراجعة الأدب ، لاحظنا أن القليل من الأوراق حول مراقبة خطاب الكراهية عبر الإنترنت كان لها نهج أبحاث علم الاجتماع وأدوات معالجة اللغة الطبيعية الحديثة. يبدو أن الأدب ينقسم بشكل أساسي إلى أوراق منهجية تهدف إلى تطوير أدوات جديدة للتعلم الآلي للكشف عن العنصرية وتوصيفها ، وأساليب أبحاث علم الاجتماع التقليدية ، النوعية والكمية ، التي لا تستفيد بالكامل من طرق البيانات والتحليل المتاحة.
نحن ندرك أن هذا يرجع جزئيًا إلى صعوبة جمع الفرق متعددة التخصصات من مجالات مختلفة تمامًا ، وفي جزء منه إلى الطبيعة الشابة والمخاطر للكشف عن خطاب الكراهية الآلي.
تقودنا تجاربنا خلال Hackathon إلى الاعتقاد بأن هذه القضايا يمكن تخفيفها إلى حد ما من خلال تزويد باحثو العلوم الاجتماعية بأدوات صديقة للاستخدام التي تستفيد من أساليب الكشف عن خطاب الكراهية الحالية.
تم تصميم Crane Toolbox لدعم الباحثين والمنظمات المناهضة للعنصرية في دراسة كيفية تأثير أحداث محددة على خطاب الكراهية عبر الإنترنت والروايات العنصرية . تتطور خوارزميات تحليل النص على أحدث طراز بسرعة ، وغالبًا ما يقتصر انتشارها على المجال المخصص لأبحاث علوم الكمبيوتر. يلتف Crane Toolbox بعض هذه الطرق ، التي تناسب أسئلة العلوم الاجتماعية النموذجية ، إلى أدوات سهلة الاستخدام لا تتطلب مهارات التعلم الآلي .
Crane Toolbox هي حزمة Python . بمجرد التثبيت ، يمكن للمستخدمين استدعاء وظائفه في البرامج النصية الخاصة بهم أو استخدام الأدوات التي توفرها مباشرة من خلال المحطة الخاصة بهم. يتم تنظيم هذه الأدوات في عدة حزم فرعية تسمى الوحدات النمطية. كل وحدة تتوافق مع خطوة في خط أنابيب التحليل العام.
يوفر الإصدار الأول من Crane Toolbox أدوات ووثائق للمستخدمين لتصفية وتنسيق البيانات التي استخرجوها من Twitter (وحدة الاستيراد ) ، وإعدادها للتحليل (وحدة المعالجة المسبقة ) ، وتنفيذ التحليل (ES) من اختيارهم ( وحدة التحليل ) ، والحصول على تمثيل رسومي أساسي للنتائج (وحدة التصور ).
العودة إلى الأعلى
هذا القسم مخصص للمبرمجين ذوي الخبرة الذين يرغبون في الغوص أولاً في النهاية العميقة. إذا لم يكن لديك أي فكرة عما نتحدث عنه هناك ، فالرجاء عدم الابتعاد عن الصراخ! على الرغم من أن طول قسم توثيق الحزمة قد يجعل الأمر شاقًا بعض الشيء ، فقد كتبناه مع وضع غير متخصصين في الاعتبار ، لذلك يجب أن تجد جميع الإرشادات والمشورة التي تحتاجها لاستخدام صندوق أدوات الرافعة.
pip install cranetoolbox الخطوة الأولى هي تحويل بياناتك إلى تنسيق تبادل البيانات الشائع الخاص بنا ، وهو ملف CSV من ثلاثة عمود. نحن نستخدم وحدة crane-import لأداء هذه الخطوة. يأخذ ملفات مصدرها تحتوي على كائن تغريدة JSON واحد لكل سطر ويحولها إلى ملف CSV خفيف الوزن. يتم تفصيل المعلمات المتاحة في قسم وحدة الاستيراد.
crane-import --source-folder ./my_source --output-folder ./my_outputمن المهم تنظيف البيانات النصية قبل تحليل البيانات. نحن نقدم أداة CLI لأداء هذه الخطوة ، مع العديد من خيارات المعالجة المسبقة. يتم تفصيل المعلمات المتاحة في قسم وحدة المعالجة المسبقة.
crane-preprocess ./my_output ./my_preproc_outputنقدم حاليًا أداة تحليل إحصائية واحدة تقوم بتحليل التردد الأساسي على مجموعة البيانات باستخدام مجموعة من الكلمات الرئيسية المقدمة. يتم تفصيل تنسيقات الإدخال المطلوبة والمعلمات المتاحة في قسم وحدة التحليل.
crane-analysis-quanti ./my_preproc_output keywords.json quanti_results.csvالعودة إلى الأعلى
ينقسم هذا القسم إلى جزأين: أول واحد يصف كيفية تثبيت صندوق أدوات الرافعة وتشغيل أدواته ، إما في وضع سطر الأوامر في محطة أو من خلال مكالمات الوظائف في برامج النصوص Python ؛ والثانية التي تعطي تفاصيل عن كل وحدة ، ولا سيما تنسيق البيانات واختيار المعلمة.
يمكن للمستخدمين المتقدمين العثور على معلومات إضافية على محتوى كل وحدة في وثائق الرمز.
من أجل تثبيت Crane Toolbox بنجاح ، ستحتاج إلى:
يوصى بشدة ببعض المعرفة الأساسية في البرمجة وخطوط الأوامر ، لكن قد يختار الشجاع والدواء المضي قدمًا بدونه.
إذا كانت القائمة أعلاه واضحة لك ، فانتقل إلى تعليمات التثبيت. وإلا ، اقرأ الفقرات التالية لإعداد بيئتك.
المحطة هي واجهة يمكنك من خلالها كتابة وتنفيذ الأوامر القائمة على النص. قد تجد تفسيرًا أكثر تفصيلاً هنا وصورًا لما تبدو عليه المحطة هنا.
تم تثبيت محطة بالفعل على جهاز الكمبيوتر الخاص بك. إذا كنت تستخدم نظام تشغيل قائم على UNIX (إما MacOSX أو توزيع Linux ) ، فسيتم تسميته بشكل مناسب ويعيش مع تطبيقاتك الأخرى. إذا كنت تستخدم نظام تشغيل Windows ، فسيتم تسمية موجه الأوامر ويمكن العثور عليه في قائمة START. بالنسبة لنظام التشغيل Windows 8 و 10 ، يقع في مجلد Windows System .
لتشغيل أمر في المحطة ، ببساطة اكتبه واضغط على Enter.
Python 3 هي لغة برمجة.
تعتمد عملية التثبيت على نظام التشغيل الخاص بك. يمكن العثور على التعليمات الأساسية على موقع Python الرسمي ، ولكن ستجد بسهولة أدلة أكثر تفصيلاً على الإنترنت.
PIP هو مدير الحزمة: يساعدك على تنزيل حزم Python وتحديثها عند الضرورة.
يمكن العثور على التعليمات الأساسية لتثبيتها على موقعها الرسمي. يتم استخدامه على نطاق واسع ، لذلك يمكن العثور على أدلة خطوة بخطوة وموارد أخرى بسهولة على الإنترنت.
pip3 بدلاً من ذلك. يمكنك التحقق من إصدار pip الذي يتم استخدامه عن طريق تشغيل pip --version في المحطة الخاصة بك ( python -m pip --version لمستخدمي Windows).
نوصي بشدة بتثبيت صندوق أدوات الرافعة باستخدام pip . تشغيل pip install cranetoolbox في محطة. قد يستغرق الأمر بعض الوقت لأن pip ستقوم أيضًا بتثبيت جميع حزم Python المطلوبة تلقائيًا لتشغيل Crane Toolbox. يمكنك التحقق من قائمة التبعيات في [Pypi Page of Crane Toolbox] (رابط إلى صفحة PYPI).
يمكن أيضًا تثبيت Crane Toolbox يدويًا من رمز المصدر المتاح في هذا المستودع.
وضع سطر الأوامر هو أسهل طريقة لاستخدام هذه الحزمة ، فهو يمكّن المستخدم من تشغيل جميع أجزاء الحزمة بسرعة وإنتاج إحصائيات قابلة للاستخدام في فترة زمنية قصيرة جدًا.
هناك ثلاثة أوامر مختلفة من CLI متوفرة في صندوق الأدوات ، فهي crane-import ، crane-preprocess و crane-analysis-quanti . بالترتيب ، يتعاملون مع استيراد/تحويل البيانات الأولية إلى تنسيق قياسي CSV ، معالجة ما قبل تلك البيانات بتنسيق قابل للاستخدام وأخيراً حساب الترددات اليومية للكلمات الرئيسية المعطاة.
للحصول على تفاصيل حول المعلمات المتوفرة تحت كل أداة CLI ، يرجى التحقق من الوثائق التفصيلية أدناه.
تمت كتابة هذه الحزمة مع مراعاة إعادة الاستخدام. على الرغم من أن أدوات CLI أسهل في استخدامها كأدوات مستقلة ، إلا أنه يمكن استيراد صندوق أدوات Crane واستخدامه في مشروع Python آخر. جميع الوظائف متاحة للمستخدم من خلال استخدام حزمة بيثون القياسية. بالإضافة إلى ذلك ، تتوافق وظيفة واحدة عالية المستوى مع كل أداة CLI حتى يتمكن المستخدمون من الاتصال بسهولة خط الأنابيب المطلوب مباشرة من Python.
يمكن الوصول إلى وحدة الاستيراد من نقطة إدخال سطر أوامر crane-import .
الهدف من هذه الوحدة هو تحويل بيانات RAW Twitter JSON إلى شيء أكثر قابلية للإدارة وخفيفة الوزن لاستخدامه من قبل بقية خط الأنابيب. هذه ليست خطوة مطلوبة ويمكن القيام بها يدويًا من قبل المستخدم أو تم القيام به بالفعل من خلال بعض الأدوات الأخرى حيث يتم تمرير البيانات بين الوحدات النمطية كملفات.
يمكن لهذه الوحدة معالجة عدد كبير من ملفات كبيرة (Gigabyte المتعددة) دون الاعتماد بشكل كبير على استخدام المبادلة أو استخدام الذاكرة. يتم تحقيق ذلك من خلال قراءة الملفات عن طريق القطع (يمكن للمستخدم تحديد عدد الخطوط في الخيارات) وكذلك الكتابة في قطع. هذا يضمن أن يتم الاحتفاظ بكمية معينة فقط من البيانات في الذاكرة في أي لحظة معينة.
بالإضافة إلى ذلك ، فإنه يزيل بيانات تغريدة إضافية غير مطلوبة لخط أنابيب التحليل ، مما يقلل من حجم الملف وزيادة أداء الخطوات اللاحقة في هذه الحزمة.
ستحاول الوحدة قراءة أي ملف في المجلد المحدد ، بغض النظر عن التمديد ، والاسم ، وما إلى ذلك ، فهي تدعم أي تنسيق ملف مستند إلى النص (.json ، .csv ، .txt). بالإضافة إلى ذلك ، يمكنه التعامل مع أرشيفات tar المضغوطة وعلاج ملفات أو مجلدات متعددة في أرشيف قطران معين.tar.gz أو تنسيقات مماثلة.
بغض النظر عن نوع الملف الدقيق ، يجب دائمًا تخزين البيانات باستخدام تغريدة كائن JSON واحدة لكل سطر ، باستخدام n كحرف نهاية الخط.
ستعمل الوحدة على تلطيخ جميع الملفات في ملف CSV واحد مع الأعمدة التالية:
| بطاقة تعريف | نص | أنشأت |
|---|---|---|
| معرف فريد للتغريد | تغريدة النص الكامل | الطابع الزمني للتغريد |
لا يحتوي ملف CSV على رؤوس ، وفواصل فاصلة ، واقتباسات مزدوجة اختيارية للنص.
يتم تحديد عمود النص ديناميكيًا اعتمادًا على ما إذا كانت تغريدة أكثر من 140 حرفًا أم لا ، لمزيد من المعلومات حول التغريدات الموسعة ، انظر الوثائق الرسمية على التغريدات الموسعة
إذا كان ملف الإخراج موجودًا بالفعل ، فسيتم إلحاقه بالملف الحالي. في حالة أنه غير موجود ، فإنه سيقوم بإنشاء مسار جديد ، باستخدام المسار الافتراضي ("./filtered_data.csv") إذا لم يتم تحديد أي منها.
يمكن استخدام حزمة الاستيراد كأداة سطر الأوامر ويدعم عدة خيارات مختلفة.
--source-folder مجلد المصدر أو الملف للمسح للملفات/المحفوظات للمعالجة.--output-folder المجلد لحفظ الإخراج. يجب أن يكون المجلد المحدد موجودًا. الإعدادات الافتراضية إلى ./ .--output-name ، بما في ذلك الامتداد ، لملف الإخراج. الإعدادات الافتراضية إلى output.csv .--text-name name to text toxt field ، حالة هذا الحقل له اسم مختلف.--date-name الاسم إلى حقل Create_AT ، حالة هذا الحقل له اسم مختلف.--id-name اسم حقل المعرف ، حالة هذا الحقل له اسم مختلف.--tweet-language لغة التغريدات المحفوظة إلى الملف. بناءً على حقل اللغة في كائن JSON. الإعدادات الافتراضية en .--max-lines-in-memory الحد الأقصى لعدد الخطوط التي سيتم الاحتفاظ بها في الذاكرة. يمكن ضبط ذلك لتحسين الأداء أو على الآلات التي لها ذاكرة محدودة. الإعدادات الافتراضية إلى 50000 .--retweets هذه العلامة لتضمين تغريدات في مجموعة الإخراج. الإعدادات الافتراضية إلى falseمثال كامل لنقطة دخول سطر الأوامر:
crane-import --source-folder tweets/november --output-folder mydataset/data --max-lines-in-memory 2000 --output-name dataset.csv يمكن الوصول إلى خط أنابيب المعالجة المسبقة من نقطة إدخال سطر الأوامر crane-preprocess .
يتم تكييف المعالجة المسبقة المقترحة من effrosynidis et al. (2017) ، باستخدام التقنيات 9 و 0 و 1 و 3 و 5 و 7 و 4.
يمكن أن تكون مجموعة البيانات المعطاة كوسيطة موضعية الأولى إما مجلد لملفات CSV أو ملف CSV واحد. يجب أن يحتوي كل ملف CSV على 3 أعمدة (معرف الإدخال ، يجب أن يكون فريدًا ، int ؛ نص التغريد ، السلسلة ؛ الطابع الزمني: سلسلة الطابع الزمني) ، لا رؤوس ، فواصل فاصلة ، ونقلات مزدوجة اختيارية للنص.
| بطاقة تعريف | نص | أنشأت |
|---|---|---|
| معرف فريد للتغريد | تغريدة النص الكامل | الطابع الزمني للتغريد |
بالترتيب وللسلسلة المعينة ، سوف:
u002c ) ،-url ،-mention ،-hashtag ،punct ،-num . يتم تجزئة علامات التجزئة ، أي فصلها إلى كلمات ، باستخدام حزمة WordSegress.
يتم حفظ مجموعة البيانات المعالجة في المجلد المعطى كوسيطة موضعية ثانية. إذا لم يكن موجودًا ، فسيتم إنشاء المجلد. لكل ملف إدخال يتم إنشاء ملف معالجة. يتم إنشاء أسماء الملفات عن طريق إلحاق "_preprocined" باسم ملف الإدخال المقابل. يحتوي كل ملف CSV على 4 أعمدة (معرف الإدخال ، يجب أن يكون فريدًا ، int ؛ النص الأصلي للتغريد ، السلسلة ؛ النص المعالج مسبقًا للتغريدة ، السلسلة ؛ الطابع الزمني: سلسلة الطابع الزمني) ، لا توجد رؤوس ، فواصل فاصلة ، ونقل مزدوج اختياري للنص.
| بطاقة تعريف | Original_Text | clean_text | أنشأت |
|---|---|---|---|
| معرف فريد للتغريد | تغريدة النص الكامل | النص المسبق للتغريد | الطابع الزمني للتغريد |
يحتوي خط الأنابيب على حجتين موضعيان إلزامي وخمس وسيطات اختيارية:
-url أو --remove-url استخدم هذه العلامة لإزالة عناوين URL من التغريدات بدلاً من استبدالها بـ "url".-mention أو --remove-mentions استخدام هذه العلامة لإزالة المستخدم "userhandle" من التغريدات بدلاً من استبدالها بـ "Atuser".-hashtag أو --segment-hashtags هذه العلامة لتصنيف علامات التجزئة بدلاً من إزالة الحرف السابق "#".-punct أو --remove-punctuation استخدم هذه العلامة لإزالة جميع علامات الترقيم المتوقعة المتوقع ، بدلاً من استبدال الرموز المتكررة والخطوط الجديدة.-num أو --remove-numbers تستخدم هذه العلامة لإزالة جميع الأرقام من التغريدات بدلاً من استبدالها بإصدارها النصي.مثال كامل لنقطة دخول سطر الأوامر:
crane-preprocess mydataset/data mydataset/preprocessedData -punctتوفر وحدة التحليل حاليًا فقط خط أنابيب تحليل كمي بسيط لحساب التردد اليومي للكلمات الرئيسية المعطاة.
يمكن الوصول إلى خط أنابيب التحليل هذا من نقطة إدخال سطر أوامر crane-analysis-quanti .
يحسب التردد اليومي للكلمات الرئيسية المعطاة في مجموعة البيانات. يسمح بمتغيرات الكلمات الرئيسية. على سبيل المثال ، يمكن حساب حوادث "الأولاد" و "بويز" معًا.
يمكن أن تكون مجموعة البيانات المعطاة كوسيطة موضعية الأولى إما مجلد لملفات CSV أو ملف CSV واحد. يجب أن يحتوي كل ملف CSV على 4 أعمدة (معرف الإدخال ، يجب أن يكون فريدًا ، int ؛ النص الأصلي للتغريد ، السلسلة ؛ النص المعالج مسبقًا للتغريدة ، السلسلة ؛ الطابع الزمني: سلسلة الطابع الزمني) ، لا توجد رؤوس ، فواصل فاصلة ، ونقل مزدوج اختياري للنص. من المفترض أن يكون النص المعالج مسبقًا أقل حالة.
| بطاقة تعريف | Original_Text | clean_text | أنشأت |
|---|---|---|---|
| معرف فريد للتغريد | تغريدة النص الكامل | النص المسبق للتغريد | الطابع الزمني للتغريد |
يتم تعريف الكلمات الرئيسية في قاموس JSON حيث تكون المفاتيح البديل الرئيسي لكل كلمة رئيسية والقيم هي قوائم المتغيرات. يجب أن تكون جميع الكلمات الرئيسية سلاسلًا منخفضة الحالات. على سبيل المثال:
{
"color" : [
" colour " ,
" color "
],
"chinese" : [
" chinese " ,
" chineze " ,
" chines "
]
}الإخراج هو ملف CSV مع عمود تاريخ يوم (التنسيق "٪ y- ٪ m- ٪ d") ، عمود Total_count مع العدد الإجمالي اليومي للتغريدات في مجموعة البيانات ، وعمود [الكلمة الرئيسية] _count لكل كلمة رئيسية (يتم استخدام كل كلمة رئيسية (يتم استخدام كلمةها الرئيسية (_ أن يكون متغيرًا رئيسيًا (iss ins the the the the the the the tweat tweet tweet tweet on the on the on the very ther the ther قم بتسمية العمود) مع التردد اليومي للتغريدات التي تحتوي على متغير واحد على الأقل من الكلمة الرئيسية.
على سبيل المثال ، بالنسبة للكلمات الرئيسية المحددة أعلاه:
| يوم | Total_count | color_count | صينية | color_freq | صينية |
|---|---|---|---|---|---|
| تاريخ | العدد اليومي من التغريدات | عدد يومي من التغريدات مع "اللون" أو البديل | عدد يومي من التغريدات مع "الصينية" أو البديل | التردد اليومي للتغريدات مع "اللون" أو البديل | التردد اليومي للتغريدات مع "الصينية" أو البديل |
يحتوي خط الأنابيب على ثلاث حجج موضعية إلزامية ووسيطة اختيارية واحدة:
-d أو --date-format التي تحدد تنسيق التواريخ في مجموعة البيانات. الافتراضي هو ٪ a ٪ b ٪ d ٪ h: ٪ m: ٪ s ٪ z ٪ y ".مثال كامل لنقطة دخول سطر الأوامر:
crane-analysis-quanti mydataset/preprocessedData keywords.json quanti_results.csv -d " %d %b %a %h:%M:%S %z %Y " لم ينفذ بعد
العودة إلى الأعلى
نرحب بجميع المساهمات! إذا كانت لديك أسئلة أو طلب ميزة أو بعض التعليقات ، فيرجى استخدام ميزة المشكلات الخاصة بـ GitHub.
تعمل صفحة المشكلات مثل صفحة المنتدى القديمة الجيدة ، مع العديد من الميزات الإضافية الخاصة بالبرمجة وإصدار GIT. يوفر Github دليلًا مفصلاً لهم ، ولكن هنا هي الأساسيات:
اهلا وسهلا بكم لتقديم طلبات السحب للمشكلات المفتوحة. على وجه الخصوص ، عادة ما تكون المشكلات الموسومة "مساعدة المساعدة" الأشياء التي يكافحها الفريق الأساسي. فيما يلي الإرشادات التي نطلب منك متابعتها عند المساهمة في قاعدة الكود.
إذا كنت ترغب في إشراك نفسك (مراجعة PRS ، والتخطيط للميزات الجديدة ، والبحث عن أساليب التعلم الآلي ، والقيام بأبحاث المستخدم ، ...) ، يمكنك الانضمام إلى الفريق الأساسي عن طريق إرسال بريد إلكتروني إلى Bolduc2 (AT) Hotmail (DOT) FR للانتقال إلى الطائرة. نرحب بالمطورين ، بالطبع ، ولكن أيضًا المصممون ، الباحثون من جميع المجالات الأكاديمية ، والكتاب الفنيين ...
لقد اخترنا على متن الناس على انفراد بدلاً من مشاركة جميع مواردنا في الريبو لسببين. أولاً ، أردنا أن نجعل الأمر أسهل للمستخدمين غير المعتدين لفتح المشاريع المصدر للعثور على ما يحتاجون إليه. ثانياً ، تحتوي بعض مواردنا على معلومات خاصة من أبحاث المستخدم.
العودة إلى الأعلى
https://crane-toolbox.github.io/#/ بناء موقع أولي على شبكة الإنترنت خلال Hackathon تحدي المرونة ، في محاولة لقياس وتوصيف تأثير جائحة Covid19 على خطاب الكراهية الصغار عبر الإنترنت. تركناها على الإنترنت كمثال أساسي للغاية لنوع تحليل البيانات الذي يمكن تنفيذه باستخدام صندوق أدوات Crane.
نحن لا نخطط في الوقت الحالي. نظرًا لتكوين الفريق ، قررنا تركيز جهودنا على Crane Toolbox ، حيث نعتقد أنه يمكننا إحداث تغيير.
lachapeliere | Gianluca Stringhini ؟ | ماركو شيفا بافلوفيتش | كلاوديو كاترينا | سفيتلانامد ؟ ؟ ؟ ؟ | إيان | بول هان |
كيلي ؟ ؟ | غابرييل ريبيرو | إسحاق | توماس لوكشا | جوديث فان ستيجرن |
مفتاح الرموز التعبيرية
يتبع هذا المشروع مواصفات جميع المساهمين. مساهمات من أي نوع ترحيب!
يمكن العثور على قائمة المساهمين Hackathon للمرحلة الأولى من المشروع على صفحة Crane DevPost.
نعم! تحقق من قسم المساهمة.
Python هي لغة برمجة شائعة جدًا لمهام تحليل البيانات. الحزم هي إضافات قابلة للتثبيت إلى لغة بيثون الأساسية. بالمعنى الدقة ، الوحدة النمطية هي ملف مع رمز بيثون.
ومع ذلك ، إذا لم تكن غير مألوف تمامًا مع Python ، فقد ترغب في تجربة بعضها قبل استخدام Crane Toolbox.
يرجى استخدام صفحة المشكلات لهذا الريبو. تحقق من قسم المساهمة لمزيد من التفاصيل.
يتم توزيع Crane Toolbox بموجب ترخيص GNU Affero العام الإصدار 3.0.
يمكنك استخدامه ، ومع ذلك ، فأنت تريد شريطة احترام متطلبات الترخيص: قم بتضمين إشعار الترخيص وحقوق الطبع والنشر ، وذكر التغييرات التي أجريتها ، والكشف عن مصدرك (هذا الريبو) ، وتوزيع الكود الخاص بك تحت نفس الترخيص. يرجى ملاحظة أننا لسنا مسؤولين عن أي استخدام تقوم به من هذا الرمز ، ولا نقدم أي ضمان.
يرجى الارتباط بهذا الريبو.
تقتصر مشاركة مجموعات بيانات التغريدات وفقًا لشروط مطور Twitter. لن تكون قادرًا على العثور على مجموعات بيانات متوفرة للجمهور مع محتوى التغريدات ، بل مجموعات بيانات من معرفات التغريد. يمكن رطب تلك ، على سبيل المثال هيدور.
من هناك يعتمد حقًا على موضوع البحث والأسئلة. بعضها حساس للوقت ، وبعضها أقل. إذا لم تكنك حساسة للوقت ، فجرّب حظك مع محرك بحث عادي. يتطلب البعض مجموعة بيانات ساذجة ، ممثل تدفق المعلومات الكامل للتويتر. في هذه الحالة ، يكون أفضل رهان لك هو التعاون مع فريق بحث يقوم بإجراء تحليلات متكررة على محتوى Twitter. من المحتمل أن يحتفظوا ببفق لجمع 1 ٪ من بيانات Twitter اليومية. يحتاج الآخرون إلى مجموعة بيانات تم ترشيحها بالفعل لكلمات رئيسية أو مستخدمين محددة. إذا كانت هذه هي حالتك ، جرب حظك مع محرك بحث منتظم. إذا لم تكن بحاجة إلى بيانات تاريخية ، فيمكنك أيضًا بدء دفق Twitter الخاص بك لجمع البيانات التي تريدها بالضبط.
نحن نعمل على تضمين العديد من تنسيقات الإدخال القياسية إلى وحدة الاستيراد الخاصة بنا. إذا لم يكن تنسيق البيانات الخاص بك مدعومًا ، فيرجى الاتصال بالاتصال وسنبذل قصارى جهدنا لإدراج الدعم له في صندوق أدوات Crane أو إرشادك لتحويله إلى أحد التنسيقات المدعومة لدينا.
ربما لا نعرف ذلك ، ربما لم يكن لدينا وقت لتنفيذه بعد ، ربما نختار عدم تضمينه لسبب معين. يرجى الاتصال ليخبرنا عن ذلك. (ما لم تكن طريقة ملكية مع رسوم الاستخدام.)