analysis pipelines Download - analysis pipelines Quellcode herunterladen

analysis pipelines

Anderer Quellcode

1.0.0

Herunterladen

Krisenrassismus und narrative Bewertung

Project Crane (Crisis Rassismus and Narrative Evaluation) zielt darauf ab , Forscher und antirassistische Organisationen zu unterstützen , die hochmoderne Textanalysealgorithmen verwenden möchten, um zu untersuchen, wie sich spezifische Ereignisse auf Online-Hassrede und rassistische Erzählungen auswirken . Crane Toolbox ist ein Python -Paket : Nach der Installation sind die Tools in Crane als Funktionen verfügbar, die Benutzer in ihren Python -Programmen oder direkt über ihr Terminal verwenden können. Crane richtet sich an Benutzer mit grundlegender Programmierung, aber ohne maschinelles Lernen .

Springe zum Quick-Start

Crane Thumbnail

Inhaltsverzeichnis

Inhaltsverzeichnis
Einführung
- Genesis
- Projektmotivation
- Crane Toolbox: Das Python -Paket für die Datenanalyse
Schnellstart
Paketdokumentation
- So installieren und verwenden Sie Crane Toolbox
  - Anforderungen
  - Installieren Sie die Crane Toolbox
  - Befehlszeilenmodus
  - Funktionsmodus
- Module
  - Importmodul
  - Vorverarbeitungsmodul
  - Analysemodul
  - Visualisierungsmodul
Beitragen
- Treten Sie dem Team bei
Häufig gestellte Fragen
- Auf dem Kranprojekt
- Bei der Verwendung von Crane Toolbox

Einführung

Zurück nach oben

Genesis

Krisenrassismus und narrative Bewertung oder kurz Crane wurden während der Resilienz-Herausforderung, einem CoVID19-betriebenen Hackathon, geboren. In neun Wochen entwickelten ein interdisziplinäres Team, das sich aus Studenten und professionellen Designern, Programmierern und Informatikforschern zusammensetzt, eine Prototyp-Website zur Echtzeitüberwachung rassistischer Rhetorik, die mit der CoVID19-Pandemie verbunden war . Das Projekt wurde von Gianluca Stringhini, Universität Boston, nach seiner Arbeit zum frühen Auftreten von Online-Sinophobic-Verhalten während der Pandemie von Covid19 (SARS-CoV-2) vorgeschlagen. Die Leser finden möglicherweise weitere Details zu dem Ansatz für die Resilienz-Herausforderung auf der entsprechenden DevPost-Seite und den Abstandsfähigkeits-Challenge-Legacy-Zweig dieses Repositorys.

Projektmotivation

Während der Literaturrecherche stellten wir fest, dass nur wenige Artikel zur Überwachung von Online -Hassreden sowohl einen soziologischen Forschungsansatz als auch die jüngsten Tools für natürliche Sprachverarbeitung hatten. Die Literatur scheint hauptsächlich in methodische Artikel unterteilt zu sein, die darauf abzielen, neue Instrumente für maschinelles Lernen zu entwickeln, um Rassismus zu erkennen und zu charakterisieren, sowie traditionelle soziologische Forschungsansätze, sowohl qualitativ als auch quantitativ, die die verfügbaren Daten- und Analysemethoden nicht voll ausnutzen.

Wir sind uns bewusst, dass dies teilweise auf die Schwierigkeit zurückzuführen ist, interdisziplinäre Teams aus sehr unterschiedlichen Bereichen zu sammeln, und teilweise mit der eher jungen und prekären Natur der Erkennung automatisierter Hassreden.

Unsere Erfahrungen während des Hackathons glauben, dass diese Themen etwas gelindert werden könnten, indem Sozialwissenschaften benutzerfreundliche Tools zur Verfügung gestellt werden, die die robusteren Methoden zur Erkennung und Analyse der Hasssprache nutzen.

Crane Toolbox: Das Python -Paket für die Datenanalyse

Crane Toolbox soll Forscher und antirassistische Organisationen unterstützen, um zu untersuchen , wie sich spezifische Ereignisse auf Online-Hassreden und rassistische Erzählungen auswirken . Die hochmodernen Textanalysealgorithmen entwickeln sich schnell und ihre Ausbreitung beschränkt sich häufig auf das dedizierte Bereich der Informatikforschung. Die Crane Toolbox wickelt einige dieser Methoden, die typische Fragen der Sozialwissenschaften entsprechen, in benutzerfreundliche Tools, die keine Fähigkeiten zum maschinellen Lernen erfordern .

Euen In dieser ersten Version bleibt Crane Toolbox spezifisch für die Tweet -Analyse .

Crane Toolbox ist ein Python -Paket . Nach der Installation können Benutzer ihre Funktionen in ihren Python -Skripten aufrufen oder die Tools verwenden, die sie direkt über ihr Terminal liefert. Diese Tools sind in mehreren Unterhüllungen organisiert, die als Module bezeichnet werden. Jedes Modul entspricht einem Schritt in der allgemeinen Analyse -Pipeline.

Die erste Version von Crane Toolbox bietet Tools und Dokumentation, mit denen Benutzer die von ihnen extrahierten Daten aus Twitter ( Importmodul ) filtern und formatieren können, sie für die Analyse ( Vorverarbeitungsmodul ) vorbereiten, die Analyse (ES) ihres Auswahl ( Analysemodul ) durchführen und eine grundlegende grafische Darstellung der Ergebnisse ( Visualisierungsmodul ) ausführen.

Euen Als Python -Paket liefert Crane Toolbox die zu analysierenden Daten nicht . Es ersetzt auch keinen Forschungsrahmen, in dem seine Werkzeuge verwendet werden sollten. Die Dokumentation enthält Ratschläge zur Parameterauswahl und der Interpretation der Ergebnisse, bleiben jedoch in der Verantwortung des Benutzers.

Schnellstart

Zurück nach oben

Dieser Abschnitt richtet sich an erfahrene Programmierer, die Kopf voran in das tiefe Ende eintauchen möchten. Wenn Sie keine Ahnung haben, wovon wir dort sprechen, rennen Sie bitte nicht schreien! Obwohl die Länge des Abschnitts zur Paketdokumentation es ein wenig entmutigend macht, haben wir es mit Blick auf Nicht-Spezialisten geschrieben, sodass Sie alle Anweisungen und Ratschläge finden, die Sie für die Kran-Toolbox benötigen.

Installieren

pip install cranetoolbox

Daten transformieren

Der erste Schritt besteht darin, Ihre Daten in unser gemeinsames Datenaustauschformat, eine CSV -Datei mit drei Spalten, umzuwandeln. Wir verwenden das crane-import -Modul, um diesen Schritt auszuführen. Es enthält Quelldateien, die ein einzelnes JSON -Tweet -Objekt pro Zeile enthalten und sie in eine leichte CSV -Datei umwandeln. Die verfügbaren Parameter sind im Abschnitt Importmodul aufgeführt.

crane-import --source-folder ./my_source --output-folder ./my_output

Vorverarbeitungsdaten

Es ist wichtig, Textdaten vor der Datenanalyse aufzuräumen. Wir bieten ein CLI -Tool, um diesen Schritt mit mehreren Vorverarbeitungsoptionen auszuführen. Die verfügbaren Parameter sind im Abschnitt Vorverarbeitungsmodul aufgeführt.

crane-preprocess ./my_output ./my_preproc_output

Laufanalyse

Wir bieten derzeit ein einzelnes statistisches Analysetool, das unter Verwendung eines bereitgestellten Keywords eine grundlegende Frequenzanalyse im Datensatz durchführt. Die erforderlichen Eingangsformate und verfügbaren Parameter sind im Abschnitt Analysemodul aufgeführt.

crane-analysis-quanti ./my_preproc_output keywords.json quanti_results.csv

Paketdokumentation

Zurück nach oben

Dieser Abschnitt ist in zwei Teile unterteilt: eine erste, die beschreibt, wie man Crane Toolbox installiert und seine Tools ausführt, entweder im Befehlszeilenmodus in einem Terminal oder über Funktionsaufrufe in Python-Skripten; und eine zweite Angabe von Details zu jedem Modul, insbesondere Datenformat und Parameterauswahl.

Erweiterte Benutzer finden in der Code -Dokumentation zusätzliche Informationen zum Inhalt jedes Moduls.

So installieren und verwenden Sie Crane Toolbox

Anforderungen

Um Crane Toolbox erfolgreich zu installieren, benötigen Sie:

Eine grundlegende Internetverbindung
Ein Terminal
Python 3
PIP für Python 3

Einige Grundkenntnisse in der Programmierung und den Befehlslinien werden stark empfohlen , aber die Tapferkeit und die Hütten können sich dafür entscheiden, ohne weiterzumachen.

Wenn die obige Liste für Sie klar ist, gehen Sie zu den Installationsanweisungen. Ansonsten lesen Sie die folgenden Absätze, um Ihre Umgebung vorzubereiten.

Euen Wenn Sie den empfohlenen Installationsprozess nicht befolgen, müssen Sie wahrscheinlich zusätzliche Pakete oder Software installieren.

Was ist ein Terminal und wo finde ich einen?

Das Terminal ist eine Schnittstelle, in der Sie textbasierte Befehle eingeben und ausführen können. Möglicherweise finden Sie hier eine detailliertere Erklärung und Bilder darüber, wie ein Terminal hier aussieht.

Ein Terminal ist bereits auf Ihrem Computer installiert. Wenn Sie ein UNIX-basiertes Betriebssystem (entweder macOSX oder eine Linux-Verteilung ) verwenden, wird es treffend als Terminal bezeichnet und lebt mit Ihren anderen Anwendungen. Wenn Sie ein Windows -Betriebssystem verwenden, wird es als Eingabeaufforderung bezeichnet und finden Sie in Ihrem Startmenü. Für Windows 8 und 10 befindet es sich im Windows -Systemordner .

Um einen Befehl im Terminal auszuführen, geben Sie ihn einfach ein und drücken Sie die Eingabetaste.

Euen Kopierverknüpfungen (Strl^c und Strl^v) werden in den Terminals standardmäßig deaktiviert, da Strl^C stattdessen zur Abbrüche von Programmen verwendet wird. Klicken Sie mit der rechten Maustaste, um zu kopieren und einzufügen.

Wie installiere ich Python 3?

Python 3 ist eine Programmiersprache. Euen Es ist Python 2 sehr ähnlich, aber die beiden sind nicht austauschbar.

Der Installationsprozess hängt von Ihrem Betriebssystem ab. Grundlegende Anweisungen finden Sie auf der offiziellen Python -Website. Sie werden jedoch problemlos detailliertere Anleitungen im Internet finden.

Wie installiere ich PIP für Python 3?

PIP ist ein Paketmanager: Sie können Python -Pakete herunterladen und bei Bedarf aktualisieren.

Grundlegende Anweisungen für die Installation finden Sie auf der offiziellen Website. Es wird weit verbreitet, so dass Schritt-für-Schritt-Guides und andere Ressourcen im Internet leicht zu finden sind.

Euen Aufgrund des Zusammenlebens von Python 2.7 und Python 3 kann PIP für beide Sprachen auf Ihrem Computer installiert werden. Verwenden Sie in diesem Fall stattdessen den Befehl pip3 . Sie können überprüfen, welche Version von pip verwendet wird, indem pip --version in Ihrem Terminal ausgeführt wird ( python -m pip --version für Windows -Benutzer).

Installieren Sie die Crane Toolbox

Wir empfehlen dringend, Crane Toolbox mit pip zu installieren. Führen Sie pip install cranetoolbox . Der Befehl kann einige Zeit in Anspruch nehmen, da pip auch automatisch alle Python -Pakete installiert, die für die Crane -Toolbox benötigt werden. Sie können die Liste der Abhängigkeiten auf der Seite [PYPI -Seite der Crane Toolbox] (Link zur PYPI -Seite) überprüfen.

Crane Toolbox kann auch manuell über den in diesem Repository verfügbaren Quellcode installiert werden.

Befehlszeilenmodus

Der Befehlszeilenmodus ist die einfachste Methode zur Verwendung dieses Pakets. Der Benutzer kann schnell alle Teile des Pakets ausführen und in sehr kurzer Zeit verwendbare Statistiken erstellen.

Es gibt drei verschiedene CLI-Befehle in der Toolbox, sie sind crane-import , crane-preprocess und crane-analysis-quanti . Damit handeln sie importieren/transformieren Rohdaten in ein Standard -CSV -Format, die Vorbereitung dieser Daten in ein nutzbares Format und schließlich die täglichen Frequenzen gegebener Schlüsselwörter.

Ausführlichkeiten zu den Parametern, die in jedem CLI -Tool bereitgestellt werden, überprüfen Sie bitte die detaillierte Dokumentation unten.

Funktionsmodus

Dieses Paket wurde unter Berücksichtigung der Wiederverwendung geschrieben. Während die CLI -Tools als eigenständige Tools einfacher zu verwenden sind, kann Crane Toolbox in einem anderen Python -Projekt importiert und verwendet werden. Alle Funktionen stehen dem Benutzer über die Standard -Python -Paketverwendung zur Verfügung. Darüber hinaus entspricht eine einzelne Funktion mit hoher Ebene jedem CLI -Tool, sodass Benutzer ihre gewünschte Pipeline einfach direkt von Python aufrufen können.

Module

Importmodul

Das Importmodul ist über den Befehlszeilen-Einstiegspunkt crane-import zugänglich.

Das Ziel dieses Moduls ist es, Raw Twitter JSON -Daten in etwas überschaubareres und Leichtes umzuwandeln, um den Rest der Pipeline zu verwenden. Dies ist kein erforderlicher Schritt und kann vom Benutzer manuell ausgeführt werden oder bereits über ein anderes Tool durchgeführt wurden, da Daten zwischen Modulen als Dateien übergeben werden.

Dieses Modul kann eine große Anzahl großer (mehrfacher Gigabyte-) Dateien verarbeiten, ohne sich stark auf Swap oder Speicherverbrauch zu verlassen. Dies wird durch das Lesen von Dateien nach Stücken erreicht (der Benutzer kann die Anzahl der Zeilen in den Optionen angeben) sowie in Stücken schreiben. Dies stellt sicher, dass zu einem bestimmten Zeitpunkt nur eine bestimmte Datenmenge im Speicher gehalten wird.

Darüber hinaus werden zusätzliche Tweet -Daten entfernt, die für die Analysepipeline nicht erforderlich sind, wodurch die Dateigröße reduziert und die Leistung späterer Schritte in diesem Paket erhöht wird.

Erwartete Eingangsformat

Das Modul versucht, eine Datei im angegebenen Ordner zu lesen, unabhängig von Erweiterung, Name usw. Es unterstützt jedes textbasierte Dateiformat (.Json, .csv, .txt). Darüber hinaus kann es komprimierte tar verarbeiten und mehrere Dateien oder Ordner in einem bestimmten Teerarchiv behandeln. Euen Derzeit unterstützt es nur einzeln komprimierte Teerarchive - daher werden keine tar.gz oder ähnlichen Formate unterstützt.

Unabhängig vom genauen Dateityp sollten Daten immer mit einem JSON-Objekt-Tweet pro Zeile unter Verwendung n als Zeilenzeichen gespeichert werden .

Ausgangsformat

Das Modul verkettet alle Dateien mit den folgenden Spalten zu einer einzelnen CSV -Datei:

Ausweis	Text	erstellt_at
eindeutige ID des Tweets	Volltext -Tweet	Zeitstempel des Tweets

Die CSV -Datei enthält keine Header , Comma -Separatoren und optionale Doppelzitate für Text.

Die Textspalte ist dynamisch ausgewählt, je nachdem, ob der Tweet über 140 Zeichen beträgt oder nicht. Weitere Informationen zu erweiterten Tweets finden Sie in der offiziellen Dokumentation zu erweiterten Tweets

Wenn die Ausgabedatei bereits vorhanden ist, wird sie an die vorhandene Datei angehängt. In dem Fall, dass es nicht existiert, erstellt es eine neue mit dem Standardpfad ("./Filtered_data.csv"), wenn keine angegeben ist.

CLI -Befehle

Das Importpaket kann als Befehlszeilen-Tool verwendet werden und unterstützt verschiedene Optionen.

(Erforderlich) --source-folder Der Quellordner oder die Datei zum Scannen nach Verarbeitung von Dateien/Archiven.
(Optional) --output-folder Der Ordner zum Speichern der Ausgabe. Der angegebene Ordner muss existieren. Standardmäßig zu ./ .
(Optional) --output-name Der Name, einschließlich der Erweiterung der Ausgabedatei. Standardmäßig output.csv .
--text-name
(Optional) --date-name den Namen des Namens für erstellte_at, Fall dieses Feld hat einen anderen Namen.
(Optional) --id-name den Namen des id-Felds, Fall dieses Feld hat einen anderen Namen.
(Optional) --tweet-language Die Sprache der in der Datei gespeicherten Tweets. Basierend auf dem Sprachfeld im JSON -Objekt. Standardmäßig an en .
(Optional) --max-lines-in-memory Die maximale Anzahl von Zeilen, die im Speicher gehalten werden. Dies kann so angepasst werden, dass sie für die Leistung oder auf Maschinen mit begrenztem Speicher optimiert werden. Standardeinstellung auf 50000 .
(Optional) --retweets verwenden dieses Flag, um Retweets in den Ausgangssatz aufzunehmen . Standardmäßig false

Ein vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:

crane-import --source-folder tweets/november --output-folder mydataset/data --max-lines-in-memory 2000 --output-name dataset.csv

Vorverarbeitungsmodul

Die Vorverarbeitungspipeline ist über den Befehlszeilen-Einstiegspunkt crane-preprocess zugänglich.

Die vorgeschlagene Vorverarbeitung ist aus Effrosynidis et al. (2017) unter Verwendung von Techniken 9, 0, 1, 3, 5 und 7 und 4.

Erwartete Eingangsformat

Der als erste Positionsargument angegebene Datensatz kann entweder ein Ordner von CSV -Dateien oder eine einzelne CSV -Datei sein. Jede CSV -Datei sollte 3 Spalten (ID der Eingabe, eindeutig sein, int; Text des Tweets, String; Zeitstempel: Zeitstempelzeichenfolge), keine Header , Comma -Separatoren und optionale Doppelzitate für Text.

Ausweis	Text	erstellt_at
eindeutige ID des Tweets	Volltext -Tweet	Zeitstempel des Tweets

Vorverarbeitungsschritte

In Ordnung und für eine bestimmte Zeichenfolge wird es:

Großbuchstaben in Kleinbuchstaben verwandeln,
Entfernen Sie entfeilte Unicode -Zeichenfolgen (z. B. u002c ),
Entfernen Sie Nicht-ASCII-Zeichen,
Ersetzen Sie URLs durch "URL" oder entfernen Sie sie, wenn -url angegeben ist.
Ersetzen Sie Erwähnungen (zB "@BoBTHESURFER") durch "Atuser" oder entfernen Sie sie, wenn -mention angegeben ist.
Entfernen Sie das Hash -Symbol vor Hashtags (z. B. "#spreadthelove" und segmentieren Sie die Hashtags, wenn -hashtag angegeben ist.
Ersetzen Sie Kontraktionen durch ihre volle Schreibweise (z. B. "Ich bin" wird "Ich bin").
Ersetzen Sie wiederholte Interpunktionszeichen durch ein textbezogenes Äquivalent (zB punct !!!
Ersetzen Sie die Zahlen durch ihre englische Textversion oder entfernen Sie sie, wenn -num angegeben ist.

Hashtags sind segmentiert, dh in Wörtern unter Verwendung des Wortsegmentpakets unterteilt. Euen Nur für englische Sprache unterstützt. Euen Euen Euen Euen Die Wortsegmentierung läuft in der Polynomzeit und erhöht die Vorverarbeitungszeit um mehrere Größenordnungen.

Euen Der Algorithmus zum Auspacken von Kontraktionen ist derzeit eher grundlegend. Es wird zum Beispiel fälschlicherweise die Besitzer "'s" als Verb -Kontraktion interpretieren.

Euen Ordinale Zahlen werden noch nicht unterstützt.

Ausgangsformat

Der verarbeitete Datensatz wird im Ordner als zweites Positionsargument gespeichert. Wenn es nicht existiert, wird der Ordner erstellt. Für jede Eingabedatei wird eine verarbeitete Datei generiert. Dateiennamen werden generiert, indem "_preprocessed" zum Namen der entsprechenden Eingabedatei angemeldet wird. Jede CSV -Datei enthält 4 Spalten (ID der Eingabe, sollte eindeutig sein, int; Originaltext des Tweets, String; vorverarbeiteter Text des Tweets, String ; Timestamp: Timestamp String), keine Header , Comma -Separatoren und optionale Doppelzitate für Text.

Ausweis	original_text	Clean_text	erstellt_at
eindeutige ID des Tweets	Volltext -Tweet	Vorverarbeiteter Text des Tweets	Zeitstempel des Tweets

CLI -Befehle

Die Pipeline hat zwei obligatorische Positionsargumente und fünf optionale Argumente:

(Erforderlich) Position 1. Pfad zum Ordner, der das mit dem Importmodul formatierte Datensatz oder eine einzelne Datensatzdatei enthält.
(Erforderlich) Position 2. Pfad zum Ordner, um den vorverarbeiteten Datensatz in zu speichern. Wenn es nicht vorhanden ist, wird der Ordner erstellt.
(Optional) -url oder --remove-url verwenden dieses Flag, um URLs aus den Tweets zu entfernen, anstatt sie durch 'URL' zu ersetzen.
(Optional) -mention oder --remove-mentions verwenden dieses Flag, um Benutzerzusagen "@UserHandle" aus den Tweets zu entfernen, anstatt sie durch "Atuser" zu ersetzen.
(Optional) -hashtag oder --segment-hashtags verwenden dieses Flag, um Hashtags zu segmentieren, anstatt einfach das vorhergehende '#' Zeichen zu entfernen.
(Optional) -punct oder --remove-punctuation Verwenden Sie dieses Flag, um alle Interpunktions zu entfernen, anstatt wiederholte Symbole und Newlines zu ersetzen.
(Optional) -num oder --remove-numbers verwenden dieses Flag, um alle Zahlen aus den Tweets zu entfernen, anstatt sie durch ihre Textversion zu ersetzen.

Ein vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:

crane-preprocess mydataset/data mydataset/preprocessedData -punct

Analysemodul

Derzeit bietet das Analysemodul nur eine einfache quantitative Analyse -Pipeline, um die tägliche Häufigkeit bestimmter Schlüsselwörter zu berechnen.

Einfache quantitative Analyse

Diese Analyse-Pipeline ist aus dem Befehlszeilen-Einstiegspunkt crane-analysis-quanti zugänglich.

Es berechnet die tägliche Häufigkeit bestimmter Schlüsselwörter in einem Datensatz. Es ermöglicht Varianten von Schlüsselwörtern. Zum Beispiel können das Vorkommen von "Jungen" und "Boyz" zusammen gezählt werden.

Erwartete Eingangsformat

Der als erste Positionsargument angegebene Datensatz kann entweder ein Ordner von CSV -Dateien oder eine einzelne CSV -Datei sein. Jede CSV -Datei sollte 4 Spalten (ID der Eingabe, eindeutig sein, int; Originaltext des Tweets, String; vorverarbeiteter Text des Tweets, String; Zeitstempel: Zeitstempelzeichenfolge), keine Header , Comma -Separatoren und optionale Doppelzitate für Text. Der vorverarbeitete Text wird als niedrigerer Fall angenommen.

Ausweis	original_text	Clean_text	erstellt_at
eindeutige ID des Tweets	Volltext -Tweet	Vorverarbeiteter Text des Tweets	Zeitstempel des Tweets

Die Schlüsselwörter sind in einem JSON -Wörterbuch definiert, in dem die Schlüssel die Hauptvariante für jedes Schlüsselwort und die Werte von Variantenlisten sind. Alle Keywords sollten eine niedrigere Saiten sein. Zum Beispiel:

{
	"color" : [
		" colour " ,
		" color "
	],
	"chinese" : [
		" chinese " ,
		" chineze " ,
		" chines "
	]
}

Ausgangsformat

Die Ausgabe ist eine CSV-Datei mit einer Tagesdatumspalte (Format "%y-%M-%d"), einer Total_Count- Spalte mit der täglichen Gesamtzahl der Tweets im Datensatz, einer [Keyword] _count -Spalte für jedes Schlüsselwort (die Hauptvariante wird verwendet, um die Spalte zu benennen, die die tägliche Anzahl von Tweets enthält, die zum mindestens ein Keyword und das Schlüsselwort und das Keyword. Nennen Sie die Spalte) mit der täglichen Häufigkeit von Tweets, die mindestens eine Variante des Schlüsselworts enthalten.

Zum Beispiel für die oben angegebenen Schlüsselwörter:

Tag	Total_count	color_count	Chinese_count	color_freq	Chinese_Freq
Datum	tägliche Anzahl von Tweets	Tägliche Anzahl von Tweets mit "Farbe" oder einer Variante	tägliche Anzahl von Tweets mit "Chinesisch" oder einer Variante	Tägliche Häufigkeit von Tweets mit "Farbe" oder einer Variante	tägliche Häufigkeit von Tweets mit "Chinesisch" oder einer Variante

CLI -Befehle

Die Pipeline hat drei obligatorische Positionsargumente und ein optionales Argument:

(Erforderlich) Position 1. Pfad zum Ordner, der die mit dem Vorverarbeitungsmodul vorgezogene Datensatz -Vorverarbeitungsdatei oder eine einzelne Datensatzdatei enthält.
(Erforderlich) Position 2. Pfad zur JSON -Datei, die die Schlüsselwörter und ihre Varianten enthält. Siehe unten für das erwartete Format.
(Erforderlich) Position 3. Pfad für die Ergebnisdatei.
(Optional) -d oder --date-format -String, das das Format der Daten im Datensatz definiert. Der Ausfall beträgt %A %b %d %H: %m: %s %z %y ".

Ein vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:

crane-analysis-quanti mydataset/preprocessedData keywords.json quanti_results.csv -d " %d %b %a %h:%M:%S %z %Y "

Visualisierungsmodul

Noch nicht implementiert

Beitragen

Zurück nach oben

Wir begrüßen alle Beiträge! Wenn Sie Fragen, eine Feature -Anfrage oder ein Feedback haben, verwenden Sie bitte die Probleme mit GitHub.

Auf der Seite "Ausgaben" funktioniert die Seite Ihrer guten alten Forum, mit vielen zusätzlichen Funktionen, die spezifisch für Programmier- und Git -Versionen sind. GitHub bietet eine detaillierte Anleitung für sie, aber hier sind die Grundlagen:

Suchen Sie die vorhandenen Probleme nach ähnlichen Fragen/Feature -Anfragen/Feedback
Wenn Sie ein ähnliches Problem finden, können Sie die Diskussion mit Ihren eigenen Details hinzufügen
Wenn Sie kein ähnliches Problem finden, erstellen Sie ein neues
Geben Sie so viele relevante Informationen wie möglich . Wenn Sie beispielsweise einen Fehler melden oder Hilfe bei einem Fehler erhalten möchten, geben Sie sowohl Ihre Code/Befehlszeile als auch die Fehlermeldung an. Wenn möglich, verlinken Sie zu den Daten.
Fügen Sie dem Problem geeignete Beschriftungen/Tags hinzu. Zum Beispiel "Dokumentation", wenn Ihnen Informationen im DOC fehlen, um die Toolbox zu verwenden.
Denken Sie immer daran, dass dies ein Freiwilligenprojekt ist, und die Mitwirkenden tun ihr Bestes, um zu helfen. Sei nett und geduldig .

Hinzufügen zur Codebasis

Sie können gerne Pull -Anfragen für offene Probleme einreichen. Insbesondere Probleme mit dem Tag "hilfsbereit" sind normalerweise Dinge, mit denen das Kernteam zu kämpfen hat. Hier sind die Richtlinien, die wir Sie bitten, bei der Beitrag zur Codebasis zu folgen.

Kommentieren Sie das Problem, um alle über Ihre Absicht zu informieren, dies zu tun, um sicherzustellen, dass niemand sonst an demselben Problem arbeitet.
Nehmen Sie nur ein Problem pro PR an, es sei denn, Sie haben es zuvor mit dem Kernteam besprochen und sie sind sich einig, dass ein gruppierter PR sinnvoller ist.
Verweisen Sie auf das Problem, das Sie in Ihrer PR angehen.
Markieren Sie Ihre PR mit "Bedarfs-Review", wenn Sie Ihre erste Einreichung vornehmen oder nach Abschluss der von Ihren Rezensenten angeforderten Änderungen.
Überprüfen Sie Ihre PR auf Bewertungen und seien Sie offen für Vorschläge. Wenn ein Prüfer Änderungen anfordert, ändert er das Etikett Ihres PR von "Need-Review" in "In-Progress".

Treten Sie dem Team bei

Wenn Sie sich weiter einbeziehen möchten (PRS überprüfen, neue Funktionen planen, Methoden für maschinelles Lernen recherchieren, Benutzerforschung durchführen, ...), können Sie dem Kernteam beitreten, indem Sie BOLTUC2 (AT) Hotmail (DOT) FR per E -Mail an Bord senden. Natürlich begrüßen wir Entwickler, aber auch Designer, Forscher aus allen akademischen Bereichen, technische Autoren ...

Wir haben uns entschlossen, Menschen privat zu beenden, anstatt alle unsere Ressourcen aus zwei Gründen im Repo zu teilen. Erstens wollten wir es Benutzern erleichtern, Open Source -Projekte zu erleichtern, um zu finden, was sie brauchen. Zweitens enthalten einige unserer Ressourcen private Informationen aus der Benutzerforschung.

Häufig gestellte Fragen

Zurück nach oben

Auf dem Kranprojekt

Was wird diese Website mit dem Repo verknüpft?

https://crane-toolbox.github.io/#/ ist ein Prototyp-Website-Build während des Resilienz-Challenge-Hackathons, um die Auswirkungen der Covid19-Pandemie auf die Online-Sinophobic-Hassrede zu quantifizieren und zu charakterisieren. Wir haben es online als ein sehr grundlegendes Beispiel für die Art der Datenanalyse gelassen, die mit Crane Toolbox durchgeführt werden könnte.

Werden Sie weiterhin an der Echtzeitanalyse von CoVID19-Online-Hassreden arbeiten?

Wir planen im Moment nicht. Aufgrund der Zusammensetzung des Teams haben wir beschlossen, unsere Bemühungen auf Crane Toolbox zu konzentrieren, wo wir glauben, dass wir etwas bewirken können.

Wer macht das?

_Lachapeliere Euen ? ? ?	_{Gianluca Stringhini} ?	_{Marko Shiva Pavlovic}	_{Claudio Catterina} Euen	_Svetlanamd ? ? ? ?	_Ian Euen ? ? ? ?	_{Paul Han}
_Kelly ? ?	_{Gabriel Ribeiro}	_Isaac	_{Tomáš Lokša}	_{Judith Van Stegeren}

Emoji -Schlüssel

Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!

Die Liste der Hackathon -Mitwirkenden für die erste Phase des Projekts finden Sie auf der Crane DevPost -Seite.

Kann ich helfen?

Ja! Schauen Sie sich den beitragenden Abschnitt an.

Bei der Verwendung von Crane Toolbox

Was ist Python? Was ist ein Python -Paket? Was ist ein Python -Modul?

Python ist eine sehr häufige Programmiersprache für Datenanalyseaufgaben. Pakete sind installierbare Add-Ons zur grundlegenden Python-Sprache. Grob gesagt ist ein Modul eine Datei mit Python -Code.

Wenn Sie mit Python völlig nicht vertraut sind, möchten Sie vielleicht einige mit der Kran -Toolbox mit ihm experimentieren.

Ich habe eine Frage/eine Feature -Anfrage/ein Feedback. Wie kontaktiere ich Sie?

Bitte verwenden Sie die Ausgabenseite dieses Repo. Weitere Informationen finden Sie im Abschnitt mit beitragender Abschnitt.

Kann ich Ihren Code für mein Projekt kopieren?

Crane Toolbox wird unter GNU Affero General Public Lizenz v3.0 verteilt.

Sie können es verwenden, sofern Sie die Lizenzanforderungen respektieren möchten: Fügen Sie eine Lizenz und eine Urheberrechtsanzeige ein, geben Sie die von Ihnen vorgenommenen Änderungen an, geben Sie Ihre Quelle (dieses Repo) an und verteilen Sie Ihren Code unter derselben Lizenz. Bitte beachten Sie, dass wir nicht für die Verwendung von diesem Code haften, und wir geben keine Garantie an.

Wie zitiere ich Crane Toolbox in meinem Papier?

Bitte verlinken Sie zu diesem Repo.

Wo finde ich Twitter -Daten?

Die Freigabe von Tweets -Datensätzen wird durch Twitter -Entwicklerbegriffe eingeschränkt. Sie können keine öffentlich verfügbaren Datensätze mit Tweets -Inhalten finden, sondern Datensätze von Tweet -IDs. Diese können zum Beispiel Hydrator hydratisiert werden.

Von dort hängt es wirklich von Ihrem Forschungsthema und Ihren Fragen ab. Einige sind sehr zeitkritisch, andere sind weniger. Wenn Ihre nicht sehr zeitkritisch ist, versuchen Sie Ihr Glück mit einer regulären Suchmaschine. Einige benötigen einen naiven Datensatz, der für den vollständigen Informationsfluss von Twitter repräsentativ ist. In diesem Fall ist es am besten, mit einem Forschungsteam zusammenzuarbeiten, das häufige Analysen auf Twitter -Inhalten durchführt. Sie halten wahrscheinlich einen Stream für die Erfassung von 1% der täglichen Twitter -Daten. Andere benötigen einen Datensatz, der bereits für bestimmte Schlüsselwörter oder Benutzer gefiltert wurde. Wenn dies Ihr Fall ist, versuchen Sie Ihr Glück mit einer regulären Suchmaschine. Wenn Sie keine historischen Daten benötigen, können Sie auch Ihren eigenen Twitter -Stream starten, um genau die von Ihnen gewünschten Daten zu sammeln.

Meine Daten sind nicht in Ihrem spezifischen Eingabeformat enthalten. Was mache ich?

Wir arbeiten daran, mehrere Standardeingangsformate in unser Importmodul aufzunehmen. Wenn Ihr Datenformat nicht unterstützt wird, setzen Sie sich bitte mit uns in Verbindung und wir werden unser Bestes tun, um die Unterstützung in der Crane -Toolbox zu erhalten oder Sie in eines unserer unterstützten Formate zu verwandeln.

Methode X ist sehr nützlich und sollte einbezogen werden. Warum ist es nicht da?

Vielleicht wissen wir nichts davon, vielleicht hatten wir noch keine Zeit, es umzusetzen, vielleicht entscheiden wir uns dafür, es aus einem bestimmten Grund nicht aufzunehmen. Bitte setzen Sie sich mit uns in Verbindung, um uns davon zu erzählen. (Es sei denn, es handelt sich um eine proprietäre Methode mit einer Verwendungsgebühr.)

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-30
Größe 10.87MB
Kommt von Github

Ähnliche Anwendungen

azure pipelines tasks

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
trivy azure pipelines task

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01