Project Crane (Crisis Rassismus and Narrative Evaluation) zielt darauf ab , Forscher und antirassistische Organisationen zu unterstützen , die hochmoderne Textanalysealgorithmen verwenden möchten, um zu untersuchen, wie sich spezifische Ereignisse auf Online-Hassrede und rassistische Erzählungen auswirken . Crane Toolbox ist ein Python -Paket : Nach der Installation sind die Tools in Crane als Funktionen verfügbar, die Benutzer in ihren Python -Programmen oder direkt über ihr Terminal verwenden können. Crane richtet sich an Benutzer mit grundlegender Programmierung, aber ohne maschinelles Lernen .
Springe zum Quick-Start

Zurück nach oben
Krisenrassismus und narrative Bewertung oder kurz Crane wurden während der Resilienz-Herausforderung, einem CoVID19-betriebenen Hackathon, geboren. In neun Wochen entwickelten ein interdisziplinäres Team, das sich aus Studenten und professionellen Designern, Programmierern und Informatikforschern zusammensetzt, eine Prototyp-Website zur Echtzeitüberwachung rassistischer Rhetorik, die mit der CoVID19-Pandemie verbunden war . Das Projekt wurde von Gianluca Stringhini, Universität Boston, nach seiner Arbeit zum frühen Auftreten von Online-Sinophobic-Verhalten während der Pandemie von Covid19 (SARS-CoV-2) vorgeschlagen. Die Leser finden möglicherweise weitere Details zu dem Ansatz für die Resilienz-Herausforderung auf der entsprechenden DevPost-Seite und den Abstandsfähigkeits-Challenge-Legacy-Zweig dieses Repositorys.
Während der Literaturrecherche stellten wir fest, dass nur wenige Artikel zur Überwachung von Online -Hassreden sowohl einen soziologischen Forschungsansatz als auch die jüngsten Tools für natürliche Sprachverarbeitung hatten. Die Literatur scheint hauptsächlich in methodische Artikel unterteilt zu sein, die darauf abzielen, neue Instrumente für maschinelles Lernen zu entwickeln, um Rassismus zu erkennen und zu charakterisieren, sowie traditionelle soziologische Forschungsansätze, sowohl qualitativ als auch quantitativ, die die verfügbaren Daten- und Analysemethoden nicht voll ausnutzen.
Wir sind uns bewusst, dass dies teilweise auf die Schwierigkeit zurückzuführen ist, interdisziplinäre Teams aus sehr unterschiedlichen Bereichen zu sammeln, und teilweise mit der eher jungen und prekären Natur der Erkennung automatisierter Hassreden.
Unsere Erfahrungen während des Hackathons glauben, dass diese Themen etwas gelindert werden könnten, indem Sozialwissenschaften benutzerfreundliche Tools zur Verfügung gestellt werden, die die robusteren Methoden zur Erkennung und Analyse der Hasssprache nutzen.
Crane Toolbox soll Forscher und antirassistische Organisationen unterstützen, um zu untersuchen , wie sich spezifische Ereignisse auf Online-Hassreden und rassistische Erzählungen auswirken . Die hochmodernen Textanalysealgorithmen entwickeln sich schnell und ihre Ausbreitung beschränkt sich häufig auf das dedizierte Bereich der Informatikforschung. Die Crane Toolbox wickelt einige dieser Methoden, die typische Fragen der Sozialwissenschaften entsprechen, in benutzerfreundliche Tools, die keine Fähigkeiten zum maschinellen Lernen erfordern .
Crane Toolbox ist ein Python -Paket . Nach der Installation können Benutzer ihre Funktionen in ihren Python -Skripten aufrufen oder die Tools verwenden, die sie direkt über ihr Terminal liefert. Diese Tools sind in mehreren Unterhüllungen organisiert, die als Module bezeichnet werden. Jedes Modul entspricht einem Schritt in der allgemeinen Analyse -Pipeline.
Die erste Version von Crane Toolbox bietet Tools und Dokumentation, mit denen Benutzer die von ihnen extrahierten Daten aus Twitter ( Importmodul ) filtern und formatieren können, sie für die Analyse ( Vorverarbeitungsmodul ) vorbereiten, die Analyse (ES) ihres Auswahl ( Analysemodul ) durchführen und eine grundlegende grafische Darstellung der Ergebnisse ( Visualisierungsmodul ) ausführen.
Zurück nach oben
Dieser Abschnitt richtet sich an erfahrene Programmierer, die Kopf voran in das tiefe Ende eintauchen möchten. Wenn Sie keine Ahnung haben, wovon wir dort sprechen, rennen Sie bitte nicht schreien! Obwohl die Länge des Abschnitts zur Paketdokumentation es ein wenig entmutigend macht, haben wir es mit Blick auf Nicht-Spezialisten geschrieben, sodass Sie alle Anweisungen und Ratschläge finden, die Sie für die Kran-Toolbox benötigen.
pip install cranetoolbox Der erste Schritt besteht darin, Ihre Daten in unser gemeinsames Datenaustauschformat, eine CSV -Datei mit drei Spalten, umzuwandeln. Wir verwenden das crane-import -Modul, um diesen Schritt auszuführen. Es enthält Quelldateien, die ein einzelnes JSON -Tweet -Objekt pro Zeile enthalten und sie in eine leichte CSV -Datei umwandeln. Die verfügbaren Parameter sind im Abschnitt Importmodul aufgeführt.
crane-import --source-folder ./my_source --output-folder ./my_outputEs ist wichtig, Textdaten vor der Datenanalyse aufzuräumen. Wir bieten ein CLI -Tool, um diesen Schritt mit mehreren Vorverarbeitungsoptionen auszuführen. Die verfügbaren Parameter sind im Abschnitt Vorverarbeitungsmodul aufgeführt.
crane-preprocess ./my_output ./my_preproc_outputWir bieten derzeit ein einzelnes statistisches Analysetool, das unter Verwendung eines bereitgestellten Keywords eine grundlegende Frequenzanalyse im Datensatz durchführt. Die erforderlichen Eingangsformate und verfügbaren Parameter sind im Abschnitt Analysemodul aufgeführt.
crane-analysis-quanti ./my_preproc_output keywords.json quanti_results.csvZurück nach oben
Dieser Abschnitt ist in zwei Teile unterteilt: eine erste, die beschreibt, wie man Crane Toolbox installiert und seine Tools ausführt, entweder im Befehlszeilenmodus in einem Terminal oder über Funktionsaufrufe in Python-Skripten; und eine zweite Angabe von Details zu jedem Modul, insbesondere Datenformat und Parameterauswahl.
Erweiterte Benutzer finden in der Code -Dokumentation zusätzliche Informationen zum Inhalt jedes Moduls.
Um Crane Toolbox erfolgreich zu installieren, benötigen Sie:
Einige Grundkenntnisse in der Programmierung und den Befehlslinien werden stark empfohlen , aber die Tapferkeit und die Hütten können sich dafür entscheiden, ohne weiterzumachen.
Wenn die obige Liste für Sie klar ist, gehen Sie zu den Installationsanweisungen. Ansonsten lesen Sie die folgenden Absätze, um Ihre Umgebung vorzubereiten.
Das Terminal ist eine Schnittstelle, in der Sie textbasierte Befehle eingeben und ausführen können. Möglicherweise finden Sie hier eine detailliertere Erklärung und Bilder darüber, wie ein Terminal hier aussieht.
Ein Terminal ist bereits auf Ihrem Computer installiert. Wenn Sie ein UNIX-basiertes Betriebssystem (entweder macOSX oder eine Linux-Verteilung ) verwenden, wird es treffend als Terminal bezeichnet und lebt mit Ihren anderen Anwendungen. Wenn Sie ein Windows -Betriebssystem verwenden, wird es als Eingabeaufforderung bezeichnet und finden Sie in Ihrem Startmenü. Für Windows 8 und 10 befindet es sich im Windows -Systemordner .
Um einen Befehl im Terminal auszuführen, geben Sie ihn einfach ein und drücken Sie die Eingabetaste.
Python 3 ist eine Programmiersprache.
Der Installationsprozess hängt von Ihrem Betriebssystem ab. Grundlegende Anweisungen finden Sie auf der offiziellen Python -Website. Sie werden jedoch problemlos detailliertere Anleitungen im Internet finden.
PIP ist ein Paketmanager: Sie können Python -Pakete herunterladen und bei Bedarf aktualisieren.
Grundlegende Anweisungen für die Installation finden Sie auf der offiziellen Website. Es wird weit verbreitet, so dass Schritt-für-Schritt-Guides und andere Ressourcen im Internet leicht zu finden sind.
pip3 . Sie können überprüfen, welche Version von pip verwendet wird, indem pip --version in Ihrem Terminal ausgeführt wird ( python -m pip --version für Windows -Benutzer).
Wir empfehlen dringend, Crane Toolbox mit pip zu installieren. Führen Sie pip install cranetoolbox . Der Befehl kann einige Zeit in Anspruch nehmen, da pip auch automatisch alle Python -Pakete installiert, die für die Crane -Toolbox benötigt werden. Sie können die Liste der Abhängigkeiten auf der Seite [PYPI -Seite der Crane Toolbox] (Link zur PYPI -Seite) überprüfen.
Crane Toolbox kann auch manuell über den in diesem Repository verfügbaren Quellcode installiert werden.
Der Befehlszeilenmodus ist die einfachste Methode zur Verwendung dieses Pakets. Der Benutzer kann schnell alle Teile des Pakets ausführen und in sehr kurzer Zeit verwendbare Statistiken erstellen.
Es gibt drei verschiedene CLI-Befehle in der Toolbox, sie sind crane-import , crane-preprocess und crane-analysis-quanti . Damit handeln sie importieren/transformieren Rohdaten in ein Standard -CSV -Format, die Vorbereitung dieser Daten in ein nutzbares Format und schließlich die täglichen Frequenzen gegebener Schlüsselwörter.
Ausführlichkeiten zu den Parametern, die in jedem CLI -Tool bereitgestellt werden, überprüfen Sie bitte die detaillierte Dokumentation unten.
Dieses Paket wurde unter Berücksichtigung der Wiederverwendung geschrieben. Während die CLI -Tools als eigenständige Tools einfacher zu verwenden sind, kann Crane Toolbox in einem anderen Python -Projekt importiert und verwendet werden. Alle Funktionen stehen dem Benutzer über die Standard -Python -Paketverwendung zur Verfügung. Darüber hinaus entspricht eine einzelne Funktion mit hoher Ebene jedem CLI -Tool, sodass Benutzer ihre gewünschte Pipeline einfach direkt von Python aufrufen können.
Das Importmodul ist über den Befehlszeilen-Einstiegspunkt crane-import zugänglich.
Das Ziel dieses Moduls ist es, Raw Twitter JSON -Daten in etwas überschaubareres und Leichtes umzuwandeln, um den Rest der Pipeline zu verwenden. Dies ist kein erforderlicher Schritt und kann vom Benutzer manuell ausgeführt werden oder bereits über ein anderes Tool durchgeführt wurden, da Daten zwischen Modulen als Dateien übergeben werden.
Dieses Modul kann eine große Anzahl großer (mehrfacher Gigabyte-) Dateien verarbeiten, ohne sich stark auf Swap oder Speicherverbrauch zu verlassen. Dies wird durch das Lesen von Dateien nach Stücken erreicht (der Benutzer kann die Anzahl der Zeilen in den Optionen angeben) sowie in Stücken schreiben. Dies stellt sicher, dass zu einem bestimmten Zeitpunkt nur eine bestimmte Datenmenge im Speicher gehalten wird.
Darüber hinaus werden zusätzliche Tweet -Daten entfernt, die für die Analysepipeline nicht erforderlich sind, wodurch die Dateigröße reduziert und die Leistung späterer Schritte in diesem Paket erhöht wird.
Das Modul versucht, eine Datei im angegebenen Ordner zu lesen, unabhängig von Erweiterung, Name usw. Es unterstützt jedes textbasierte Dateiformat (.Json, .csv, .txt). Darüber hinaus kann es komprimierte tar verarbeiten und mehrere Dateien oder Ordner in einem bestimmten Teerarchiv behandeln.tar.gz oder ähnlichen Formate unterstützt.
Unabhängig vom genauen Dateityp sollten Daten immer mit einem JSON-Objekt-Tweet pro Zeile unter Verwendung n als Zeilenzeichen gespeichert werden .
Das Modul verkettet alle Dateien mit den folgenden Spalten zu einer einzelnen CSV -Datei:
| Ausweis | Text | erstellt_at |
|---|---|---|
| eindeutige ID des Tweets | Volltext -Tweet | Zeitstempel des Tweets |
Die CSV -Datei enthält keine Header , Comma -Separatoren und optionale Doppelzitate für Text.
Die Textspalte ist dynamisch ausgewählt, je nachdem, ob der Tweet über 140 Zeichen beträgt oder nicht. Weitere Informationen zu erweiterten Tweets finden Sie in der offiziellen Dokumentation zu erweiterten Tweets
Wenn die Ausgabedatei bereits vorhanden ist, wird sie an die vorhandene Datei angehängt. In dem Fall, dass es nicht existiert, erstellt es eine neue mit dem Standardpfad ("./Filtered_data.csv"), wenn keine angegeben ist.
Das Importpaket kann als Befehlszeilen-Tool verwendet werden und unterstützt verschiedene Optionen.
--source-folder Der Quellordner oder die Datei zum Scannen nach Verarbeitung von Dateien/Archiven.--output-folder Der Ordner zum Speichern der Ausgabe. Der angegebene Ordner muss existieren. Standardmäßig zu ./ .--output-name Der Name, einschließlich der Erweiterung der Ausgabedatei. Standardmäßig output.csv .--text-name--date-name den Namen des Namens für erstellte_at, Fall dieses Feld hat einen anderen Namen.--id-name den Namen des id-Felds, Fall dieses Feld hat einen anderen Namen.--tweet-language Die Sprache der in der Datei gespeicherten Tweets. Basierend auf dem Sprachfeld im JSON -Objekt. Standardmäßig an en .--max-lines-in-memory Die maximale Anzahl von Zeilen, die im Speicher gehalten werden. Dies kann so angepasst werden, dass sie für die Leistung oder auf Maschinen mit begrenztem Speicher optimiert werden. Standardeinstellung auf 50000 .--retweets verwenden dieses Flag, um Retweets in den Ausgangssatz aufzunehmen . Standardmäßig falseEin vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:
crane-import --source-folder tweets/november --output-folder mydataset/data --max-lines-in-memory 2000 --output-name dataset.csv Die Vorverarbeitungspipeline ist über den Befehlszeilen-Einstiegspunkt crane-preprocess zugänglich.
Die vorgeschlagene Vorverarbeitung ist aus Effrosynidis et al. (2017) unter Verwendung von Techniken 9, 0, 1, 3, 5 und 7 und 4.
Der als erste Positionsargument angegebene Datensatz kann entweder ein Ordner von CSV -Dateien oder eine einzelne CSV -Datei sein. Jede CSV -Datei sollte 3 Spalten (ID der Eingabe, eindeutig sein, int; Text des Tweets, String; Zeitstempel: Zeitstempelzeichenfolge), keine Header , Comma -Separatoren und optionale Doppelzitate für Text.
| Ausweis | Text | erstellt_at |
|---|---|---|
| eindeutige ID des Tweets | Volltext -Tweet | Zeitstempel des Tweets |
In Ordnung und für eine bestimmte Zeichenfolge wird es:
u002c ),-url angegeben ist.-mention angegeben ist.-hashtag angegeben ist.punct !!!-num angegeben ist. Hashtags sind segmentiert, dh in Wörtern unter Verwendung des Wortsegmentpakets unterteilt.
Der verarbeitete Datensatz wird im Ordner als zweites Positionsargument gespeichert. Wenn es nicht existiert, wird der Ordner erstellt. Für jede Eingabedatei wird eine verarbeitete Datei generiert. Dateiennamen werden generiert, indem "_preprocessed" zum Namen der entsprechenden Eingabedatei angemeldet wird. Jede CSV -Datei enthält 4 Spalten (ID der Eingabe, sollte eindeutig sein, int; Originaltext des Tweets, String; vorverarbeiteter Text des Tweets, String ; Timestamp: Timestamp String), keine Header , Comma -Separatoren und optionale Doppelzitate für Text.
| Ausweis | original_text | Clean_text | erstellt_at |
|---|---|---|---|
| eindeutige ID des Tweets | Volltext -Tweet | Vorverarbeiteter Text des Tweets | Zeitstempel des Tweets |
Die Pipeline hat zwei obligatorische Positionsargumente und fünf optionale Argumente:
-url oder --remove-url verwenden dieses Flag, um URLs aus den Tweets zu entfernen, anstatt sie durch 'URL' zu ersetzen.-mention oder --remove-mentions verwenden dieses Flag, um Benutzerzusagen "@UserHandle" aus den Tweets zu entfernen, anstatt sie durch "Atuser" zu ersetzen.-hashtag oder --segment-hashtags verwenden dieses Flag, um Hashtags zu segmentieren, anstatt einfach das vorhergehende '#' Zeichen zu entfernen.-punct oder --remove-punctuation Verwenden Sie dieses Flag, um alle Interpunktions zu entfernen, anstatt wiederholte Symbole und Newlines zu ersetzen.-num oder --remove-numbers verwenden dieses Flag, um alle Zahlen aus den Tweets zu entfernen, anstatt sie durch ihre Textversion zu ersetzen.Ein vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:
crane-preprocess mydataset/data mydataset/preprocessedData -punctDerzeit bietet das Analysemodul nur eine einfache quantitative Analyse -Pipeline, um die tägliche Häufigkeit bestimmter Schlüsselwörter zu berechnen.
Diese Analyse-Pipeline ist aus dem Befehlszeilen-Einstiegspunkt crane-analysis-quanti zugänglich.
Es berechnet die tägliche Häufigkeit bestimmter Schlüsselwörter in einem Datensatz. Es ermöglicht Varianten von Schlüsselwörtern. Zum Beispiel können das Vorkommen von "Jungen" und "Boyz" zusammen gezählt werden.
Der als erste Positionsargument angegebene Datensatz kann entweder ein Ordner von CSV -Dateien oder eine einzelne CSV -Datei sein. Jede CSV -Datei sollte 4 Spalten (ID der Eingabe, eindeutig sein, int; Originaltext des Tweets, String; vorverarbeiteter Text des Tweets, String; Zeitstempel: Zeitstempelzeichenfolge), keine Header , Comma -Separatoren und optionale Doppelzitate für Text. Der vorverarbeitete Text wird als niedrigerer Fall angenommen.
| Ausweis | original_text | Clean_text | erstellt_at |
|---|---|---|---|
| eindeutige ID des Tweets | Volltext -Tweet | Vorverarbeiteter Text des Tweets | Zeitstempel des Tweets |
Die Schlüsselwörter sind in einem JSON -Wörterbuch definiert, in dem die Schlüssel die Hauptvariante für jedes Schlüsselwort und die Werte von Variantenlisten sind. Alle Keywords sollten eine niedrigere Saiten sein. Zum Beispiel:
{
"color" : [
" colour " ,
" color "
],
"chinese" : [
" chinese " ,
" chineze " ,
" chines "
]
}Die Ausgabe ist eine CSV-Datei mit einer Tagesdatumspalte (Format "%y-%M-%d"), einer Total_Count- Spalte mit der täglichen Gesamtzahl der Tweets im Datensatz, einer [Keyword] _count -Spalte für jedes Schlüsselwort (die Hauptvariante wird verwendet, um die Spalte zu benennen, die die tägliche Anzahl von Tweets enthält, die zum mindestens ein Keyword und das Schlüsselwort und das Keyword. Nennen Sie die Spalte) mit der täglichen Häufigkeit von Tweets, die mindestens eine Variante des Schlüsselworts enthalten.
Zum Beispiel für die oben angegebenen Schlüsselwörter:
| Tag | Total_count | color_count | Chinese_count | color_freq | Chinese_Freq |
|---|---|---|---|---|---|
| Datum | tägliche Anzahl von Tweets | Tägliche Anzahl von Tweets mit "Farbe" oder einer Variante | tägliche Anzahl von Tweets mit "Chinesisch" oder einer Variante | Tägliche Häufigkeit von Tweets mit "Farbe" oder einer Variante | tägliche Häufigkeit von Tweets mit "Chinesisch" oder einer Variante |
Die Pipeline hat drei obligatorische Positionsargumente und ein optionales Argument:
-d oder --date-format -String, das das Format der Daten im Datensatz definiert. Der Ausfall beträgt %A %b %d %H: %m: %s %z %y ".Ein vollständiges Beispiel für den Befehlszeilen-Einstiegspunkt:
crane-analysis-quanti mydataset/preprocessedData keywords.json quanti_results.csv -d " %d %b %a %h:%M:%S %z %Y " Noch nicht implementiert
Zurück nach oben
Wir begrüßen alle Beiträge! Wenn Sie Fragen, eine Feature -Anfrage oder ein Feedback haben, verwenden Sie bitte die Probleme mit GitHub.
Auf der Seite "Ausgaben" funktioniert die Seite Ihrer guten alten Forum, mit vielen zusätzlichen Funktionen, die spezifisch für Programmier- und Git -Versionen sind. GitHub bietet eine detaillierte Anleitung für sie, aber hier sind die Grundlagen:
Sie können gerne Pull -Anfragen für offene Probleme einreichen. Insbesondere Probleme mit dem Tag "hilfsbereit" sind normalerweise Dinge, mit denen das Kernteam zu kämpfen hat. Hier sind die Richtlinien, die wir Sie bitten, bei der Beitrag zur Codebasis zu folgen.
Wenn Sie sich weiter einbeziehen möchten (PRS überprüfen, neue Funktionen planen, Methoden für maschinelles Lernen recherchieren, Benutzerforschung durchführen, ...), können Sie dem Kernteam beitreten, indem Sie BOLTUC2 (AT) Hotmail (DOT) FR per E -Mail an Bord senden. Natürlich begrüßen wir Entwickler, aber auch Designer, Forscher aus allen akademischen Bereichen, technische Autoren ...
Wir haben uns entschlossen, Menschen privat zu beenden, anstatt alle unsere Ressourcen aus zwei Gründen im Repo zu teilen. Erstens wollten wir es Benutzern erleichtern, Open Source -Projekte zu erleichtern, um zu finden, was sie brauchen. Zweitens enthalten einige unserer Ressourcen private Informationen aus der Benutzerforschung.
Zurück nach oben
https://crane-toolbox.github.io/#/ ist ein Prototyp-Website-Build während des Resilienz-Challenge-Hackathons, um die Auswirkungen der Covid19-Pandemie auf die Online-Sinophobic-Hassrede zu quantifizieren und zu charakterisieren. Wir haben es online als ein sehr grundlegendes Beispiel für die Art der Datenanalyse gelassen, die mit Crane Toolbox durchgeführt werden könnte.
Wir planen im Moment nicht. Aufgrund der Zusammensetzung des Teams haben wir beschlossen, unsere Bemühungen auf Crane Toolbox zu konzentrieren, wo wir glauben, dass wir etwas bewirken können.
Lachapeliere | Gianluca Stringhini ? | Marko Shiva Pavlovic | Claudio Catterina | Svetlanamd ? ? ? ? | Ian | Paul Han |
Kelly ? ? | Gabriel Ribeiro | Isaac | Tomáš Lokša | Judith Van Stegeren |
Emoji -Schlüssel
Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!
Die Liste der Hackathon -Mitwirkenden für die erste Phase des Projekts finden Sie auf der Crane DevPost -Seite.
Ja! Schauen Sie sich den beitragenden Abschnitt an.
Python ist eine sehr häufige Programmiersprache für Datenanalyseaufgaben. Pakete sind installierbare Add-Ons zur grundlegenden Python-Sprache. Grob gesagt ist ein Modul eine Datei mit Python -Code.
Wenn Sie mit Python völlig nicht vertraut sind, möchten Sie vielleicht einige mit der Kran -Toolbox mit ihm experimentieren.
Bitte verwenden Sie die Ausgabenseite dieses Repo. Weitere Informationen finden Sie im Abschnitt mit beitragender Abschnitt.
Crane Toolbox wird unter GNU Affero General Public Lizenz v3.0 verteilt.
Sie können es verwenden, sofern Sie die Lizenzanforderungen respektieren möchten: Fügen Sie eine Lizenz und eine Urheberrechtsanzeige ein, geben Sie die von Ihnen vorgenommenen Änderungen an, geben Sie Ihre Quelle (dieses Repo) an und verteilen Sie Ihren Code unter derselben Lizenz. Bitte beachten Sie, dass wir nicht für die Verwendung von diesem Code haften, und wir geben keine Garantie an.
Bitte verlinken Sie zu diesem Repo.
Die Freigabe von Tweets -Datensätzen wird durch Twitter -Entwicklerbegriffe eingeschränkt. Sie können keine öffentlich verfügbaren Datensätze mit Tweets -Inhalten finden, sondern Datensätze von Tweet -IDs. Diese können zum Beispiel Hydrator hydratisiert werden.
Von dort hängt es wirklich von Ihrem Forschungsthema und Ihren Fragen ab. Einige sind sehr zeitkritisch, andere sind weniger. Wenn Ihre nicht sehr zeitkritisch ist, versuchen Sie Ihr Glück mit einer regulären Suchmaschine. Einige benötigen einen naiven Datensatz, der für den vollständigen Informationsfluss von Twitter repräsentativ ist. In diesem Fall ist es am besten, mit einem Forschungsteam zusammenzuarbeiten, das häufige Analysen auf Twitter -Inhalten durchführt. Sie halten wahrscheinlich einen Stream für die Erfassung von 1% der täglichen Twitter -Daten. Andere benötigen einen Datensatz, der bereits für bestimmte Schlüsselwörter oder Benutzer gefiltert wurde. Wenn dies Ihr Fall ist, versuchen Sie Ihr Glück mit einer regulären Suchmaschine. Wenn Sie keine historischen Daten benötigen, können Sie auch Ihren eigenen Twitter -Stream starten, um genau die von Ihnen gewünschten Daten zu sammeln.
Wir arbeiten daran, mehrere Standardeingangsformate in unser Importmodul aufzunehmen. Wenn Ihr Datenformat nicht unterstützt wird, setzen Sie sich bitte mit uns in Verbindung und wir werden unser Bestes tun, um die Unterstützung in der Crane -Toolbox zu erhalten oder Sie in eines unserer unterstützten Formate zu verwandeln.
Vielleicht wissen wir nichts davon, vielleicht hatten wir noch keine Zeit, es umzusetzen, vielleicht entscheiden wir uns dafür, es aus einem bestimmten Grund nicht aufzunehmen. Bitte setzen Sie sich mit uns in Verbindung, um uns davon zu erzählen. (Es sei denn, es handelt sich um eine proprietäre Methode mit einer Verwendungsgebühr.)