Project Crane (위기 인종 차별 및 이야기 평가)은 최첨단 텍스트 분석 알고리즘을 사용하여 특정 사건이 온라인 증오 연설 및 인종 차별적 이야기에 어떤 영향을 미치는지 연구하기 위해 연구원 및 반 인종주의 조직을 지원하는 것을 목표로합니다. Crane Toolbox는 Python 패키지 입니다. 일단 설치되면 Crane의 도구는 사용자가 Python 프로그램이나 터미널을 통해 직접 사용할 수있는 기능으로 사용할 수 있습니다. 크레인은 기본 프로그래밍이지만 머신 러닝 기술이없는 사용자를 대상으로합니다.
빠른 시작으로 건너 뛰십시오

위로 돌아갑니다
위기 인종 차별주의와 서술 적 평가 , 또는 짧은 크레인은 COVID19- 구동 해커 톤 인 탄력성 도전에서 태어났다. 9 주 동안, 학생과 전문 디자이너, 프로그래머 및 컴퓨터 과학 연구원으로 구성된 학제 간 팀은 Covid19 Pandemic과 연결된 인종 차별 수사를 실시간으로 모니터링하기 위한 프로토 타입 웹 사이트를 개발했습니다. 이 프로젝트는 보스턴 대학교의 Gianluca Stringhini가 제안했으며 Covid19 (SARS-Cov-2) 전염병 기간 동안 온라인 sinophobic 행동의 조기 출현에 대한 그의 작업에 따라 제안되었습니다. 독자는 해당 DevPost 페이지에서 탄력성 챌린지에 대한 접근 방식에 대한 자세한 내용 과이 저장소의 탄력성 상실 레지 비시 브랜치에 대한 자세한 내용을 찾을 수 있습니다.
문학 검토를 수행하는 동안 온라인 증오 음성 모니터링에 관한 논문은 사회학 연구 접근 방식과 최근 자연어 처리 도구를 모두 가지고 있음을 알게되었습니다. 이 문헌은 주로 인종 차별을 감지하고 특성화하기위한 새로운 기계 학습 도구를 개발하는 방법 론적 논문으로 나뉘어져 있으며, 이용 가능한 데이터 및 분석 방법을 최대한 활용하지 않는 질적 및 정량적 전통적인 사회학 연구 접근법.
우리는 이것이 부분적으로 매우 다른 분야에서 학제 간 팀을 수집하는 데 어려움이 있으며, 부분적으로 자동 증오 음성 감지의 다소 젊고 불안정한 특성에 기인한다는 것을 알고 있습니다.
Hackathon 동안의 경험은 사회 과학 연구자들에게 현재 증오 음성 감지 및 분석 방법의보다 강력한 사용자 친화적 도구를 제공함으로써 이러한 문제가 다소 완화 될 수 있다고 믿게합니다.
Crane Toolbox는 특정 사건이 온라인 증오 연설 및 인종 차별적 이야기에 어떤 영향을 미치는지 연구 할 수 있는 연구원 및 반 인종주의 조직을 지원하도록 설계되었습니다. 최첨단 텍스트 분석 알고리즘은 빠르게 발전하며 스프레드는 종종 컴퓨터 과학 연구의 전용 분야로 제한됩니다. Crane Toolbox는 일반적인 사회 과학 질문에 맞는 이러한 방법 중 일부를 기계 학습 기술이 필요없는 사용자 친화적 인 도구 로 랩합니다.
크레인 툴 박스는 파이썬 패키지 입니다. 설치되면 사용자는 파이썬 스크립트에서 기능을 호출하거나 터미널을 통해 직접 제공하는 도구를 사용할 수 있습니다. 이러한 도구는 모듈이라는 여러 하위 패키지로 구성됩니다. 각 모듈은 일반 분석 파이프 라인의 단계에 해당합니다.
Crane Toolbox의 첫 번째 버전은 사용자가 Twitter ( 가져 오기 모듈)에서 추출한 데이터를 필터링하고 형식화하고, 분석을 준비하고 ( 전처리 모듈) 선택한 분석 ( 분석 모듈 )을 수행하고 결과의 기본 그래픽 표현을 얻을 수있는 도구와 문서 를 제공 합니다.
위로 돌아갑니다
이 섹션은 헤드 우선으로 깊은 곳으로 뛰어 들기를 원하는 숙련 된 프로그래머를위한 것입니다. 우리가 거기에서 무엇에 대해 이야기하고 있는지 전혀 모른다면 비명을 지르지 마십시오! 패키지 문서 섹션의 길이가 약간 어려울 수 있지만, 우리는 비전문가를 염두에두고 썼으므로 크레인 도구 상자를 사용하는 데 필요한 모든 지침과 조언을 찾아야합니다.
pip install cranetoolbox 첫 번째 단계는 데이터를 공통 데이터 교환 형식 인 세 열 CSV 파일로 변환하는 것입니다. crane-import 모듈을 사용 하여이 단계를 수행합니다. 라인 당 단일 JSON 트윗 객체가 포함 된 소스 파일을 사용하여 경량 CSV 파일로 변환합니다. 사용 가능한 매개 변수는 가져 오기 모듈 섹션에 자세히 설명되어 있습니다.
crane-import --source-folder ./my_source --output-folder ./my_output데이터 분석 전에 텍스트 데이터를 정리하는 것이 중요합니다. 몇 가지 전처리 옵션과 함께이 단계를 수행 할 수있는 CLI 도구를 제공합니다. 사용 가능한 매개 변수는 전처리 모듈 섹션에 자세히 설명되어 있습니다.
crane-preprocess ./my_output ./my_preproc_output우리는 현재 제공된 키워드 세트를 사용하여 데이터 세트에서 기본 주파수 분석을 수행하는 단일 통계 분석 도구를 제공합니다. 필요한 입력 형식 및 사용 가능한 매개 변수는 분석 모듈 섹션에 자세히 설명되어 있습니다.
crane-analysis-quanti ./my_preproc_output keywords.json quanti_results.csv위로 돌아갑니다
이 섹션은 두 부분으로 나뉩니다. 첫 번째 부분은 크레인 도구 상자를 설치하고 도구를 터미널의 명령 줄 모드로 실행하는 방법 또는 Python 스크립트의 기능 호출을 통해 도구를 실행하는 방법을 설명합니다. 두 번째는 각 모듈, 특히 데이터 형식 및 매개 변수 선택에 대한 세부 정보를 제공합니다.
고급 사용자는 코드 문서에서 각 모듈의 내용에 대한 추가 정보를 찾을 수 있습니다.
Crane Toolbox를 성공적으로 설치하려면 다음과 같은 것이 필요합니다.
프로그래밍 및 명령 선에 대한 몇 가지 기본 지식이 강력하게 권장되지만 용감한 사람들은없이 진행할 수 있습니다.
위 목록이 명확한 경우 설치 지침으로 건너 뛰십시오. 그렇지 않으면 다음 단락을 읽고 환경을 준비하십시오.
터미널은 텍스트 기반 명령을 입력하고 실행할 수있는 인터페이스입니다. 여기에서 더 자세한 설명과 터미널의 모습에 대한 사진을 찾을 수 있습니다.
터미널이 이미 컴퓨터에 설치되어 있습니다. UNIX 기반 운영 체제 ( MacOSX 또는 Linux 배포 )를 사용하는 경우 터미널 로 이름이 지정되어 있으며 다른 응용 프로그램과 함께 있습니다. Windows 운영 체제를 사용하는 경우 명령 프롬프트 로 명명되었으며 시작 메뉴에서 찾을 수 있습니다. Windows 8 및 10의 경우 Windows 시스템 폴더에 있습니다.
터미널에서 명령을 실행하려면 입력하고 Enter를 누르십시오.
Python 3은 프로그래밍 언어입니다.
설치 프로세스는 운영 체제에 따라 다릅니다. 기본 지침은 공식 Python 웹 사이트에서 찾을 수 있지만 인터넷에서 더 자세한 가이드를 쉽게 찾을 수 있습니다.
PIP 는 패키지 관리자입니다. Python 패키지를 다운로드하여 필요할 때 업데이트하는 데 도움이됩니다.
설치에 대한 기본 지침은 공식 웹 사이트에서 찾을 수 있습니다. 널리 사용되므로 단계별 가이드 및 기타 리소스가 인터넷에서 쉽게 찾을 수 있습니다.
pip3 명령을 대신 사용하십시오. 터미널에서 PIP ( pip )를 실행하여 사용되는 pip --version 버전 (Windows 사용자 용 python -m pip --version )을 확인할 수 있습니다.
pip 사용하여 Crane Toolbox를 설치하는 것이 좋습니다. 터미널에서 pip install cranetoolbox 실행하십시오. pip 크레인 도구 상자가 실행되는 데 필요한 모든 Python 패키지를 자동으로 설치하기 때문에이 명령에 시간이 걸릴 수 있습니다. [CRANE Toolbox의 PYPI 페이지] (PYPI 페이지 링크)에서 종속성 목록을 확인할 수 있습니다.
Crane Toolbox는이 저장소에서 사용 가능한 소스 코드에서 수동으로 설치할 수도 있습니다.
명령 줄 모드는이 패키지를 사용하는 가장 쉬운 방법이며, 사용자는 패키지의 모든 부분을 빠르게 실행하고 매우 짧은 시간 내에 유용한 통계를 생성 할 수 있습니다.
Toolbox에는 세 가지 CLI 명령이 있습니다. crane-import , crane-preprocess 및 crane-analysis-quanti 입니다. 순서대로, 원시 데이터 가져 오기/변환을 표준 CSV 형식으로 처리하고 해당 데이터를 사용 가능한 형식으로 전처리하고 마지막으로 주어진 키워드의 일일 주파수를 계산합니다.
각 CLI 도구에 제공된 매개 변수에 대한 세부 사항은 아래의 자세한 문서를 확인하십시오.
이 패키지는 재사용을 염두에두고 작성되었습니다. CLI 도구는 독립형 도구로 사용하기 쉽지만 Crane Toolbox를 다른 Python 프로젝트 내에서 가져 와서 사용할 수 있습니다. 모든 기능은 표준 파이썬 패키지 사용을 통해 사용자가 사용할 수 있습니다. 또한 단일 고급 기능은 각 CLI 도구에 해당하므로 사용자는 원하는 파이프 라인을 Python에서 직접 호출 할 수 있습니다.
crane-import Command-Line Entry Point에서 가져 오기 모듈에 액세스 할 수 있습니다.
이 모듈의 목표는 Raw Twitter JSON 데이터를 나머지 파이프 라인에서 사용하기에보다 관리하기 쉽고 가벼운 것으로 변환하는 것 입니다. 이것은 필요한 단계가 아니며 사용자가 수동으로 수행 할 수 있거나 다른 도구를 통해 이미 수행되었거나 데이터가 파일로 모듈간에 전달되므로 이미 수행되었습니다.
이 모듈은 스왑이나 메모리 사용에 크게 의존하지 않고 다수의 대형 (다중 기가 바이트) 파일을 처리 할 수 있습니다. 이는 청크 (사용자가 옵션의 줄 수를 지정할 수 있음)와 청크로 작성하여 파일을 읽음으로써 달성됩니다. 이렇게하면 특정 양의 데이터 만 주어진 순간에 메모리에 보관됩니다.
또한 분석 파이프 라인에 필요하지 않은 추가 트윗 데이터를 제거하여 파일 크기를 줄이고이 패키지의 이후 단계의 성능을 향상시킵니다.
모듈은 확장자, 이름 등에 관계없이 지정된 폴더의 모든 파일을 읽으려고 시도합니다. 텍스트 기반 파일 형식 (.json, .csv, .txt)을 지원합니다. 또한 압축 tar 아카이브를 처리하고 주어진 타르 아카이브에서 여러 파일 또는 폴더를 처리 할 수 있습니다.tar.gz 또는 이와 유사한 형식이 지원되지 않습니다.
정확한 파일 유형에 관계없이 데이터는 항상 라인마다 하나의 JSON 객체 n 으로 저장해야합니다 .
모듈은 모든 파일을 다음 열의 단일 CSV 파일로 연결합니다.
| ID | 텍스트 | 생성 된 _at |
|---|---|---|
| 트윗의 고유 한 ID | 전문 트윗 | 트윗 타임 스탬프 |
CSV 파일에는 헤더, 쉼표 분리기 및 텍스트에 대한 선택적 이중 따옴표가 없습니다 .
텍스트 열은 트윗이 140 자 이상인지 아닌지에 따라 동적으로 선택됩니다. 확장 트윗에 대한 자세한 내용은 확장 트윗의 공식 문서를 참조하십시오.
출력 파일이 이미 존재하면 기존 파일에 추가됩니다. 존재하지 않는 경우 기본 경로 ( "./filtered_data.csv")를 사용하여 새로운 경로를 생성합니다.
가져 오기 패키지는 명령 줄 도구로 사용할 수 있으며 여러 가지 옵션을 지원합니다.
--source-folder 소스 폴더 또는 파일을 처리 할 파일/아카이브를 스캔 할 수 있습니다.--output-folder . 지정된 폴더가 있어야합니다. 기본값 ./ .--output-name . output.csv 로 기본값--text-name 이름 텍스트 필드, Case이 필드마다 다른 이름이 있습니다.--date-name 작성 _AT 필드의 이름, CASE이 필드마다 다른 이름이 있습니다.--id-name 이름을 ID 필드, CASE이 필드마다 다른 이름을 가지고 있습니다.--tweet-language 파일에 저장된 트윗의 언어. JSON 객체의 언어 필드를 기반으로합니다. 기본값은 en .--max-lines-in-memory Memory에서 유지 될 최대 라인 수입니다. 이는 성능 또는 메모리가 제한된 기계를 최적화하도록 조정할 수 있습니다. 기본값은 50000 입니다.--retweets 이 플래그를 사용하여 출력 세트에 리트 윗을 포함합니다 . 기본값으로 false명령 줄 입력 포인트에 대한 완전한 예 :
crane-import --source-folder tweets/november --output-folder mydataset/data --max-lines-in-memory 2000 --output-name dataset.csv 전처리 파이프 라인은 crane-preprocess 명령 줄 입력 지점에서 액세스 할 수 있습니다.
제안 된 전처리는 Effrosynidis et al. (2017), 기술 9, 0, 1, 3, 5 및 7 및 4.
첫 번째 위치 인수로 주어진 데이터 세트는 CSV 파일의 폴더 또는 단일 CSV 파일 일 수 있습니다. 각 CSV 파일에는 3 개의 열 (입력의 ID, 고유 한 int; int; 텍스트의 텍스트, 문자열; 타임 스탬프 : 타임 스탬프 문자열), 헤더 , 쉼표 분리기 및 텍스트의 선택적 이중 따옴표가 포함되어야합니다.
| ID | 텍스트 | 생성 된 _at |
|---|---|---|
| 트윗의 고유 한 ID | 전문 트윗 | 트윗 타임 스탬프 |
순서대로 주어진 문자열의 경우 : 다음과 같습니다.
u002c ),-url 지정된 경우 제거하십시오.-mention 지정된 경우 제거하십시오.-hashtag 지정하면 해시 태그를 분할하십시오.punct 지정된 경우 밑줄 문자를 제외한 모든 구두점을 제거하십시오.-num 지정된 경우 제거하십시오. 해시 태그는 세그먼트로 만들어졌으며, 즉 WordSegment 패키지를 사용하여 단어로 분리됩니다.
처리 된 데이터 세트는 두 번째 위치 인수로 제공된 폴더에 저장됩니다. 존재하지 않으면 폴더가 생성됩니다. 각 입력 파일의 경우 처리 된 파일이 생성됩니다. 파일 이름은 해당 입력 파일의 이름에 "_preprocessed"를 추가하여 생성됩니다. 각 CSV 파일에는 4 개의 열 (입력의 ID, 고유 한 int, int; 트윗의 원본 텍스트, String, String, String ; Timestamp : Timestamp String), 헤더 , 쉼표 분리기 및 텍스트의 옵션 이중 인용문이 포함되어 있습니다.
| ID | original_text | clean_text | 생성 된 _at |
|---|---|---|---|
| 트윗의 고유 한 ID | 전문 트윗 | 트윗의 전처리 텍스트 | 트윗 타임 스탬프 |
파이프 라인에는 두 가지 필수 위치 인수와 5 가지 선택 인수가 있습니다.
-url 또는 --remove-url 이 플래그를 사용하여 'URL'으로 교체하는 대신 트윗에서 URL을 제거하십시오.-mention 또는 --remove-mentions 이 플래그를 사용하여 'atuser'로 교체하는 대신 트윗에서 '@userhandle'을 제거합니다.-hashtag 또는 --segment-hashtags 이 플래그를 사용하여 이전의 '#'문자를 제거하는 대신 해시 태그를 분할합니다.-punct 또는 --remove-punctuation 플래그를 사용하여 모든 구두점을 제거하여 반복 된 기호와 신성을 교체하는 대신 하이픈을 기대하십시오.-num 또는 --remove-numbers 이 플래그를 사용하여 텍스트 버전으로 교체하는 대신 트윗에서 모든 숫자를 제거합니다.명령 줄 입력 포인트에 대한 완전한 예 :
crane-preprocess mydataset/data mydataset/preprocessedData -punct현재 분석 모듈은 주어진 키워드의 일일 빈도를 계산하기 위해 간단한 정량 분석 파이프 라인 만 제공합니다.
이 분석 파이프 라인은 crane-analysis-quanti 명령 줄 입력 지점에서 액세스 할 수 있습니다.
데이터 세트에서 주어진 키워드의 일일 빈도를 계산합니다. 키워드의 변형을 허용합니다. 예를 들어, "Boys"와 "Boyz"의 발생은 함께 계산할 수 있습니다.
첫 번째 위치 인수로 주어진 데이터 세트는 CSV 파일의 폴더 또는 단일 CSV 파일 일 수 있습니다. 각 CSV 파일에는 4 개의 열 (입력의 ID, 고유 한 int, int; 트윗의 원본 텍스트, String, String, String; Timestamp : Timestamp String), 헤더 , 쉼표 분리기 및 텍스트의 옵션 이중 인용문이 포함되어야합니다. 전처리 된 텍스트는 소문자라고 가정합니다.
| ID | original_text | clean_text | 생성 된 _at |
|---|---|---|---|
| 트윗의 고유 한 ID | 전문 트윗 | 트윗의 전처리 텍스트 | 트윗 타임 스탬프 |
키워드는 키가 각 키워드의 기본 변형이고 값은 변형 목록 인 JSON 사전에 정의됩니다. 모든 키워드는 소문자 문자열이어야합니다. 예를 들어:
{
"color" : [
" colour " ,
" color "
],
"chinese" : [
" chinese " ,
" chineze " ,
" chines "
]
}출력은 하루 날짜 열 (형식 "%y-%m-%d")이있는 CSV 파일, 데이터 세트의 일일 총 트윗이있는 Total_count 열, 각 키워드에 대한 [키워드] _count 열 (주요 변형은 열의 이름을 지정하는 데 사용됩니다)은 키워드의 최소한 변형 및 A a Keyword 의 매일 변형을 가진 매일 트윗을 사용합니다. 열의 이름을 지정하려면) 키워드의 적어도 하나의 변형이 포함 된 일일 트윗 주파수.
예를 들어, 위에 주어진 키워드의 경우 :
| 낮 | Total_count | color_count | 중국어 | color_freq | 중국어 _freq |
|---|---|---|---|---|---|
| 날짜 | 일일 트윗 수 | "색상"또는 변형이있는 일일 트윗 수 | "중국어"또는 변형이있는 일일 트윗 수 | "색상"또는 변형이있는 트윗의 일일 빈도 | "중국어"또는 변형이있는 트윗의 일일 빈도 |
파이프 라인에는 세 가지 필수 위치 주장과 하나의 선택적인 인수가 있습니다.
-d 또는 --date-format 문자열 데이터 세트의 날짜 형식을 정의합니다. 기본값은 %A %B %D %H : %M : %S %Z %y "입니다.명령 줄 입력 포인트에 대한 완전한 예 :
crane-analysis-quanti mydataset/preprocessedData keywords.json quanti_results.csv -d " %d %b %a %h:%M:%S %z %Y " 아직 구현되지 않았습니다
위로 돌아갑니다
우리는 모든 기여를 환영합니다! 질문, 기능 요청 또는 피드백이 있으면 Github의 문제 기능을 사용하십시오.
문제 페이지는 예전 포럼 페이지와 유사하게 작동하며 프로그래밍 및 GIT 버전화와 관련된 많은 추가 기능이 있습니다. Github는 그들에 대한 자세한 가이드를 제공하지만 다음은 기본 사항이 있습니다.
열린 문제에 대한 풀 요청을 제출할 수 있습니다. 특히, "도움말 wanted"태그는 일반적으로 핵심 팀이 어려움을 겪고있는 것입니다. 다음은 코드 기반에 기여할 때 따라야 할 지침입니다.
자신을 더 많이 참여시키고 싶다면 (PRS 검토, 새로운 기능 계획, 기계 학습 방법 연구, 사용자 연구 수행 ...) BOLDUC2 (AT) HOTMAIL (AT) HOTMAIL (AT) HOTMAIL (AT) HOTMAIL (AT) HOTMAIL (DOT) FR을 통해 핵심 팀에 가입하여 온보드를 받으려면 핵심 팀에 합류 할 수 있습니다. 우리는 물론 개발자들을 환영하지만, 모든 학업 분야의 연구원, 기술 작가 ....
우리는 두 가지 이유로 리포지토리에서 모든 리소스를 공유하는 대신 개인을 개인적으로 탑승하기로 결정했습니다. 먼저, 사용자가 오픈 소스 프로젝트를 쉽게 사용하여 필요한 것을 찾는 것을 더 쉽게 만들고 싶었습니다. 둘째, 우리의 리소스 중 일부에는 사용자 연구의 개인 정보가 포함되어 있습니다.
위로 돌아갑니다
https://crane-toolbox.github.io/#/는 탄력성 챌린지 Hackathon 동안 프로토 타입 웹 사이트 빌드로, 온라인 Sinophob ic hate speech에 대한 Covid19 Pandemic의 영향을 정량화하고 특성화하려는 시도입니다. 우리는 크레인 도구 상자를 사용하여 수행 할 수있는 데이터 분석 유형의 매우 기본적인 예로 온라인으로 남겨 두었습니다.
우리는 현재 계획하지 않습니다. 팀의 구성으로 인해 우리는 Crane Toolbox에 노력을 집중하기로 결정했습니다.
lachapeliere | Gianluca Stringhini ? | Marko Shiva Pavlovic | Claudio Catterina | svetlanamd ? ? ? ? | 이안 | 폴 한 |
켈리 ? ? | 가브리엘 리베이로 | 이삭 | Tomáš Lokša | Judith Van Stegeren |
이모티콘 키
이 프로젝트는 All-Contritors 사양을 따릅니다. 모든 종류의 공헌을 환영합니다!
프로젝트의 첫 번째 단계에 대한 Hackathon 기고자 목록은 Crane DevPost 페이지에서 찾을 수 있습니다.
예! 기여 섹션을 확인하십시오.
Python은 데이터 분석 작업을위한 매우 일반적인 프로그래밍 언어입니다. 패키지는 기본 파이썬 언어에 추가 기능을 설치할 수 있습니다. 대략적으로, 모듈은 파이썬 코드가있는 파일입니다.
즉, Python에 전적으로 익숙하지 않다면 Crane Toolbox를 사용하기 전에 실험 할 수 있습니다.
이 repo의 문제 페이지를 사용하십시오. 자세한 내용은 기고 섹션을 확인하십시오.
크레인 툴 박스는 GNU Affero General Public License v3.0에 따라 배포됩니다.
라이센스 요구 사항을 존중하는 경우에는 원하는대로 사용할 수 있습니다. 라이센스 및 저작권 통지를 포함하고, 변경 사항을 명시하고, 소스 (이 리포지토)를 공개하고 동일한 라이센스로 코드를 배포하십시오. 이 코드를 사용하는 것에 대해 책임을지지 않으며 보증은 제공하지 않습니다.
이 저장소에 링크하십시오.
트윗 데이터 세트 공유는 트위터 개발자 용어로 제한됩니다. 트윗 콘텐츠가 포함 된 공개적으로 사용 가능한 데이터 세트가 아니라 트윗 ID 데이터 세트를 찾을 수 없습니다. 예를 들어 수화기를 사용하여 수화 될 수 있습니다.
거기에서 그것은 실제로 당신의 연구 주제와 질문에 달려 있습니다. 일부는 매우 시간에 민감하고 일부는 적습니다. 시간에 민감하지 않은 경우 일반 검색 엔진으로 행운을 시험해보십시오. 일부는 트위터의 전체 정보 흐름을 대표하는 순진한 데이터 세트가 필요합니다. 이 경우 가장 좋은 방법은 Twitter 컨텐츠에 대해 자주 분석하는 연구 팀과 협력하는 것입니다. 그들은 아마도 일일 트위터 데이터의 1%를 수집하기 위해 스트림을 계속 실행합니다. 다른 사람은 특정 키워드 또는 사용자를 위해 이미 필터링 된 데이터 세트가 필요합니다. 그렇다면 일반적인 검색 엔진으로 행운을 시험해보십시오. 과거 데이터가 필요하지 않은 경우 원하는 데이터를 정확하게 수집하기 위해 자신의 Twitter 스트림을 시작할 수도 있습니다.
우리는 가져 오기 모듈에 몇 가지 표준 입력 형식을 포함시키기 위해 노력하고 있습니다. 귀하의 데이터 형식이 지원되지 않으면 연락을 취하면 Crane Toolbox에 지원을 포함 시키거나 지원되는 형식 중 하나로 변환하도록 안내합니다.
어쩌면 우리는 그것에 대해 알지 못할 수도 있습니다. 어쩌면 우리는 아직 구현할 시간이 없었을 것입니다. 아마도 우리는 주어진 이유로 그것을 포함시키지 않기로 선택했을 것입니다. 그것에 대해 알려 주시기 위해 연락하십시오. (사용 수수료가있는 독점적 인 방법이 아니라면.)