Descarga analysis pipelines - Descarga del código fuente analysis pipelines

analysis pipelines

Otro código fuente

1.0.0

Descargar

Racismo de crisis y evaluación narrativa

Project Crane (racismo de crisis y evaluación narrativa) tiene como objetivo apoyar a los investigadores y organizaciones antirracistas que deseen usar algoritmos de análisis de texto de vanguardia para estudiar cómo los eventos específicos afectan el discurso de odio en línea y las narrativas racistas . Crane Toolbox es un paquete de Python : una vez instalado, las herramientas en Crane están disponibles como funciones que los usuarios pueden usar en sus programas de Python o directamente a través de su terminal. Crane se dirige a los usuarios con programación básica pero sin habilidades de aprendizaje automático .

Skip a Start-start

Miniatura de la grúa

Tabla de contenido

Tabla de contenido
Introducción
- Génesis
- Motivación del proyecto
- Crane de herramientas Crane: el paquete Python para el análisis de datos
De inicio rápido
Documentación del paquete
- Cómo instalar y usar Crane Toolbox
  - Requisitos
  - Instalar Crane Toolbox
  - Modo de línea de comandos
  - Modo de llamada de función
- Módulos
  - Módulo de importación
  - Módulo de preprocesamiento
  - Módulo de análisis
  - Módulo de visualización
Que contribuye
- Únete al equipo
Preguntas frecuentes
- En el proyecto Crane
- Al usar Crane Toolbox

Introducción

Volver arriba

Génesis

El racismo de crisis y la evaluación narrativa , o grúa para abreviar, nacieron durante el desafío de resiliencia, un hackathon impulsado por Covid19. Durante nueve semanas, un equipo interdisciplinario compuesto por estudiantes y diseñadores profesionales, programadores e investigadores de informática desarrolló un sitio web prototipo para el monitoreo en tiempo real de la retórica racista vinculada a la pandemia Covid19 . El proyecto fue propuesto por Gianluca Stringhini, Universidad de Boston, luego de su trabajo sobre la aparición temprana del comportamiento sinófobico en línea durante la pandemia Covid19 (SARS-CoV-2). Los lectores pueden encontrar más detalles sobre el enfoque adoptado para el desafío de resiliencia en la página de Devpost correspondiente y la rama de legacato de resistencia-desafío de este repositorio.

Motivación del proyecto

Mientras realizamos una revisión de la literatura, notamos que pocos artículos sobre el monitoreo del habla de odio en línea tenían un enfoque de investigación de sociología y herramientas recientes de procesamiento del lenguaje natural. La literatura parece estar dividida principalmente en documentos metodológicos con el objetivo de desarrollar nuevas herramientas de aprendizaje automático para detectar y caracterizar el racismo, y los enfoques de investigación de sociología tradicionales, tanto cualitativas como cuantitativas, que no aprovechan al máximo los datos y los métodos de análisis disponibles.

Somos conscientes de que esto se debe en parte a la dificultad de reunir equipos interdisciplinarios de campos muy diferentes, y en parte a la naturaleza bastante joven y precaria de la detección automatizada del discurso de odio.

Nuestras experiencias durante el hackathon nos llevan a creer que estos problemas podrían aliviarse de alguna manera al proporcionar a los investigadores de ciencias sociales herramientas fáciles de usar aprovechando los métodos de análisis y detección y análisis de discursos de odio actuales.

Crane de herramientas Crane: el paquete Python para el análisis de datos

Crane Toolbox está diseñado para apoyar a los investigadores y organizaciones antirracistas en el estudio de cómo los eventos específicos afectan el discurso de odio en línea y las narrativas racistas . Los algoritmos de análisis de texto de vanguardia evolucionan rápidamente, y su propagación a menudo se limita al campo dedicado de la investigación en ciencias de la computación. Crane Toolbox envuelve algunos de esos métodos, que se ajustan a preguntas típicas de ciencias sociales, en herramientas fáciles de usar que no requieren habilidades de aprendizaje automático .

️ En esta primera versión, Crane Toolbox seguirá siendo específica para el análisis de tweets .

Crane Toolbox es un paquete Python . Una vez instalados, los usuarios pueden llamar a sus funciones en sus scripts de Python o usar las herramientas que proporciona directamente a través de su terminal. Esas herramientas se organizan en varios subackages llamados módulos. Cada módulo corresponde a un paso en la tubería de análisis general.

La primera versión de Crane Toolbox proporciona herramientas y documentación para que los usuarios filtren y formaten los datos que han extraído de Twitter (módulo de importación ), lo prepare para el análisis (módulo de preprocesamiento ), realice los análisis de su elección ( módulo de análisis ) y obtenga una representación gráfica básica de los resultados (módulo de visualización ).

️ Como paquete de Python, Crane Toolbox no proporciona los datos para analizar . Tampoco sustituye un marco de investigación en el que se deben utilizar sus herramientas. La documentación contiene consejos sobre opciones de parámetros e interpretación de resultados, pero siguen siendo responsabilidad del usuario.

De inicio rápido

Volver arriba

Esta sección es para programadores experimentados que desean sumergirse de cabeza en el fondo. Si no tienes idea de lo que estamos hablando allí, ¡no huyas gritos! Aunque la longitud de la sección de documentación del paquete podría hacerlo un poco desalentador, lo escribimos con los no especialistas en mente, por lo que debe encontrar todas las instrucciones y consejos que necesita para usar la caja de herramientas de Crane.

Instalar

pip install cranetoolbox

Transformar datos

El primer paso es transformar sus datos en nuestro formato de intercambio de datos común, un archivo CSV de tres columnas. Utilizamos el módulo crane-import para realizar este paso. Toma archivos fuente que contienen un solo objeto JSON Tweet por línea y los transforma en un archivo CSV liviano. Los parámetros disponibles se detallan en la sección Módulo de importación.

crane-import --source-folder ./my_source --output-folder ./my_output

Datos de preprocesamiento

Es importante limpiar los datos de texto antes del análisis de datos. Proporcionamos una herramienta CLI para realizar este paso, con varias opciones de preprocesamiento. Los parámetros disponibles se detallan en la sección Módulo de preprocesamiento.

crane-preprocess ./my_output ./my_preproc_output

Análisis de ejecución

Actualmente proporcionamos una sola herramienta de análisis estadístico que realiza un análisis de frecuencia básico en el conjunto de datos utilizando un conjunto proporcionado de palabras clave. Los formatos de entrada requeridos y los parámetros disponibles se detallan en la sección Módulo de análisis.

crane-analysis-quanti ./my_preproc_output keywords.json quanti_results.csv

Documentación del paquete

Volver arriba

Esta sección se divide en dos partes: una primera que describe cómo instalar Crane Toolbox y ejecutar sus herramientas, ya sea en modo de línea de comandos en un terminal o mediante llamadas de función en los scripts de Python; y un segundo que da detalles sobre cada módulo, en particular formato de datos y elección de parámetros.

Los usuarios avanzados pueden encontrar información adicional sobre el contenido de cada módulo en la documentación del código.

Cómo instalar y usar Crane Toolbox

Requisitos

Para instalar correctamente Crane Toolbox, necesitará:

Una conexión básica a Internet
Un terminal
Python 3
Pip para Python 3

Se recomienda encarecidamente algunos conocimientos básicos en programación y líneas de comandos , pero el valiente y los estudios pueden optar por continuar sin él.

Si la lista anterior está clara para usted, omita las instrucciones de instalación. De lo contrario, lea los siguientes párrafos para preparar su entorno.

️ Si elige no seguir el proceso de instalación recomendado, probablemente necesite instalar paquetes o software adicionales.

¿Qué es una terminal y dónde encuentro uno?

El terminal es una interfaz en la que puede escribir y ejecutar comandos basados en texto. Puede encontrar una explicación más detallada aquí e imágenes de cómo se ve una terminal aquí.

Un terminal ya está instalado en su computadora. Si está utilizando un sistema operativo basado en UNIX (ya sea MACOSX o una distribución de Linux ), se llama Terminal y vive con sus otras aplicaciones. Si está utilizando un sistema operativo de Windows, se llama símbre del sistema y se puede encontrar en su menú Inicio. Para Windows 8 y 10, se encuentra en la carpeta del sistema de Windows .

Para ejecutar un comando en el terminal, simplemente escribalo y presione Entrar.

️ Los atajos de copia-pastor (Ctrl^c y Ctrl^v) están deshabilitados de forma predeterminada en terminales, porque Ctrl^c se usa para abortar los programas. Use clic derecho para copiar y pegar.

¿Cómo instalo Python 3?

Python 3 es un lenguaje de programación. ️ Es muy similar a Python 2, pero los dos no son intercambiables.

El proceso de instalación depende de su sistema operativo. Las instrucciones básicas se pueden encontrar en el sitio web oficial de Python, pero fácilmente encontrará guías más detalladas en Internet.

¿Cómo instalo PIP para Python 3?

Pip es un administrador de paquetes: le ayuda a descargar los paquetes de Python y actualizarlos cuando sea necesario.

Las instrucciones básicas para su instalación se pueden encontrar en su sitio web oficial. Se usa ampliamente para que las guías paso a paso y otros recursos se encuentren fácilmente en Internet.

️ Debido a la coexistencia de Python 2.7 y Python 3, PIP podría instalarse para ambos idiomas en su computadora. En ese caso, use el comando pip3 en su lugar. Puede verificar qué versión de pip se usa ejecutando pip --version en su terminal ( python -m pip --version para usuarios de Windows).

Instalar Crane Toolbox

Recomendamos encarecidamente instalar Crane Toolbox con pip . Ejecute pip install cranetoolbox en una terminal. El comando puede llevar algo de tiempo porque pip también instalará automáticamente todos los paquetes de Python requeridos para que Crane Toolbox se ejecute. Puede verificar la lista de dependencias en la [página PYPI de Crane Toolbox] (enlace a la página PYPI).

Crane Toolbox también se puede instalar manualmente desde el código fuente disponible en este repositorio.

Modo de línea de comandos

El modo de línea de comando es el método más fácil de usar este paquete, permite al usuario ejecutar rápidamente todas las partes del paquete y producir estadísticas utilizables en un período de tiempo muy corto.

Hay tres comandos de CLI diferentes disponibles en la caja de herramientas, son crane-import , crane-preprocess y crane-analysis-quanti . En orden, manejan la importación/transformación de datos sin procesar en un formato CSV estándar, preprocesando esos datos en un formato utilizable y finalmente calculan las frecuencias diarias de palabras clave dadas.

Para obtener detalles sobre los parámetros proporcionados en cada herramienta CLI, verifique la documentación detallada a continuación.

Modo de llamada de función

Este paquete ha sido escrito con reutilización en mente. Si bien las herramientas CLI son más fáciles de usar como herramientas independientes, Crane Toolbox se puede importar y utilizar dentro de otro proyecto de Python. Todas las funciones están disponibles para el usuario a través del uso estándar del paquete Python. Además, una sola función de alto nivel corresponde a cada herramienta CLI para que los usuarios puedan llamar fácilmente su tubería deseada directamente desde Python.

Módulos

Módulo de importación

Se puede acceder al módulo de importación desde el punto de entrada de la línea de comandos crane-import .

El objetivo de este módulo es transformar los datos RAW de Twitter JSON en algo más manejable y liviano para su uso por el resto de la tubería. Este no es un paso requerido y podría ser realizado manualmente por el usuario o ya se ha realizado a través de alguna otra herramienta, ya que los datos se pasan entre módulos como archivos.

Este módulo puede procesar una gran cantidad de archivos grandes (múltiples gigabyte) sin depender en gran medida del intercambio o el uso de la memoria. Esto se logra leyendo archivos por fragmentos (el usuario puede especificar el número de líneas en las opciones), así como escribiendo en fragmentos. Esto asegura que solo una cierta cantidad de datos se mantenga en la memoria en cualquier momento dado.

Además, elimina los datos de tweets adicionales que no son necesarios para la tubería de análisis, reduciendo el tamaño del archivo y aumentando el rendimiento de los pasos posteriores en este paquete.

Formato de entrada esperado

El módulo intentará leer cualquier archivo en la carpeta especificada, independientemente de la extensión, el nombre, etc. Admite cualquier formato de archivo basado en texto (.json, .csv, .txt). Además, puede manejar archivos tar comprimidos y tratar múltiples archivos o carpetas en un archivo de alquitrán determinado. ️ Actualmente, solo admite archivos de alquitrán comprimidos individualmente, por lo tanto, no se admiten formatos tar.gz o formatos similares.

Independientemente del tipo de archivo exacto, los datos siempre deben almacenarse con un tweet del objeto JSON por línea , utilizando n como el carácter de fin de línea.

Formato de salida

El módulo concatinará todos los archivos en un solo archivo CSV con las siguientes columnas:

identificación	texto	creado_at
Identificación única de tweet	Tweet de texto completo	marca de tiempo de tweet

El archivo CSV no tiene encabezados , separadores de coma y cotizaciones dobles opcionales para texto.

La columna de texto se selecciona dinámicamente dependiendo de si el tweet tiene más de 140 caracteres o no, para obtener más información sobre los tweets extendidos, consulte la documentación oficial sobre tweets extendidos

Si el archivo de salida ya existe, se agregará al archivo existente. En el caso de que no exista, creará uno nuevo, utilizando la ruta predeterminada ("./filtered_data.csv") si no se especifica ninguno.

Comandos CLI

El paquete de importación se puede utilizar como una herramienta de línea de comandos y admite varias opciones diferentes.

(Requerido) --source-folder la carpeta o archivo de origen para escanear archivos/archivos para procesar.
(Opcional) --output-folder la carpeta para guardar la salida. La carpeta especificada debe existir. Predeterminado a ./ .
(Opcional) --output-name El nombre, incluida la extensión, del archivo de salida. El valor predeterminado a output.csv .
(Opcional) --text-name El nombre en el campo de texto, caso de este campo tiene un nombre diferente.
(Opcional) --date-name El nombre en el campo Create_AT, caso de este campo tiene un nombre diferente.
(Opcional) --id-name El nombre de identificación del nombre de identificación, este campo tiene un nombre diferente.
(Opcional) --tweet-language El idioma de los tweets guardado en el archivo. Basado en el campo de idioma en el objeto JSON. El valor predeterminado es en .
(Opcional) --max-lines-in-memory El número máximo de líneas que se mantendrán en la memoria. Esto se puede ajustar para optimizar el rendimiento o en las máquinas que tienen memoria limitada. El valor predeterminado a 50000 .
(Opcional) --retweets usa este indicador para incluir retweets en el conjunto de salida. El valor predeterminado a false

Un ejemplo completo para el punto de entrada de la línea de comandos:

crane-import --source-folder tweets/november --output-folder mydataset/data --max-lines-in-memory 2000 --output-name dataset.csv

Módulo de preprocesamiento

Se puede acceder a la tubería de preprocesamiento desde el punto de entrada de la línea de comandos crane-preprocess .

El preprocesamiento propuesto está adaptado de Effrosynidis et al. (2017), utilizando las técnicas 9, 0, 1, 3, 5 y 7 y 4.

Formato de entrada esperado

El conjunto de datos dado como el primer argumento posicional puede ser una carpeta de archivos CSV o un solo archivo CSV. Cada archivo CSV debe contener 3 columnas (ID de entrada, debe ser único, int; texto del tweet, cadena; marca de tiempo: cadena de marca de tiempo), sin encabezados , separadores de comas y citas dobles opcionales para el texto.

identificación	texto	creado_at
Identificación única de tweet	Tweet de texto completo	marca de tiempo de tweet

Pasos de preprocesamiento

En orden y para una cadena dada, lo hará:

Transformar los caracteres mayúsculas en minúsculas,
Eliminar cadenas unicode escapadas (por ejemplo u002c ),
Eliminar personajes que no sean ASCII,
Reemplace las URL con "URL", o retírelas si se especifica -url ,
Reemplace las menciones (por ejemplo, "@bobthesurfer") con "atusor", o elimínalos si se especifica -mention ,
Retire el símbolo de hash frente a los hashtags (por ejemplo, "#speadthelove", y segmente los hashtags si se especifica -hashtag ,
Reemplace las contracciones con su ortografía completa (por ejemplo, "I'm" se convierte en "yo soy"),
Reemplace los signos de puntuación repetidos con un equivalente textual (¡por ejemplo, "se convierte en" multiexlamation ") y nuevas líneas con espacios, o elimine toda puntuación, excepto los caracteres subrayados si se especifica punct ,
Reemplace los números con su versión de texto en inglés, o elimínalos si se especifica -num .

Los hashtags están segmentados, es decir, se separan en palabras, utilizando el paquete WordSegment. ️ Solo compatible con el idioma inglés. ️ ️ ️ ️ La segmentación de palabras funciona en tiempo polinomial y aumenta el tiempo de preprocesamiento en varios órdenes de magnitud.

️ El algoritmo para desempacar las contracciones es actualmente bastante básico. Por ejemplo, interpretará erróneamente los "s" posesivos como una contracción verbal.

️ Los números ordinales aún no son compatibles.

Formato de salida

El conjunto de datos procesado se guarda en la carpeta dada como el segundo argumento posicional. Si no existe, se creará la carpeta. Para cada archivo de entrada se genera un archivo procesado. Los nombres de los archivos se generan agregando "_PRECUPCISE" al nombre del archivo de entrada correspondiente. Cada archivo CSV contiene 4 columnas (ID de entrada, debe ser único, int; texto original del tweet, cadena; texto preprocesado del tweet, cadena ; marca de tiempo: cadena de marca de tiempo), sin encabezados , separadores de coma y citas dobles opcionales para el texto.

identificación	Original_text	Clean_text	creado_at
Identificación única de tweet	Tweet de texto completo	texto preprocesado de tweet	marca de tiempo de tweet

Comandos CLI

La tubería tiene dos argumentos posicionales obligatorios y cinco argumentos opcionales:

(Requerido) Posición 1. Ruta a la carpeta que contiene el conjunto de datos formateado con el módulo de importación o un solo archivo de conjunto de datos.
(Requerido) Posición 2. Ruta a la carpeta para guardar el conjunto de datos preprocesado en. Si no existe, se creará la carpeta.
(Opcional) -url o --remove-url Use esta bandera para eliminar las URL de los tweets en lugar de reemplazarlas con 'URL'.
(Opcional) -mention o --remove-mentions usan este indicador para eliminar las menciones de usuario '@userhandle' de los tweets en lugar de reemplazarlos con 'atuser'.
(Opcional) -hashtag o --segment-hashtags usa esta bandera para segmentar hashtags en lugar de simplemente eliminar el carácter '#' anterior.
(Opcional) -punct o --remove-punctuation Use este indicador para eliminar todos los guiones de esperanza de puntuación, en lugar de reemplazar símbolos repetidos y nuevas líneas.
(Opcional) -num o --remove-numbers usan esta bandera para eliminar todos los números de los tweets en lugar de reemplazarlos con su versión de texto.

Un ejemplo completo para el punto de entrada de la línea de comandos:

crane-preprocess mydataset/data mydataset/preprocessedData -punct

Módulo de análisis

Actualmente, el módulo de análisis solo ofrece una tubería de análisis cuantitativo simple para calcular la frecuencia diaria de las palabras clave dadas.

Análisis cuantitativo simple

Esta tubería de análisis es accesible desde el punto de entrada de la línea de comandos crane-analysis-quanti .

Calcula la frecuencia diaria de palabras clave dadas en un conjunto de datos. Permite variantes de palabras clave. Por ejemplo, las ocurrencias de "niños" y "boyz" se pueden contar juntos.

Formato de entrada esperado

El conjunto de datos dado como el primer argumento posicional puede ser una carpeta de archivos CSV o un solo archivo CSV. Cada archivo CSV debe contener 4 columnas (ID de entrada, debe ser único, int; texto original del tweet, cadena; texto preprocesado del tweet, cadena; marca de tiempo: cadena de marca de tiempo), sin encabezados , separadores de coma y citas dobles opcionales para el texto. Se supone que el texto preprocesado es más bajo.

identificación	Original_text	Clean_text	creado_at
Identificación única de tweet	Tweet de texto completo	texto preprocesado de tweet	marca de tiempo de tweet

Las palabras clave se definen en un diccionario JSON donde las claves son la variante principal para cada palabra clave y los valores son listas de variantes. Todas las palabras clave deben ser cadenas más bajas. Por ejemplo:

{
	"color" : [
		" colour " ,
		" color "
	],
	"chinese" : [
		" chinese " ,
		" chineze " ,
		" chines "
	]
}

Formato de salida

La salida es un archivo CSV con una columna de fecha de día (formato "%y-%m-%d"), una columna Total_Count con el número total diario de tweets en el conjunto de datos, una columna [palabra clave] _count para cada palabra clave (su variante principal se usa para nombrar la columna) con el número diario de tweets que contiene una variante de la variante de la clave y una palabra clave] _freq se usa para nombrar la columna) con el número diario de tweets que contiene al menos una variante de la clave clave y una palabra clave] _freq en la columna para el número de la columna) con el número de tweets de la variante que se usa al menos la variante de la tecla y una palabra clave] _freq para nombrar la columna) con la variedad de tweet. Nombra la columna) con la frecuencia diaria de tweets que contienen al menos una variante de la palabra clave.

Por ejemplo, para las palabras clave establecidas dadas anteriormente:

día	Total_Count	COLOR_COUNT	Chino_Count	color_freq	chino_freq
fecha	Número diario de tweets	Número diario de tweets con "color" o una variante	Número diario de tweets con "chino" o una variante	frecuencia diaria de tweets con "color" o una variante	frecuencia diaria de tweets con "chino" o una variante

Comandos CLI

La tubería tiene tres argumentos posicionales obligatorios y un argumento opcional:

(Requerido) Posición 1. Ruta a la carpeta que contiene el conjunto de datos preprocesado con el módulo de preprocesos o un solo archivo de conjunto de datos.
(Requerido) Posición 2. Ruta al archivo JSON que contiene las palabras clave y sus variantes. Vea a continuación el formato esperado.
(Requerido) Posición 3. Ruta para el archivo de resultados.
(Opcional) -d o una cadena --date-format Definición del formato de fechas en el conjunto de datos. El incumplimiento es %A %B %D %H: %M: %S %Z %Y ".

Un ejemplo completo para el punto de entrada de la línea de comandos:

crane-analysis-quanti mydataset/preprocessedData keywords.json quanti_results.csv -d " %d %b %a %h:%M:%S %z %Y "

Módulo de visualización

Aún no se ha implementado

Que contribuye

Volver arriba

¡Agradecemos todas las contribuciones! Si tiene preguntas, una solicitud de función o algunos comentarios, utilice la función de problemas de GitHub.

La página de problemas funciona más bien como su buena página de foro antiguo, con muchas características adicionales específicas para la programación y el versiones Git. GitHub les proporciona una guía detallada, pero aquí están los conceptos básicos:

Busque en los problemas existentes para preguntas/solicitudes de funciones/comentarios similares
Si encuentra un problema lo suficientemente similar, puede agregar a su discusión con sus propios detalles
Si no encuentra un problema lo suficientemente similar, cree uno nuevo
Da tanta información relevante como sea posible . Por ejemplo, si desea informar un error u obtener ayuda con un error, proporcione su código/línea de comandos y el mensaje de error. Si es posible, enlace a los datos.
Agregue etiquetas/etiquetas apropiadas al problema. Por ejemplo, "documentación" si le falta información en el documento para usar la caja de herramientas.
Siempre tenga en cuenta que este es un proyecto voluntario, y los contribuyentes hacen todo lo posible para ayudar. Sea amable y paciente .

Agregando a la base de código

Puede enviar solicitudes de extracción de problemas abiertos. En particular, los problemas etiquetados como "de ayuda", generalmente son cosas con las que el equipo central está luchando. Estas son las pautas que le pedimos que siga al contribuir a la base de código.

Comente sobre el tema para notificar a todos su intención de hacerlo para asegurarse de que nadie más esté trabajando en el mismo problema.
Aborde solo un problema por PR, a menos que lo haya discutido con el equipo central antes y estén de acuerdo en que un PR agrupado tiene más sentido.
Referencia al problema que está abordando en su PR.
Etiquete su PR con "Review Need-Review" al realizar su envío inicial o después de completar los cambios solicitados por sus revisores.
Consulte su RP para ver las revisiones y esté abierto a sugerencias. Si un revisor solicita cambios, cambiará la etiqueta de su PR de "Need-Review" a "In-Progrado".

Únete al equipo

Si desea involucrarse más (revisar las relaciones públicas, planificar nuevas características, investigar métodos de aprendizaje automático, hacer una investigación de usuarios, ...), puede unirse al equipo central mediante el correo electrónico a Bolduc2 (AT) Hotmail (DOT) FR para que se incorporen. Damos la bienvenida a los desarrolladores, por supuesto, pero también a los diseñadores, investigadores de todos los campos académicos, escritores técnicos ...

Hemos elegido incorporar a las personas en privado en lugar de compartir todos nuestros recursos en el repositorio por dos razones. Primero, queríamos que fuera más fácil para los usuarios que no están acostumbrados a los proyectos de código abierto para encontrar lo que necesitan. En segundo lugar, algunos de nuestros recursos contienen información privada de la investigación de usuarios.

Preguntas frecuentes

Volver arriba

En el proyecto Crane

¿Qué está vinculado este sitio web al repositorio?

https://crane-toolbox.github.io/#/ es un sitio web prototipo construido durante el Hackathon del desafío de resiliencia, en un intento de cuantificar y caracterizar el impacto de la pandemia Covid19 en el discurso de odio sinófobico en línea. Lo dejamos en línea como un ejemplo muy básico del tipo de análisis de datos que podría llevarse a cabo con Crane Toolbox.

¿Vas a seguir trabajando en el análisis en tiempo real del discurso de odio en línea relacionado con Covid19?

No planeamos en este momento. Debido a la composición del equipo, hemos decidido enfocar nuestros esfuerzos en Crane Toolbox, donde creemos que podemos marcar la diferencia.

¿Quién está haciendo esto?

_Lacapeliere ️ ? ? ?	_{Gianluca stringhini} ?	_{Marko Shiva Pavlovic}	_{Claudio Catterina} ️	_Svetlanamd ? ? ? ?	_Ian ️ ? ? ? ?	_{Paul Han}
_Kelly ? ?	_{Gabriel Ribeiro}	_Isaac	_{Tomáš Lokša}	_{Judith Van Stegeren}

Llave de emoji

Este proyecto sigue la especificación de todos los contribuyentes. ¡Contribuciones de cualquier tipo bienvenido!

La lista de contribuyentes de Hackathon para la primera fase del proyecto se puede encontrar en la página Crane Devpost.

¿Puedo ayudar?

¡Sí! Echa un vistazo a la sección contribuyente.

Al usar Crane Toolbox

¿Qué es Python? ¿Qué es un paquete Python? ¿Qué es un módulo Python?

Python es un lenguaje de programación muy común para las tareas de análisis de datos. Los paquetes son complementos instalables al idioma básico de Python. En términos generales, un módulo es un archivo con código Python.

Dicho esto, si no está familiarizado con Python, es posible que desee experimentar con él antes de usar Crane Toolbox.

Tengo una pregunta/una solicitud de función/algunos comentarios, ¿cómo me pongo en contacto con usted?

Utilice la página de problemas de este repositorio. Consulte la sección contribuyente para obtener más detalles.

¿Puedo copiar su código para mi proyecto?

Crane Toolbox se distribuye bajo GNU Affero General Public License v3.0.

Puede usarlo como desee, siempre que respete los requisitos de la licencia: incluya una licencia y un aviso de derechos de autor, indique los cambios que realizó, divulga su fuente (este repositorio) y distribuye su código bajo la misma licencia. Tenga en cuenta que no somos responsables de cualquier uso que haga de este código, y no proporcionamos garantía.

¿Cómo cito Crane Toolbox en mi papel?

Enlace a este repositorio.

¿Dónde puedo encontrar datos de Twitter?

El intercambio de conjuntos de datos de tweets está restringido por los términos del desarrollador de Twitter. No podrá encontrar conjuntos de datos disponibles públicamente con tweets Content, sino más bien conjuntos de datos de ID de tweets. Esos pueden hidratarse , usando por ejemplo Hydrator.

A partir de ahí, realmente depende de su tema de investigación y preguntas. Algunos son muy sensibles al tiempo, otros son menos. Si el suyo no es muy sensible al tiempo, pruebe su suerte con un motor de búsqueda regular. Algunos requieren un conjunto de datos ingenuo , representante del flujo de información completo de Twitter. En este caso, su mejor opción es colaborar con un equipo de investigación que realiza análisis frecuentes en el contenido de Twitter. Probablemente mantengan un flujo en funcionamiento para recopilar el 1% de los datos diarios de Twitter. Otros requieren un conjunto de datos que ya se haya filtrado para palabras clave o usuarios específicos. Si ese es su caso, pruebe su suerte con un motor de búsqueda regular. Si no necesita datos históricos, también puede iniciar su propia transmisión de Twitter para recopilar exactamente los datos que desea.

Mis datos no están en su formato de entrada específico, ¿qué hago?

Estamos trabajando para incluir varios formatos de entrada estándar en nuestro módulo de importación . Si no es compatible con su formato de datos, póngase en contacto y haremos todo lo posible para incluir soporte para TI en Crane Toolbox o guiarlo para transformarlo en uno de nuestros formatos compatibles.

El método X es muy útil y debe incluirse, ¿por qué no está allí?

Tal vez no lo sepamos, tal vez no tuvimos tiempo de implementarlo todavía, tal vez elegimos no incluirlo por una razón dada. Póngase en contacto para contarnos al respecto. (A menos que sea un método propietario con una tarifa de uso).

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-30
tamaño 10.87MB
Proviene de Github

Aplicaciones relacionadas

azure pipelines tasks

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
trivy azure pipelines task

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo