Descargar FMAT - Descargar código fuente FMAT

FMAT

Código Fuente de IA

1.0.0

Descargar

Fmat

Autor

Han-wu-shuang (Bruce) bao 包寒吴霜

? [email protected]

? psychbruce.github.io

Citación

Bao, H.-W.-S. (2023). FMAT: la prueba de asociación de máscara de relleno . https://cran.r-project.org/package=fmat
- Nota : Esta es la cita original. Consulte la información cuando su library(FMAT) para el formato APA-7 de la versión que instaló.
Bao, H.-W.-S. (2024). La prueba de asociación de máscara de relleno (FMAT): medición de proposiciones en el lenguaje natural. Journal of Personality and Social Psychology, 127 (3), 537–561. https://doi.org/10.1037/pspa0000396
Bao, H.-W.-S., y Gries, P. (2024). Estereotipos interseccionales de raza -género en lenguaje natural. British Journal of Social Psychology, 63 (4), 1771–1786. https://doi.org/10.1111/bjso.12748

Instalación

Para usar el FMAT, el paquete R FMAT y tres paquetes de Python ( transformers , torch , huggingface-hub ) deben instalarse.

(1) paquete R

 # # Method 1: Install from CRAN
install.packages( " FMAT " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/FMAT " , force = TRUE )

(2) Entorno y paquetes de Python

Instale Anaconda (un administrador de paquetes recomendado que instala automáticamente Python, IDES de Python como Spyder y una gran lista de dependencias de paquetes de Python necesarias).

Especifique el intérprete Python de Anaconda en Rstudio.

RSTUDIO → Herramientas → Opciones globales/de proyecto
→ Python → Seleccionar → entornos de condena
→ Elija ".../anaconda3/python.exe"

Instale versiones específicas de los paquetes de Python "Transformers", "Torch" y "Huggingface-Hub".
(RSTUDIO Terminal / Anaconda solicit / Windows Command)

Para usuarios de CPU:

 pip install transformers==4.40.2 torch==2.2.1 huggingface-hub==0.20.3

Para usuarios de GPU (CUDA):

 pip install transformers==4.40.2 huggingface-hub==0.20.3
pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

Consulte [Orientación para la aceleración de GPU] para la guía de instalación si tiene un dispositivo NVIDIA GPU en su PC y desea usar GPU para acelerar la tubería.
Según las versiones de mayo de 2024, los "transformadores" ≥ 4.41 dependen de "Huggingface-Hub" ≥ 0.23. Las versiones sugeridas de "Transformers" (4.40.2) y "Huggingface-Hub" (0.20.3) aseguran la visualización de la consola de las barras de progreso al descargar modelos Bert mientras mantienen estos paquetes lo más nuevo posible.
Los usuarios de proxy deben usar el "modo global" (全局模式) para descargar modelos.
Si ve el error HTTPSConnectionPool(host='huggingface.co', port=443) , intente (1) reinstalar Anaconda para que se puedan solucionar algunos problemas desconocidos o (2) deglade el paquete "urllib3" a la versión ≤ 1.25.11 ( pip install urllib3==1.25.11 ) para que use proxies http (en lugar de los proxies http (en lugar de ser https. para conectarse a la cara abrazada.
- https://www.cnblogs.com/devilmaycry812839668/p/17872452.html
- https://zhuanlan.zhihu.com/p/350015032

Orientación para FMAT

Paso 1: Descargar modelos Bert

Use BERT_download() para descargar [modelos bert]. Los archivos de modelo se guardan en su carpeta local "%userProfile%/. Cache/Huggingface". Una lista completa de modelos Bert está disponible en Hugging Face.

Use BERT_info() y BERT_vocab() para encontrar información detallada de los modelos Bert.

Paso 2: Diseño de consultas FMAT

Consultas de diseño que representan conceptualmente las construcciones que mediría (ver BAO, 2024, JPSP sobre cómo diseñar consultas).

Use FMAT_query() y/o FMAT_query_bind() para preparar una data.table de consultas.

Paso 3: Ejecute FMAT

Use FMAT_run() para obtener datos sin procesar (estimaciones de probabilidad) para un análisis posterior.

Se han incluido varios pasos de preprocesamiento en la función para un uso más fácil (ver FMAT_run() para más detalles).

Para las variantes de Bert que usan <mask> en lugar de [MASK] como el token de máscara, la consulta de entrada se modificará automáticamente para que los usuarios siempre puedan usar [MASK] en el diseño de la consulta.
Para algunas variantes Bert, los caracteres de prefijo especiales como u0120 y u2581 se agregarán automáticamente para que coincidan con las palabras completas (en lugar de las subvenciones) para [MASK] .

Notas

Las mejoras están en curso, especialmente para la adaptación a modelos Bert más diversos (menos populares).
Si encuentra errores o tiene problemas para usar las funciones, infórmelos en los problemas de GitHub o envíeme un correo electrónico.

Orientación para la aceleración de GPU

De manera predeterminada, el paquete FMAT usa CPU para habilitar la funcionalidad para todos los usuarios. Pero para los usuarios avanzados que desean acelerar la tubería con GPU, la función FMAT_run() ahora es compatible con un dispositivo GPU, aproximadamente 3 veces más rápido que la CPU.

Resultados de la prueba (en la computadora del desarrollador, dependiendo del tamaño del modelo Bert):

CPU (Intel 13th-Gen i7-1355u): 500 ~ 1000 consultas/min
GPU (Nvidia GeForce RTX 2050): 1500 ~ 3000 consultas/min

Lista de verificación:

Asegúrese de tener un dispositivo NVIDIA GPU (por ejemplo, la serie GeForce RTX) y un controlador NVIDIA instalado en su sistema.
Instale Pytorch (paquete torch Python) con soporte CUDA.
- Encuentre orientación para el comando de instalación en https://pytorch.org/get-started/locally/.
- CUDA solo está disponible en Windows y Linux, pero no en macOS.
- Si ha instalado una versión de torch sin soporte CUDA, primero desinstale (comando: pip uninstall torch ) e instale el sugerido.
- También puede instalar la versión correspondiente de CUDA Toolkit (por ejemplo, para la versión torch que admite CUDA 12.1, también se puede instalar la misma versión de CUDA Toolkit 12.1).

Código de ejemplo para instalar Pytorch con soporte CUDA:
(RSTUDIO Terminal / Anaconda solicit / Windows Command)

 pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

Modelos Bert

La confiabilidad y validez de los siguientes 12 modelos Bert representativos se han establecido en mis artículos de investigación, pero se necesita trabajo futuro para examinar el rendimiento de otros modelos.

(Nombre del modelo en la cara de abrazo - Tamaño del archivo del modelo descargado)

base-base (420 MB)
Bert-base (416 MB)
Bert-LARGE-ANSCASADO (1283 MB)
Bert-Large-Cased (1277 MB)
Distilbert-Base-Inscase (256 MB)
Distilbert-Base-Case (251 MB)
Albert-Base-V1 (45 MB)
Albert-Base-V2 (45 MB)
Roberta-Base (476 MB)
Distilroberta-Base (316 MB)
Vinai/Bertweet-Base (517 MB)
Vinai/Bertweet-Large (1356 MB)

Si es nuevo en Bert, estas referencias pueden ser útiles:

¿Qué es la máscara de relleno? [Facen de abrazo]
Un explorable Bert [Huggingface]
Documentación del modelo Bert [Huggingface]
Bert explicó
Rompiendo a Bert
Bert ilustrado
Guía visual a Bert

library( FMAT )
models = c(
  " bert-base-uncased " ,
  " bert-base-cased " ,
  " bert-large-uncased " ,
  " bert-large-cased " ,
  " distilbert-base-uncased " ,
  " distilbert-base-cased " ,
  " albert-base-v1 " ,
  " albert-base-v2 " ,
  " roberta-base " ,
  " distilroberta-base " ,
  " vinai/bertweet-base " ,
  " vinai/bertweet-large "
)
BERT_download( models )

 ℹ Device Info:

R Packages:
FMAT          2024.5
reticulate    1.36.1

Python Packages:
transformers  4.40.2
torch         2.2.1+cu121

NVIDIA GPU CUDA Support:
CUDA Enabled: TRUE
CUDA Version: 12.1
GPU (Device): NVIDIA GeForce RTX 2050


── Downloading model "bert-base-uncased" ──────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 114kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 23.9kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.98MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 440M/440M [00:36<00:00, 12.1MB/s] 
✔ Successfully downloaded model "bert-base-uncased"

── Downloading model "bert-base-cased" ────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 63.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 8.66kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 10.1MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 436M/436M [00:37<00:00, 11.6MB/s] 
✔ Successfully downloaded model "bert-base-cased"

── Downloading model "bert-large-uncased" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 571/571 [00:00<00:00, 268kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 12.0kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.99MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:36<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-uncased"

── Downloading model "bert-large-cased" ───────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 762/762 [00:00<00:00, 125kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 12.3kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.41MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 5.39MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:35<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-cased"

── Downloading model "distilbert-base-uncased" ────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 483/483 [00:00<00:00, 161kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 9.46kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 16.5MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 14.8MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 268M/268M [00:19<00:00, 13.5MB/s] 
✔ Successfully downloaded model "distilbert-base-uncased"

── Downloading model "distilbert-base-cased" ──────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 465/465 [00:00<00:00, 233kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 9.80kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 8.70MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 263M/263M [00:24<00:00, 10.9MB/s] 
✔ Successfully downloaded model "distilbert-base-cased"

── Downloading model "albert-base-v1" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 3.57kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 4.93MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 13.4MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.4MB/s]
✔ Successfully downloaded model "albert-base-v1"

── Downloading model "albert-base-v2" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 4.17kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 5.10MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 6.93MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.8MB/s]
✔ Successfully downloaded model "albert-base-v2"

── Downloading model "roberta-base" ───────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 481/481 [00:00<00:00, 80.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 6.25kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 2.72MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 8.22MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.56MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 499M/499M [00:38<00:00, 12.9MB/s] 
✔ Successfully downloaded model "roberta-base"

── Downloading model "distilroberta-base" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 480/480 [00:00<00:00, 96.4kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 12.0kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 6.59MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 9.46MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 11.5MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 331M/331M [00:25<00:00, 13.0MB/s] 
✔ Successfully downloaded model "distilroberta-base"

── Downloading model "vinai/bertweet-base" ────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 558/558 [00:00<00:00, 187kB/s]
→ (2) Downloading tokenizer...
vocab.txt: 100%|██████████| 843k/843k [00:00<00:00, 7.44MB/s]
bpe.codes: 100%|██████████| 1.08M/1.08M [00:00<00:00, 7.01MB/s]
tokenizer.json: 100%|██████████| 2.91M/2.91M [00:00<00:00, 9.10MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 543M/543M [00:48<00:00, 11.1MB/s] 
✔ Successfully downloaded model "vinai/bertweet-base"

── Downloading model "vinai/bertweet-large" ───────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 614/614 [00:00<00:00, 120kB/s]
→ (2) Downloading tokenizer...
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 5.90MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 7.30MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.31MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 1.42G/1.42G [02:29<00:00, 9.53MB/s]
✔ Successfully downloaded model "vinai/bertweet-large"

── Downloaded models: ──

                           size
albert-base-v1            45 MB
albert-base-v2            45 MB
bert-base-cased          416 MB
bert-base-uncased        420 MB
bert-large-cased        1277 MB
bert-large-uncased      1283 MB
distilbert-base-cased    251 MB
distilbert-base-uncased  256 MB
distilroberta-base       316 MB
roberta-base             476 MB
vinai/bertweet-base      517 MB
vinai/bertweet-large    1356 MB

✔ Downloaded models saved at C:/Users/Bruce/.cache/huggingface/hub (6.52 GB)

BERT_info( models )

                      model   size vocab  dims   mask
                     <fctr> <char> <int> <int> <char>
 1:       bert-base-uncased  420MB 30522   768 [MASK]
 2:         bert-base-cased  416MB 28996   768 [MASK]
 3:      bert-large-uncased 1283MB 30522  1024 [MASK]
 4:        bert-large-cased 1277MB 28996  1024 [MASK]
 5: distilbert-base-uncased  256MB 30522   768 [MASK]
 6:   distilbert-base-cased  251MB 28996   768 [MASK]
 7:          albert-base-v1   45MB 30000   128 [MASK]
 8:          albert-base-v2   45MB 30000   128 [MASK]
 9:            roberta-base  476MB 50265   768 <mask>
10:      distilroberta-base  316MB 50265   768 <mask>
11:     vinai/bertweet-base  517MB 64001   768 <mask>
12:    vinai/bertweet-large 1356MB 50265  1024 <mask>

(Probado 2024-05-16 en la computadora del desarrollador: HP Probook 450 G10 PC de cuaderno)

Paquetes relacionados

Si bien el FMAT es un método innovador para el análisis inteligente computacional de la psicología y la sociedad, también puede buscar una caja de herramientas integrador para otros métodos analíticos de texto. Otro paquete R que desarrollé --- PsychWordVec --- es útil y fácil de usar para el análisis de incrustación de palabras (por ejemplo, la prueba de asociación de incrustaciones de palabras, Weat). Consulte su documentación y no dude en usarla.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-11
tamaño 66.54KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo