Скачать FMAT - Скачать исходный код FMAT

FMAT

AI Исходный код

1.0.0

Скачать

FMAT

Автор

Хан-Ву-Шуан (Брюс) Бао 包寒吴霜

? [email protected]

? Psychbruce.github.io

Цитирование

Bao, H.-W.-S. (2023). FMAT: тест Ассоциации заполнения маски . https://cran.r-project.org/package=fmat
- Примечание : это оригинальная цитата. Пожалуйста, обратитесь к информации, когда вы library(FMAT) для формата APA-7 установленной вами версии.
Bao, H.-W.-S. (2024). Тест ассоциации заполнения (FMAT): измерение предложений на естественном языке. Журнал личности и социальной психологии, 127 (3), 537–561. https://doi.org/10.1037/pspa0000396
Bao, H.W.-S. & Gries, P. (2024). Интерсекционные стереотипы расы -гендера на естественном языке. Британский журнал социальной психологии, 63 (4), 1771–1786. https://doi.org/10.1111/bjso.12748

Установка

Чтобы использовать FMAT, необходимо установить FMAT и три пакета Python ( transformers , torch , huggingface-hub ).

(1) R пакет

 # # Method 1: Install from CRAN
install.packages( " FMAT " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/FMAT " , force = TRUE )

(2) Среда и пакеты Python

Установите Anaconda (рекомендуемый диспетчер пакетов, который автоматически устанавливает Python, Python Ides, такие как Spyder, и большой список необходимых зависимостей пакета Python).

Укажите интерпретатор Python Anaconda в RSTUDIO.

RSTUDIO → Инструменты → Глобальные/проектные варианты
→ Python → Select → Conda Environments
→ Выберите ".../anaconda3/python.exe"

Установите конкретные версии пакетов Python «Трансформеры», «Факел» и «Hubgingface-Hub».
(RSTUDIO TERMINAL / ANACONDA RIDED / WINDOWS) Команда)

Для пользователей процессора:

 pip install transformers==4.40.2 torch==2.2.1 huggingface-hub==0.20.3

Для пользователей GPU (CUDA):

 pip install transformers==4.40.2 huggingface-hub==0.20.3
pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

См. [Руководство по ускорению графического процессора] для руководства по установке, если у вас есть устройство GPU NVIDIA на вашем ПК и вы хотите использовать графический процессор для ускорения трубопровода.
Согласно выпускам в мае 2024 года, «трансформаторы» ≥ 4,41 зависят от «Hubgingface-Hub» ≥ 0,23. Предлагаемые версии «Трансформаторов» (4.40.2) и «Huggingface-Hub» (0,20.3) обеспечивают консольную отображение панелей хода при загрузке моделей BERT, сохраняя при этом эти пакеты максимально новыми.
Пользователи прокси должны использовать «Глобальный режим» (全局模式) для загрузки моделей.
Если вы видите ошибку HTTPSConnectionPool(host='huggingface.co', port=443) , попробуйте (1) переустановить Anaconda, чтобы некоторые неизвестные проблемы могли быть исправлены или (2) понизите пакет «urllib3» до версии ≤ 1.25.11 ( pip install urllib3==1.25.11 ), чтобы он использовал http proxies (а не htps in -inspes in in in in in ht Чтобы подключиться к обнимающему лицу.
- https://www.cnblogs.com/devilmaycry812839668/p/17872452.html
- https://zhuanlan.zhihu.com/p/350015032

Руководство для FMAT

Шаг 1: Скачать модели BERT

Используйте BERT_download() для загрузки [Bert Models]. Файлы модели сохраняются в вашей локальной папке «%UserProfile%/. Cache/Huggingface». Полный список моделей BERT доступен на обнимательном лице.

Используйте BERT_info() и BERT_vocab() чтобы найти подробную информацию о моделях BERT.

Шаг 2: Запросы дизайна FMAT

Проектирование запросов, которые концептуально представляют конструкции, которые вы бы измеряли (см. Bao, 2024, JPSP для разработки запросов).

Используйте FMAT_query() и/или FMAT_query_bind() , чтобы подготовить data.table .

Шаг 3: Запустите FMAT

Используйте FMAT_run() , чтобы получить необработанные данные (оценки вероятности) для дальнейшего анализа.

Несколько этапов предварительной обработки были включены в функцию для более легкого использования (для получения подробной информации см. FMAT_run() .

Для вариантов BERT, использующих <mask> , а не [MASK] в качестве токена маски, запрос ввода будет автоматически изменен, чтобы пользователи всегда могли использовать [MASK] в дизайне запросов.
Для некоторых вариантов BERT специальные символы префикса, такие как u0120 и u2581 будут автоматически добавлены в соответствии со всеми словами (а не подчиками) для [MASK] .

Примечания

Улучшения продолжаются, особенно для адаптации к более разнообразным (менее популярным) моделям BERT.
Если вы найдете ошибки или у вас есть проблемы с использованием функций, сообщите о них по вопросам GitHub или отправьте мне электронное письмо.

Руководство по ускорению графического процессора

По умолчанию пакет FMAT использует процессор, чтобы включить функциональность для всех пользователей. Но для продвинутых пользователей, которые хотят ускорить трубопровод с помощью графического процессора, функция FMAT_run() теперь поддерживает использование устройства GPU, примерно в 3 раза быстрее, чем ЦП.

Результаты тестирования (на компьютере разработчика, в зависимости от размера модели BERT):

ЦП (Intel 13-го поколения I7-1355U): 500 ~ 1000 запросов/мин
GPU (NVIDIA GEFORCE RTX 2050): 1500 ~ 3000 запросов/мин

Контрольный список:

Убедитесь, что у вас есть устройство GPU NVIDIA (например, серия GeForce RTX) и драйвер NVIDIA GPU, установленную в вашей системе.
Установите Pytorch (Python torch Package) с поддержкой CUDA.
- Найдите руководство для команды установки по адресу https://pytorch.org/get-started/locally/.
- CUDA доступен только в Windows и Linux, но не на macOS.
- Если вы установили версию torch без поддержки CUDA, сначала удалите ее (команда: pip uninstall torch ), а затем установите предложенную.
- Вы также можете установить соответствующую версию Cuda Toolkit (например, для версии torch , поддерживающей CUDA 12.1, также может быть установлена та же версия CUDA Toolkit 12.1).

Пример кода для установки Pytorch с поддержкой CUDA:
(RSTUDIO TERMINAL / ANACONDA RIDED / WINDOWS) Команда)

 pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

Модели Берта

В моих исследовательских статьях была установлена надежность и обоснованность следующих 12 репрезентативных моделей BERT, но для изучения эффективности других моделей необходима будущая работа.

(Имя модели на лице объятия - размер файла загруженного модели)

BERT-базовая открытка (420 МБ)
BERT-базовый (416 МБ)
Bert-Large-Excaled (1283 МБ)
Берт-широкий (1277 МБ)
Дистилберт-базовый размер (256 МБ)
дистильберт-базовый (251 МБ)
Albert-Base-V1 (45 МБ)
Albert-Base-V2 (45 МБ)
Роберта-баз (476 МБ)
Distilroberta-баз (316 МБ)
Vinai/Bertweet-Base (517 МБ)
Vinai/Bertweet-Large (1356 МБ)

Если вы новичок в BERT, эти ссылки могут быть полезны:

Что такое заполняющая маска? [HuggingFace]
Исследовавший Берт [Huggingface]
Документация модели BERT [HuggingFace]
Берт объяснил
Разбивая Берт
Иллюстрированный Берт
Визуальное руководство по Берту

library( FMAT )
models = c(
  " bert-base-uncased " ,
  " bert-base-cased " ,
  " bert-large-uncased " ,
  " bert-large-cased " ,
  " distilbert-base-uncased " ,
  " distilbert-base-cased " ,
  " albert-base-v1 " ,
  " albert-base-v2 " ,
  " roberta-base " ,
  " distilroberta-base " ,
  " vinai/bertweet-base " ,
  " vinai/bertweet-large "
)
BERT_download( models )

 ℹ Device Info:

R Packages:
FMAT          2024.5
reticulate    1.36.1

Python Packages:
transformers  4.40.2
torch         2.2.1+cu121

NVIDIA GPU CUDA Support:
CUDA Enabled: TRUE
CUDA Version: 12.1
GPU (Device): NVIDIA GeForce RTX 2050


── Downloading model "bert-base-uncased" ──────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 114kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 23.9kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.98MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 440M/440M [00:36<00:00, 12.1MB/s] 
✔ Successfully downloaded model "bert-base-uncased"

── Downloading model "bert-base-cased" ────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 63.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 8.66kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 10.1MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 436M/436M [00:37<00:00, 11.6MB/s] 
✔ Successfully downloaded model "bert-base-cased"

── Downloading model "bert-large-uncased" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 571/571 [00:00<00:00, 268kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 12.0kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.99MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:36<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-uncased"

── Downloading model "bert-large-cased" ───────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 762/762 [00:00<00:00, 125kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 12.3kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.41MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 5.39MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:35<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-cased"

── Downloading model "distilbert-base-uncased" ────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 483/483 [00:00<00:00, 161kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 9.46kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 16.5MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 14.8MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 268M/268M [00:19<00:00, 13.5MB/s] 
✔ Successfully downloaded model "distilbert-base-uncased"

── Downloading model "distilbert-base-cased" ──────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 465/465 [00:00<00:00, 233kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 9.80kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 8.70MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 263M/263M [00:24<00:00, 10.9MB/s] 
✔ Successfully downloaded model "distilbert-base-cased"

── Downloading model "albert-base-v1" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 3.57kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 4.93MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 13.4MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.4MB/s]
✔ Successfully downloaded model "albert-base-v1"

── Downloading model "albert-base-v2" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 4.17kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 5.10MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 6.93MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.8MB/s]
✔ Successfully downloaded model "albert-base-v2"

── Downloading model "roberta-base" ───────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 481/481 [00:00<00:00, 80.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 6.25kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 2.72MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 8.22MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.56MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 499M/499M [00:38<00:00, 12.9MB/s] 
✔ Successfully downloaded model "roberta-base"

── Downloading model "distilroberta-base" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 480/480 [00:00<00:00, 96.4kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 12.0kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 6.59MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 9.46MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 11.5MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 331M/331M [00:25<00:00, 13.0MB/s] 
✔ Successfully downloaded model "distilroberta-base"

── Downloading model "vinai/bertweet-base" ────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 558/558 [00:00<00:00, 187kB/s]
→ (2) Downloading tokenizer...
vocab.txt: 100%|██████████| 843k/843k [00:00<00:00, 7.44MB/s]
bpe.codes: 100%|██████████| 1.08M/1.08M [00:00<00:00, 7.01MB/s]
tokenizer.json: 100%|██████████| 2.91M/2.91M [00:00<00:00, 9.10MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 543M/543M [00:48<00:00, 11.1MB/s] 
✔ Successfully downloaded model "vinai/bertweet-base"

── Downloading model "vinai/bertweet-large" ───────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 614/614 [00:00<00:00, 120kB/s]
→ (2) Downloading tokenizer...
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 5.90MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 7.30MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.31MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 1.42G/1.42G [02:29<00:00, 9.53MB/s]
✔ Successfully downloaded model "vinai/bertweet-large"

── Downloaded models: ──

                           size
albert-base-v1            45 MB
albert-base-v2            45 MB
bert-base-cased          416 MB
bert-base-uncased        420 MB
bert-large-cased        1277 MB
bert-large-uncased      1283 MB
distilbert-base-cased    251 MB
distilbert-base-uncased  256 MB
distilroberta-base       316 MB
roberta-base             476 MB
vinai/bertweet-base      517 MB
vinai/bertweet-large    1356 MB

✔ Downloaded models saved at C:/Users/Bruce/.cache/huggingface/hub (6.52 GB)

BERT_info( models )

                      model   size vocab  dims   mask
                     <fctr> <char> <int> <int> <char>
 1:       bert-base-uncased  420MB 30522   768 [MASK]
 2:         bert-base-cased  416MB 28996   768 [MASK]
 3:      bert-large-uncased 1283MB 30522  1024 [MASK]
 4:        bert-large-cased 1277MB 28996  1024 [MASK]
 5: distilbert-base-uncased  256MB 30522   768 [MASK]
 6:   distilbert-base-cased  251MB 28996   768 [MASK]
 7:          albert-base-v1   45MB 30000   128 [MASK]
 8:          albert-base-v2   45MB 30000   128 [MASK]
 9:            roberta-base  476MB 50265   768 <mask>
10:      distilroberta-base  316MB 50265   768 <mask>
11:     vinai/bertweet-base  517MB 64001   768 <mask>
12:    vinai/bertweet-large 1356MB 50265  1024 <mask>

(Протестировано 2024-05-16 на компьютере разработчика: HP Probook 450 G10 Notebbook ПК)

Связанные пакеты

Хотя FMAT является инновационным методом вычислительного интеллектуального анализа психологии и общества, вы также можете обратиться за интегративным набором инструментов для других текстовых аналитических методов. Еще один пакет R, который я разработал --- PsychwordVec --- полезен и удобен для анализа встраивания слов (например, тест Antricing Association Assocting, Weat). Пожалуйста, обратитесь к его документации и не стесняйтесь использовать его.

Расширять

Дополнительная информация