FMATダウンロードFMATソースコードのダウンロード

FMAT

AI ソースコード

1.0.0

ダウンロード

fmat

著者

Han-wu-shuang（ブルース）bao包寒吴霜

？ [email protected]

？ Psychbruce.github.io

引用

バオ、H.-W.-S。（2023）。 FMAT：フィルマスクアソシエーションテスト。 https://cran.r-project.org/package=fmat
- 注：これは元の引用です。インストールしたバージョンのAPA-7形式についてはlibrary(FMAT)の場合は情報を参照してください。
バオ、H.-W.-S。（2024）。フィルマスク協会テスト（FMAT）：自然言語での命題の測定。 Journal of Personality and Social Psychology、127 （3）、537–561。 https://doi.org/10.1037/pspa0000396
Bao、H.-W.-S。、＆Gries、P。（2024）。自然言語における交差的人種 - ジェンダーのステレオタイプ。 British Journal of Social Psychology、63 （4）、1771–1786。 https://doi.org/10.1111/bjso.12748

インストール

FMATを使用するには、RパッケージFMATと3つのPythonパッケージ（ transformers 、 torch 、 huggingface-hub ）をすべてインストールする必要があります。

（1）Rパッケージ

 # # Method 1: Install from CRAN
install.packages( " FMAT " )

# # Method 2: Install from GitHub
install.packages( " devtools " )
devtools :: install_github( " psychbruce/FMAT " , force = TRUE )

（2）Python環境とパッケージ

Anaconda（Python、SpyderなどのPython Ides、および必要なPythonパッケージ依存関係の大きなリストを自動的にインストールする推奨パッケージマネージャー）をインストールします。

rstudioでアナコンダのPython通訳を指定します。

rstudio→ツール→グローバル/プロジェクトオプション
→Python→Select→ Conda環境
→ 「.../anaconda3/python.exe」を選択します

Pythonパッケージの特定のバージョン「トランス」、「トーチ」、および「ハグFace-Hub」をインストールします。
（rstudioターミナル /アナコンダプロンプト / Windowsコマンド）

CPUユーザーの場合：

 pip install transformers==4.40.2 torch==2.2.1 huggingface-hub==0.20.3

GPU（CUDA）ユーザーの場合：

 pip install transformers==4.40.2 huggingface-hub==0.20.3
pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

PCにNVIDIA GPUデバイスがあり、GPUを使用してパイプラインを加速する場合は、[GPU加速のガイダンス]を参照してください。
2024年5月のリリースによると、「変圧器」≥4.41は「ハギングフェイスハブ」≥0.23に依存しています。「Transformers」（4.40.2）および「Huggingface-Hub」（0.20.3）の推奨バージョンは、BERTモデルをダウンロードするときに、これらのパッケージを可能な限り新しいものに保ちながら、進行状況バーのコンソールディスプレイを保証します。
プロキシユーザーは、「グローバルモード」（全局模式）を使用してモデルをダウンロードする必要があります。
エラーHTTPSConnectionPool(host='huggingface.co', port=443)が表示されている場合は、（1）不明な問題を修正するか、（2）バージョンまでの「urllib3」パッケージをバージョン以下pip install urllib3==1.25.11に格下げするようにしてください。バージョン）ハグに接続します。
- https://www.cnblogs.com/devilmaycry812839668/p/17872452.html
- https://zhuanlan.zhihu.com/p/350015032

FMATのガイダンス

ステップ1：BERTモデルをダウンロードします

BERT_download()を使用して[bertモデル]をダウンロードします。モデルファイルは、ローカルフォルダー "％userprofile％/。キャッシュ/ハグFace"」に保存されます。 Bertモデルの完全なリストは、Faceの抱きしめで利用できます。

BERT_info()およびBERT_vocab()を使用して、bertモデルの詳細情報を見つけます。

ステップ2：FMATクエリを設計します

測定する構造を概念的に表すデザインクエリ（BAO、2024、 JPSPを参照してください。

FMAT_query()および/or FMAT_query_bind()を使用して、 data.table of queriesを準備します。

ステップ3：FMATを実行します

FMAT_run()を使用して、さらなる分析のために生データ（確率推定値）を取得します。

前処理のいくつかのステップが機能に含まれており、簡単に使用できます（詳細については、 FMAT_run()参照してください）。

マスクトークンとして[MASK]ではなく<mask>マスク>を使用するBertバリエーションの場合、ユーザーが常に[MASK]クエリデザインで使用できるように入力クエリが自動的に変更されます。
一部のBERTバリエーションの場合、 [MASK]の単語全体（サブワードではなく）全体に一致するように、 u0120やu2581などの特別な接頭文字が自動的に追加されます。

メモ

特に、より多様な（あまり人気の低い）BERTモデルへの適応のために、改善が進行中です。
バグを見つけたり、機能を使用して問題がある場合は、GitHubの問題で報告するか、メールを送信してください。

GPU加速のガイダンス

デフォルトでは、 FMATパッケージはCPUを使用して、すべてのユーザーの機能を有効にします。しかし、GPUでパイプラインを加速したい上級ユーザーの場合、 FMAT_run()関数は、CPUよりも約3倍高速なGPUデバイスの使用をサポートするようになりました。

テスト結果（開発者のコンピューターでは、BERTモデルのサイズに応じて）：

CPU（Intel 13th-Gen I7-1355U）：500〜1000クエリ/分
GPU（Nvidia Geforce RTX 2050）：1500〜3000クエリ/分

チェックリスト：

NVIDIA GPUデバイス（GeForce RTXシリーズなど）とNVIDIA GPUドライバーがシステムにインストールされていることを確認してください。
CUDAサポート付きのPytorch（Python torchパッケージ）をインストールします。
- https://pytorch.org/get-started/locally/でインストールコマンドのガイダンスを見つけてください。
- CUDAは、WindowsとLinuxでのみ利用できますが、MacOSでは利用できません。
- CUDAサポートなしでtorchのバージョンをインストールした場合は、最初にアンインストール（コマンド： pip uninstall torch ）を取り付けてから、提案されたものをインストールしてください。
- また、CUDA Toolkitの対応するバージョン（例えば、CUDA 12.1をサポートするtorchバージョンの場合、同じバージョンのCUDA Toolkit 12.1もインストールできます）。

PytorchをCUDAサポートでインストールするための例：
（rstudioターミナル /アナコンダプロンプト / Windowsコマンド）

 pip install torch==2.2.1 --index-url https://download.pytorch.org/whl/cu121

バートモデル

次の12の代表的なBERTモデルの信頼性と妥当性が私の研究記事で確立されていますが、他のモデルのパフォーマンスを調べるには将来の作業が必要です。

（ハグのモデル名 - ダウンロードされたモデルファイルサイズ）

Bert-Base-Uncased（420 MB）
Bert-Base-Cased（416 MB）
Bert-Large-Uncased（1283 MB）
Bert-Large-Cased（1277 MB）
Distilbert-Base-Uncased（256 MB）
Distilbert-Base-Cased（251 MB）
Albert-Base-V1（45 MB）
Albert-Base-V2（45 MB）
ロベルタベース（476 MB）
Distilroberta-base（316 MB）
vinai/bertweet-base（517 MB）
vinai/bertweet-large（1356 MB）

BERTが初めての場合、これらの参照は役立ちます。

フィルマスクとは何ですか？ [Huggingface]
探索可能なバート[ハグファイス]
Bert Model Documentation [Huggingface]
バートは説明した
バートを破る
図解バート
バートへの視覚ガイド

library( FMAT )
models = c(
  " bert-base-uncased " ,
  " bert-base-cased " ,
  " bert-large-uncased " ,
  " bert-large-cased " ,
  " distilbert-base-uncased " ,
  " distilbert-base-cased " ,
  " albert-base-v1 " ,
  " albert-base-v2 " ,
  " roberta-base " ,
  " distilroberta-base " ,
  " vinai/bertweet-base " ,
  " vinai/bertweet-large "
)
BERT_download( models )

 ℹ Device Info:

R Packages:
FMAT          2024.5
reticulate    1.36.1

Python Packages:
transformers  4.40.2
torch         2.2.1+cu121

NVIDIA GPU CUDA Support:
CUDA Enabled: TRUE
CUDA Version: 12.1
GPU (Device): NVIDIA GeForce RTX 2050


── Downloading model "bert-base-uncased" ──────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 114kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 23.9kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.98MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 440M/440M [00:36<00:00, 12.1MB/s] 
✔ Successfully downloaded model "bert-base-uncased"

── Downloading model "bert-base-cased" ────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 570/570 [00:00<00:00, 63.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 8.66kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 10.1MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 436M/436M [00:37<00:00, 11.6MB/s] 
✔ Successfully downloaded model "bert-base-cased"

── Downloading model "bert-large-uncased" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 571/571 [00:00<00:00, 268kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 12.0kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 1.50MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 1.99MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:36<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-uncased"

── Downloading model "bert-large-cased" ───────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 762/762 [00:00<00:00, 125kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 12.3kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.41MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 5.39MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 1.34G/1.34G [01:35<00:00, 14.0MB/s]
✔ Successfully downloaded model "bert-large-cased"

── Downloading model "distilbert-base-uncased" ────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 483/483 [00:00<00:00, 161kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 48.0/48.0 [00:00<00:00, 9.46kB/s]
vocab.txt: 100%|██████████| 232k/232k [00:00<00:00, 16.5MB/s]
tokenizer.json: 100%|██████████| 466k/466k [00:00<00:00, 14.8MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 268M/268M [00:19<00:00, 13.5MB/s] 
✔ Successfully downloaded model "distilbert-base-uncased"

── Downloading model "distilbert-base-cased" ──────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 465/465 [00:00<00:00, 233kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 49.0/49.0 [00:00<00:00, 9.80kB/s]
vocab.txt: 100%|██████████| 213k/213k [00:00<00:00, 1.39MB/s]
tokenizer.json: 100%|██████████| 436k/436k [00:00<00:00, 8.70MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 263M/263M [00:24<00:00, 10.9MB/s] 
✔ Successfully downloaded model "distilbert-base-cased"

── Downloading model "albert-base-v1" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 3.57kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 4.93MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 13.4MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.4MB/s]
✔ Successfully downloaded model "albert-base-v1"

── Downloading model "albert-base-v2" ─────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 684/684 [00:00<00:00, 137kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 4.17kB/s]
spiece.model: 100%|██████████| 760k/760k [00:00<00:00, 5.10MB/s]
tokenizer.json: 100%|██████████| 1.31M/1.31M [00:00<00:00, 6.93MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 47.4M/47.4M [00:03<00:00, 13.8MB/s]
✔ Successfully downloaded model "albert-base-v2"

── Downloading model "roberta-base" ───────────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 481/481 [00:00<00:00, 80.3kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 6.25kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 2.72MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 8.22MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.56MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 499M/499M [00:38<00:00, 12.9MB/s] 
✔ Successfully downloaded model "roberta-base"

── Downloading model "distilroberta-base" ─────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 480/480 [00:00<00:00, 96.4kB/s]
→ (2) Downloading tokenizer...
tokenizer_config.json: 100%|██████████| 25.0/25.0 [00:00<00:00, 12.0kB/s]
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 6.59MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 9.46MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 11.5MB/s]
→ (3) Downloading model...
model.safetensors: 100%|██████████| 331M/331M [00:25<00:00, 13.0MB/s] 
✔ Successfully downloaded model "distilroberta-base"

── Downloading model "vinai/bertweet-base" ────────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 558/558 [00:00<00:00, 187kB/s]
→ (2) Downloading tokenizer...
vocab.txt: 100%|██████████| 843k/843k [00:00<00:00, 7.44MB/s]
bpe.codes: 100%|██████████| 1.08M/1.08M [00:00<00:00, 7.01MB/s]
tokenizer.json: 100%|██████████| 2.91M/2.91M [00:00<00:00, 9.10MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 543M/543M [00:48<00:00, 11.1MB/s] 
✔ Successfully downloaded model "vinai/bertweet-base"

── Downloading model "vinai/bertweet-large" ───────────────────────────────────────
→ (1) Downloading configuration...
config.json: 100%|██████████| 614/614 [00:00<00:00, 120kB/s]
→ (2) Downloading tokenizer...
vocab.json: 100%|██████████| 899k/899k [00:00<00:00, 5.90MB/s]
merges.txt: 100%|██████████| 456k/456k [00:00<00:00, 7.30MB/s]
tokenizer.json: 100%|██████████| 1.36M/1.36M [00:00<00:00, 8.31MB/s]
→ (3) Downloading model...
pytorch_model.bin: 100%|██████████| 1.42G/1.42G [02:29<00:00, 9.53MB/s]
✔ Successfully downloaded model "vinai/bertweet-large"

── Downloaded models: ──

                           size
albert-base-v1            45 MB
albert-base-v2            45 MB
bert-base-cased          416 MB
bert-base-uncased        420 MB
bert-large-cased        1277 MB
bert-large-uncased      1283 MB
distilbert-base-cased    251 MB
distilbert-base-uncased  256 MB
distilroberta-base       316 MB
roberta-base             476 MB
vinai/bertweet-base      517 MB
vinai/bertweet-large    1356 MB

✔ Downloaded models saved at C:/Users/Bruce/.cache/huggingface/hub (6.52 GB)

BERT_info( models )

                      model   size vocab  dims   mask
                     <fctr> <char> <int> <int> <char>
 1:       bert-base-uncased  420MB 30522   768 [MASK]
 2:         bert-base-cased  416MB 28996   768 [MASK]
 3:      bert-large-uncased 1283MB 30522  1024 [MASK]
 4:        bert-large-cased 1277MB 28996  1024 [MASK]
 5: distilbert-base-uncased  256MB 30522   768 [MASK]
 6:   distilbert-base-cased  251MB 28996   768 [MASK]
 7:          albert-base-v1   45MB 30000   128 [MASK]
 8:          albert-base-v2   45MB 30000   128 [MASK]
 9:            roberta-base  476MB 50265   768 <mask>
10:      distilroberta-base  316MB 50265   768 <mask>
11:     vinai/bertweet-base  517MB 64001   768 <mask>
12:    vinai/bertweet-large 1356MB 50265  1024 <mask>

（開発者のコンピューターで2024-05-16テスト：HP ProBook 450 G10ノートブックPC）