Unduh bigbird - Unduh Kode Sumber bigbird

bigbird

Kode sumber lainnya

1.0.0

Unduh

Big Bird: Transformers untuk urutan yang lebih lama

Bukan produk Google resmi.

Apa itu Bigbird?

Bigbird, adalah transformator berbasis perhatian yang jarang yang memperluas model berbasis transformator, seperti Bert ke urutan yang lebih lama. Selain itu, Bigbird hadir dengan pemahaman teoretis tentang kemampuan transformator lengkap yang dapat ditangani oleh model yang jarang.

Sebagai konsekuensi dari kemampuan untuk menangani konteks yang lebih lama, Bigbird secara drastis meningkatkan kinerja pada berbagai tugas NLP seperti menjawab pertanyaan dan ringkasan.

Rincian dan perbandingan lebih lanjut dapat ditemukan dalam presentasi kami.

Kutipan

Jika Anda menemukan ini berguna, silakan kutip kertas Neurips 2020 kami:

 @article{zaheer2020bigbird,
  title={Big bird: Transformers for longer sequences},
  author={Zaheer, Manzil and Guruganesh, Guru and Dubey, Kumar Avinava and Ainslie, Joshua and Alberti, Chris and Ontanon, Santiago and Pham, Philip and Ravula, Anirudh and Wang, Qifan and Yang, Li and others},
  journal={Advances in Neural Information Processing Systems},
  volume={33},
  year={2020}
}

Kode

Direktori terpenting adalah core . Ada tiga file utama dalam core .

perhatian.py: mengandung mekanisme perhatian linier besar
encoder.py: berisi tumpukan encoder urutan panjang utama
Modeling.py: Berisi model transformator Bert dan Seq2seq yang dikemas dengan perhatian besar

Colab/Ipython Notebook

Demonstrasi penyempurnaan cepat untuk klasifikasi teks disediakan di IMDB.IPYNB

Buat instance GCP

Harap buat proyek terlebih dahulu dan buat contoh di zona yang memiliki kuota sebagai berikut

gcloud compute instances create 
  bigbird 
  --zone=europe-west4-a 
  --machine-type=n1-standard-16 
  --boot-disk-size=50GB 
  --image-project=ml-images 
  --image-family=tf-2-3-1 
  --maintenance-policy TERMINATE 
  --restart-on-failure 
  --scopes=cloud-platform

gcloud compute tpus create 
  bigbird 
  --zone=europe-west4-a 
  --accelerator-type=v3-32 
  --version=2.3.1

gcloud compute ssh --zone " europe-west4-a " " bigbird "

Untuk ilustrasi kami menggunakan nama instance bigbird dan Zone europe-west4-a , tetapi jangan ragu untuk mengubahnya. Rincian lebih lanjut tentang membuat Google Cloud TPU dapat ditemukan dalam dokumentasi online.

Instalasi dan pos pemeriksaan

git clone https://github.com/google-research/bigbird.git
cd bigbird
pip3 install -e .

Anda dapat menemukan pos pemeriksaan pretrained dan fine-tuned di Google Cloud Storage Bucket kami.

Secara opsional, Anda dapat mengunduhnya menggunakan gsutil sebagai

mkdir -p bigbird/ckpt
gsutil cp -r gs://bigbird-transformer/ bigbird/ckpt/

Bucket penyimpanan berisi:

Model Bert pretrained untuk basis ( bigbr_base ) dan ukuran besar ( bigbr_large ). Ini sesuai dengan model Encoder Bert/Roberta saja. Mengikuti implementasi Bert dan Roberta asli mereka adalah transformator dengan pasca-normalisasi, yaitu norma layer terjadi setelah lapisan perhatian. Namun, mengikuti Rothe et al, kita dapat menggunakannya sebagian dalam mode encoder-dekoder dengan menggabungkan parameter encoder dan decoder, seperti yang diilustrasikan dalam skrip peluncuran Bigbird/Summarisasi/Roberta_Base.sh.
Transformator Pegasus Encoder-Decoder pretrained dalam ukuran besar ( bigbp_large ). Sekali lagi mengikuti implementasi asli Pegasus, mereka adalah transformator dengan pra-normalisasi. Mereka memiliki set lengkap bobot enkoder-dekoder yang terpisah. Juga untuk dataset ringkasan dokumen yang panjang, kami telah mengonversi pos pemeriksaan Pegasus ( model.ckpt-0 ) untuk setiap dataset dan juga menyediakan pos pemeriksaan yang disesuaikan ( model.ckpt-300000 ) yang berfungsi pada dokumen yang lebih panjang.
tf.SavedModel yang disempurnakan untuk peringkasan dokumen panjang yang dapat langsung digunakan untuk prediksi dan evaluasi seperti yang diilustrasikan dalam Colab Nootebook.

Menjalankan klasifikasi

Untuk memulai dengan cepat dengan Bigbird, orang dapat mulai dengan menjalankan kode percobaan klasifikasi di direktori classifier . Untuk menjalankan kode cukup jalankan

 export GCP_PROJECT_NAME=bigbird-project  # Replace by your project name
export GCP_EXP_BUCKET=gs://bigbird-transformer-training/  # Replace
sh -x bigbird/classifier/base_size.sh

Menggunakan encoder Bigbird sebagai gantinya Bert/Roberta

Untuk secara langsung menggunakan encoder alih -alih mengatakan Model Bert, kita dapat menggunakan kode berikut.

 from bigbird . core import modeling

bigb_encoder = modeling . BertModel (...)

Ini dapat dengan mudah menggantikan encoder Bert.

Atau, seseorang juga dapat mencoba bermain dengan lapisan encoder Bigbird

 from bigbird . core import encoder

only_layers = encoder . EncoderStack (...)

Memahami Bendera & Konfigurasi

Semua bendera dan konfigurasi dijelaskan dalam core/flags.py . Di sini kami menjelaskan beberapa paramater konfigurasi penting.

attention_type digunakan untuk memilih jenis perhatian yang akan kami gunakan. Mengaturnya ke block_sparse menjalankan modul perhatian BigBird.

 flags . DEFINE_enum (
    "attention_type" , "block_sparse" ,
    [ "original_full" , "simulated_sparse" , "block_sparse" ],
    "Selecting attention implementation. "
    "'original_full': full attention from original bert. "
    "'simulated_sparse': simulated sparse attention. "
    "'block_sparse': blocked implementation of sparse attention." )

block_size digunakan untuk menentukan ukuran blok, sedangkan num_rand_blocks digunakan untuk mengatur jumlah blok acak. Kode saat ini menggunakan ukuran jendela 3 blok dan 2 blok global. Kode saat ini hanya mendukung tensor statis.

Poin penting untuk dicatat:

Dimensi tersembunyi harus dibagi dengan jumlah kepala.
Saat ini kode hanya menangani tensor bentuk statis karena terutama dirancang untuk TPU yang hanya berfungsi dengan tensor berbentuk statis.
Untuk panjang sekuen kurang dari 1024, menggunakan original_full disarankan karena tidak ada manfaat dalam menggunakan perhatian besar Bigbird.

Perbandingan

Baru -baru ini, Long Range Arena memberikan tolok ukur enam tugas yang membutuhkan konteks yang lebih lama, dan melakukan percobaan untuk membandingkan semua transformator jarak jauh yang ada. Hasilnya ditunjukkan di bawah ini. Model Bigbird, tidak seperti rekan -rekannya, jelas mengurangi konsumsi memori tanpa mengorbankan kinerja.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-16
ukuran 1.33MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua