Unduh aivmlib - Unduh Kode Sumber aivmlib

AIVMLIB

? aivmlib : ai vis v oice m odel file (.aivm/.aivmx) utility lib rary

AIVM ( Ai vis v oice m odel) / AIVMX ( ai vis v oice m odel for onn x ) adalah format file terbuka untuk model sintesis ucapan AI yang menggabungkan model pra-terlatih, hyperparameters, vektor gaya, satu metadata (nama, ikhtisar, lisensi, ikon, sampel suara, dll .

Catatan

"AIVM" juga merupakan istilah umum untuk spesifikasi format AIVM/AIVMX dan spesifikasi metadata.
Secara khusus, file AIVM adalah file model dalam "format safetensors dengan AIVM metadata ditambahkan", dan file AIVMX adalah file model dalam "format onnx dengan AIVM metadata ditambahkan".
"AIVM Metadata" mengacu pada berbagai metadata yang terkait dengan model terlatih sebagaimana didefinisikan dalam spesifikasi AIVM.

Anda dapat dengan mudah menggunakan model sintesis ucapan AI dengan menambahkan file AIVM/AIVMX ke perangkat lunak yang mendukung spesifikasi AIVM, termasuk mesin AIVISSPEECH/AIVISSPEECH.

AIVMLIB/AIVMLIB-WEB menyediakan utilitas untuk membaca dan menulis metadata dalam file AIVM/AIVMX.
AIVMLIB ini adalah implementasi referensi dari spesifikasi AIVM yang ditulis dalam Python. Jika Anda menggunakan browser web, silakan gunakan AIVMLIB-WEB.

Tip

AIVM Generator memungkinkan Anda untuk dengan mudah menghasilkan dan mengedit file AIVM/AIVMX menggunakan GUI di browser Anda.
Kami merekomendasikan menggunakan AIVM Generator saat secara manual menghasilkan dan mengedit file AIVM/AIVMX.

AIVMLIB
- Instalasi
- Penggunaan
- Lisensi
Spesifikasi AIVM
- Ringkasan
- Spesifikasi Format File AIVM
  - Kompatibel dengan format safetensors
  - Referensi
- Spesifikasi Format File AIVMX
  - Kompatibilitas format ONNX
  - Referensi
- AIVM Manifest Specification (Versi 1.0)
  - Arsitektur model yang didukung
  - Definisi bidang untuk AIVM memanifestasikan
- FAQ
  - Q. Mengapa ada dua format yang ditentukan: AIVM dan AIVMX?
  - Q. Dapatkah saya memuat file AIVM/AIVMX dengan alat yang ada?
  - Q. Bagaimana cara mengubah model sintesis ucapan AI yang ada menjadi AIVM/AIVMX?
  - Q. Bagaimana kontrol versi manifes AIVM?
  - Q. Apa perbedaan antara AIVMLIB dan AIVMLIB-WEB?
  - T. Bagaimana cara menambahkan dukungan untuk arsitektur model baru?
  - Q. Bagaimana saya harus menulis informasi lisensi?
  - Q. Apakah ada batasan ukuran untuk data gambar dan audio?
  - Q. Dapatkah saya mengedit metadata secara manual?

Instalasi

Jika Anda menginstalnya dengan PIP, alat baris perintah aivmlib juga akan diinstal secara otomatis.
Membutuhkan Python 3.11 atau lebih tinggi.

pip install aivmlib

Saya menggunakan puisi selama pengembangan.

pip install poetry
git clone https://github.com/Aivis-Project/aivmlib.git
cd aivmlib
poetry install --with dev
poetry run aivmlib --help

Penggunaan

Di bawah ini adalah cara menggunakan alat CLI itu sendiri.

$ aivmlib --help

 Usage: aivmlib [OPTIONS] COMMAND [ARGS]...

 Aivis Voice Model File (.aivm/.aivmx) Utility Library

╭─ Options ─────────────────────────────────────────────────────────────────────────╮
│ --install-completion          Install completion for the current shell.           │
│ --show-completion             Show completion for the current shell, to copy it   │
│                               or customize the installation.                      │
│ --help                        Show this message and exit.                         │
╰───────────────────────────────────────────────────────────────────────────────────╯
╭─ Commands ────────────────────────────────────────────────────────────────────────╮
│ create-aivm    与えられたアーキテクチャ, 学習済みモデル, ハイパーパラメータ,      │
│                スタイルベクトルから AIVM メタデータを生成した上で、               │
│                それを書き込んだ仮の AIVM ファイルを生成する                       │
│ create-aivmx   与えられたアーキテクチャ, 学習済みモデル, ハイパーパラメータ,      │
│                スタイルベクトルから AIVM メタデータを生成した上で、               │
│                それを書き込んだ仮の AIVMX ファイルを生成する                      │
│ show-metadata  指定されたパスの AIVM / AIVMX ファイル内に記録されている AIVM      │
│                メタデータを見やすく出力する                                       │
╰───────────────────────────────────────────────────────────────────────────────────╯

$ aivmlib show-metadata --help

 Usage: aivmlib show-metadata [OPTIONS] FILE_PATH

 指定されたパスの AIVM / AIVMX ファイル内に記録されている AIVM メタデータを見やすく出力する

╭─ Arguments ───────────────────────────────────────────────────────────────────────╮
│ *    file_path      PATH  Path to the AIVM / AIVMX file [default: None]           │
│                           [required]                                              │
╰───────────────────────────────────────────────────────────────────────────────────╯
╭─ Options ─────────────────────────────────────────────────────────────────────────╮
│ --help          Show this message and exit.                                       │
╰───────────────────────────────────────────────────────────────────────────────────╯

$ aivmlib create-aivm --help

 Usage: aivmlib create-aivm [OPTIONS]

 与えられたアーキテクチャ, 学習済みモデル, ハイパーパラメータ, スタイルベクトルから
 AIVM メタデータを生成した上で、それを書き込んだ仮の AIVM ファイルを生成する

╭─ Options ─────────────────────────────────────────────────────────────────────────╮
│ *  --output              -o      PATH                    Path to the output AIVM  │
│                                                          file                     │
│                                                          [default: None]          │
│                                                          [required]               │
│ *  --model               -m      PATH                    Path to the Safetensors  │
│                                                          model file               │
│                                                          [default: None]          │
│                                                          [required]               │
│    --hyper-parameters    -h      PATH                    Path to the hyper        │
│                                                          parameters file          │
│                                                          (optional)               │
│                                                          [default: None]          │
│    --style-vectors       -s      PATH                    Path to the style        │
│                                                          vectors file (optional)  │
│                                                          [default: None]          │
│    --model-architecture  -a      [Style-Bert-VITS2 | Styl  Model architecture       │
│                                  e-Bert-VITS2            [default:                │
│                                  (JP-Extra)]             Style-Bert-VITS2         │
│                                                          (JP-Extra)]              │
│    --help                                                Show this message and    │
│                                                          exit.                    │
╰───────────────────────────────────────────────────────────────────────────────────╯

$ aivmlib create-aivmx --help

 Usage: aivmlib create-aivmx [OPTIONS]

 与えられたアーキテクチャ, 学習済みモデル, ハイパーパラメータ, スタイルベクトルから
 AIVM メタデータを生成した上で、それを書き込んだ仮の AIVMX ファイルを生成する

╭─ Options ─────────────────────────────────────────────────────────────────────────╮
│ *  --output              -o      PATH                    Path to the output AIVMX │
│                                                          file                     │
│                                                          [default: None]          │
│                                                          [required]               │
│ *  --model               -m      PATH                    Path to the ONNX model   │
│                                                          file                     │
│                                                          [default: None]          │
│                                                          [required]               │
│    --hyper-parameters    -h      PATH                    Path to the hyper        │
│                                                          parameters file          │
│                                                          (optional)               │
│                                                          [default: None]          │
│    --style-vectors       -s      PATH                    Path to the style        │
│                                                          vectors file (optional)  │
│                                                          [default: None]          │
│    --model-architecture  -a      [Style-Bert-VITS2 | Styl  Model architecture       │
│                                  e-Bert-VITS2            [default:                │
│                                  (JP-Extra)]             Style-Bert-VITS2         │
│                                                          (JP-Extra)]              │
│    --help                                                Show this message and    │
│                                                          exit.                    │
╰───────────────────────────────────────────────────────────────────────────────────╯

Di bawah ini adalah contoh melaksanakan perintah.

 # Safetensors 形式で保存された "Style-Bert-VITS2 (JP-Extra)" モデルアーキテクチャの学習済みモデルから AIVM ファイルを生成
# .safetensors と同じディレクトリに config.json と style_vectors.npy があることが前提
# -a オプションを省略した場合、既定で "Style-Bert-VITS2 (JP-Extra)" の学習済みモデルと判定される
$ aivmlib create-aivm -o ./output.aivm -m ./model.safetensors

# 明示的にハイパーパラメータとスタイルベクトルのパスを指定して生成
$ aivmlib create-aivm -o ./output.aivm -m ./model.safetensors -h ./config.json -s ./style-vectors.npy

# ONNX 形式で保存された "Style-Bert-VITS2" モデルアーキテクチャの学習済みモデルから AIVMX ファイルを生成
# .onnx と同じディレクトリに config.json と style_vectors.npy があることが前提
$ aivmlib create-aivmx -o ./output.aivmx -m ./model.onnx -a " Style-Bert-VITS2 "

# 明示的にハイパーパラメータとスタイルベクトルのパスを指定して生成
$ aivmlib create-aivmx -o ./output.aivmx -m ./model.onnx -a " Style-Bert-VITS2 " -h ./config.json -s ./style-vectors.npy

# AIVM ファイルに格納された AIVM メタデータを確認
$ aivmlib show-metadata ./output.aivm

# AIVMX ファイルに格納された AIVM メタデータを確認
$ aivmlib show-metadata ./output.aivmx

Tip

Untuk penggunaan sebagai perpustakaan, lihat Menerapkan alat CLI yang diterapkan di __main__.py .

Penting

AIVMLIB/AIVMLIB-WEB adalah perpustakaan yang hanya membaca/menulis fungsi untuk format file AIVM/AIVMX.
Logika inferensi untuk model sintesis ucapan AI untuk setiap arsitektur model dan bagaimana data yang diperoleh dari aivmlib/aivmlib-web diserahkan kepada pengguna perpustakaan.

Lisensi

Lisensi MIT

Spesifikasi AIVM

Bagian ini mendefinisikan spesifikasi teknis berikut yang termasuk dalam "Spesifikasi AIVM":

Spesifikasi Format File AIVM
Spesifikasi Format File AIVMX
AIVM Manifest Specification (Versi 1.0)
FAQ

Ringkasan

Tujuannya adalah untuk menggabungkan model sintesis ucapan AI terlatih dan berbagai metadata yang diperlukan untuk penggunaannya menjadi satu file, mencegah disipasi file dan kebingungan, dan membuatnya lebih mudah digunakan dan berbagi model.

Tip

Dengan menggabungkannya menjadi satu file, Anda dapat dengan mudah mengoperasikannya dengan hanya mengunduh file AIVM/AIVMX dan menempatkannya di folder yang ditentukan, dan menggunakan model sintesis pidato segera dengan perangkat lunak yang kompatibel.
Keuntungan lain adalah bahwa itu bukan file terkompresi, jadi tidak perlu menyebarkannya.

Spesifikasi AIVM tidak bergantung pada arsitektur model model sintesis bicara.
Ini telah dirancang dengan skalabilitas dan keserbagunaan di masa depan dalam pikiran sehingga model sintesis ucapan dari berbagai arsitektur model dapat ditangani dalam format file umum.

Jika model terlatih yang mendasarinya disimpan dalam satu safetensor atau format ONNX, pada prinsipnya, Anda dapat menambahkan metadata untuk menghasilkan file AIVM/AIVMX, terlepas dari arsitektur model.
Saat merancang, kami menekankan kompatibilitas dengan ekosistem yang ada sehingga mereka dapat dimuat sebagai safetensor reguler atau file ONNX tanpa pemrosesan konversi.

Penting

Spesifikasi AIVM tidak menentukan metode inferensi untuk setiap arsitektur model. Spesifikasi didefinisikan sebagai "file yang merangkum metadata model sintesis ucapan AI."
Misalnya, untuk file AIVM, model sintesis ucapan AI yang disimpan mungkin untuk Pytorch atau TensorFlow.
Cara Menyimpulkan Model Sintesis Pidato AI diserahkan kepada implementasi perangkat lunak yang mendukung file AIVM/AIVMX.

Spesifikasi Format File AIVM

Spesifikasi untuk format file AIVM ditunjukkan di bawah ini.

AIVM ( AI vis v oice m odel) adalah spesifikasi format Safetensor yang diperluas yang menyimpan berbagai informasi seperti speaker metadata (AIVM Manifest), hyperparameters, dan vektor gaya sebagai metadata khusus di area header dari model terlatih yang disimpan di format Safetensors (.Safetensor).

Ini juga dapat dikatakan sebagai "spesifikasi deskripsi metadata umum untuk model sintesis ucapan AI yang disimpan dalam format Safetensors."

Kompatibel dengan format safetensors

Karena ini merupakan spesifikasi yang diperluas dalam format Safetensor, itu dapat dimuat sebagai file safetensor normal apa adanya.

Seperti Safetensors, 8 byte pertama bilangan bulat 64bit kecil yang tidak ditandatangani adalah ukuran header diikuti oleh string JSON UTF-8 dengan panjang ukuran header.
Header JSON dari Safetensors menyimpan offset tensor, dll., Tetapi tombol __metadata__ memungkinkan Anda untuk mengatur peta dengan bebas dari string ke string.

Memanfaatkan spesifikasi ini, AIVM menyimpan data string berikut dalam tombol berikut di __metadata__ :

aivm_manifest : AIVM Manifest
- Disimpan sebagai string JSON
- Berisi sebagian besar informasi termasuk versi manifes dan metadata pembicara
aivm_hyper_parameters : Hyperparameters untuk model sintesis bicara
- Format penyimpanan adalah model arsitektur tergantung
- Style-Bert-VITS2 dan Style-Bert-VITS2 (JP-Extra) Model Architecture Stores JSON Strings
aivm_style_vectors : BASE64 Vektor Gaya Model Sintesis Pidato yang Dikisi Busa (Biner)
- Base64 Setelah decoding, formatnya adalah model arsitektur tergantung
- Dalam arsitektur model Style-Bert-VITS2 dan Style-Bert-VITS2 (JP-Extra) , sebuah string dengan base64 yang dikodekan numpy array (.npy) disimpan.
- Itu mungkin dihilangkan tergantung pada arsitektur model

Referensi

Safetensors
Safetensors metadata parsing

Spesifikasi Format File AIVMX

Di bawah ini adalah spesifikasi untuk format file AIVMX.

AIVMX ( AI vis v oice m odel untuk ONNX ) adalah spesifikasi format ONNX yang diperluas yang menyimpan berbagai informasi seperti speaker metadata (AIVM manifest), vektor gaya hyperparameter sebagai metadata khusus di daerah metadata dari model terlatih yang disimpan dalam format ONNX.

Ini juga dapat dikatakan sebagai "spesifikasi deskripsi metadata umum untuk model sintesis ucapan AI yang disimpan dalam format ONNX."

Kompatibilitas format ONNX

Karena ini merupakan spesifikasi yang diperluas dalam format ONNX, itu dapat dimuat sebagai file ONNX normal sebagaimana adanya.

File ONNX didefinisikan dalam format buffer protokol, dan dirancang untuk menyimpan metadata sebagai daftar StringStringEntryProto di bidang metadata_props dari pesan ModelProto root.

Memanfaatkan spesifikasi ini, AIVMX menyimpan data string berikut dalam tombol berikut di metadata_props :

aivm_manifest : AIVM Manifest
- Disimpan sebagai string JSON
- Berisi sebagian besar informasi termasuk versi manifes dan metadata pembicara
aivm_hyper_parameters : Hyperparameters untuk model sintesis bicara
- Format penyimpanan adalah model arsitektur tergantung
- Style-Bert-VITS2 dan Style-Bert-VITS2 (JP-Extra) Model Architecture Stores JSON Strings
aivm_style_vectors : BASE64 Vektor Gaya Model Sintesis Pidato yang Dikisi Busa (Biner)
- Base64 Setelah decoding, formatnya adalah model arsitektur tergantung
- Dalam arsitektur model Style-Bert-VITS2 dan Style-Bert-VITS2 (JP-Extra) , sebuah string dengan base64 yang dikodekan numpy array (.npy) disimpan.
- Itu mungkin dihilangkan tergantung pada arsitektur model

Referensi

Onnx
Open Neural Network Exchange Exchange Inresentasi Intermediate (ONNX IR) Spesifikasi
Onnx metadata
Bagaimana cara mengisi model ONNX dengan peta data meta khusus?

AIVM Manifest Specification (Versi 1.0)

Di bawah ini adalah spesifikasi untuk manifes AIVM (versi 1.0) yang termasuk dalam format file AIVM/AIVMX.

AIVM Manifest berisi berbagai informasi yang diperlukan untuk menggunakan model sintesis ucapan, seperti versi manifes, arsitektur model, nama model, metadata pembicara, dan informasi gaya.

Format data untuk manifes AIVM adalah string UTF-8 yang ditulis dalam format JSON.
Karena format JSON, gambar dan data audio disimpan sebagai string yang dikodekan Base64.

Catatan

AIVM (Safetensors) yang saat ini didefinisikan sebagai format wadah untuk AIVM manifes - area metadata AIVMX (ONNX) harus menjadi nilai kunci dari jenis string ke jenis string tanpa bersarang, sehingga semua metadata diserialisasi menjadi string dan disimpan.
Data biner seperti gambar dan audio disimpan sebagai string setelah menjadi base64 yang dikodekan.

Arsitektur model yang didukung

Style-Bert-VITS2
Style-Bert-VITS2 (JP-Extra)

Penting

Perangkat lunak yang mendukung file AIVM/AIVMX harus divalidasi dengan benar untuk file AIVM/AIVMX dari arsitektur model yang tidak didukung oleh perangkat lunak Anda sendiri.
Misalnya, perangkat lunak yang tidak mendukung arsitektur model selain Style-Bert-VITS2 (JP-Extra) , ketika diminta untuk menginstal file AIVM/AIVMX untuk arsitektur model Style-Bert-VITS2 , sebuah peringatan akan ditampilkan dengan mengatakan "Arsitektur model ini tidak didukung" dan instalasi akan dibatalkan.

Penting

Secara teknis, model sintesis ucapan dari arsitektur model selain yang tercantum di atas dapat disimpan, tetapi satu -satunya string arsitektur model yang disebutkan di atas secara resmi didefinisikan dalam spesifikasi AIVM Manifest (versi 1.0).
Saat mendefinisikan string arsitektur model Anda sendiri, Anda harus sangat berhati -hati untuk menghindari konflik nama dengan arsitektur model yang ada atau ketidakselarasan antara perangkat lunak yang berbeda.
Disarankan untuk mengirim permintaan tarik ke repositori ini sebanyak mungkin dan secara resmi menambahkan dukungan untuk arsitektur model baru ke spesifikasi AIVM.

Definisi bidang untuk AIVM memanifestasikan

Di bawah ini adalah definisi bidang untuk manifes AIVM pada spesifikasi AIVM Manifest (versi 1.0) (kutipan dari definisi skema Pydantic AIVMLIB).

Penting

Bidang dalam manifes AIVM dapat ditambahkan, diperluas atau dihapus ketika spesifikasi AIVM diperbarui di masa depan.
Sangat mungkin bahwa metadata baru akan ditambahkan ke manifes AIVM dan format file AIVM/AIVMX itu sendiri dengan dukungan untuk pembaruan versi di masa depan dan arsitektur model tambahan.
Satu -satunya versi manifes AIVM aktif yang saat ini adalah 1.0 .

 class ModelArchitecture ( StrEnum ):
    StyleBertVITS2 = 'Style-Bert-VITS2'  # 対応言語: "ja", "en-US", "zh-CN"
    StyleBertVITS2JPExtra = 'Style-Bert-VITS2 (JP-Extra)'  # 対応言語: "ja"

class ModelFormat ( StrEnum ):
    Safetensors = 'Safetensors'
    ONNX = 'ONNX'

class AivmManifest ( BaseModel ):
    """ AIVM マニフェストのスキーマ """
    # AIVM マニフェストのバージョン (ex: 1.0)
    # 現在は 1.0 のみサポート
    manifest_version : Literal [ '1.0' ]
    # 音声合成モデルの名前 (最大 80 文字)
    # 音声合成モデル内の話者が 1 名の場合は話者名と同じ値を設定すべき
    name : Annotated [ str , StringConstraints ( min_length = 1 , max_length = 80 )]
    # 音声合成モデルの簡潔な説明 (最大 140 文字 / 省略時は空文字列を設定)
    description : Annotated [ str , StringConstraints ( max_length = 140 )] = ''
    # 音声合成モデルの制作者名のリスト (省略時は空リストを設定)
    # 制作者名には npm package.json の "author", "contributors" に指定できるものと同じ書式を利用できる
    # 例: ["John Doe", "Jane Doe <[email protected]>", "John Doe <[email protected]> (https://example.com)"]
    creators : list [ Annotated [ str , StringConstraints ( min_length = 1 , max_length = 255 )]] = []
    # 音声合成モデルのライセンス情報 (Markdown 形式またはプレーンテキスト / 省略時は None を設定)
    # AIVM 仕様に対応するソフトでライセンス情報を表示できるよう、Markdown 形式またはプレーンテキストでライセンスの全文を設定する想定
    # 社内のみでの利用など、この音声合成モデルの公開・配布を行わない場合は None を設定する
    license : Annotated [ str , StringConstraints ( min_length = 1 )] | None = None
    # 音声合成モデルのアーキテクチャ (音声合成技術の種類)
    model_architecture : ModelArchitecture
    # 音声合成モデルのモデル形式 (Safetensors または ONNX)
    # AIVM ファイル (.aivm) のモデル形式は Safetensors 、AIVMX ファイル (.aivmx) のモデル形式は ONNX である
    model_format : ModelFormat
    # 音声合成モデル学習時のエポック数 (省略時は None を設定)
    training_epochs : Annotated [ int , Field ( ge = 0 )] | None = None
    # 音声合成モデル学習時のステップ数 (省略時は None を設定)
    training_steps : Annotated [ int , Field ( ge = 0 )] | None = None
    # 音声合成モデルを一意に識別する UUID
    uuid : UUID
    # 音声合成モデルのバージョン (SemVer 2.0 準拠 / ex: 1.0.0)
    version : Annotated [ str , StringConstraints ( pattern = r'^(0|[1-9]d*).(0|[1-9]d*).(0|[1-9]d*)(?:-((?:0|[1-9]d*|d*[a-zA-Z-][0-9a-zA-Z-]*)(?:.(?:0|[1-9]d*|d*[a-zA-Z-][0-9a-zA-Z-]*))*))?(?:+([0-9a-zA-Z-]+(?:.[0-9a-zA-Z-]+)*))?$' )]
    # 音声合成モデルの話者情報 (最低 1 人以上の話者が必要)
    speakers : list [ AivmManifestSpeaker ]

class AivmManifestSpeaker ( BaseModel ):
    """ AIVM マニフェストの話者情報 """
    # 話者の名前 (最大 80 文字)
    # 音声合成モデル内の話者が 1 名の場合は音声合成モデル名と同じ値を設定すべき
    name : Annotated [ str , StringConstraints ( min_length = 1 , max_length = 80 )]
    # 話者のアイコン画像 (Data URL)
    # 画像ファイル形式は 512×512 の JPEG (image/jpeg)・PNG (image/png) のいずれか (JPEG を推奨)
    icon : Annotated [ str , StringConstraints ( pattern = r'^data:image/(jpeg|png);base64,[A-Za-z0-9+/=]+$' )]
    # 話者の対応言語のリスト (BCP 47 言語タグ)
    # 例: 日本語: "ja", アメリカ英語: "en-US", 標準中国語: "zh-CN"
    supported_languages : list [ Annotated [ str , StringConstraints ( pattern = r'^[a-z]{2,3}(?:-[A-Z]{4})?(?:-(?:[A-Z]{2}|d{3}))?(?:-(?:[A-Za-z0-9]{5,8}|d[A-Za-z0-9]{3}))*(?:-[A-Za-z](?:-[A-Za-z0-9]{2,8})+)*(?:-x(?:-[A-Za-z0-9]{1,8})+)?$' )]]
    # 話者を一意に識別する UUID
    uuid : UUID
    # 話者のローカル ID (この音声合成モデル内で話者を識別するための一意なローカル ID で、uuid とは異なる)
    local_id : Annotated [ int , Field ( ge = 0 )]
    # 話者のスタイル情報 (最低 1 つ以上のスタイルが必要)
    styles : list [ AivmManifestSpeakerStyle ]

class AivmManifestSpeakerStyle ( BaseModel ):
    """ AIVM マニフェストの話者スタイル情報 """
    # スタイルの名前 (最大 20 文字)
    name : Annotated [ str , StringConstraints ( min_length = 1 , max_length = 20 )]
    # スタイルのアイコン画像 (Data URL, 省略可能)
    # 省略時は話者のアイコン画像がスタイルのアイコン画像として使われる想定
    # 画像ファイル形式は 512×512 の JPEG (image/jpeg)・PNG (image/png) のいずれか (JPEG を推奨)
    icon : Annotated [ str , StringConstraints ( pattern = r'^data:image/(jpeg|png);base64,[A-Za-z0-9+/=]+$' )] | None = None
    # スタイルの ID (この話者内でスタイルを識別するための一意なローカル ID で、uuid とは異なる)
    local_id : Annotated [ int , Field ( ge = 0 , le = 31 )]  # 最大 32 スタイルまでサポート
    # スタイルごとのボイスサンプル (省略時は空リストを設定)
    voice_samples : list [ AivmManifestVoiceSample ] = []

class AivmManifestVoiceSample ( BaseModel ):
    """ AIVM マニフェストのボイスサンプル情報 """
    # ボイスサンプルの音声ファイル (Data URL)
    # 音声ファイル形式は WAV (audio/wav, Codec: PCM 16bit)・M4A (audio/mp4, Codec: AAC-LC) のいずれか (M4A を推奨)
    audio : Annotated [ str , StringConstraints ( pattern = r'^data:audio/(wav|mp4);base64,[A-Za-z0-9+/=]+$' )]
    # ボイスサンプルの書き起こし文
    # 書き起こし文は音声ファイルでの発話内容と一致している必要がある
    transcript : Annotated [ str , StringConstraints ( min_length = 1 )]

FAQ

Q. Mengapa ada dua format yang ditentukan: AIVM dan AIVMX?

A. Untuk memberikan dua format yang dioptimalkan untuk aplikasi dan lingkungan yang berbeda, memungkinkan penggunaan yang lebih fleksibel.

AIVM (.AIVM): Format yang didasarkan pada format Safetensors yang dapat digunakan langsung dalam kerangka pembelajaran mesin seperti Pytorch.
- Cocok untuk penelitian dan pengembangan, model penyempurnaan, dan generasi kualitas suara baru melalui penggabungan model.
- Umumnya khusus dalam inferensi kecepatan tinggi pada GPU NVIDIA (seperti CUDA/TENSORRT).
- Pytorch juga memiliki format .pth (acar), tetapi karena sifat acar, yang membuat serial kode python apa adanya, dimungkinkan untuk menjalankan kode sewenang -wenang. Oleh karena itu, tidak ada rencana untuk mendukung ini dengan spesifikasi AIVM.
AIVMX (.AIVMX): Format yang didasarkan pada format ONNX, yang memungkinkan inferensi cepat di berbagai lingkungan.
- Ini sangat cocok untuk inferensi pada CPU dan untuk digunakan pada perangkat tepi. Ini juga dapat disimpulkan menggunakan browser web.
- Pada 2024, banyak pengguna PC khas menggunakan PC yang tidak memiliki NVIDIA GPU atau NPU.
  - Format ONNX memiliki kinerja inferensi yang sangat baik pada CPU, memungkinkan Anda untuk melakukan sintesis bicara dengan nyaman tanpa GPU atau NPU.
  - Selain itu, format ONNX mendukung inferensi DirectML, dan inferensi berkecepatan tinggi dimungkinkan pada Windows dengan AMD Radeon/Intel Arc GPU.
- AIVISSPEECH, yang juga merupakan implementasi referensi dari spesifikasi AIVM, hanya mendukung file AIVMX.
  - Ini untuk menghilangkan dependensi Pytorch, mengurangi ukuran pemasangan, dan pada saat yang sama meningkatkan inferensi CPU.

Q. Dapatkah saya memuat file AIVM/AIVMX dengan alat yang ada?

A. Ya, itu mungkin.

AIVM dirancang sebagai perpanjangan dari format Safetensors, sedangkan AIVMX dirancang sebagai perpanjangan dari format ONNX, sehingga masing -masing dapat dibaca sebagai file Safetensors biasa atau file ONNX.
AIVM metadata disimpan di area metadata yang ditentukan oleh spesifikasi format model yang ada dan tidak mempengaruhi perilaku alat yang ada.

Q. Bagaimana cara mengubah model sintesis ucapan AI yang ada menjadi AIVM/AIVMX?

A. Ada dua cara:

AIVM Generator (Disarankan) : Mudah menghasilkan dan mengedit file AIVM/AIVMX menggunakan GUI di browser Anda.
AIVMLIB : Anda dapat menggunakan alat CLI yang disediakan oleh perpustakaan ini untuk menghasilkan file AIVM/AIVMX dengan metadata minimal dari baris perintah.
- Karena hanya jumlah minimum metadata yang dikonversi dari hyperparameters dll. Diatur, Anda perlu mengedit metadata secara terpisah ketika benar -benar mendistribusikannya.

Perhatikan bahwa model dari mana Anda mengonversi itu harus disimpan dalam satu format safetensor atau onnx.

Q. Bagaimana kontrol versi AIVM manifes?

A. Kontrol versi manifes AIVM dilakukan di bawah kebijakan berikut:

Upgrade Versi Kecil (Mis: 1.0 -> 1.1) : Perubahan yang kompatibel ke belakang, seperti menambahkan bidang baru
Upgrade Versi Utama (Mis: 1.1 -> 2.0) : Perubahan yang tidak kompatibel seperti menghapus bidang yang ada atau perubahan struktur

Saat ini, 1.0 adalah yang terbaru.

Q. Apa perbedaan antara AIVMLIB dan AIVMLIB-WEB?

A. AIVMLIB dan AIVMLIB-WEB adalah perpustakaan yang menerapkan spesifikasi AIVM yang sama untuk berbagai bahasa/lingkungan operasi.

AIVMLIB : Implementasi Python. Ini dimaksudkan untuk digunakan pada aplikasi desktop atau sisi server.
- Dalam kasus di mana Anda beroperasi di server api tinggi dengan GPU NVIDIA, format AIVM (SafeTensors) mungkin lebih cepat daripada format AIVMX (ONNX), tergantung pada lingkungan arsitektur dan lingkungan inferensi.
- AIVMLIB juga merupakan implementasi referensi dari AIVMLIB-WEB. Saat mengimplementasikan spesifikasi baru, pertama-tama mengimplementasikannya di AIVMLIB dan kemudian port mereka ke AIVMLIB-WEB.
AIVMLIB-WEB : Implementasi TypeScript. Ini dimaksudkan untuk digunakan di browser web.
- Ini dirancang dan dikembangkan dengan premis bahwa itu akan digunakan dalam generator AIVM atau layanan yang melakukan sintesis ucapan pada browser web.
- Ini dapat menangani file AIVM dan AIVMX (terutama untuk AIVM Generator).
  - Karena format model yang dapat disimpulkan menggunakan browser web pada dasarnya terbatas pada format ONNX, dalam praktiknya, sebagian besar kasus hanya melibatkan file AIVMX.
- Meskipun ada perbedaan dalam implementasi tergantung pada karakteristik browser web, seperti BinaryIO di Python menjadi File (gumpalan) dari JavaScript Web API, desain API dasar sama dengan AIVMLIB.
  - Tidak ada rencana untuk mendukung lingkungan JavaScript sisi server seperti Node.js dan Deno.

Tip

Pada saat ini, tidak ada perpustakaan spesifikasi AIVM yang dikelola secara resmi selain AIVMLIB/AIVMLIB-WEB.
Ada kemungkinan bahwa perpustakaan pihak ketiga untuk bahasa lain akan muncul di masa depan.

Penting

Saat menambahkan dukungan untuk arsitektur model baru, Anda harus menambahkan implementasi ke AIVMLIB dan AIVMLIB-WEB.
Karena AIVM Generator menggunakan AIVMLib-Web, kedua perpustakaan harus diperbarui untuk memberikan fitur baru kepada pengguna akhir.

T. Bagaimana cara menambahkan dukungan untuk arsitektur model baru?

A. Spesifikasi AIVM tidak menentukan detail implementasi untuk arsitektur model, membuatnya relatif mudah untuk menambahkan arsitektur model baru.

Jika saja metadata dalam manifes AIVM dapat didukung : Cukup kirim permintaan tarik untuk menambahkan jenis baru (mis. GPT-SoVITS2 ) ke ModelArchitecture .
- Dalam hal ini, tambahkan dukungan untuk arsitektur model baru ke fungsi generate_aivm_metadata() secara bersamaan.
Jika Anda perlu menambahkan metadata khusus arsitektur model : Buat spesifikasi yang akan membuat kunci metadata baru terpisah dari manifes AIVM, seperti bidang aivm_style_vectors , dan kemudian mengirimkan permintaan tarik.
- Diinginkan memiliki spesifikasi yang dapat didukung oleh AIVMLIB (Python) dan AIVMLib-Web (Web TypeScript) sebanyak mungkin.
- Jika arsitektur model tidak mendukung format ONNX yang dapat disimpulkan di web, maka metadata hanya diperlukan selama inferensi tidak perlu kompatibel dengan aivmlib-web.
- Metadata yang ditambahkan ke manifes AIVM juga harus didukung oleh AIVMLIB-WEB (lihat di bawah).

Penting

Spesifikasi manifes AIVM yang dikirim harus didukung secara teknis oleh AIVMLIB (Python) dan AIVMLib-WEB (Web TypeScript).
AIVMLIB-WEB digunakan di dalam AIVM Generator.
Setelah Anda menambahkan dukungan ke AIVMLIB, tambahkan dukungan ke AIVMLIB-WEB juga.

Catatan

AIVM Manifest dirancang untuk mendefinisikan hanya metadata umum yang tidak tergantung pada arsitektur model.
Hyperparameter khusus implementasi harus disimpan di bidang aivm_hyper_parameters .
Kami juga menerima tambahan definisi skema Pydantic untuk hiperparameter. Saat ini, hanya skema hiperparameter untuk arsitektur Style-Bert-VITS2 yang didefinisikan.

Catatan

Tentu saja, model sumber untuk AIVM/AIVMX harus disimpan dalam satu safetensor atau format ONNX.
Oleh karena itu, arsitektur model yang mencakup beberapa file model tidak didukung.
Harap pertimbangkan cara menggabungkan file model menjadi satu atau menghapus file model yang tidak perlu.

Q. Bagaimana saya harus menulis informasi lisensi?

A. Informasi lisensi sedang dalam penurunan harga atau teks biasa, dan atur salinan lengkap lisensi yang langsung disematkan dalam file AIVM/AIVMX.

Alasan untuk menanamkan teks lisensi lengkap daripada menentukan URL adalah sebagai berikut:

Kegigihan URL tidak dapat dijamin
Saya tidak tahu nama lisensi jika itu hanya URL
Peraturan lisensi khusus sulit
Perangkat lunak yang kompatibel dengan spesifikasi AIVM harus dapat secara langsung menampilkan informasi lisensi

Q. Apakah ada batasan ukuran untuk data gambar dan audio?

A. Meskipun tidak ada batas ukuran khusus, file model itu sendiri umumnya besar, sehingga ukuran file lebih lanjut meningkat karena metadata harus dijaga seminimal mungkin.

File Gambar: 512x512 JPEG atau PNG (JPEG direkomendasikan)
File Audio: WAV (PCM 16BIT) atau M4A (AAC-LC) (M4A disarankan)

Tip

Implementasi referensi, AIVM Generator, mengikuti pedoman ini untuk memastikan optimasi ukuran yang tepat.

Q. Dapatkah saya mengedit metadata secara manual?

A. Pengeditan manual tidak direkomendasikan karena metadata tertanam langsung di biner.
Jika Anda adalah pengguna akhir, silakan gunakan AIVM Generator.

Tip

Pengembang dapat menulis aplikasi mereka sendiri menggunakan AIVMLIB/AIVMLIB-WEB.
AIVMLIB CLI hanya menyediakan kemampuan untuk menghasilkan file AIVM/AIVMX dengan metadata minimal dan untuk memverifikasi metadata.

Memperluas