
Pytorch การใช้งานของ Conformer: หม้อแปลงที่มีความสัมพันธ์กันเพื่อการรู้จำเสียงพูด
โมเดลหม้อแปลงมีความสามารถในการจับการโต้ตอบทั่วโลกตามเนื้อหาในขณะที่ CNNs ใช้ประโยชน์จากคุณสมบัติท้องถิ่นได้อย่างมีประสิทธิภาพ Conformer รวมเครือข่ายประสาทเทียมและหม้อแปลงเพื่อจำลองทั้งการพึ่งพาทั้งในระดับท้องถิ่นและระดับโลกของลำดับเสียงในวิธีที่มีประสิทธิภาพพารามิเตอร์ Conformer มีประสิทธิภาพสูงกว่ารุ่นก่อนหน้านี้และแบบจำลองที่ใช้ CNN ที่ได้รับความแม่นยำล้ำสมัย

ที่เก็บนี้มีรหัสรุ่นเท่านั้น แต่คุณสามารถฝึกอบรมด้วย conformer ที่ openSpeech
โครงการนี้แนะนำ Python 3.7 หรือสูงกว่า เราขอแนะนำให้สร้างสภาพแวดล้อมเสมือนจริงใหม่สำหรับโครงการนี้ (โดยใช้ Env หรือ Conda เสมือน)
pip install numpy (อ้างอิงที่นี่สำหรับปัญหาการติดตั้ง numpy)ขณะนี้เรารองรับการติดตั้งจากซอร์สโค้ดโดยใช้ setuptools เท่านั้น ชำระเงินซอร์สโค้ดและเรียกใช้คำสั่งต่อไปนี้:
pip install -e .
import torch
import torch . nn as nn
from conformer import Conformer
batch_size , sequence_length , dim = 3 , 12345 , 80
cuda = torch . cuda . is_available ()
device = torch . device ( 'cuda' if cuda else 'cpu' )
criterion = nn . CTCLoss (). to ( device )
inputs = torch . rand ( batch_size , sequence_length , dim ). to ( device )
input_lengths = torch . LongTensor ([ 12345 , 12300 , 12000 ])
targets = torch . LongTensor ([[ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 5 , 6 , 2 ],
[ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 5 , 2 , 0 ],
[ 1 , 3 , 3 , 3 , 3 , 3 , 4 , 2 , 0 , 0 ]]). to ( device )
target_lengths = torch . LongTensor ([ 9 , 8 , 7 ])
model = Conformer ( num_classes = 10 ,
input_dim = dim ,
encoder_dim = 32 ,
num_encoder_layers = 3 ). to ( device )
# Forward propagate
outputs , output_lengths = model ( inputs , input_lengths )
# Calculate CTC Loss
loss = criterion ( outputs . transpose ( 0 , 1 ), targets , output_lengths , target_lengths ) หากคุณมีคำถามรายงานข้อผิดพลาดและคำขอคุณสมบัติโปรดเปิดปัญหาเกี่ยวกับ GitHub หรือ
ติดต่อ [email protected] ได้โปรด
ฉันขอขอบคุณข้อเสนอแนะหรือการบริจาคทุกประเภท อย่าลังเลที่จะดำเนินการกับปัญหาเล็ก ๆ น้อย ๆ เช่นการแก้ไขข้อผิดพลาดการปรับปรุงเอกสาร สำหรับการมีส่วนร่วมที่สำคัญและคุณสมบัติใหม่โปรดพูดคุยกับผู้ทำงานร่วมกันในประเด็นที่เกี่ยวข้อง
ฉันติดตาม PEP-8 สำหรับสไตล์รหัส โดยเฉพาะอย่างยิ่งรูปแบบของเอกสารเป็นสิ่งสำคัญในการสร้างเอกสาร