torch audiomentations ดาวน์โหลด - torch audiomentations Source Source Download

torch audiomentations

หลาม

v0.11.1

ดาวน์โหลด

การเพิ่มข้อมูลเสียงใน Pytorch แรงบันดาลใจจาก Audiomentations

รองรับ CPU และ GPU (CUDA) - ความเร็วเป็นลำดับความสำคัญ
รองรับชุดเสียงหลายช่อง (หรือโมโน)
การแปลงขยาย nn.Module ดังนั้นพวกเขาจึงสามารถรวมเข้าเป็นส่วนหนึ่งของโมเดลเครือข่ายนิวรัล Pytorch
การแปลงส่วนใหญ่มีความแตกต่างกัน
สามโหมด: per_batch , per_example และ per_channel
ความเข้ากันได้ข้ามแพลตฟอร์ม
ใบอนุญาต MIT ที่ได้รับอนุญาต
มีจุดมุ่งหมายเพื่อครอบคลุมการทดสอบสูง

การตั้งค่า

pip install torch-audiomentations

ตัวอย่างการใช้งาน

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

ปัญหาที่รู้จัก

การประมวลผลข้อมูลเป้าหมายยังคงอยู่ในสถานะการทดลอง (#3) วิธีแก้ปัญหา: ใช้ freeze_parameters และ unfreeze_parameters สำหรับตอนนี้หากข้อมูลเป้าหมายเป็นเสียงที่มีรูปร่างเหมือนกับอินพุต
การใช้คบเพลิง outiomentations ในบริบทการประมวลผลหลายครั้งสามารถนำไปสู่การรั่วไหลของหน่วยความจำ (#132) วิธีแก้ปัญหา: หากการใช้คบเพลิง outiomentations ในบริบทการประมวลผลหลายครั้งมันอาจจะทำงานได้ดีกว่าในการเรียกใช้การแปลงบน CPU
Multi-GPU / DDP ไม่ได้รับการสนับสนุนอย่างเป็นทางการ (#136) ผู้เขียนไม่มีการตั้งค่า multi-GPU เพื่อทดสอบและแก้ไขปัญหานี้ ติดต่อถ้าคุณต้องการบริจาคฮาร์ดแวร์สำหรับสิ่งนี้ วิธีแก้ปัญหา: เรียกใช้การแปลงบน GPU เดี่ยวแทน
PitchShift ไม่รองรับการเปลี่ยนแปลงระดับเสียงเล็ก ๆ โดยเฉพาะอย่างยิ่งสำหรับอัตราตัวอย่างต่ำ (#151) วิธีแก้ปัญหา: หากคุณต้องการการเลื่อนระดับเสียงเล็ก ๆ ที่ใช้กับอัตราตัวอย่างต่ำให้ใช้ pitchshift ใน audiomentations หรือคบเพลิง-พุ่งเข้าหาโดยตรงโดยไม่ต้องใช้ฟังก์ชั่นสำหรับการคำนวณเป้าหมายการเปลี่ยนระยะพิทช์ที่มีประสิทธิภาพ

มีส่วนช่วย

ยินดีต้อนรับผู้มีส่วนร่วม! เข้าร่วมการหย่อนของดาวเคราะห์น้อยเพื่อเริ่มพูดคุยเกี่ยวกับ torch-audiomentations กับเรา

แรงจูงใจ: ความเร็ว

เราไม่ต้องการให้การเพิ่มข้อมูลเป็นคอขวดในความเร็วในการฝึกอบรมแบบจำลอง นี่คือการเปรียบเทียบเวลาที่ใช้ในการเรียกใช้ 1D convolution:

เวลาดำเนินการ convolve

หมายเหตุ: การแปลงทั้งหมดไม่ใช่การเร่งความเร็วที่น่าประทับใจเมื่อเทียบกับ CPU โดยทั่วไปการใช้การเพิ่มข้อมูลเสียงบน GPU ไม่ใช่ตัวเลือกที่ดีที่สุดเสมอไป สำหรับข้อมูลเพิ่มเติมดูบทความนี้: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

สถานะปัจจุบัน

Torch-Audiomentations อยู่ในช่วงเริ่มต้นการพัฒนาดังนั้น APIs อาจมีการเปลี่ยนแปลง

การแปลงรูปคลื่น

การแปลงทุกครั้งมี mode , p และ p_mode - พารามิเตอร์ที่ตัดสินใจว่าจะดำเนินการเสริมอย่างไร

mode ตัดสินใจว่าการสุ่มของการเพิ่มการจัดกลุ่มและนำไปใช้อย่างไร
p ตัดสินใจเปิด/ปิดความน่าจะเป็นของการใช้การเพิ่ม
p_mode ตัดสินใจว่าการเปิด/ปิดของการเพิ่มการเพิ่ม

การสร้างภาพข้อมูลนี้แสดงให้เห็นว่าการรวมกันของ mode และ p_mode จะดำเนินการเพิ่มได้อย่างไร

คำอธิบายของโหมด p และ p_mode

addbackgroundnoise

เพิ่มใน v0.5.0

เพิ่มเสียงพื้นหลังลงในเสียงอินพุต

addcoloredNoise

เพิ่มใน v0.7.0

เพิ่มเสียงสีลงในเสียงอินพุต

appleimpulseresponse

เพิ่มใน v0.5.0

โน้มน้าวเสียงที่ได้รับพร้อมกับการตอบสนองแบบอิมพัลส์

bandpassfilter

เพิ่มใน v0.9.0

ใช้การกรอง Band-Pass กับเสียงอินพุต

bandstopfilter

เพิ่มใน v0.10.0

ใช้การกรองแบบแบนด์แบบสต็อปกับเสียงอินพุต ยังเป็นที่รู้จักกันในชื่อตัวกรอง Notch

ได้รับ

เพิ่มใน v0.1.0

คูณเสียงด้วยปัจจัยแอมพลิจูดแบบสุ่มเพื่อลดหรือเพิ่มระดับเสียง เทคนิคนี้สามารถช่วยให้โมเดลกลายเป็นค่าคงที่เล็กน้อยต่อการได้รับโดยรวมของเสียงอินพุต

คำเตือน: การแปลงนี้สามารถส่งคืนตัวอย่างนอกช่วง [-1, 1] ซึ่งอาจนำไปสู่การตัดหรือห่อบิดขึ้นอยู่กับสิ่งที่คุณทำกับเสียงในระยะต่อมา ดูเพิ่มเติมที่ https://en.wikipedia.org/wiki/clipping_(Audio)#digital_clipping

Highpassfilter

เพิ่มใน v0.8.0

ใช้การกรองผ่านผ่านระดับสูงกับเสียงอินพุต

ตัวตน

เพิ่มใน v0.11.0

การแปลงนี้ส่งคืนอินพุตไม่เปลี่ยนแปลง มันสามารถใช้สำหรับการทำให้รหัสง่ายขึ้นในกรณีที่ควรปิดใช้งานการเพิ่มข้อมูล

lowpassfilter

เพิ่มใน v0.8.0

ใช้การกรองผ่านผ่านทางต่ำกับเสียงอินพุต

การทำให้เกิดความสูง

เพิ่มใน v0.2.0

ใช้อัตราขยายที่คงที่ดังนั้นระดับสัญญาณสูงสุดที่มีอยู่ในแต่ละตัวอย่างเสียงในแบทช์จะกลายเป็น 0 dbfs นั่นคือระดับเสียงที่ดังที่สุดหากตัวอย่างทั้งหมดต้องอยู่ระหว่าง -1 และ 1

การแปลงนี้มีโหมดทางเลือก (appl_to = "only_too_loud_sounds") โดยที่มันใช้กับตัวอย่างเสียงที่มีค่าสุดขีดนอกช่วง [-1, 1] เท่านั้น สิ่งนี้มีประโยชน์สำหรับการหลีกเลี่ยงการตัดดิจิตอลในเสียงที่ดังเกินไปในขณะที่ปล่อยให้เสียงอื่นไม่ถูกแตะต้อง

ระยะห่าง

เพิ่มใน v0.9.0

เสียงเลื่อนดังขึ้นหรือลงโดยไม่เปลี่ยนจังหวะ

ขั้วโลก

เพิ่มใน v0.1.0

พลิกตัวอย่างเสียงคว่ำลงกลับขั้วของพวกเขา กล่าวอีกนัยหนึ่งคูณรูปคลื่นด้วย -1 ดังนั้นค่าลบจึงกลายเป็นบวกและในทางกลับกัน ผลลัพธ์จะฟังดูเหมือนกันเมื่อเทียบกับต้นฉบับเมื่อเล่นแยกกลับ อย่างไรก็ตามเมื่อผสมกับแหล่งเสียงอื่น ๆ ผลลัพธ์อาจแตกต่างกัน เทคนิคการผกผันของรูปคลื่นนี้บางครั้งใช้สำหรับการยกเลิกเสียงหรือได้รับความแตกต่างระหว่างรูปคลื่นสองรูป อย่างไรก็ตามในบริบทของการเพิ่มข้อมูลเสียงการแปลงนี้จะมีประโยชน์เมื่อการฝึกอบรมแบบจำลองการเรียนรู้ของเครื่องที่รับรู้เฟส

กะ

เพิ่มใน v0.5.0

เลื่อนเสียงไปข้างหน้าหรือย้อนกลับโดยมีหรือไม่มีโรลโอเวอร์

Shufflechannels

เพิ่มใน v0.6.0

เมื่อได้รับอินพุตเสียงหลายช่อง (เช่นสเตอริโอ), สลับช่องทางเช่นซ้ายสามารถกลายเป็นถูกต้องและในทางกลับกัน การแปลงนี้สามารถช่วยต่อสู้กับอคติตำแหน่งในรูปแบบการเรียนรู้ของเครื่องที่ป้อนรูปคลื่นหลายช่องสัญญาณ

หากเสียงอินพุตเป็นโมโนการแปลงนี้จะไม่ทำอะไรเลยนอกจากปล่อยคำเตือน

การกำหนดเวลา

เพิ่มใน v0.10.0

ย้อนกลับ (กลับ) เสียงตามแกนเวลาคล้ายกับการพลิกภาพแบบสุ่มในโดเมนภาพ สิ่งนี้สามารถเกี่ยวข้องในบริบทของการจำแนกเสียง มันถูกนำไปใช้อย่างประสบความสำเร็จใน Audioclip กระดาษ: ขยายคลิปไปยังรูปภาพข้อความและเสียง

การเปลี่ยนแปลง

ยังไม่ได้เผยแพร่

ที่เพิ่มเข้ามา

เพิ่มการแปลงใหม่: Mix , Padding , RandomCrop และ SpliceOut

[v0.11.1]-2024-02-07

เปลี่ยน

เพิ่มการรองรับความถี่ cutoff คงที่ใน LowPassFilter และ HighPassFilter
เพิ่มการสนับสนุนสำหรับ min_f_decay == max_f_decay ใน AddColoredNoise
Bump Torchaudio ขึ้นอยู่กับ> = 0.7.0 ถึง> = 0.9.0

ที่ตายตัว

แก้ไขคำแนะนำประเภทที่ไม่ถูกต้องใน Shift
ลบ set_backend เพื่อหลีกเลี่ยง UserWarning จาก TORCHAUDIO

[v0.11.0]-2022-06-29

ที่เพิ่มเข้ามา

เพิ่มการแปลงใหม่: Identity
เพิ่ม API สำหรับการประมวลผลเป้าหมายควบคู่ไปกับอินพุต บางคนแปลงการทดลองสนับสนุนคุณลักษณะนี้แล้ว

เปลี่ยน

เพิ่มประเภทเอาต์พุต ObjectDict เป็นทางเลือกแทน torch.Tensor ทางเลือกนี้คือการเลือกใช้สำหรับตอนนี้ (สำหรับความเข้ากันได้ย้อนหลัง) แต่โปรดทราบว่าประเภทเอาต์พุตเก่า ( torch.Tensor ) เลิกใช้แล้วและสนับสนุนมันจะถูกลบออกในรุ่นอนาคต
อนุญาตให้ระบุเส้นทางไฟล์พา ธ โฟลเดอร์รายการไฟล์หรือรายการโฟลเดอร์ไปยัง AddBackgroundNoise และ ApplyImpulseResponse
ต้องการ torch-pitch-shift รุ่นใหม่เพื่อให้แน่ใจว่ารองรับ Torchaudio 0.11 ใน PitchShift

ที่ตายตัว

แก้ไขข้อผิดพลาดที่ BandPassFilter ไม่ทำงานบน GPU

[v0.10.1]-2022-03-24

ที่เพิ่มเข้ามา

เพิ่มการสนับสนุนสำหรับ min snr == max snr ใน AddBackgroundNoise
เพิ่มการสนับสนุนสำหรับ Librosa 0.9.0

ที่ตายตัว

แก้ไขข้อผิดพลาดที่บางครั้งตัวอย่างเสียงที่โหลดถูกนำมาใหม่เป็นความยาวที่เข้ากันไม่ได้ใน AddBackgroundNoise

[v0.10.0]-2022-02-11

ที่เพิ่มเข้ามา

ใช้ OneOf และ SomeOf สำหรับการใช้ชุดการแปลงที่กำหนดอย่างน้อยหนึ่งชุด
ใช้การแปลงใหม่: BandStopFilter และ TimeInversion

เปลี่ยน

ใส่ ir_paths ใน transform_parameters ใน ApplyImpulseResponse ดังนั้นจึงเป็นไปได้ที่จะตรวจสอบสิ่งที่ใช้การตอบสนองของแรงกระตุ้น นอกจากนี้ยังให้ freeze_parameters() พฤติกรรมที่คาดหวัง

ที่ตายตัว

แก้ไขข้อผิดพลาดที่แบนด์วิดท์ที่แท้จริงมีขนาดใหญ่เป็นสองเท่าตามที่คาดไว้ใน BandPassFilter ค่าเริ่มต้นได้รับการอัปเดตตามนั้น หากก่อนหน้านี้คุณระบุ min_bandwidth_fraction และ/หรือ max_bandwidth_fraction ตอนนี้คุณต้องเพิ่มตัวเลขเหล่านั้นให้เป็นสองเท่าเพื่อให้ได้พฤติกรรมเหมือนเดิม

[v0.9.1]-2021-12-20

ที่เพิ่มเข้ามา

Mark Python อย่างเป็นทางการ> = 3.9 ตามที่สนับสนุน

[v0.9.0]-2021-10-11

ที่เพิ่มเข้ามา

เพิ่มพารามิเตอร์ compensate_for_propagation_delay ใน ApplyImpulseResponse
ใช้ BandPassFilter
ใช้ PitchShift

ลบออก

การสนับสนุน Torchaudio <= 0.6 ได้ถูกลบออก

[v0.8.0]-2021-06-15

ที่เพิ่มเข้ามา

ใช้ HighPassFilter และ LowPassFilter

ซึ่งเลิกใช้แล้ว

การสนับสนุน Torchaudio <= 0.6 เลิกใช้แล้วและจะถูกลบออกในอนาคต

ลบออก

การสนับสนุน pytorch <= 1.6 ได้ถูกลบออก

[v0.7.0]-2021-04-16

ที่เพิ่มเข้ามา

ใช้ AddColoredNoise

ซึ่งเลิกใช้แล้ว

สนับสนุน pytorch <= 1.6 เลิกใช้แล้วและจะถูกลบออกในอนาคต

[v0.6.0]-2021-02-22

ที่เพิ่มเข้ามา

ใช้ ShuffleChannels

[v0.5.1]-2020-12-18

ที่ตายตัว

แก้ไขข้อผิดพลาดที่ AddBackgroundNoise ไม่ทำงานบน cuda
แก้ไขข้อผิดพลาดที่ไม่พบไฟล์/โฟลเดอร์เสียงที่มี symlinked เมื่อมองหาไฟล์เสียง
ใช้ TORCH.FFT.RFFT แทน TORCH.RFFT (เลิกใช้ใน Pytorch 1.7) เมื่อเป็นไปได้ เป็นโบนัสการเปลี่ยนแปลงยังช่วยปรับปรุงประสิทธิภาพใน ApplyImpulseResponse

[v0.5.0]-2020-12-08

ที่เพิ่มเข้ามา

ปล่อย AddBackgroundNoise และ ApplyImpulseResponse
ใช้ Shift

เปลี่ยน

ทำ sample_rate เป็นทางเลือก อนุญาตให้ระบุ sample_rate ใน __init__ แทนที่จะ forward ซึ่งหมายความว่าการแปลง Torchaudio สามารถใช้ใน Compose ในขณะนี้

ลบออก

ลบการสนับสนุนสำหรับเทนเซอร์เสียง 1 มิติและ 2 มิติ รองรับเทนเซอร์เสียงเพียง 3 มิติเท่านั้น

ที่ตายตัว

แก้ไขข้อผิดพลาดที่ไม่สามารถใช้วิธี parameters ของคลาสย่อย nn.Module
แก้ไขข้อผิดพลาดที่ไม่พบไฟล์ส่วนขยายชื่อไฟล์ตัวพิมพ์ใหญ่

[v0.4.0]-2020-11-10

ที่เพิ่มเข้ามา

ใช้ Compose เพื่อใช้การแปลงหลายครั้ง
ใช้ฟังก์ชั่นยูทิลิตี้ from_dict และ from_yaml สำหรับการโหลดการกำหนดค่าการเพิ่มข้อมูลจาก dict, json หรือ yaml
สนับสนุนความแตกต่างอย่างเป็นทางการในการเปลี่ยนแปลงส่วนใหญ่