สุดยอด huggingface
นี่คือรายการของโครงการและแอปพลิเคชันโอเพนซอร์ซที่ยอดเยี่ยมที่รวมเข้ากับห้องสมุด Hugging Face
วิธีการมีส่วนร่วม
- ห้องสมุดอย่างเป็นทางการ
สิ่งเจ๋ง ๆ ของบุคคลแรกที่ทำด้วย❤โดย? กอดใบหน้า
- Transformers-การประมวลผลภาษาธรรมชาติที่ทันสมัยสำหรับ JAX, Pytorch และ TensorFlow
- ชุดข้อมูล-ฮับที่ใหญ่ที่สุดของชุดข้อมูล NLP พร้อมใช้งานสำหรับรุ่น ML ที่มีเครื่องมือจัดการข้อมูลที่รวดเร็วง่ายต่อการใช้งานและมีประสิทธิภาพ
- Tokenizers-Tokenizers ที่ทันสมัยอย่างรวดเร็วได้รับการปรับให้เหมาะสมสำหรับการวิจัยและการผลิต
- Knockknock - ได้รับแจ้งเมื่อการฝึกอบรมของคุณจบลงด้วยรหัสเพิ่มเติมเพียงสองบรรทัด
- เร่งความเร็ว-วิธีง่ายๆในการฝึกอบรมและใช้โมเดล Pytorch ด้วย Multi-GPU, TPU, ความแม่นยำผสม
- AutonLP-ฝึกอบรมรูปแบบการประมวลผลภาษาธรรมชาติที่ทันสมัยและปรับใช้ในสภาพแวดล้อมที่ปรับขนาดได้โดยอัตโนมัติ
- NN_PRUNING - ตัดแบบจำลองในขณะที่ finetuning หรือการฝึกอบรม
- HuggingFace_Hub - ไลบรารีไคลเอนต์เพื่อดาวน์โหลดและเผยแพร่รุ่นและไฟล์อื่น ๆ บน HuggingFace.co Hub
- Tune - มาตรฐานสำหรับการเปรียบเทียบโมเดลที่ใช้หม้อแปลง
?? บทเรียน
เรียนรู้วิธีใช้ชุดเครื่องมือ Hugging Face ทีละขั้นตอน
- หลักสูตรอย่างเป็นทางการ (จาก Hugging Face) - ซีรี่ส์หลักสูตรอย่างเป็นทางการที่จัดทำโดย? กอดใบหน้า
- Transformers-Tutorials (โดย @NielSrogge)-บทเรียนสำหรับการใช้หลายรุ่นในชุดข้อมูลจริง
- ชุดเครื่องมือ NLP
ชุดเครื่องมือ NLP ที่สร้างขึ้นบนหม้อแปลง กองทัพสวิส!
- Allennlp (จาก AI2) - ห้องสมุดวิจัย NLP โอเพ่นซอร์สโอเพ่นซอร์ส
- graph4nlp - เปิดใช้งานการใช้งานของกราฟระบบประสาทสำหรับ NLP ได้อย่างง่ายดาย
- Lightning Transformers - Transformers กับ Pytorch Lightning Interface
- Adapter Transformers-ส่วนขยายไปยัง Library Transformers โดยรวมอะแดปเตอร์เข้ากับแบบจำลองภาษาที่ทันสมัย
- OBSEI - เครื่องมืออัตโนมัติเวิร์กโฟลว์ AI รหัสต่ำและทำงาน NLP ต่าง ๆ ในท่อเวิร์กโฟลว์
- Trapper (จาก OBSS)-NLP ที่ทันสมัยผ่านโมเดลหม้อแปลงในการออกแบบแบบแยกส่วนและ API ที่สอดคล้องกัน
- Flair-เฟรมเวิร์กที่ง่ายมากสำหรับ NLP ที่ทันสมัย
- การแสดงข้อความ
แปลงประโยคเป็นเวกเตอร์
- หม้อแปลงประโยค (จาก UKPLAB) - การเข้ารหัสที่ใช้กันอย่างแพร่หลายในการคำนวณการเป็นตัวแทนเวกเตอร์หนาแน่นสำหรับประโยคย่อหน้าและรูปภาพ
- Whiteningbert (จาก Microsoft) - วิธีการฝังประโยคที่ไม่ได้รับการดูแลอย่างง่ายดายด้วยการฟอกสีฟัน
- Simcse (จาก Princeton)-การฝังประโยคที่ล้ำสมัยด้วยการเรียนรู้แบบตัดกัน
- Densephrases (จาก Princeton) - การเรียนรู้การเป็นตัวแทนของวลีที่หนาแน่น
เครื่องยนต์อนุมาน
เอ็นจิ้นการอนุมานที่ได้รับการปรับปรุงอย่างสูงใช้ API ที่เข้ากันได้กับหม้อแปลง
- TurboTransformers (จาก Tencent) - เอ็นจิ้นการอนุมานสำหรับหม้อแปลงที่มี API C ++ ที่รวดเร็ว
- FasterTransformer (จาก NVIDIA) - สคริปต์และสูตรเพื่อเรียกใช้ตัวเข้ารหัสและตัวถอดรหัสที่ใช้หม้อแปลงและตัวถอดรหัสบน NVIDIA GPU
- Lightseq (จาก BATTEDANCE) - ไลบรารีการอนุมานประสิทธิภาพสูงสำหรับการประมวลผลลำดับและการสร้างที่ใช้ใน CUDA
- Fastseq (จาก Microsoft) - การใช้งานแบบจำลองลำดับยอดนิยมอย่างมีประสิทธิภาพ (เช่น BART, ProphetNet) สำหรับการสร้างข้อความ, การสรุป, งานแปลเป็นต้น
- ความสามารถในการปรับขนาดของแบบจำลอง
โมเดลขนานใน GPU หลายตัว
- ParallelFormers (จาก Tunib) - ไลบรารีสำหรับการปรับใช้แบบขนานแบบจำลอง
- ออสโล (จาก Tunib) - ห้องสมุดที่รองรับคุณสมบัติต่าง ๆ เพื่อช่วยให้คุณฝึกอบรมรุ่นขนาดใหญ่
- DeepSpeed (จาก Microsoft) - Deepspeed -Zero - ปรับขนาดของรุ่นใดก็ได้โดยไม่มีศูนย์ถึงไม่มีการเปลี่ยนแปลงโมเดล รวมเข้ากับ HF Trainer
- FairScale (จาก Facebook) - ใช้โปรโตคอลเป็นศูนย์เช่นกัน รวมเข้ากับ HF Trainer
- Colossalai (จาก HPCAITECH) - ระบบการเรียนรู้ลึกแบบครบวงจรสำหรับการฝึกอบรมแบบขนานขนาดใหญ่ (1D, 2D, 2.5D, 3D และ Sequence Parallelism และ Zero Protocol)
️โมเดลการบีบอัด/การเร่งความเร็ว
การบีบอัดหรือเร่งรุ่นเพื่อปรับปรุงความเร็วการอนุมาน
- Torchdistill-เฟรมเวิร์กแบบโมดูลาร์ที่ใช้โมดูลาร์, การกำหนดค่าที่ขับเคลื่อนด้วยการกำหนดค่าสำหรับการกลั่นความรู้
- TextBrewer (จาก HFL)-วิธีการกลั่นที่ทันสมัยเพื่อบีบอัดแบบจำลองภาษา
- bert-of-thesus (จาก Microsoft)-การบีบอัดเบิร์ตโดยการแทนที่ส่วนประกอบของเบิร์ตดั้งเดิมอย่างต่อเนื่อง
? ️การโจมตีที่เป็นปฏิปักษ์
ดำเนินการโจมตีฝ่ายตรงข้ามเพื่อทดสอบความทนทานของโมเดล
- Textattack (จาก UVA) - กรอบ Python สำหรับการโจมตีที่เป็นปฏิปักษ์การเพิ่มข้อมูลและการฝึกอบรมแบบจำลองใน NLP
- TextFlint (จาก Fudan) - ชุดเครื่องมือประเมินความทนทานหลายภาษาแบบรวมหลายภาษาสำหรับ NLP
- OpenAttack (จาก Thu) - ชุดเครื่องมือการโจมตีที่เป็นข้อความโอเพนซอร์สโอเพนซอร์ส
- การถ่ายโอนสไตล์
ถ่ายโอนสไตล์ของข้อความ! ตอนนี้คุณรู้แล้วว่าทำไมจึงเรียกว่า Transformer?
- Styleformer - กรอบการถ่ายโอนสไตล์ภาษาประสาทเพื่อถ่ายโอนข้อความอย่างราบรื่นระหว่างสไตล์
- CONSERT - กรอบความแตกต่างสำหรับการถ่ายโอนการเป็นตัวแทนประโยคที่ดูแลตนเอง
- การวิเคราะห์ความเชื่อมั่น
การวิเคราะห์ความเชื่อมั่นและอารมณ์ของมนุษย์
- ความเชื่อมั่น - การใช้สถาปัตยกรรมที่แตกต่างกันเพื่อการจดจำอารมณ์ในการสนทนา
- การแก้ไขข้อผิดพลาดทางไวยากรณ์
คุณทำผิดพลาด! ให้ฉันแก้ไข
- Gramformer - กรอบการตรวจจับการเน้นและแก้ไขข้อผิดพลาดทางไวยากรณ์เกี่ยวกับข้อความภาษาธรรมชาติ
- การแปล
แปลระหว่างภาษาต่าง ๆ
- DL-Translate-ห้องสมุดการแปลที่ใช้การเรียนรู้อย่างลึกซึ้งตามหม้อแปลง HF
- EasyNMT (จาก UKPLAB)-ไลบรารีการแปลที่ทันสมัยและใช้งานง่ายและอิมเมจนักเทียบท่าตามหม้อแปลง HF
ความรู้และเอนทิตี
การเรียนรู้ความรู้การขุดการเชื่อมต่อโลก
- บริสุทธิ์ (จากพรินซ์ตัน) - เอนทิตีและการสกัดความสัมพันธ์จากข้อความ
- คำพูด
การประมวลผลคำพูดขับเคลื่อนโดยห้องสมุด HF ต้องการการพูด!
- S3PRL-ชุดเครื่องมือการเรียนรู้ก่อนการฝึกอบรมและการเป็นตัวแทนของตนเอง
- Speechbrain - ชุดเครื่องมือพูดที่ใช้ Pytorch
- ความหลากหลาย
ทำความเข้าใจกับโลกจากรังสีที่แตกต่างกัน
- Vilt (จาก Kakao)-หม้อแปลงวิสัยทัศน์และภาษาโดยไม่มีการควบคุมหรือการกำกับดูแลภูมิภาค
- การเรียนรู้เสริมแรง
การรวม RL Magic กับ NLP!
- TRL - Transformers ปรับแต่งโดยใช้การเพิ่มประสิทธิภาพนโยบายใกล้เคียง (PPO) เพื่อให้สอดคล้องกับการตั้งค่าของมนุษย์
❓ตอบคำถาม
ค้นหาคำตอบ? Transformers เพื่อช่วยเหลือ!
- Haystack (จาก Deepset)-กรอบการทำงานแบบ end-to-end สำหรับการพัฒนาและปรับใช้ระบบการตอบคำถามในป่า
- ระบบแนะนำ
ฉันคิดว่านี่เหมาะกับคุณ!
- Transformers4REC (จาก NVIDIA) - ห้องสมุดที่ยืดหยุ่นและมีประสิทธิภาพขับเคลื่อนโดย Transformers สำหรับคำแนะนำตามลำดับและตามเซสชัน
⚖การประเมินผล
การประเมินผลลัพธ์ของโมเดลและคุณภาพข้อมูลที่ขับเคลื่อนโดยชุดข้อมูล HF!
- คณะลูกขุน (จาก obss)-เครื่องมือที่ใช้งานง่ายสำหรับการประเมินผลลัพธ์ของโมเดล NLP, SPESIALY สำหรับ NLG (การสร้างภาษาธรรมชาติ) นำเสนอตัวชี้วัดข้อความอัตโนมัติเป็นข้อความอัตโนมัติ
- Spotlight - สำรวจชุดข้อมูล HF ของคุณด้วยรหัสหนึ่งบรรทัด ใช้ผลลัพธ์ของแบบจำลอง (เช่นการฝังตัวการทำนาย) เพื่อทำความเข้าใจกับส่วนข้อมูลที่สำคัญและโหมดความล้มเหลวของแบบจำลอง
- การค้นหาประสาท
ค้นหา แต่ด้วยพลังของเครือข่ายประสาท!
- Jina Integration - Jina Integration of Hugging Face API เร่งความเร็ว
- การรวมทอผ้า (Text2VEC) (QA) - การรวมทอของหม้อแปลงใบหน้ากอด
- Colbert (จาก Stanford) - รูปแบบการดึงที่รวดเร็วและแม่นยำทำให้สามารถค้นหา Bert ได้ตามที่ปรับขนาดได้มากกว่าคอลเลกชันข้อความขนาดใหญ่ในหลายสิบมิลลิวินาที
☁คลาวด์
คลาวด์ทำให้ชีวิตของคุณง่ายขึ้น!
- Amazon Sagemaker - ทำให้ง่ายขึ้นกว่าที่เคยฝึกฝน Hugging Face Transformer รุ่นใน Amazon Sagemaker
ฮาร์ดแวร์
โครงสร้างพื้นฐานทำให้เวทมนตร์เกิดขึ้น
- Qualcomm - การทำงานร่วมกันในการเปิดใช้งาน Transformers ใน Snapdragon
- Intel - การทำงานร่วมกันกับ Intel สำหรับตัวเลือกการกำหนดค่า