
ในช่วงไม่กี่ปีที่ผ่านมาการประมวลผลภาษาธรรมชาติ (NLP) ได้เห็นการเติบโตอย่างรวดเร็วในด้านคุณภาพและการใช้งานและสิ่งนี้ได้ช่วยผลักดันการใช้ธุรกิจปัญญาประดิษฐ์ (AI) ในช่วงไม่กี่ปีที่ผ่านมานักวิจัยได้ใช้วิธีการเรียนรู้อย่างลึกซึ้งใหม่กับ NLP นักวิทยาศาสตร์ข้อมูลเริ่มย้ายจากวิธีการดั้งเดิมไปสู่อัลกอริทึมที่ล้ำสมัย (SOTA) อัลกอริทึมระบบประสาทลึก (DNN) ซึ่งใช้โมเดลภาษาที่ใช้ในการปรับใช้ Corpora ข้อความขนาดใหญ่
ที่เก็บนี้มีตัวอย่างและแนวทางปฏิบัติที่ดีที่สุดสำหรับการสร้างระบบ NLP ซึ่งจัดทำขึ้นเป็นสมุดบันทึก Jupyter และฟังก์ชั่นยูทิลิตี้ จุดสนใจของพื้นที่เก็บข้อมูลคือวิธีการที่ทันสมัยและสถานการณ์ทั่วไปที่ได้รับความนิยมในหมู่นักวิจัยและผู้ปฏิบัติงานที่ทำงานเกี่ยวกับปัญหาที่เกี่ยวข้องกับข้อความและภาษา
เป้าหมายของที่เก็บนี้คือการสร้างชุดเครื่องมือและตัวอย่างที่ครอบคลุมซึ่งใช้ประโยชน์จากความก้าวหน้าล่าสุดในอัลกอริทึม NLP สถาปัตยกรรมประสาทและระบบการเรียนรู้ของเครื่องกระจาย เนื้อหาขึ้นอยู่กับการมีส่วนร่วมในอดีตและในอนาคตของเรากับลูกค้ารวมถึงความร่วมมือกับพันธมิตรนักวิจัยและชุมชนโอเพนซอร์ส
เราหวังว่าเครื่องมือสามารถลด“ เวลาในการตลาด” ได้อย่างมากโดยการทำให้ประสบการณ์ง่ายขึ้นจากการกำหนดปัญหาทางธุรกิจไปจนถึงการพัฒนาโซลูชันตามคำสั่งของขนาด นอกจากนี้สมุดบันทึกตัวอย่างจะทำหน้าที่เป็นแนวทางและแสดงแนวปฏิบัติที่ดีที่สุดและการใช้เครื่องมือในภาษาที่หลากหลาย
ในยุคของการเรียนรู้การถ่ายโอนหม้อแปลงและสถาปัตยกรรมที่ลึกซึ้งเราเชื่อว่าแบบจำลองที่ผ่านการฝึกอบรมนั้นเป็นวิธีแก้ปัญหาแบบครบวงจรสำหรับปัญหาในโลกแห่งความจริงและอนุญาตให้จัดการงานและภาษาที่แตกต่างกันได้อย่างง่ายดาย ดังนั้นเราจะจัดลำดับความสำคัญของโมเดลดังกล่าวเนื่องจากพวกเขาบรรลุผลลัพธ์ที่ล้ำสมัยในการวัดประสิทธิภาพของ NLP หลายอย่างเช่นกระดานผู้นำ กาว และ ทีม โมเดลสามารถใช้ในแอปพลิเคชันจำนวนมากตั้งแต่การจำแนกข้อความอย่างง่ายไปจนถึงบอทแชทอัจฉริยะที่ซับซ้อน
โปรดทราบว่าสำหรับปัญหา NLP บางประเภทคุณอาจไม่จำเป็นต้องสร้างโมเดลของคุณเอง มีโซลูชันที่สร้างไว้ล่วงหน้าหรือปรับแต่งได้อย่างง่ายดายซึ่งไม่จำเป็นต้องมีการเข้ารหัสแบบกำหนดเองหรือความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง เราขอแนะนำให้ประเมินว่าสิ่งเหล่านี้สามารถแก้ปัญหาของคุณได้หรือไม่ หากโซลูชันเหล่านี้ไม่สามารถใช้งานได้หรือความถูกต้องของโซลูชันเหล่านี้ไม่เพียงพอการหันไปใช้วิธีการกำหนดเองที่ซับซ้อนและใช้เวลานานขึ้น บริการด้านความรู้ความเข้าใจต่อไปนี้นำเสนอโซลูชั่นที่ง่ายเพื่อจัดการกับงาน NLP ทั่วไป:
การวิเคราะห์ข้อความ เป็นชุดของ APIs REST ที่ผ่านการฝึกอบรมมาแล้วซึ่งสามารถเรียกได้สำหรับการวิเคราะห์ความเชื่อมั่นการสกัดวลีสำคัญการตรวจจับภาษาและการตรวจจับเอนทิตีที่มีชื่อและอื่น ๆ API เหล่านี้ทำงานนอกกรอบและต้องการความเชี่ยวชาญน้อยที่สุดในการเรียนรู้ของเครื่อง แต่มีความสามารถในการปรับแต่งที่ จำกัด
QNA Maker เป็นบริการ API บนคลาวด์ที่ช่วยให้คุณสร้างเลเยอร์คำถามและคำตอบการสนทนาเหนือข้อมูลที่มีอยู่ของคุณ ใช้เพื่อสร้างฐานความรู้โดยการแยกคำถามและคำตอบจากเนื้อหากึ่งโครงสร้างของคุณรวมถึงคำถามที่พบบ่อยคู่มือและเอกสาร
การทำความเข้าใจภาษา เป็นบริการ SaaS ในการฝึกอบรมและปรับใช้แบบจำลองเป็น REST API ที่ได้รับการฝึกอบรมที่ผู้ใช้ให้ คุณสามารถทำการจำแนกความตั้งใจรวมถึงการสกัดเอนทิตีที่มีชื่อโดยทำตามขั้นตอนง่าย ๆ ในการให้ตัวอย่างคำพูดและติดฉลากพวกเขา รองรับการเรียนรู้ที่ใช้งานอยู่ดังนั้นแบบจำลองของคุณมักจะเรียนรู้และปรับปรุง
สำหรับที่เก็บนี้กลุ่มเป้าหมายของเรารวมถึงนักวิทยาศาสตร์ด้านข้อมูลและวิศวกรการเรียนรู้ของเครื่องที่มีระดับความรู้ NLP ที่แตกต่างกันเนื่องจากเนื้อหาของเราเป็นแหล่งที่มาเท่านั้นและตั้งเป้าหมายการสร้างแบบจำลองการเรียนรู้ของเครื่องจักรที่กำหนดเอง ยูทิลิตี้และตัวอย่างที่ให้ไว้มีวัตถุประสงค์เพื่อเป็นตัวเร่งวิธีแก้ปัญหาสำหรับปัญหา NLP ในโลกแห่งความเป็นจริง
ที่เก็บมีจุดมุ่งหมายเพื่อขยายขีดความสามารถของ NLP ตามสามมิติที่แยกกัน
เรามุ่งมั่นที่จะมีตัวอย่างแบบครบวงจรของงานทั่วไปและสถานการณ์เช่นการจำแนกประเภทข้อความการจดจำเอนทิตี ฯลฯ
เรามุ่งมั่นที่จะสนับสนุนหลายรุ่นสำหรับแต่ละสถานการณ์ที่รองรับ ปัจจุบันโมเดลที่ใช้หม้อแปลงได้รับการสนับสนุนในสถานการณ์ส่วนใหญ่ เราได้ทำงานเกี่ยวกับการรวมแพ็คเกจ Transformers จาก Hugging Face ซึ่งช่วยให้ผู้ใช้สามารถโหลดโมเดลที่ผ่านการฝึกอบรมได้อย่างง่ายดายและปรับแต่งสำหรับงานที่แตกต่างกัน
เราสมัครอย่างยิ่งกับหลักการหลายภาษาที่วางโดย "Emily Bender"
ที่เก็บมีวัตถุประสงค์เพื่อสนับสนุนภาษาที่ไม่ใช่ภาษาอังกฤษในทุกสถานการณ์ โมเดลที่ผ่านการฝึกอบรมมาก่อนใช้ในที่เก็บเช่น Bert, FastText รองรับ 100+ ภาษาออกจากกล่อง เป้าหมายของเราคือการให้ตัวอย่างแบบ end-to-end ในหลายภาษามากที่สุด เราสนับสนุนการมีส่วนร่วมของชุมชนในพื้นที่นี้
ต่อไปนี้เป็นบทสรุปของสถานการณ์ NLP ที่ใช้กันทั่วไปซึ่งครอบคลุมในที่เก็บ แต่ละสถานการณ์แสดงให้เห็นในตัวอย่างสมุดบันทึก Jupyter หนึ่งตัวอย่างหรือมากกว่าที่ใช้ประโยชน์จากฐานรหัสหลักของแบบจำลองและยูทิลิตี้ที่เก็บ
| สถานการณ์ | แบบจำลอง | คำอธิบาย | ภาษา |
|---|---|---|---|
| การจำแนกข้อความ | Bert, Distillbert, Xlnet, Roberta, Albert, XLM | การจำแนกประเภทข้อความเป็นวิธีการเรียนรู้ที่มีการเรียนรู้ของการเรียนรู้และทำนายหมวดหมู่หรือคลาสของเอกสารที่ได้รับเนื้อหาข้อความ | ภาษาอังกฤษ, จีน, ภาษาฮินดี, อาหรับ, เยอรมัน, ฝรั่งเศส, ญี่ปุ่น, สเปน, ดัตช์ |
| การจดจำเอนทิตีชื่อ | เบิร์ต | ชื่อการรับรู้เอนทิตี (NER) เป็นหน้าที่ของการจำแนกคำหรือวลีสำคัญของข้อความลงในเอนทิตีที่กำหนดไว้ล่วงหน้า | ภาษาอังกฤษ |
| การสรุปข้อความ | Bertsumext Bertsumabs unilm (S2S-ft) ขนาดเล็ก | การสรุปข้อความเป็นงานสร้างภาษาของการสรุปข้อความอินพุตลงในย่อหน้าที่สั้นกว่าของข้อความ | ภาษาอังกฤษ |
| การมอบอำนาจ | Bert, Xlnet, Roberta | ข้อความที่เป็นข้อความเป็นหน้าที่ของการจำแนกความสัมพันธ์แบบไบนารีระหว่างสองข้อความภาษาธรรมชาติ ข้อความ และ สมมติฐาน เพื่อตรวจสอบว่า ข้อความ เห็นด้วยกับ สมมติฐาน หรือไม่ | ภาษาอังกฤษ |
| ตอบคำถาม | Bidaf, Bert, xlnet | การตอบคำถาม (QA) เป็นหน้าที่ของการดึงหรือสร้างคำตอบที่ถูกต้องสำหรับการสืบค้นที่กำหนดในภาษาธรรมชาติที่มีข้อความที่เกี่ยวข้องกับการสืบค้น | ภาษาอังกฤษ |
| ความคล้ายคลึงกันของประโยค | เบิร์ตเกนเซ่น | ความคล้ายคลึงกันของประโยคเป็นกระบวนการของการคำนวณคะแนนความคล้ายคลึงกันที่ได้รับเอกสารข้อความคู่หนึ่ง | ภาษาอังกฤษ |
| การฝัง | Word2Vec Fastext ถุงมือ | การฝังเป็นกระบวนการของการแปลงคำหรือชิ้นส่วนของข้อความเป็นพื้นที่เวกเตอร์ต่อเนื่องของจำนวนจริงโดยปกติในมิติต่ำ | ภาษาอังกฤษ |
| การวิเคราะห์ความเชื่อมั่น | ตัวแยกวิเคราะห์การพึ่งพา ถุงมือ | แสดงตัวอย่างของการวิเคราะห์ความเชื่อมั่นตามรถไฟและการใช้งานด้วย Azure ML และ Intel NLP Architect | ภาษาอังกฤษ |
ในขณะที่การแก้ปัญหา NLP มันเป็นเรื่องดีที่จะเริ่มต้นด้วยบริการความรู้ความเข้าใจล่วงหน้า เมื่อความต้องการอยู่นอกเหนือขอบเขตของบริการความรู้ความเข้าใจล่วงหน้าและเมื่อคุณต้องการค้นหาวิธีการเรียนรู้ของเครื่องที่กำหนดเองคุณจะพบที่เก็บนี้มีประโยชน์มาก ในการเริ่มต้นใช้งานนำทางไปยังคู่มือการตั้งค่าซึ่งแสดงคำแนะนำเกี่ยวกับวิธีการตั้งค่าสภาพแวดล้อมและการอ้างอิงของคุณ
Azure Machine Learning Service เป็นบริการคลาวด์ที่ใช้ในการฝึกอบรมปรับใช้อัตโนมัติและจัดการโมเดลการเรียนรู้ของเครื่องทั้งหมดในระดับกว้างที่คลาวด์จัดเตรียมไว้ Azureml นำเสนอในสมุดบันทึกในสถานการณ์ที่แตกต่างกันเพื่อเพิ่มประสิทธิภาพของการพัฒนาระบบภาษาธรรมชาติในระดับและสำหรับการพัฒนาแบบจำลอง AI ต่างๆเช่น:
ในการเรียกใช้สมุดบันทึกเหล่านี้สำเร็จคุณจะต้อง สมัครสมาชิก Azure หรือสามารถ ลอง Azure ได้ฟรี อาจมีบริการ Azure หรือผลิตภัณฑ์อื่น ๆ ที่ใช้ในสมุดบันทึก บทนำและ/หรือการอ้างอิงของสิ่งเหล่านั้นจะถูกจัดเตรียมไว้ในสมุดบันทึกด้วยตนเอง
เราหวังว่าชุมชนโอเพ่นซอร์สจะมีส่วนร่วมในเนื้อหาและนำอัลกอริทึม SOTA ล่าสุดมาใช้ โครงการนี้ยินดีต้อนรับการมีส่วนร่วมและข้อเสนอแนะ ก่อนที่จะมีส่วนร่วมโปรดดูแนวทางการบริจาคของเรา
bootstrap โซลูชันการสรุปข้อความของคุณด้วยรุ่นล่าสุดจาก NLP-recipes
คำอธิบายประกอบข้อความทำให้ง่ายด้วย doccano
JumpStart วิเคราะห์ข้อมูลข้อความภาษาฮินดีของคุณโดยใช้ที่เก็บ NLP
เร่งการพัฒนาโซลูชันการประมวลผลภาษาธรรมชาติด้วยการเรียนรู้ของเครื่อง Azure
ต่อไปนี้เป็นรายการที่เก็บข้อมูลที่เกี่ยวข้องที่เราชอบและคิดว่ามีประโยชน์สำหรับงาน NLP
| ที่เก็บ | คำอธิบาย |
|---|---|
| หม้อแปลงไฟฟ้า | ห้องสมุด Pytorch ที่ยอดเยี่ยมจากการกอดใบหน้าด้วยการใช้งานของโมเดลที่ใช้หม้อแปลงยอดนิยม เราใช้แพ็คเกจของพวกเขาอย่างกว้างขวางในการซื้อคืนนี้และชื่นชมความพยายามของพวกเขาอย่างมาก |
| สมุดบันทึกการเรียนรู้ของเครื่อง Azure | ตัวอย่าง ML และการเรียนรู้อย่างลึกซึ้งด้วยการเรียนรู้ของเครื่อง Azure |
| Azureml-Bert | สูตรอาหารแบบครบวงจรสำหรับการฝึกอบรมก่อนและการปรับแต่งเบิร์ตโดยใช้บริการการเรียนรู้ของเครื่อง Azure |
| มวล | มวล: Masked Sequence เพื่อลำดับก่อนการฝึกอบรมสำหรับการสร้างภาษา |
| MT-DNN | เครือข่ายประสาทลึกหลายงานเพื่อทำความเข้าใจภาษาธรรมชาติ |
| unilm | รูปแบบภาษาแบบครบวงจรก่อนการฝึกอบรม |
| บทสนทนา | DIALOGPT: การฝึกอบรมก่อนการกำเนิดขนาดใหญ่สำหรับการสร้างการตอบสนองการสนทนา |
| สร้าง | สาขา | สถานะ |
|---|---|---|
| Linux CPU | ผู้เชี่ยวชาญ | |
| Linux CPU | การแสดงละคร | |
| Linux GPU | ผู้เชี่ยวชาญ | |
| Linux GPU | การแสดงละคร |