[ ภาษา อังกฤษ |
บทสรุปของที่เก็บนี้ได้รับการตีพิมพ์เป็น preprint: การสำรวจแบบจำลองภาษาขนาดใหญ่แบบเปิดสำหรับภาษาญี่ปุ่น: คู่มือปฏิบัติ
หากคุณอ้างถึงที่เก็บนี้โปรดอ้าง:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
มีการเปลี่ยนแปลงสถาปัตยกรรมบางอย่าง สำหรับข้อมูลเพิ่มเติมดูด้านล่าง: การเรียนรู้ล่วงหน้าของ LLM ดั้งเดิม "PLAMO-100B" ที่มีระดับพารามิเตอร์ 100 พันล้านพารามิเตอร์↩
สำหรับข้อมูลเพิ่มเติมดูบทความต่อไปนี้: หมายเหตุเชิงกลยุทธ์สำหรับก่อนและหลังการเรียนรู้เมื่อพัฒนาแบบจำลองภาษาขนาดใหญ่รวมถึงแนวทางการวางตำแหน่งและการพัฒนาสำหรับแบบจำลองภาษาขนาดใหญ่ Tanuki-8b และ 8x8b ฯลฯ-โดยเฉพาะอย่างยิ่งในข้อมูลสังเคราะห์-↩ 2
อย่างไรก็ตามเพื่อเพิ่มความเร็วของโมเดลมีการเปลี่ยนแปลง Llama ดั้งเดิม สำหรับข้อมูลเพิ่มเติมดูด้านล่าง: PLAMO-13B ได้รับการเผยแพร่↩
แม้ว่าจะไม่มีการระบุรายละเอียด แต่ข่าวประชาสัมพันธ์ได้ระบุสิ่งต่อไปนี้: นอกเหนือจากชุดข้อมูลที่เปิดอยู่แล้วข้อมูลการฝึกอบรมยังรวมถึงชุดข้อมูลต้นฉบับที่สร้างขึ้นโดยความมั่นคง AI Japan รวมถึงข้อมูลที่สร้างขึ้นด้วยความร่วมมือของทีมภาษาญี่ปุ่นของโครงการ Eleutherai Polyglot และสมาชิกของชุมชนที่มีเสถียรภาพญี่ปุ่น '
การศึกษาครั้งนี้ดำเนินการประเมินแบบจำลองภาษาศาสตร์ที่ผ่านการฝึกอบรมเพื่อทำนายคำจากขวาไปซ้ายแทนที่จะเป็นซ้ายไปขวา ทั้งแบบจำลองภาษาปกติและแบบผกผันได้รับการเผยแพร่
ก่อนที่จะทำการปรับแต่งคำแนะนำเราเพิ่มเวกเตอร์แชทซึ่งเป็นความแตกต่างระหว่าง Llama 3 Instruct และฐาน Llama 3 ↩ 2
หลังจากทำการปรับแต่งคำแนะนำจะมีการเพิ่มเวกเตอร์แชทซึ่งเป็นความแตกต่างระหว่าง Llama 3 Instruct และฐาน Llama 3 ↩ 2
อย่างไรก็ตามหากคุณต้องการใช้ Karakuri LM เพื่อวัตถุประสงค์ทางการค้าคุณจะต้องติดต่อ Karakuri Co. , Ltd. ผู้พัฒนา
การปรับแต่งการเรียนการสอนระบบใช้ข้อมูลที่สร้างขึ้นโดยโมเดล OpenAI เช่น GPT-3.5 และ GPT-4 เพื่อเรียนรู้ดังนั้นอาจเป็นการละเมิดกฎ OpenAI ↩ 2 ↩ 3 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
ก่อนที่จะดำเนินการ ORPO เราเพิ่มเวกเตอร์แชทของความแตกต่างระหว่าง Gemma 2 Corder และ Gemma 2 Base
○: โมเดลได้รับการอัปโหลดไปยังศูนย์กลางโมเดลของ HuggingFace และสามารถอ่านได้ทันทีโดยใช้ AutoModel.from_pretrained() ฯลฯ △: ไม่มีการอัปโหลดโมเดลไปยัง Model Hub แต่สนับสนุนรูปแบบ HuggingFace (Transformers เดิมชื่อ Pytorch-Transformers) ✕: โมเดลไม่รองรับ HuggingFace
นี่คือการศึกษาที่การทดลองที่มีการรวมกันของเครื่องวิเคราะห์ morpheme และเทคนิคการพูดย่อยต่างๆ เป็นการยากที่จะแสดงรายการโมเดลสำหรับชุดค่าผสมทั้งหมดดังนั้นที่นี่เรานำเสนอโมเดล Juman +++ BPE ซึ่งมีประสิทธิภาพงานเฉลี่ยสูงสุดในการทดสอบ
อย่างไรก็ตามความยาวของซีรีย์สูงสุดได้ขยายไปถึง 2048 และการเปลี่ยนแปลงทางสถาปัตยกรรมต่าง ๆ ได้ถูกสร้างขึ้นเพื่อเบิร์ตดั้งเดิม ดู ReadMe ในที่เก็บ HuggingFace สำหรับข้อมูลเพิ่มเติม
NLP-Waseda/Roberta-Base-Japanese และ NLP-Waseda/Roberta-Large-Japanese Pre-train ความยาวโทเค็นสูงสุดของอินพุตโมเดลที่ 128 ในขณะที่ NLP-Waseda/Roberta-japanese-Seq512 Pre-Trains ที่ 512 ↩
อย่างไรก็ตามความยาวซีรีย์สูงสุดจะขยายจากปกติ 512 ถึง 1282 ช่วยให้สามารถจัดการคำสั่งอินพุตได้นานขึ้น↩
ขนาดเล็กคือการศึกษารอยขีดข่วนโดยใช้วิกิพีเดียญี่ปุ่นและคลังการเงินของญี่ปุ่นในขณะที่ฐานหนึ่งคือการศึกษาที่แตกต่างกันโดยใช้คลังการเงินของญี่ปุ่นที่ Tohoku University Bert ↩
โมเดล WordPiece ที่พิสูจน์ได้ของมนุษย์เป็นแบบจำลองที่แบ่งคำโดยใช้ mecab (พจนานุกรม IPA + พจนานุกรมป้องกันมนุษย์) จากนั้น subwords โดยใช้ wordpiece ในขณะที่โมเดลชิ้นประโยคเป็นแบบจำลองที่แปลงคำโดยตรงเป็น unigram โดยไม่แยกคำ↩
สำหรับรายละเอียดเกี่ยวกับแต่ละรุ่นดูบทที่ 4 ของกระดาษของผู้เขียน โปรดทราบว่าโมเดล SC-2M-Wiki นั้นได้รับการฝึกฝนไว้ล่วงหน้าบนวิกิพีเดียเท่านั้นดังนั้นจึงไม่ได้เป็นแบบจำลองเฉพาะโดเมนอย่างเคร่งครัด
แบบจำลองการฝังถูกจัดประเภทโดยใช้การดึงข้อความหนาแน่นตามแบบจำลองภาษาที่ผ่านการฝึกอบรม: การสำรวจ (Zhao+, 2022) Bi-encoder เป็นสถาปัตยกรรมที่อินพุตสองอินพุตเป็นรายบุคคลเป็นโมเดลซึ่งแต่ละตัวจะเป็นเวกเตอร์และจากนั้นสูตรเป็นความใกล้ชิดของอินพุตโดยการกำหนดผลิตภัณฑ์ DOT และความคล้ายคลึงกันของโคไซน์ของอินพุตเหล่านี้ ในทางตรงกันข้าม cross-encoder เป็นสถาปัตยกรรมที่อินพุตสองอินพุตลงในโมเดลและคำนวณความใกล้ชิดภายในโมเดลโดยตรง ในสาขาการสกัดข้อมูลข้ามเข้ารหัสมีค่าใช้จ่ายสูงกว่า แต่เนื่องจากคาดว่าแบบจำลองจะคำนวณความใกล้ชิดของอินพุตได้อย่างละเอียดมากขึ้นจึงมักใช้เป็นตัวเรียกซ้ำเพื่อตรวจสอบลำดับของผลการสกัด นอกจากนี้ในบรรดาผู้เข้ารหัส bi มีประเภทของการเข้ารหัสแบบ bi-encoders ที่เป็นตัวแทนของอินพุตเป็นเวกเตอร์หลายตัว (ตัวอย่างเช่น Colbert) แทนที่จะเป็นเวกเตอร์เดี่ยว (ตัวอย่างเช่น Colbert) ดังนั้นพวกเขาจึงถูกแบ่งออกเป็นผู้เข้ารหัสสองคน
อย่างไรก็ตามมันเรียกร้องให้ผู้คนทราบเพื่อใช้เพื่อการวิจัยและการศึกษา โปรดทราบว่าใบอนุญาตบางอย่างสำหรับรุ่นที่คุณรวมไม่ใช่ Apache 2.0 ↩ 2 ↩ 3