IBM ได้ก้าวเข้าสู่ขั้นตอนสำคัญในเดือนพฤษภาคมประกาศแหล่งที่มาของ Granite13b Big Language Model (LLM) สำหรับสถานการณ์แอปพลิเคชันระดับองค์กร การย้ายครั้งนี้ไม่เพียงแสดงให้เห็นถึงตำแหน่งผู้นำของ IBM ในด้านปัญญาประดิษฐ์ แต่ยังให้เครื่องมือที่ทรงพลังแก่ผู้ใช้องค์กรเพื่อช่วยให้พวกเขาจัดการกับความต้องการทางธุรกิจที่ซับซ้อนได้ดีขึ้น เมื่อเร็ว ๆ นี้ Armand Ruiz รองประธานฝ่ายผลิตภัณฑ์ที่ IBM AI Platform เปิดเผยชุดข้อมูลที่สมบูรณ์ที่ใช้ในการฝึกอบรม Granite13b ต่อไป

เป็นที่น่าสังเกตว่าชุดข้อมูลขนาดใหญ่นี้ได้รับการประมวลผลล่วงหน้าอย่างเคร่งครัดและลดลงเป็น 2.07TB ลดลง 68% Ruiz เน้นเมื่อเผยแพร่ข้อมูลว่าขั้นตอนการประมวลผลล่วงหน้านี้มีความสำคัญต่อการสร้างความมั่นใจว่ามีคุณภาพสูงความเป็นกลางและมีจริยธรรมและความต้องการทางกฎหมายของชุดข้อมูล สถานการณ์แอปพลิเคชันระดับองค์กรมีข้อกำหนดที่สูงมากสำหรับความถูกต้องและความน่าเชื่อถือของข้อมูลดังนั้น IBM จึงลงทุนทรัพยากรจำนวนมากในกระบวนการนี้เพื่อให้แน่ใจว่าชุดข้อมูลสุดท้ายสามารถตอบสนองความต้องการเหล่านี้ได้
ชุดข้อมูลมีแหล่งเนื้อหาที่หลากหลายและครอบคลุมข้อมูลที่เชื่อถือได้ในหลายฟิลด์ สิ่งเหล่านี้รวมถึงเอกสารทางวิทยาศาสตร์มากกว่า 2.4 ล้านฉบับพิมพ์จาก Arxiv, การรวบรวมข้อมูลเครือข่ายแบบเปิดของการรวบรวมข้อมูลทั่วไปและคณิตศาสตร์คณิตศาสตร์ของ DeepMind Mathematics นอกจากนี้ชุดข้อมูลยังมีกฎหมายฟรีจากศาลในสหรัฐอเมริกาข้อมูลรหัสการทำความสะอาด GitHub ที่จัดทำโดย CodeParrot และ Hacker News Science และข่าวผู้ประกอบการจากปี 2550 ถึง 2561
แหล่งข้อมูลที่สำคัญอื่น ๆ ได้แก่ OpenWeb Text (เวอร์ชันโอเพ่นซอร์สของ OpenAI Web Text Corpus), Project Gutenberg (หนังสืออิเล็กทรอนิกส์ฟรีที่มุ่งเน้นไปที่การทำงานในช่วงต้น), เอกสารทางชีวการแพทย์และวิทยาศาสตร์เพื่อชีวิตของ PubMed Central และสำนักงานคณะกรรมการกำกับหลักทรัพย์และตลาดหลักทรัพย์ของสหรัฐอเมริกา Sec) การส่ง 10-k/q (1934-2022) นอกจากนี้ชุดข้อมูลยังรวมถึงเนื้อหาที่ผู้ใช้ร่วมในเครือข่าย Exchange Stack, สิทธิบัตรของสหรัฐอเมริกา (USPTOS) ที่ได้รับรางวัลระหว่างปี 1975 ถึงพฤษภาคม 2023 เนื้อหาเว็บที่ไม่มีโครงสร้างที่จัดทำโดย WebHose และเนื้อหาจากโครงการ Wikimedia อังกฤษแปดโครงการ
ในระหว่างกระบวนการประมวลผลล่วงหน้าไอบีเอ็มได้ใช้วิธีการทางเทคนิคที่หลากหลายรวมถึงการสกัดข้อความการซ้ำซ้อนการจดจำภาษาการแบ่งส่วนประโยคและการติดฉลากของความเกลียดชังการละเมิดและคำสาบาน นอกจากนี้ขั้นตอนต่าง ๆ เช่นคำอธิบายประกอบคุณภาพของเอกสารคำอธิบายประกอบการปิดบัง URL การกรองและการโทเค็นจะถูกนำไปใช้ในชุดข้อมูล ขั้นตอนเหล่านี้ช่วยให้มั่นใจได้ถึงความบริสุทธิ์และคุณภาพสูงของชุดข้อมูลวางรากฐานที่มั่นคงสำหรับการฝึกอบรมแบบจำลอง
IBM ไม่เพียง แต่เปิดเผยชุดข้อมูล แต่ยังเปิดตัวโมเดลรหัสหินแกรนิตสี่รุ่นโดยมีพารามิเตอร์ตั้งแต่ 3 พันล้านถึง 34 พันล้าน โมเดลเหล่านี้ทำงานได้ดีในช่วงของมาตรฐานและเหนือกว่ารุ่นอื่น ๆ ที่เทียบเคียงได้ในหลาย ๆ งานเช่น Code Llama และ Llama3 ความสำเร็จนี้พิสูจน์ให้เห็นถึงความแข็งแกร่งทางเทคนิคของไอบีเอ็มและความสามารถที่เป็นนวัตกรรมในด้านปัญญาประดิษฐ์
โดยสรุปมาตรการชุดของ IBM ไม่เพียง แต่ให้เครื่องมือที่มีประสิทธิภาพสำหรับผู้ใช้องค์กร แต่ยังให้การสนับสนุนที่สำคัญในการพัฒนาสาขาปัญญาประดิษฐ์ ด้วยการเปิดเผยชุดข้อมูลคุณภาพสูงและโมเดลประสิทธิภาพที่ยอดเยี่ยม IBM กำลังส่งเสริมความนิยมอย่างกว้างขวางของเทคโนโลยี AI ในแอพพลิเคชั่นระดับองค์กรและปูทางสำหรับนวัตกรรมในอนาคต