llm · nlp
text2all · All2all
มัลติโมดอล·หลายงาน
หน่วยสืบราชการลับของมนุษย์เติบโตขึ้นบนแนวคิดของการทำงานร่วมกันทางปัญญาซึ่งการทำงานร่วมกันและการรวมข้อมูลระหว่างกระบวนการทางปัญญาที่แตกต่างกันให้ผลลัพธ์ที่เหนือกว่าเมื่อเทียบกับกระบวนการทางปัญญาของแต่ละบุคคลในการแยก แม้ว่าแบบจำลองภาษาขนาดใหญ่ (LLMS) ได้แสดงให้เห็นถึงประสิทธิภาพที่มีแนวโน้มว่าเป็นตัวแทนการแก้ปัญหาทั่วไป แต่พวกเขายังคงต่อสู้กับงานที่ต้องใช้ความรู้โดเมนอย่างเข้มข้นและการใช้เหตุผลที่ซับซ้อน ในงานนี้เราเสนอการแจ้งเตือนการแสดงเดี่ยว (SPP) ซึ่งเปลี่ยน LLM เดียวให้กลายเป็นผู้ประสานงานด้านความรู้ความเข้าใจโดยมีส่วนร่วมในการรวมตัวกันหลายครั้งด้วยตัวตนหลายตัว ผู้ประสานงานด้านความรู้ความเข้าใจหมายถึงตัวแทนอัจฉริยะที่ร่วมมือกับจิตใจที่หลากหลายโดยรวมจุดแข็งและความรู้ของแต่ละบุคคลเพื่อเพิ่มการแก้ปัญหาและประสิทธิภาพโดยรวมในงานที่ซับซ้อน โดยการระบุและจำลองบุคคลที่แตกต่างกันแบบไดนามิกตามอินพุตของงาน SPP ปลดปล่อยศักยภาพของการทำงานร่วมกันทางปัญญาใน LLMS เราได้ค้นพบว่าการกำหนดบุคคลที่มีความละเอียดหลาย ๆ อย่างใน LLMS ทำให้เกิดความสามารถในการแก้ปัญหาที่ดีกว่าเมื่อเทียบกับการใช้จำนวนบุคคลเดียวหรือจำนวนคงที่ เราประเมิน SPP ในสามงานที่ท้าทาย: การเขียนเชิงสร้างสรรค์เรื่องไม่สำคัญ, ชื่อรหัสการทำงานร่วมกันและปริศนากริดลอจิกซึ่งครอบคลุมทั้งประเภทที่ใช้ความรู้มากและใช้เหตุผลมาก ซึ่งแตกต่างจากงานก่อนหน้านี้เช่นห่วงโซ่แห่งความคิดที่เพิ่มความสามารถในการใช้เหตุผลใน LLMS เพียงอย่างเดียว SPP จะช่วยลดความสามารถในการได้มาซึ่งความรู้ภายในลดความสามารถในการลดความรู้ รหัสข้อมูลและพรอมต์สามารถดูได้ที่: URL HTTPS นี้
เรานำเสนอ LLM-blender ซึ่งเป็นกรอบการทำงานที่ออกแบบมาเพื่อให้ได้ประสิทธิภาพที่เหนือกว่าอย่างต่อเนื่องโดยใช้ประโยชน์จากจุดแข็งที่หลากหลายของโมเดลภาษาโอเพนซอร์ซขนาดใหญ่หลายแบบ (LLMs) เฟรมเวิร์กของเราประกอบด้วยสองโมดูล: pairranker และ genfuser ที่อยู่การสังเกตว่า LLM ที่ดีที่สุดสำหรับตัวอย่างที่แตกต่างกันอาจแตกต่างกันอย่างมีนัยสำคัญ Pairranker ใช้วิธีการเปรียบเทียบแบบคู่พิเศษเพื่อแยกแยะความแตกต่างเล็กน้อยระหว่างผลลัพธ์ของผู้สมัคร มันร่วมกันเข้ารหัสข้อความอินพุตและคู่ของผู้สมัครโดยใช้ตัวเข้ารหัสข้ามความสนใจเพื่อกำหนดข้อความที่เหนือกว่า ผลลัพธ์ของเราแสดงให้เห็นว่าการจับคู่มีความสัมพันธ์สูงสุดกับการจัดอันดับที่ใช้ CHATGPT จากนั้น GenFuser มีจุดมุ่งหมายที่จะรวมผู้สมัครอันดับสูงสุดสร้างผลผลิตที่ดีขึ้นโดยการใช้ประโยชน์จากจุดแข็งของพวกเขาและบรรเทาจุดอ่อนของพวกเขา เพื่ออำนวยความสะดวกในการประเมินขนาดใหญ่เราแนะนำชุดข้อมูลมาตรฐาน MixInstruct ซึ่งเป็นส่วนผสมของชุดข้อมูลการเรียนการสอนหลายชุดที่มีการเปรียบเทียบ Oracle Pairwise LLM-blender ของเรามีประสิทธิภาพสูงกว่า LLM และวิธีการพื้นฐานอย่างมีนัยสำคัญในการวัดต่าง ๆ เพื่อสร้างช่องว่างประสิทธิภาพที่สำคัญ
แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้แสดงให้เห็นถึงคำสัญญาในการพิสูจน์ทฤษฎีบทที่เป็นทางการโดยใช้ผู้ช่วยพิสูจน์เช่น Lean อย่างไรก็ตามวิธีการที่มีอยู่นั้นยากที่จะทำซ้ำหรือสร้างขึ้นเนื่องจากรหัสส่วนตัวข้อมูลและข้อกำหนดการคำนวณขนาดใหญ่ สิ่งนี้ได้สร้างอุปสรรคสำคัญในการวิจัยเกี่ยวกับวิธีการเรียนรู้ของเครื่องสำหรับการพิสูจน์ทฤษฎีบท บทความนี้จะกำจัดอุปสรรคเหล่านี้โดยการแนะนำ Leandojo: สนามเด็กเล่นแบบลีนโอเพนซอร์ซประกอบด้วยชุดเครื่องมือข้อมูลรุ่นและเกณฑ์มาตรฐาน Leandojo สกัดข้อมูลจาก Lean และเปิดใช้งานการโต้ตอบกับสภาพแวดล้อมการพิสูจน์โดยทางโปรแกรม มันมีคำอธิบายประกอบที่ละเอียดของสถานที่ในการพิสูจน์โดยให้ข้อมูลที่มีค่าสำหรับการเลือกหลักฐาน-คอขวดที่สำคัญในทฤษฎีบทพิสูจน์ การใช้ข้อมูลนี้เราจะพัฒนาพร็อค (การเรียกคืน-การรอการเรียกคืน): สุภาษิตที่ใช้ LLM แรกที่เพิ่มขึ้นด้วยการดึงข้อมูลสำหรับการเลือกสถานที่จากห้องสมุดคณิตศาสตร์ขนาดใหญ่ มันมีราคาไม่แพงและต้องการการฝึกอบรมเพียงหนึ่งสัปดาห์ GPU Retriever ใช้ประโยชน์จากความสามารถในการวิเคราะห์โปรแกรมของ LOANDOJO ในการระบุสถานที่ที่เข้าถึงได้และตัวอย่างเชิงลบที่ยากลำบากซึ่งทำให้การดึงข้อมูลมีประสิทธิภาพมากขึ้น นอกจากนี้เรายังสร้างเกณฑ์มาตรฐานใหม่ซึ่งประกอบด้วยทฤษฎีบทและหลักฐาน 96,962 ที่สกัดจากคณิตศาสตร์คณิตศาสตร์ของลีน มันมีการแยกข้อมูลที่ท้าทายซึ่งต้องการให้สุภาษิตพูดคุยกับทฤษฎีบทที่อาศัยอยู่ในสถานที่ใหม่ที่ไม่เคยใช้ในการฝึกอบรม เราใช้เกณฑ์มาตรฐานนี้สำหรับการฝึกอบรมและการประเมินผลและผลการทดลองแสดงให้เห็นถึงประสิทธิภาพของการพิมพ์ใหม่ผ่านเส้นเขตแดนที่ไม่ได้รับการแก้ไขและ GPT-4 ดังนั้นเราจึงจัดเตรียมชุดทฤษฎีบทโอเพนซอร์ซที่ใช้ LLM ชุดแรกโดยไม่มีชุดข้อมูลใด ๆ ที่เป็นกรรมสิทธิ์และปล่อยภายใต้ใบอนุญาต MIT ที่ได้รับอนุญาตเพื่ออำนวยความสะดวกในการวิจัยเพิ่มเติม
การตอบคำถามด้วยภาพเป็นงานที่ซับซ้อนที่ต้องใช้ทั้งการประมวลผลภาพและการใช้เหตุผล แบบจำลองแบบ end-to-end วิธีการที่โดดเด่นสำหรับงานนี้ไม่ได้แยกความแตกต่างระหว่างทั้งสองอย่างชัดเจนจำกัดความสามารถในการตีความและการวางนัยทั่วไป การเรียนรู้โปรแกรมแบบแยกส่วนนำเสนอทางเลือกที่มีแนวโน้ม แต่ได้พิสูจน์แล้วว่ามีความท้าทายเนื่องจากความยากลำบากในการเรียนรู้ทั้งโปรแกรมและโมดูลพร้อมกัน เราแนะนำ ViperGpt ซึ่งเป็นเฟรมเวิร์กที่ใช้ประโยชน์จากโมเดลการสร้างรหัสเพื่อแต่งโมเดลการมองเห็นและภาษาลงในรูทีนย่อยเพื่อสร้างผลลัพธ์สำหรับการสืบค้นใด ๆ VIPERGPT ใช้ API ที่ให้ไว้เพื่อเข้าถึงโมดูลที่มีอยู่และจัดทำขึ้นโดยการสร้างรหัส Python ที่ดำเนินการในภายหลัง วิธีการง่ายๆนี้ไม่จำเป็นต้องมีการฝึกอบรมเพิ่มเติมและบรรลุผลลัพธ์ที่ล้ำสมัยในงานภาพที่ซับซ้อนที่หลากหลาย
ความยาวลำดับการปรับขนาดได้กลายเป็นความต้องการที่สำคัญในยุคของแบบจำลองภาษาขนาดใหญ่ อย่างไรก็ตามวิธีการที่มีอยู่ต่อสู้กับความซับซ้อนในการคำนวณหรือการแสดงออกของแบบจำลองทำให้ความยาวลำดับสูงสุดถูก จำกัด ในงานนี้เราแนะนำ Longnet ตัวแปรหม้อแปลงที่สามารถปรับความยาวลำดับเป็นโทเค็นมากกว่า 1 พันล้านโทโดยไม่ต้องเสียสละประสิทธิภาพในลำดับที่สั้นกว่า โดยเฉพาะเราเสนอความสนใจที่ขยายตัวซึ่งขยายสนามที่เอาใจใส่อย่างทวีคูณเมื่อระยะทางเพิ่มขึ้น Longnet มีข้อได้เปรียบที่สำคัญ: 1) มีความซับซ้อนในการคำนวณเชิงเส้นและการพึ่งพาลอการิทึมระหว่างโทเค็น; 2) มันสามารถทำหน้าที่เป็นเทรนเนอร์แบบกระจายสำหรับลำดับที่ยาวมาก; 3) ความสนใจที่ขยายตัวของมันคือการแทนที่แบบเลื่อนลงสำหรับความสนใจมาตรฐานซึ่งสามารถรวมเข้ากับการเพิ่มประสิทธิภาพตามหม้อแปลงที่มีอยู่ได้อย่างราบรื่น ผลการทดลองแสดงให้เห็นว่า LongNet ให้ประสิทธิภาพที่แข็งแกร่งทั้งในการสร้างแบบจำลองตามลำดับและงานภาษาทั่วไป งานของเราเปิดโอกาสใหม่สำหรับการสร้างแบบจำลองลำดับที่ยาวนานเช่นการรักษาคลังข้อมูลทั้งหมดหรือแม้แต่อินเทอร์เน็ตทั้งหมดเป็นลำดับ
การบรรจบกันครั้งใหญ่ของภาษาวิสัยทัศน์และการเตรียมการหลายรูปแบบกำลังเกิดขึ้น ในงานนี้เราแนะนำรูปแบบพื้นฐานอเนกประสงค์ทั่วไป BEIT-3 ซึ่งประสบความสำเร็จในการถ่ายโอนประสิทธิภาพที่ทันสมัยทั้งในการมองเห็นและงานภาษาวิสัยทัศน์ โดยเฉพาะเราพัฒนาการบรรจบกันครั้งใหญ่จากสามด้าน: สถาปัตยกรรมกระดูกสันหลัง, งานการเพรปรายและการปรับขนาดแบบจำลอง เราแนะนำหม้อแปลงแบบหลายเวย์สำหรับการสร้างแบบจำลองวัตถุประสงค์ทั่วไปซึ่งสถาปัตยกรรมแบบแยกส่วนช่วยให้ทั้งการเข้ารหัสแบบฟิวชั่นลึกและการเข้ารหัสเฉพาะรูปแบบ ขึ้นอยู่กับกระดูกสันหลังที่ใช้ร่วมกันเราทำการสร้างแบบจำลอง "ภาษา" ที่สวมหน้ากากบนรูปภาพ (Imglish) ข้อความ (ภาษาอังกฤษ) และคู่ข้อความภาพ ("ประโยคคู่ขนาน") ในลักษณะที่เป็นเอกภาพ ผลการทดลองแสดงให้เห็นว่า BEIT-3 ได้รับประสิทธิภาพที่ทันสมัยในการตรวจจับวัตถุ (COCO), การแบ่งส่วนความหมาย (ADE20K), การจำแนกภาพ (ImageNet), การให้เหตุผลด้านภาพ (NLVR2), การตอบคำถามด้วยภาพ (VQAV2), ภาพคำบรรยายภาพ (Coco)
แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้เห็นคลื่นความก้าวหน้าที่น่าประทับใจเมื่อเร็ว ๆ นี้โดยตอนนี้แบบจำลองที่ยอดเยี่ยมในหลากหลายงานเช่นการใช้เหตุผลทางคณิตศาสตร์และการสังเคราะห์โปรแกรม อย่างไรก็ตามศักยภาพในการใช้เครื่องมืออย่างมีประสิทธิภาพผ่านการโทร API ยังคงไม่ได้ผล นี่เป็นงานที่ท้าทายแม้กระทั่ง LLM ที่ล้ำสมัยในปัจจุบันเช่น GPT-4 ส่วนใหญ่เกิดจากการที่พวกเขาไม่สามารถสร้างข้อโต้แย้งการป้อนข้อมูลที่ถูกต้องและแนวโน้มของพวกเขาในการใช้ภาพหลอนการใช้งานที่ผิดของการโทร API เราเปิดตัว Gorilla ซึ่งเป็นโมเดล Llama ที่ใช้ Finetuned ซึ่งเหนือกว่าประสิทธิภาพของ GPT-4 ในการเขียนการโทร API เมื่อรวมกับเอกสารรีทรีฟเวอร์กอริลลาแสดงให้เห็นถึงความสามารถที่แข็งแกร่งในการปรับให้เข้ากับการเปลี่ยนแปลงเอกสารเวลาทดสอบทำให้การอัปเดตผู้ใช้หรือการเปลี่ยนแปลงเวอร์ชันที่ยืดหยุ่น นอกจากนี้ยังช่วยบรรเทาปัญหาของภาพหลอนโดยทั่วไปพบเมื่อกระตุ้น LLM โดยตรง ในการประเมินความสามารถของโมเดลเราแนะนำ Apibench ซึ่งเป็นชุดข้อมูลที่ครอบคลุมซึ่งประกอบด้วย HuggingFace, Torchhub และ TensorHub APIs การรวมระบบดึงข้อมูลที่ประสบความสำเร็จกับกอริลลาแสดงให้เห็นถึงศักยภาพของ LLM ที่จะใช้เครื่องมือได้อย่างแม่นยำยิ่งขึ้นติดตามเอกสารที่ได้รับการปรับปรุงบ่อยครั้งและเพิ่มความน่าเชื่อถือและการบังคับใช้ของเอาท์พุท รูปแบบและรหัสของกอริลลามีอยู่ที่ https://github.com/shishirpatil/gorilla
โมเดลภาษาขนาดใหญ่ (LLMS) ประสบความสำเร็จอย่างมากในงานการประมวลผลภาษาธรรมชาติที่หลากหลายด้วยความสามารถฉุกเฉิน อย่างไรก็ตามพวกเขาต้องเผชิญกับข้อ จำกัด โดยธรรมชาติเช่นการไม่สามารถเข้าถึงข้อมูลที่ทันสมัยใช้เครื่องมือภายนอกหรือดำเนินการเชิงคณิตศาสตร์ที่แม่นยำ ในบทความนี้เราแนะนำ Chameleon ซึ่งเป็นกรอบการใช้เหตุผลเชิงองค์ประกอบแบบปลั๊กและเล่นที่เพิ่ม LLM เพื่อช่วยจัดการกับความท้าทายเหล่านี้ Chameleon สังเคราะห์โปรแกรมเพื่อเขียนเครื่องมือต่าง ๆ รวมถึงโมเดล LLM รุ่นวิสัยทัศน์นอกชั้นวางเครื่องมือค้นหาเว็บฟังก์ชั่น Python และโมดูลตามกฎที่เหมาะกับความสนใจของผู้ใช้ สร้างขึ้นด้านบนของ LLM ในฐานะนักวางแผนภาษาธรรมชาติ Chameleon ทำให้เครื่องมือที่เหมาะสมในการเขียนและดำเนินการเพื่อสร้างการตอบสนองสุดท้าย เราแสดงความสามารถในการปรับตัวและประสิทธิผลของกิ้งก่าในสองงาน: ScienceQa และ Tabmwp โดยเฉพาะอย่างยิ่ง Chameleon ที่มี GPT-4 บรรลุความแม่นยำ 86.54% สำหรับ ScienceQa ซึ่งปรับปรุงอย่างมีนัยสำคัญเมื่อมีการตีพิมพ์แบบจำลองไม่กี่ครั้งที่ดีที่สุด 11.37%; การใช้ GPT-4 เป็น LLM พื้นฐานกิ้งก่าจะเพิ่มขึ้น 17.8% ในรุ่นที่ทันสมัยซึ่งนำไปสู่ความแม่นยำโดยรวม 98.78% ใน TabMWP การศึกษาเพิ่มเติมชี้ให้เห็นว่าการใช้ GPT-4 เป็นนักวางแผนแสดงการเลือกเครื่องมือที่สอดคล้องและมีเหตุผลมากขึ้นและสามารถสรุปข้อ จำกัด ที่อาจเกิดขึ้นได้ตามคำแนะนำเมื่อเทียบกับ LLM อื่น ๆ เช่น ChatGPT
วิธีการแปลงแบบจำลองภาษาขนาดใหญ่ (LLMs) อย่างมีประสิทธิภาพเป็นผู้ติดตามการสอนเมื่อเร็ว ๆ นี้เป็นทิศทางการวิจัยที่ได้รับความนิยมในขณะที่การฝึกอบรม LLM สำหรับการใช้เหตุผลหลายรูปแบบยังคงมีการสำรวจน้อยลง แม้ว่า Adapter Llama เมื่อเร็ว ๆ นี้แสดงให้เห็นถึงศักยภาพในการจัดการอินพุตภาพด้วย LLM แต่ก็ยังไม่สามารถพูดคุยกันได้ดีสำหรับคำแนะนำด้านภาพปลายเปิดและความล่าช้าที่อยู่เบื้องหลัง GPT-4 ในบทความนี้เรานำเสนอ Llama-Adapter V2 ซึ่งเป็นรูปแบบการเรียนการสอนที่มีประสิทธิภาพพารามิเตอร์ โดยเฉพาะอย่างยิ่งเราจะเพิ่ม Llama-Adapter โดยการปลดล็อกพารามิเตอร์ที่เรียนรู้ได้มากขึ้น (เช่นบรรทัดฐาน, อคติและขนาด) ซึ่งกระจายความสามารถในการติดตามคำสั่งทั่วทั้งโมเดล Llama นอกเหนือจากอะแดปเตอร์ ประการที่สองเราเสนอกลยุทธ์ฟิวชั่นต้นเพื่อป้อนโทเค็นภาพให้เป็นชั้น LLM ยุคแรกเท่านั้น ประการที่สามกระบวนทัศน์การฝึกอบรมร่วมกันของคู่ข้อความภาพและข้อมูลตามคำแนะนำได้รับการแนะนำโดยการปรับกลุ่มพารามิเตอร์ที่ไม่สามารถปรับได้ กลยุทธ์นี้ช่วยบรรเทาการรบกวนระหว่างงานสองงานของการจัดตำแหน่งข้อความภาพและการเรียนการสอนต่อไปนี้และได้รับการให้เหตุผลหลายรูปแบบที่แข็งแกร่งโดยมีเพียงข้อความภาพขนาดเล็กและชุดข้อมูลคำสั่ง ในระหว่างการอนุมานเราได้รวมโมเดลผู้เชี่ยวชาญเพิ่มเติม (เช่นคำบรรยายภาพ/ระบบ OCR) เข้ากับ Llama-Adapter เพื่อเพิ่มความสามารถในการทำความเข้าใจภาพโดยไม่ต้องเสียค่าใช้จ่ายในการฝึกอบรม เมื่อเปรียบเทียบกับ Llama-Adapter ดั้งเดิม Llama-Adapter V2 ของเราสามารถดำเนินการตามคำแนะนำแบบหลายโมดอลแบบเปิดปลายได้โดยเพียงแค่แนะนำพารามิเตอร์ 14M เหนือ Llama เฟรมเวิร์กที่ได้รับการออกแบบใหม่ยังมีความสามารถในการตามคำสั่งภาษาที่แข็งแกร่งขึ้นและแม้กระทั่งการโต้ตอบในการแชท รหัสและรุ่นของเรามีอยู่ที่ URL HTTPS นี้
พร็อกซีที่น่าเชื่อเกี่ยวกับพฤติกรรมของมนุษย์สามารถเพิ่มขีดความสามารถของแอพพลิเคชั่นแบบโต้ตอบตั้งแต่สภาพแวดล้อมที่ดื่มด่ำไปจนถึงพื้นที่ซ้อมเพื่อการสื่อสารระหว่างบุคคลไปจนถึงเครื่องมือสร้างต้นแบบ ในบทความนี้เราแนะนำตัวแทนทั่วไป-ตัวแทนซอฟต์แวร์คอมพิวเตอร์ที่จำลองพฤติกรรมของมนุษย์ที่น่าเชื่อถือ ตัวแทนกำเนิดตื่นขึ้นมาปรุงอาหารเช้าและมุ่งหน้าไปทำงาน ศิลปินวาดภาพในขณะที่ผู้เขียนเขียน; พวกเขาสร้างความคิดเห็นสังเกตซึ่งกันและกันและเริ่มการสนทนา พวกเขาจำและไตร่ตรองในวันที่ผ่านมาเมื่อพวกเขาวางแผนในวันถัดไป เพื่อเปิดใช้งานตัวแทนกำเนิดเราจะอธิบายสถาปัตยกรรมที่ขยายรูปแบบภาษาขนาดใหญ่เพื่อเก็บบันทึกประสบการณ์ของตัวแทนโดยใช้ภาษาธรรมชาติสังเคราะห์ความทรงจำเหล่านั้นเมื่อเวลาผ่านไปในการสะท้อนกลับระดับสูงขึ้น เราสร้างอินสแตนซ์ตัวแทนกำเนิดเพื่อเติมสภาพแวดล้อมแบบอินเทอร์แอคทีฟของ Sandbox ที่ได้รับแรงบันดาลใจจาก SIMS ซึ่งผู้ใช้สามารถโต้ตอบกับเมืองเล็ก ๆ ของตัวแทนยี่สิบห้าคนโดยใช้ภาษาธรรมชาติ ในการประเมินผลตัวแทนกำเนิดเหล่านี้สร้างพฤติกรรมทางสังคมที่น่าเชื่อถือและเกิดขึ้นได้เช่นเริ่มต้นด้วยความคิดที่ผู้ใช้ระบุเพียงคนเดียวว่าตัวแทนคนหนึ่งต้องการจัดงานเลี้ยงวันวาเลนไทน์ตัวแทนกระจายคำเชิญอย่างอิสระในงานปาร์ตี้ในอีกสองวัน เราแสดงให้เห็นถึงการระเหยว่าองค์ประกอบของสถาปัตยกรรมตัวแทนของเรา-การสังเกตการวางแผนและการไตร่ตรอง-แต่ละคนมีส่วนร่วมอย่างยิ่งต่อความเชื่อมั่นของพฤติกรรมตัวแทน ด้วยการหลอมรวมแบบจำลองภาษาขนาดใหญ่ด้วยตัวแทนการคำนวณการโต้ตอบงานนี้จะแนะนำรูปแบบสถาปัตยกรรมและปฏิสัมพันธ์เพื่อเปิดใช้งานการจำลองพฤติกรรมมนุษย์ที่น่าเชื่อถือ
ความก้าวหน้าล่าสุดในการตัดสินใจรูปแบบภาษาขนาดใหญ่ (LLM) ตัวแทนได้แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจในการวัดมาตรฐานต่างๆ อย่างไรก็ตามวิธีการที่ทันสมัยเหล่านี้มักจะจำเป็นต้องมีการปรับแต่งแบบจำลองภายในการปรับแต่งแบบจำลองภายนอกหรือการเพิ่มประสิทธิภาพนโยบายผ่านพื้นที่สถานะที่กำหนด การใช้วิธีการเหล่านี้สามารถพิสูจน์ได้ว่ามีความท้าทายเนื่องจากการขาดแคลนข้อมูลการฝึกอบรมคุณภาพสูงหรือการขาดพื้นที่รัฐที่กำหนดไว้อย่างดี ยิ่งไปกว่านั้นตัวแทนเหล่านี้ไม่ได้มีคุณสมบัติบางอย่างที่มีอยู่ในกระบวนการตัดสินใจของมนุษย์โดยเฉพาะความสามารถในการเรียนรู้จากความผิดพลาด การสะท้อนตนเองช่วยให้มนุษย์สามารถแก้ปัญหาใหม่ได้อย่างมีประสิทธิภาพผ่านกระบวนการทดลองและข้อผิดพลาด จากการวิจัยเมื่อเร็ว ๆ นี้เราเสนอการสะท้อนกลับซึ่งเป็นวิธีการที่ทำให้ตัวแทนที่มีหน่วยความจำแบบไดนามิกและความสามารถในการสะท้อนตนเองเพื่อปรับปรุงการติดตามการใช้เหตุผลที่มีอยู่และความสามารถในการเลือกการกระทำเฉพาะงาน เพื่อให้ได้ระบบอัตโนมัติเต็มรูปแบบเราแนะนำฮิวริสติกที่ตรงไปตรงมา แต่มีประสิทธิภาพซึ่งช่วยให้ตัวแทนสามารถระบุอินสแตนซ์ภาพหลอนได้หลีกเลี่ยงการทำซ้ำในลำดับการกระทำและในบางสภาพแวดล้อมสร้างแผนที่หน่วยความจำภายในของสภาพแวดล้อมที่กำหนด ในการประเมินวิธีการของเราเราประเมินความสามารถของตัวแทนในการดำเนินงานการตัดสินใจให้เสร็จสมบูรณ์ในสภาพแวดล้อมของ Alfworld และงานที่ต้องใช้ความรู้และตอบคำถามและตอบคำถามในสภาพแวดล้อม HotpotQa เราสังเกตอัตราความสำเร็จของ 97% และ 51% ตามลำดับและให้การอภิปรายเกี่ยวกับทรัพย์สินฉุกเฉินของการสะท้อนตนเอง
เช่นเดียวกับผู้คน LLMS ไม่ได้สร้างข้อความที่ดีที่สุดสำหรับปัญหาการสร้างที่กำหนดในการลองครั้งแรก (เช่นบทสรุปคำตอบคำอธิบาย) เช่นเดียวกับที่ผู้คนปรับแต่งข้อความของพวกเขาเราแนะนำตัวเอง Refine ซึ่งเป็นกรอบสำหรับการปรับปรุงผลลัพธ์เริ่มต้นในทำนองเดียวกันจาก LLMs ผ่านข้อเสนอแนะซ้ำ ๆ และการปรับแต่ง แนวคิดหลักคือการสร้างเอาต์พุตโดยใช้ LLM จากนั้นอนุญาตให้โมเดลเดียวกันเพื่อให้ข้อเสนอแนะหลายครั้งสำหรับเอาต์พุตของตัวเอง ในที่สุดโมเดลเดียวกันจะปรับแต่งเอาต์พุตที่สร้างขึ้นก่อนหน้านี้ตามข้อเสนอแนะของตัวเอง ซึ่งแตกต่างจากงานก่อนหน้านี้กรอบการปรับแต่งซ้ำ ๆ ของเราไม่จำเป็นต้องมีข้อมูลการฝึกอบรมภายใต้การดูแลหรือการเรียนรู้การเสริมแรงและทำงานร่วมกับ LLM เดียว เราทดลองกับ 7 งานที่หลากหลายตั้งแต่การทบทวนการเขียนใหม่ไปจนถึงการให้เหตุผลทางคณิตศาสตร์แสดงให้เห็นว่าวิธีการของเรามีประสิทธิภาพเหนือกว่าการสร้างโดยตรง ในงานทั้งหมดเอาต์พุตที่สร้างขึ้นด้วยการฟื้นฟูตนเองเป็นที่ต้องการของมนุษย์และโดยตัวชี้วัดอัตโนมัติมากกว่าที่สร้างโดยตรงกับ GPT-3.5 และ GPT-4 ซึ่งปรับปรุงโดยเฉลี่ย 20% ในงาน
การแก้ปัญหา AI ที่ซับซ้อนด้วยโดเมนและรังสีที่แตกต่างกันเป็นขั้นตอนสำคัญสู่ปัญญาประดิษฐ์ขั้นสูง ในขณะที่มีโมเดล AI มากมายสำหรับโดเมนและรังสีที่แตกต่างกัน แต่ก็ไม่สามารถจัดการงาน AI ที่ซับซ้อนได้ เมื่อพิจารณาถึงแบบจำลองภาษาขนาดใหญ่ (LLMS) ได้แสดงความสามารถพิเศษในการทำความเข้าใจภาษาการสร้างการโต้ตอบและการใช้เหตุผลเราสนับสนุนให้ LLM สามารถทำหน้าที่เป็นตัวควบคุมในการจัดการโมเดล AI ที่มีอยู่เพื่อแก้ปัญหางาน AI ที่ซับซ้อนและภาษาอาจเป็นอินเทอร์เฟซทั่วไปเพื่อเสริมพลังนี้ จากปรัชญานี้เรานำเสนอ HuggingGpt ซึ่งเป็นกรอบที่ใช้ประโยชน์จาก LLMS (เช่น CHATGPT) เพื่อเชื่อมต่อโมเดล AI ต่างๆในชุมชนการเรียนรู้ของเครื่อง (เช่นกอดใบหน้า) เพื่อแก้ปัญหา AI โดยเฉพาะเราใช้ chatgpt เพื่อดำเนินการวางแผนงานเมื่อได้รับคำขอผู้ใช้เลือกโมเดลตามคำอธิบายฟังก์ชั่นของพวกเขาที่มีอยู่ในการกอดหน้าดำเนินการแต่ละงานย่อยด้วยโมเดล AI ที่เลือกและสรุปการตอบสนองตามผลลัพธ์การดำเนินการ ด้วยการใช้ประโยชน์จากความสามารถทางภาษาที่แข็งแกร่งของ CHATGPT และโมเดล AI มากมายในการกอดใบหน้า HugggingGpt สามารถครอบคลุมงาน AI ที่ซับซ้อนมากมายในรูปแบบและโดเมนที่แตกต่างกันและบรรลุผลลัพธ์ที่น่าประทับใจในภาษาวิสัยทัศน์การพูดและงานที่ท้าทายอื่น ๆ
Auto-GPT เป็นแอปพลิเคชันโอเพนซอร์ซทดลองที่แสดงความสามารถของรูปแบบภาษา GPT-4 โปรแกรมนี้ขับเคลื่อนโดย GPT-4, โซ่ร่วมกัน llm "ความคิด" เพื่อให้บรรลุเป้าหมายใด ๆ ที่คุณตั้งไว้ เป็นหนึ่งในตัวอย่างแรกของ GPT-4 ที่ทำงานอย่างอิสระอย่างเต็มที่ Auto-GPT จะผลักดันขอบเขตของสิ่งที่เป็นไปได้ด้วย AI
มีรูปแบบภาษาขนาดใหญ่ที่เพิ่มขึ้นอย่างรวดเร็ว (LLMs) ที่ผู้ใช้สามารถสอบถามได้ด้วยค่าธรรมเนียม เราตรวจสอบค่าใช้จ่ายที่เกี่ยวข้องกับการสืบค้น LLM API ที่เป็นที่นิยมเช่น GPT-4, Chatgpt, J1-Jumbo และพบว่ารุ่นเหล่านี้มีโครงสร้างการกำหนดราคาที่แตกต่างกันโดยมีค่าธรรมเนียมที่อาจแตกต่างกันไปตามคำสั่งสองคำสั่ง โดยเฉพาะอย่างยิ่งการใช้ LLMs ในคอลเลกชันขนาดใหญ่ของการสืบค้นและข้อความอาจมีราคาแพง แรงบันดาลใจจากสิ่งนี้เราร่างและหารือเกี่ยวกับกลยุทธ์สามประเภทที่ผู้ใช้สามารถใช้ประโยชน์เพื่อลดต้นทุนการอนุมานที่เกี่ยวข้องกับการใช้ LLMS: 1) การปรับตัวพร้อมท์ 2) การประมาณ LLM และ 3) LLM Cascade ตัวอย่างเช่นเราเสนอ Frugalgpt ซึ่งเป็นอินสแตนซ์ LLM ที่เรียบง่าย แต่มีความยืดหยุ่นซึ่งเรียนรู้ว่าการรวมกันของ LLMs จะใช้สำหรับการสืบค้นที่แตกต่างกันเพื่อลดต้นทุนและปรับปรุงความแม่นยำ การทดลองของเราแสดงให้เห็นว่า Frugalgpt สามารถจับคู่ประสิทธิภาพของ LLM ที่ดีที่สุด (เช่น GPT-4) ที่ดีที่สุดด้วยการลดต้นทุนสูงสุด 98% หรือปรับปรุงความแม่นยำมากกว่า GPT-4 4% ด้วยค่าใช้จ่ายเท่ากัน ความคิดและการค้นพบที่นำเสนอที่นี่วางรากฐานสำหรับการใช้ LLM อย่างยั่งยืนและมีประสิทธิภาพ
แบบจำลองภาษาขนาดใหญ่ (LLMS) ได้แสดงให้เห็นถึงคำสัญญาในการพิสูจน์ทฤษฎีบทที่เป็นทางการโดยใช้ผู้ช่วยพิสูจน์เช่น Lean อย่างไรก็ตามวิธีการที่มีอยู่นั้นยากที่จะทำซ้ำหรือสร้างขึ้นเนื่องจากรหัสส่วนตัวข้อมูลและข้อกำหนดการคำนวณขนาดใหญ่ สิ่งนี้ได้สร้างอุปสรรคสำคัญในการวิจัยเกี่ยวกับวิธีการเรียนรู้ของเครื่องสำหรับการพิสูจน์ทฤษฎีบท บทความนี้จะกำจัดอุปสรรคเหล่านี้โดยการแนะนำ Leandojo: สนามเด็กเล่นแบบลีนโอเพนซอร์ซประกอบด้วยชุดเครื่องมือข้อมูลรุ่นและเกณฑ์มาตรฐาน Leandojo สกัดข้อมูลจาก Lean และเปิดใช้งานการโต้ตอบกับสภาพแวดล้อมการพิสูจน์โดยทางโปรแกรม มันมีคำอธิบายประกอบที่ละเอียดของสถานที่ในการพิสูจน์โดยให้ข้อมูลที่มีค่าสำหรับการเลือกหลักฐาน-คอขวดที่สำคัญในทฤษฎีบทพิสูจน์ การใช้ข้อมูลนี้เราจะพัฒนาพร็อค (การเรียกคืน-การรอการเรียกคืน): สุภาษิตที่ใช้ LLM แรกที่เพิ่มขึ้นด้วยการดึงข้อมูลสำหรับการเลือกสถานที่จากห้องสมุดคณิตศาสตร์ขนาดใหญ่ มันมีราคาไม่แพงและต้องการการฝึกอบรมเพียงหนึ่งสัปดาห์ GPU Retriever ใช้ประโยชน์จากความสามารถในการวิเคราะห์โปรแกรมของ LOANDOJO ในการระบุสถานที่ที่เข้าถึงได้และตัวอย่างเชิงลบที่ยากลำบากซึ่งทำให้การดึงข้อมูลมีประสิทธิภาพมากขึ้น นอกจากนี้เรายังสร้างเกณฑ์มาตรฐานใหม่ซึ่งประกอบด้วยทฤษฎีบทและหลักฐาน 96,962 ที่สกัดจากคณิตศาสตร์คณิตศาสตร์ของลีน มันมีการแยกข้อมูลที่ท้าทายซึ่งต้องการให้สุภาษิตพูดคุยกับทฤษฎีบทที่อาศัยอยู่ในสถานที่ใหม่ที่ไม่เคยใช้ในการฝึกอบรม เราใช้เกณฑ์มาตรฐานนี้สำหรับการฝึกอบรมและการประเมินผลและผลการทดลองแสดงให้เห็นถึงประสิทธิภาพของการพิมพ์ใหม่ผ่านเส้นเขตแดนที่ไม่ได้รับการแก้ไขและ GPT-4 ดังนั้นเราจึงจัดเตรียมชุดทฤษฎีบทโอเพนซอร์ซที่ใช้ LLM ชุดแรกโดยไม่มีชุดข้อมูลใด ๆ ที่เป็นกรรมสิทธิ์และปล่อยภายใต้ใบอนุญาต MIT ที่ได้รับอนุญาตเพื่ออำนวยความสะดวกในการวิจัยเพิ่มเติม
งานล่าสุดได้แสดงให้เห็นว่าการกระตุ้นแบบจำลองภาษาที่มีการเป็นตัวแทนของรหัสภาษาธรรมชาตินำไปสู่การปรับปรุงประสิทธิภาพในงานการใช้เหตุผลที่มีโครงสร้าง อย่างไรก็ตามงานดังกล่าวประกอบด้วยชุดย่อยขนาดเล็กของงานภาษาธรรมชาติทั้งหมด ในงานของเราเราพยายามที่จะตอบว่าการแสดงรหัสเป็นวิธีที่ต้องการในการโต้ตอบกับแบบจำลองภาษาโดยทั่วไปหรือไม่ เราเปรียบเทียบรหัสและข้อความแจ้งในสามรุ่น GPT ยอดนิยม (Davinci, Code-Davinci-002 และ Text-Davinci-002) ในการเลือกงานที่กว้างขึ้น (เช่น QA, ความเชื่อมั่น, การสรุป) และพบว่ามีข้อยกเว้นเล็กน้อย นอกจากนี้เรายังแสดงให้เห็นว่ารูปแบบของพรอมต์รหัสมีผลกระทบอย่างมากต่อประสิทธิภาพสำหรับบางงาน แต่ไม่ใช่ทั้งหมดและการปรับแต่งคำแนะนำข้อความนั้นนำไปสู่ประสิทธิภาพที่ดีขึ้นของการแจ้งเตือนรหัส
แบบจำลองภาษาขนาดใหญ่ (LLMS) ดำเนินการให้เหตุผลที่ซับซ้อนโดยสร้างคำอธิบายสำหรับการทำนายของพวกเขา อย่างไรก็ตามเป้าหมายเสริมของคำอธิบายคือการสื่อสารความรู้ที่เป็นประโยชน์ซึ่งช่วยปรับปรุงตัวแทนที่อ่อนแอลง ดังนั้นเราตรวจสอบว่า LLMs ยังทำให้ครูที่ดีสำหรับตัวแทนที่อ่อนแอกว่าหรือไม่ โดยเฉพาะอย่างยิ่งเราพิจารณากรอบการทำงานของนักเรียนระหว่างสองตัวแทน LLM และการศึกษาว่าเมื่อใดและวิธีที่ครูควรแทรกแซงกับคำอธิบายภาษาธรรมชาติเพื่อปรับปรุงประสิทธิภาพของนักเรียน เนื่องจากการสื่อสารมีราคาแพงเราจึงกำหนดงบประมาณเพื่อให้ครูสื่อสารคำอธิบายเพียงส่วนหนึ่งของข้อมูลหลังจากนั้นนักเรียนควรทำงานได้ดีด้วยตัวเอง เราย่อยสลายปัญหาการสอนตามแกนสี่แกน: (1) หากการแทรกแซงเวลาทดสอบของครูปรับปรุงการทำนายของนักเรียน (2) เมื่อมันคุ้มค่าที่จะอธิบายจุดข้อมูล (3) วิธีที่ครูควรปรับแต่งคำอธิบายให้ดีขึ้นเพื่อสอนนักเรียนได้ดีขึ้นและ (4) ก่อนอื่นเราแสดงให้เห็นว่าครู LLMS สามารถแทรกแซงการให้เหตุผลของนักเรียนเพื่อปรับปรุงประสิทธิภาพของพวกเขา ต่อไปเราเสนอทฤษฎีวิธีการคิดซึ่งครูสร้างแบบจำลองจิตสองสามครั้งของนักเรียน โมเดลแรกกำหนดฟังก์ชั่นการแทรกแซงที่จำลองยูทิลิตี้ของการแทรกแซงทำให้ครูสามารถแทรกแซงเมื่อยูทิลิตี้นี้สูงที่สุดและปรับปรุงประสิทธิภาพของนักเรียนในงบประมาณที่ต่ำกว่า โมเดลที่สองช่วยให้ครูสามารถอธิบายคำอธิบายสำหรับนักเรียนคนใดคนหนึ่งและมีประสิทธิภาพสูงกว่าอาจารย์ที่ไม่มีส่วนบุคคล นอกจากนี้เรายังแสดงให้เห็นว่าในการโต้ตอบหลายครั้งคำอธิบายของครูทั่วไปและการเรียนรู้จากข้อมูลที่อธิบายช่วยปรับปรุงประสิทธิภาพของนักเรียนในข้อมูลที่ไม่ได้อธิบายในอนาคต ในที่สุดเราก็ตรวจสอบว่าครูที่ไม่ตรงแนวสามารถลดประสิทธิภาพการทำงานของนักเรียนเพื่อสุ่มโอกาสโดยการทำให้เข้าใจผิดโดยเจตนา
เราแนะนำ KOSMOS-2 โมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) ช่วยให้สามารถรับรู้คำอธิบายวัตถุ (เช่นกล่องที่มีขอบเขต) และข้อความต่อสายดินสู่โลกภาพ โดยเฉพาะเราแสดงถึงนิพจน์อ้างอิงเป็นลิงก์ใน markdown เช่น `` [ช่วงข้อความ] (กล่องขอบเขต) '' โดยที่คำอธิบายวัตถุเป็นลำดับของโทเค็นตำแหน่ง เมื่อรวมกับ Corpora หลายรูปแบบเราสร้างข้อมูลขนาดใหญ่ของคู่ข้อความภาพที่มีเหตุผล (เรียกว่า GRIT) เพื่อฝึกอบรมแบบจำลอง นอกเหนือจากความสามารถที่มีอยู่ของ MLLMS (เช่นการรับรู้วิธีการทั่วไปตามคำแนะนำและการเรียนรู้ในบริบท) KOSMOS-2 รวมความสามารถในการลงดินเข้ากับแอปพลิเคชันปลายน้ำ เราประเมิน KOSMOS-2 ในงานที่หลากหลายรวมถึง (i) การลงดินหลายรูปแบบเช่นการอ้างอิงความเข้าใจในการแสดงออกและการต่อสายดินวลี (ii) การอ้างอิงหลายรูปแบบเช่นการอ้างอิงการแสดงออก (iii) งานการรับรู้ภาษา งานนี้วางรากฐานสำหรับการพัฒนาศูนย์รวม AI และให้ความกระจ่างเกี่ยวกับการบรรจบกันครั้งใหญ่ของภาษาการรับรู้หลายรูปแบบการกระทำและการสร้างแบบจำลองโลกซึ่งเป็นขั้นตอนสำคัญสู่หน่วยสืบราชการลับทั่วไป รหัสและรุ่นที่ผ่านการฝึกอบรมมีอยู่ที่ URL HTTPS นี้
เราแนะนำ Palm 2 ซึ่งเป็นรูปแบบภาษาที่ทันสมัยใหม่ที่มีความสามารถในการพูดได้หลายภาษาและการใช้เหตุผลที่ดีกว่าและมีประสิทธิภาพในการคำนวณมากกว่าฝ่ามือรุ่นก่อน Palm 2 เป็นแบบจำลองที่ใช้หม้อแปลงโดยใช้ส่วนผสมของวัตถุประสงค์ ผ่านการประเมินอย่างกว้างขวางเกี่ยวกับภาษาอังกฤษและภาษาหลายภาษาและงานการใช้เหตุผลเราแสดงให้เห็นว่า Palm 2 มีคุณภาพดีขึ้นอย่างมีนัยสำคัญในงานดาวน์สตรีมในขนาดที่แตกต่างกันในขณะเดียวกันก็แสดงการอนุมานที่เร็วขึ้นและมีประสิทธิภาพมากขึ้นเมื่อเทียบกับฝ่ามือ ประสิทธิภาพที่ดีขึ้นนี้ช่วยให้การปรับใช้ที่กว้างขึ้นในขณะเดียวกันก็ช่วยให้แบบจำลองสามารถตอบสนองได้เร็วขึ้นสำหรับการมีปฏิสัมพันธ์ที่เป็นธรรมชาติมากขึ้น Palm 2 แสดงให้เห็นถึงความสามารถในการใช้เหตุผลที่แข็งแกร่งซึ่งเป็นตัวอย่างโดยการปรับปรุงขนาดใหญ่เหนือปาล์มบนม้านั่งขนาดใหญ่และงานการใช้เหตุผลอื่น ๆ Palm 2 แสดงประสิทธิภาพที่มั่นคงในชุดการประเมิน AI ที่รับผิดชอบและช่วยให้การอนุมานเวลาการอนุมานเกี่ยวกับความเป็นพิษโดยไม่มีค่าใช้จ่ายเพิ่มเติมหรือส่งผลกระทบต่อความสามารถอื่น ๆ โดยรวมแล้ว Palm 2 บรรลุผลการปฏิบัติงานที่ล้ำสมัยในชุดงานและความสามารถที่หลากหลาย
การสร้างการเคลื่อนไหวของมนุษย์ที่เป็นจริงจากคำอธิบายการกระทำที่กำหนดได้ประสบกับความก้าวหน้าที่สำคัญเนื่องจากความต้องการที่เกิดขึ้นใหม่ของมนุษย์ดิจิตอล ในขณะที่งานล่าสุดได้รับผลลัพธ์ที่น่าประทับใจในการสร้างการเคลื่อนไหวโดยตรงจากคำอธิบายการกระทำที่เป็นข้อความ แต่พวกเขามักจะรองรับสัญญาณควบคุมเดียวเท่านั้นซึ่ง จำกัด การใช้งานของพวกเขาในอุตสาหกรรมมนุษย์ดิจิตอลจริง บทความนี้นำเสนอเครื่องกำเนิดไฟฟ้าทั่วไป (MotionGPT) ที่สามารถใช้สัญญาณควบคุมหลายรูปแบบเช่นข้อความและเฟรมเดี่ยวเพื่อสร้างการเคลื่อนไหวของมนุษย์ต่อเนื่องโดยการรักษาสัญญาณหลายรูปแบบเป็นโทเค็นอินพุตพิเศษในแบบจำลองภาษาขนาดใหญ่ (LLMS) โดยเฉพาะอย่างยิ่งเราจะหาปริมาณสัญญาณควบคุมหลายรูปแบบเป็นรหัสที่ไม่ต่อเนื่องจากนั้นกำหนดให้พวกเขาในคำสั่งพร้อมที่เป็นเอกภาพเพื่อขอให้ LLMs สร้างคำตอบการเคลื่อนไหว การเคลื่อนไหวของเราแสดงให้เห็นถึงแบบจำลองการสร้างการเคลื่อนไหวของมนุษย์แบบครบวงจรที่มีสัญญาณควบคุมหลายรูปแบบโดยการปรับค่าพารามิเตอร์ LLM เพียง 0.4% เพื่อความรู้ที่ดีที่สุดของเรา MotionGPT เป็นวิธีแรกในการสร้างการเคลื่อนไหวของมนุษย์โดยสัญญาณควบคุมหลายรูปแบบซึ่งเราหวังว่าจะสามารถให้ความกระจ่างในทิศทางใหม่นี้ รหัสจะได้รับการเผยแพร่เมื่อได้รับการยอมรับ
โมเดลภาษาขนาดใหญ่ (LLMS) ได้แสดงประสิทธิภาพที่น่าประทับใจในการใช้เหตุผลที่ซับซ้อนโดยการใช้ประโยชน์จากห่วงโซ่ของความคิด (COT) ที่กระตุ้นให้สร้างโซ่การให้เหตุผลระดับกลางเป็นเหตุผลในการอนุมานคำตอบ อย่างไรก็ตามการศึกษา COT ที่มีอยู่ได้มุ่งเน้นไปที่รูปแบบภาษา เราเสนอหลายรูปแบบที่รวมภาษา (ข้อความ) และวิสัยทัศน์ (ภาพ) โมเดลลงในกรอบสองขั้นตอนที่แยกการสร้างเหตุผลและการอนุมานคำตอบ ด้วยวิธีนี้การอนุมานคำตอบสามารถใช้ประโยชน์จากเหตุผลที่สร้างขึ้นได้ดีขึ้นซึ่งใช้ข้อมูลหลายรูปแบบ ด้วย Multimodal-COT โมเดลของเราต่ำกว่า 1 พันล้านพารามิเตอร์มีประสิทธิภาพสูงกว่า LLM ที่ทันสมัยก่อนหน้านี้ (GPT-3.5) 16 คะแนนร้อยละ (75.17%-> 91.68% ความแม่นยำ) ตามมาตรฐาน ScienceQA รหัสมีให้บริการสาธารณะที่ URL HTTPS นี้
Llama 2: Open Foundation และรุ่นแชทที่ปรับแต่งได้อย่างละเอียด
UNILM: การฝึกอบรมก่อนการฝึกอบรมตนเองขนาดใหญ่ในงานภาษาและวิธีการ
เครือข่ายประสาทขนาดใหญ่ที่อุกอาจ: ชั้นผสมแบบกระจัดกระจาย
Glam: การปรับขนาดของแบบจำลองภาษาที่มีประสิทธิภาพด้วยส่วนผสมของ experts
การมองเห็นการมองเห็นด้วยส่วนผสมของผู้เชี่ยวชาญ
การจำแนกข้อความ“ ทรัพยากรต่ำ”: วิธีการจำแนกประเภทที่ปราศจากพารามิเตอร์พร้อมคอมเพรสเซอร์
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| คณิตศาสตร์ | machine learning | หม้อแปลงไฟฟ้า | กอดใบหน้า |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Natural Language Processing with Transformers |