Deep Learning Paper
1.0.0
ฉันอ่านเอกสารเหล่านี้ที่เกี่ยวข้องกับ NLP และการเรียนรู้อย่างลึกซึ้ง นี่คือเอกสารต่าง ๆ ตั้งแต่พื้นฐานไปจนถึงขั้นสูง - นอกจากนี้คุณสามารถตรวจสอบบทวิจารณ์กระดาษเกาหลีของฉันได้โดยคลิกที่ลิงค์ที่แนบมากับตาราง
คุณสามารถดูบทวิจารณ์กระดาษเพิ่มเติมการใช้รหัสและคำอธิบายทางคณิตศาสตร์ในบล็อกของฉัน <- คลิกที่นี่
ฉันเขียนบทความหลายบทความเพื่ออธิบายรายละเอียดเทคโนโลยีการเรียนรู้อย่างลึกซึ้ง บทความเหล่านี้สามารถพบได้ในตารางด้านล่าง
| ชื่อ | ลิงค์บล็อก |
|---|---|
| การปรับขนาดกฎหมายได้พัฒนาใน NLP อย่างไร? - | https://cartinoe5930.tistory.com/entry/how-has-scaling-law-developed-in-nlp-%F0%9F%A4%94-NLP%EC%97%90%EC%84 %9C-scaling-law%eb%8A%94-%EC%96%B4%EB%96%BB%EA%B2%8C-%EB%B0%9C%EC%A0%84%EB%90%98%EC%97%88%EC%9D%84% |
| ซอร์ซปิด? โอเพ่นซอร์ส ?? นั่นคืออะไร ?? - | https://cartinoe5930.tistory.com/entry/the-hopes-of-researchers-open-source-%F0%9F%A4%97- %EC%97%B0%EA%B5%AC%EC%9E%90%EB%93%A4%EC%9D%98-%ED%9D%AC%EB%A7%9D-Open-Source-%F0%9F%A4%97 |
| หน้าต่างบริบทของ LM ควรยาวไหม? ควรจะสั้น? - | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-Context-window-%EA%B8%B8%96%B4%EC%95%B C-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| วิธีที่ดีที่สุดในการประเมิน LM คืออะไร? - | https://cartinoe5930.tistory.com/entry/LM%EC%9D%84-%EA%B0%80%EC%9E%A5-%EC%B5%9C%A0%81%EC%9C%BC%EB%A1%9C-%EED B0%80%ED%95%A0-%EC%88%98-%EC%9E%88%EB%8A%94-%EB%B0%A9%EB%B2%95%EC%9D%80-%EB%AC%B4%EC%97%87% |
| การแสดงของ CHATGPT แย่ลง?!?!? - | https://cartinoe5930.tistory.com/entry/Chatgpt%EC%9D%98-%EC%84%B1%EB%8A%A5%EC%9D%B4 -%EC%95% 88-%EC%A2%8B%EC%95%84%EC%A7%80%EA%B3%A0-%EC%9E%88%EB%8B%A4%EA%B5%AC-%F0%9F%98%B2%F0%9F%98%B2 |
| คุณสามารถปรับแต่งได้เช่นกัน! กับ Peft? | https://cartinoe5930.tistory.com/entry/%EB%8B%B9%EC%8B%A0%EB%8F%84-Fine-tuning- %ED%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-With-Peft-%F0%9F%A4%97 |
| ลองคิดทีละขั้นเหมือนมนุษย์! - | https://cartinoe5930.tistory.com/entry/%Ed%95%9C-%EB%8B%A8%ATELI %EC%9D%B8%EA%B0%84%EC%B2%98%EB%9F%BC-%EC%83%9D%EA%B0%81%ED%95%B4%EB%B3%B4%EC%90-%F0%9F% |
| กระบวนการพัฒนาวิธีการปรับจูน !! จากการปรับแต่งไปยัง RLHF? ➡? | https://cartinoe5930.tistory.com/entry/fine-tuning-method%EC%9D%98-%EC%A7%84%ED%99%94-%EA%B3%BC%A0%95-%F0%9F%A6%96%EA |
| ถึงเวลาปรับแต่ง CHATGPT !! | https://cartinoe5930.tistory.com/entry/%EC%9D%B4%EC%A0%9C%EB%8A%94-CHATGPT%EB%A5%BC-Fine-Tuning-%ED%95%A0 -%EC%8B%9C%B0 |
| เสียงรบกวนทำให้ LLM ดีขึ้น! - Neftune | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-%F0%9F%98%89 |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| การฝังเมทริกซ์ | https://wikidocs.net/book/2155 | https://cartinoe5930.tistory.com/entry/embedding-matrix-%Ed%95%99%EC%8A%B5 |
| LSTM: หน่วยความจำระยะยาวสั้น | https://colah.github.io/posts/2015-08-understanding-lstms/ | https://cartinoe5930.tistory.com/entry/%EC%95%8C%B8%B0-%EC%89%BD%B2 ไข้ |
| GRU: การเรียนรู้วลีการเป็นตัวแทนโดยใช้ RNN encoder-decoder สำหรับการแปลเครื่องทางสถิติ | https://arxiv.org/abs/1406.1078 | https://cartinoe5930.tistory.com/entry/gru-empirical-evaluation-of-gated-recurrent-neural-networks-on-exe-modeling-%EB%85%BC%EB%AC%B8 -%AB%A6%AC%B |
| LSTM เทียบกับ GRU: การประเมินเชิงประจักษ์ของเครือข่ายประสาทที่เกิดขึ้นอีกในการสร้างแบบจำลองลำดับ | https://arxiv.org/abs/1412.3555 | https://cartinoe5930.tistory.com/entry/lstm-vs-gru-%EB%AD%90%EA%B0%80-%EB%8D%94-%EB%82%98%EC%9D%84%B9%B9%B9%B9 Irical-Evaluation of-Gated-Gate-neural-networks-on-sequence-modeling-%eb%85%bc%eb%ac%b8-%eb%a6%ac%eb%b7%b0 b0 |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| Transformer: ความสนใจคือทั้งหมดที่คุณต้องการ | https://arxiv.org/abs/1706.03762 | https://cartinoe5930.tistory.com/entry/transformer-attention-is-all-you-need-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Elmo: การเป็นตัวแทนคำบริบทลึก | https://arxiv.org/abs/1802.05365 | https://cartinoe5930.tistory.com/entry/pre-trained-language-modeling-paper-reading1-elmo-deep-contextualized-word-representations |
| เบิร์ต: การฝึกอบรมหม้อแปลงสองทิศทางลึกเพื่อความเข้าใจภาษา | https://arxiv.org/abs/1810.04805 | https://cartinoe5930.tistory.com/entry/pre-trained-leg |
| GPT-1: การปรับปรุงความเข้าใจภาษาโดยการฝึกอบรมก่อนกำเนิด | https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf | https://cartinoe5930.tistory.com/entry/pre-trained-language-modeling-paper-reading3-gpt-1-mvroving-language- ความเข้าใจโดยทั่วไป |
| GPT-2: โมเดลภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล | https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf | https://cartinoe5930.tistory.com/entry/gpt-2-language-models-are-unsupervised-multitask-learners-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0%B0 |
| GPT-3: โมเดลภาษาเป็นผู้เรียนไม่กี่คน | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Transformer-XL: แบบจำลองภาษาที่เอาใจใส่เกินบริบทที่มีความยาวคงที่ | https://arxiv.org/abs/1901.02860 | https://cartinoe5930.tistory.com/entry/transformer-xl-attentive-language-models-beyond-a-fixed-length-ontexte-context-%EB%85%BC%AC%B8-%EB%A6%AC%B7 เทศบาล |
| Transformers กระจัดกระจาย: สร้างลำดับยาวด้วยหม้อแปลงเบาบาง | https://arxiv.org/abs/1904.10509 | https://cartinoe5930.tistory.com/entry/sparse-transformers-generating-long-equence-with-sparse-transformers-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| XLNET: การเตรียมการโดยอัตโนมัติเพื่อความเข้าใจภาษาทั่วไป | https://arxiv.org/abs/1906.08237 | https://cartinoe5930.tistory.com/entry/xlnet-generalized-autoregressive-pretraining-for-language-sunderstanding-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| Spanbert: การปรับปรุงก่อนการฝึกอบรมโดยการเป็นตัวแทนและทำนายช่วง | https://arxiv.org/abs/1907.10529 | https://cartinoe5930.tistory.com/entry/spanbert-improving-pre-training-my-representing-andicting-spans-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0%BC0 |
| Roberta: วิธีการฝึกอบรม Bert Pre ที่ได้รับการปรับปรุงอย่างดี | https://arxiv.org/abs/1907.11692 | https://cartinoe5930.tistory.com/entry/roberta-a-robustly-optimized-bert-pretraining-approach-%EB%85%BC%EB%B8-%EB%A6%AC%B7%B0%B0 |
| ประโยค-เบิร์ต: การฝังประโยคโดยใช้ Siamese Bert-Networks | https://arxiv.org/abs/1908.10084 | https://cartinoe5930.tistory.com/entry/sentence-bert-sentence-embeddings-using-siamese-bert-networks-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0%B0 |
| อัลเบิร์ต: Lite Bert สำหรับการเรียนรู้ด้วยตนเองของการเป็นตัวแทนภาษา | https://arxiv.org/abs/1909.11942 | https://cartinoe5930.tistory.com/entry/albert-a-lite-bert-for-self-supervised-learning-of-language-representations-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7 เทศบาล |
| Bart: denoising sequence to-sequence pre-training สำหรับการสร้างภาษาธรรมชาติการแปลและความเข้าใจ | https://arxiv.org/abs/1910.13461 | https://cartinoe5930.tistory.com/entry/bart-denoising-elep-to-equence-pre-training-for-natural-language-generation-translation-and-comprehension-%EB%85%BC%AC%AC%B8-%AB%A |
| Pre-LN Transformer: On Layer Normalization ในสถาปัตยกรรมหม้อแปลง | https://arxiv.org/abs/2002.04745 | https://cartinoe5930.tistory.com/entry/pre-ln-transformer-on-layer-normalization-in-the-transformer-architecture-%EB%85%BC%EB%AC%B8 -%EB%A6%AC%B7 เทศบาล |
| Electra: การเข้ารหัสข้อความล่วงหน้าเป็นตัวเลือกจำเพาะมากกว่าเครื่องกำเนิดไฟฟ้า | https://arxiv.org/abs/2003.10555 | https://cartinoe5930.tistory.com/entry/electra-pre-training-encoders-as-discriminators-rather-than-generators |
| Longformer: หม้อแปลงเอกสารยาว | https://arxiv.org/abs/2004.05150 | https://cartinoe5930.tistory.com/entry/longformer-the-long-document-transformer-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Bigbird: Transformers สำหรับลำดับที่ยาวนานขึ้น | https://arxiv.org/abs/2007.14062 | https://cartinoe5930.tistory.com/entry/bigbird-transformers-for-longer-esequences-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| WebGPT: การตอบคำถามที่ได้รับการช่วยเหลือจากเบราว์เซอร์พร้อมคำติชมของมนุษย์ | https://arxiv.org/abs/2112.09332 | https://cartinoe5930.tistory.com/entry/webgpt-browser-assisted-question-answering-with-human-feedback-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| OPT: เปิดโมเดลภาษาหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้า | https://arxiv.org/abs/2205.01068 | https://cartinoe5930.tistory.com/entry/opt-open-pre-trained-transformer-language-models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| MAMBA: การสร้างแบบจำลองลำดับเวลาเชิงเส้นด้วยช่องว่างสถานะแบบเลือก | https://arxiv.org/abs/2312.00752 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| Tinybert: Distilling Bert เพื่อความเข้าใจภาษาธรรมชาติ | https://arxiv.org/abs/1909.10351 | https://cartinoe5930.tistory.com/entry/tinybert-distilling-bert-for-natural-language-derstanding-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Distilbert: เบิร์ตรุ่นกลั่น | https://arxiv.org/abs/1910.01108 | https://cartinoe5930.tistory.com/entry/distilbert-a-distilled-version-of-bert-smaller-faster-cheaper-and-lighter-%EB%85%BC%EB%AC%B8 -%EB%A6%AC%B |
| ไม่ใช่แค่ขนาดที่สำคัญ: แบบจำลองภาษาขนาดเล็กยังเป็นผู้เรียนไม่กี่คน (PET 응용) | https://arxiv.org/abs/2009.07118 | https://cartinoe5930.tistory.com/entry/its-not-just-size-that-matters-small-language-models-are-also-few-shot-learners-%EB%85%BC%EB%AC%B8 -%EB%A6%AC%B |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| Chinchilla: การฝึกอบรมแบบจำลองภาษาขนาดใหญ่ที่ดีที่สุดในการคำนวณ | https://arxiv.org/abs/2203.15556 | https://cartinoe5930.tistory.com/entry/%EC%A7%80%EA%B8%88-%EA%B9%8C%A7%80%E C%9D%98-LM-Scaling-Law%EC%97%90%EB%8A%94-%EB%AC%B8%EC%A0%9C%EC%A0%90%EC%9D%B4- B4- %EC%9E%88%EB%8B%A4-%F0%9F%98%B6%E2%80%8D%F0%9F%8C%AB%EF%B8%8F-Chinchilla-Train โมเดลภาษาที่มีค่าใช้จ่ายสูง-%-%eb%85%BC%eb%ac%b8-%eb%a6%ac%eb%b7%b0 |
| Pythia: ชุดสำหรับการวิเคราะห์แบบจำลองภาษาขนาดใหญ่ในการฝึกอบรมและการปรับขนาด | https://arxiv.org/abs/2304.01373 | ไม่มีแผน! |
| ลิมา: น้อยกว่าสำหรับการจัดตำแหน่งมากขึ้น | https://arxiv.org/abs/2305.11206 | https://cartinoe5930.tistory.com/entry/lima-less-is-more-for-allignment-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| LLAMA: แบบจำลองภาษาพื้นฐานที่เปิดกว้างและมีประสิทธิภาพ | https://arxiv.org/abs/2302.13971 | https://cartinoe5930.tistory.com/entry/llama-open-and-efficient-foundation-language-models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Wizardlm: เสริมสร้างแบบจำลองภาษาขนาดใหญ่เพื่อทำตามคำแนะนำที่ซับซ้อน | https://arxiv.org/abs/2304.12244 | https://cartinoe5930.tistory.com/entry/open-domain-instruction%EC%9D%98-%ED%9A%A8%B3%BC-%F0%9F%AA%84-wiz Ardlm-empowering-large-language-language-models to-follow-complex-structions-%eb%85%bc%eb%ac%b8-%eb%a6%ac%eb%b7%b0 |
| WizardCoder: เพิ่มขีดความสามารถของรหัสแบบจำลองภาษาขนาดใหญ่ด้วย Evol-Instruct | https://arxiv.org/abs/2306.08568 | https://huggingface.co/wizardlm/wizardcoder-15b-v1.0 |
| WizardMath: เสริมสร้างเหตุผลทางคณิตศาสตร์สำหรับแบบจำลองภาษาขนาดใหญ่ผ่านทางสายพันธุ์เสริมแรง | https://arxiv.org/abs/2308.09583 | https://huggingface.co/wizardlm/wizardmath-70b-v1.0 |
| ALPACA: โมเดลการทำตามคำสั่งที่แข็งแกร่งและจำลองได้ | https://crfm.stanford.edu/2023/03/13/alpaca.html | https://cartinoe5930.tistory.com/entry/alpaca-a-strong-replicable-instruction-following-model-%EB%A6%AC%EB%B7%B0 |
| Vicuna: Chatbot โอเพนซอร์สสร้างความประทับใจ GPT-4 | https://lmsys.org/blog/2023-03-30-vicuna/ | https://cartinoe5930.tistory.com/entry/vicuna-an-open-source-chatbot-impressing-gpt-4-%EB%A6%AC%B7%B0 |
| Koala: รูปแบบการสนทนาสำหรับการวิจัยเชิงวิชาการ | https://bair.berkeley.edu/blog/2023/04/03/koala/ | https://cartinoe5930.tistory.com/entry/%EC%A4%91%EC%9A%94%ED%95%9C-%EA%B1%B4-%EA%BA%EC%9D%B4%EC %A7%80-%EC%95%8A%EB%8A%94-QUALITY-DATA-KOALA%F0%9F%90%A8-A-DIALOGE-MODEL-MODEL-MODEL-MODEL |
| Baize: โมเดลแชทโอเพนซอร์ซพร้อมการปรับพารามิเตอร์ที่มีประสิทธิภาพในข้อมูลการแชทด้วยตนเอง | https://arxiv.org/abs/2304.01196 | https://cartinoe5930.tistory.com/entry/%F0%9F%90%B2baize-an-open-source-chat-model-with-parameter- ผลกำไร |
| ปรับขนาดแบบจำลองภาษาที่ จำกัด ด้วยข้อมูล | https://arxiv.org/abs/2305.16264 | https://www.youtube.com/watch?v=TK0-SITKCMW&PP=YGUGAHR0CHM6LY9HCNHPDI5VCMCVYWJZLZIZMDUUMTYYNJQ%3D |
| Falcon & RefinedWeb | https://arxiv.org/abs/2306.01116 | https://cartinoe5930.tistory.com/entry/open-llm-leaderboard%EB%A5%BC-%ED%9C%A9%EC%93%B4-Falcon%F0%9F%A6%85-llm-Falcon-RefinedWeb |
| Orca: การเรียนรู้แบบก้าวหน้าจากร่องรอยคำอธิบายที่ซับซ้อนของ GPT-4 | https://arxiv.org/pdf/2306.02707 | https://cartinoe5930.tistory.com/entry/%F0%9F%90%Acorca-progressive-learning-from-complex-explanation-traces-of-gpt-4-%EB%85%BC%AC%AC%B8-%AB%A |
| Phi-1: หนังสือเรียนเป็นสิ่งที่คุณต้องการ | https://arxiv.org/abs/2306.11644 | https://cartinoe5930.tistory.com/entry/%Ed%95%84%EC%9A%94%ED%95%9C-%B1%B4-%EC%98%A4%A7%81-%B5%B5%90%B3%BCFC%84 %A4%80%EC%9D%98-%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%BF%90-%F0%9F%93%96-PHI-1-PHI%B8-%B8-PHI |
| Alpagasus: ฝึกอัลปากาที่ดีขึ้นด้วยข้อมูลน้อยลง | https://arxiv.org/abs/2307.08701 | จะอัปโหลดในภายหลัง! |
| Llama 2: Open Foundation และรุ่นแชทที่ปรับแต่งได้อย่างละเอียด | https://arxiv.org/abs/2307.09288 | https://cartinoe5930.tistory.com/entry/the-hopes-of-researchers-open-source-%F0%9F%A4%97- %EC%97%B0%EA%B5%AC%EC%9E%90%EB%93%A4%EC%9D%98-%ED%9D%AC%EB%A7%9D-Open-Source-%F0%9F%A4%97 |
| Platypus: การปรับแต่ง LLMS รวดเร็วราคาถูกและทรงพลัง | https://arxiv.org/abs/2308.07317 | จะอัปโหลดในภายหลัง! |
| รหัส LLAMA: แบบเปิดพื้นฐานสำหรับรหัส | https://arxiv.org/abs/2308.12950 | ไม่มีแผน |
| FLM-101B: LLM แบบเปิดและวิธีการฝึกอบรมด้วยงบประมาณ $ 100K | https://arxiv.org/pdf/2309.03852 | ไม่มีแผน! |
| ตำราเรียนคือทั้งหมดที่คุณต้องการ II: รายงานทางเทคนิค Phi-1.5 | https://arxiv.org/abs/2309.05463 | https://huggingface.co/microsoft/phi-1_5 |
| OpenChat: การพัฒนาโมเดลภาษาโอเพนซอร์ซด้วยข้อมูลคุณภาพผสม | https://arxiv.org/abs/2309.11235 | https://github.com/imoneoi/openchat |
| MISTRAL 7B | https://arxiv.org/abs/2310.06825 | https://mistral.ai/news/announcing-mistral-7b/ |
| Prometheus: กระตุ้นความสามารถในการประเมินอย่างละเอียดในรูปแบบภาษา | https://arxiv.org/abs/2310.08491 | https://huggingface.co/papers/2310.08491#652a8e7f30355beba68c1be6 |
| Zephyr: การกลั่นโดยตรงของการจัดตำแหน่ง LM | https://arxiv.org/abs/2310.16944 | https://www.youtube.com/watch?v=TKZBG3MKSIO |
| orca2: การสอนแบบจำลองภาษาขนาดเล็กวิธีการให้เหตุผล | https://arxiv.org/abs/2311.11045 | https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small-language-models-how-to-reason/ |
| ซีรี่ส์ Falcon ของโมเดลภาษาแบบเปิด | https://arxiv.org/abs/2311.16867 | ไม่มีแผน! |
| Solar 10.7B: ปรับขนาดโมเดลภาษาขนาดใหญ่ด้วยการปรับขนาดความลึกที่เรียบง่าย แต่มีประสิทธิภาพ | https://arxiv.org/abs/2312.15166 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| Lamda: โมเดลภาษาสำหรับแอปพลิเคชันโต้ตอบ | บล็อก: https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-andhigh.html, กระดาษ: https://arxiv.org/abs/2201.08239 | https://cartinoe5930.tistory.com/entry/%EA%B5%AC%B8%80%EC%9D%98-%EC%B5%9C%EA%B0%95 -%EC%B1%97%EB%B4%87-LAMDA%EC%97 %80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90-Language-Models-for-Dialog-applications-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B0%B0 |
| ปาล์ม: การปรับแต่งภาษาแบบปรับขนาดด้วยเส้นทาง | บล็อก: https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html, กระดาษ: https://arxiv.org/abs/2204.02311 | 1: https://cartinoe5930.tistory.com/entry/lamda%EC%9D%98-%EB%92%A4%EB%A5%BC-%EC%9E%87%EB%8A%94-Pathways%EB%A5%BC- 99%9C%EC%9A%A9%ED%95%9C-%EC%B4%88%EA%B1%B0%EB%8C%80-%EC%96%B8%EC%96%B4-%EB%A 2: https://cartinoe5930.tistory.com/entry/lamda%EC%9D%98-%EB%92%A4%EB%A5%BC-%EC%9E%87%EB%8A%94-Pathways%EB%BC-BC- 82%AC%EC%9A%A9%ED%95%9C-%EC%B4%88%EA%B1%B0%EB%8C%80-%EC%96%B8%EC%96%B4-%EB%A |
| GPT-4: รีวิวทางเทคนิค | บล็อก: https://openai.com/research/gpt-4, กระดาษ: https://arxiv.org/abs/2303.08774 | https://cartinoe5930.tistory.com/entry/gpt-4-techinal-report-review |
| ราศีเมถุน: ครอบครัวที่มีความสามารถสูงหลายรุ่น | https://arxiv.org/abs/2312.11805 | ไม่มีแผน! |
| รายงานทางเทคนิค Alphacode 2 | https://storage.googleapis.com/deepmind-media/alphacode2/alphacode2_tech_report.pdf | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| Flan: แบบจำลองภาษาที่ปรับแต่งได้เป็นศูนย์ผู้เรียน | https://arxiv.org/abs/2109.01652 | https://cartinoe5930.tistory.com/entry/flan-fine-tuned-language-models-are-zero-shot-learners-%EB%85%BC%EB%B8-%EB%A6%AC%B7%B0%B0 |
| T0: การฝึกอบรมมัลติทาสก์ทำให้การฝึกอบรมเป็นแบบไม่มีการยิง | https://arxiv.org/abs/2110.08207 | https://cartinoe5930.tistory.com/entry/t0-multitask-prompted-training-enables-zero-shot-task-generalization-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| คำแนะนำพิเศษจากธรรมชาติ: การวางนัยทั่วไปผ่านคำแนะนำที่ประกาศในงาน 1600+ NLP | https://arxiv.org/abs/2204.07705 | https://cartinoe5930.tistory.com/entry/super-natural-instructions-generalization-via-declarative-instructions-on-1600-nlp-task |
| คำแนะนำที่ผิดธรรมชาติ: การปรับโมเดลภาษาด้วย (เกือบ) ไม่ใช่แรงงานมนุษย์ | https://arxiv.org/abs/2212.09689 | จะอัปโหลดในภายหลัง! |
| เดาคำสั่ง! การเรียนรู้ที่พลิกกลับทำให้แบบจำลองภาษามีความแข็งแกร่งยิ่งขึ้นผู้เรียน | https://arxiv.org/abs/2210.02969 | https://cartinoe5930.tistory.com/entry/guess-the-instruction-flippely-learning-makes-language-models-tronger-zero-shot-learners-%EB%85%BC%EB%AC%B8 -%AB%A6%AC%B |
| การปรับขนาดภาษาแบบจำลองภาษาที่ใช้ | https://arxiv.org/abs/2210.11416 | https://cartinoe5930.tistory.com/entry/scaling-instruction-finetuned-language-models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| สำรวจประโยชน์ของรูปแบบภาษาผู้เชี่ยวชาญด้านการฝึกอบรมผ่านการปรับแต่งการเรียนการสอน | https://arxiv.org/abs/2302.03202 | https://cartinoe5930.tistory.com/entry/exploring-the-benefits-of-training-expert-language-models-over-instruction-tuning-%EB%85%BC%EB%AC%B8 -%AB%A6%AC%B7 |
| ICIL: การเรียนรู้การเรียนการสอนในบริบท | https://arxiv.org/abs/2302.14691 | https://cartinoe5930.tistory.com/entry/icil-in-context-instruction-learning-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| การปรับแต่งคำแนะนำด้วย GPT-4 | https://arxiv.org/abs/2304.03277 | https://cartinoe5930.tistory.com/entry/instruction-tuning-with-gpt-4-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| FIP: การกำหนดพารามิเตอร์อินพุตคงที่สำหรับการแจ้งเตือนที่มีประสิทธิภาพ | https://aclanthology.org/2023.findings-acl.533.pdf | จะอัปโหลดในภายหลัง! |
| Flacuna: ปลดปล่อยพลังการแก้ปัญหาของ Vicuna โดยใช้การปรับแต่ง Flan | https://arxiv.org/abs/2307.02053 | จะอัปโหลดในภายหลัง! |
| อาจจำเป็นต้องใช้ข้อมูลเพียง 0.5%: การสำรวจเบื้องต้นของการปรับแต่งการสอนข้อมูลการฝึกอบรมต่ำ | https://arxiv.org/abs/2305.09246 | จะอัปโหลดในภายหลัง! |
| การเป็นผู้ควบคุมตนเอง: การแนะนำเกณฑ์การหยุดเร็วสำหรับการปรับแต่งขั้นต่ำ | https://arxiv.org/abs/2307.03692 | จะอัปโหลดในภายหลัง! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| RLHF (การเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์) | https://huggingface.co/blog/rlhf | https://cartinoe5930.tistory.com/entry/%EC%82%AC%EB%9E%8C%EC%9D%98-%ED%94%BC%EB%93%9C%B0%B1%EC%9D -%ED%86%B5%ED%95%9C-%EA%B0%95%ED%99%94%ED%95%99%EC%8A%B5-FREANTION-LEARNING-LEARNING |
| รูปแบบภาษาร่วมทีมสีแดงพร้อมรูปแบบภาษา | https://arxiv.org/abs/2202.03286 | https://cartinoe5930.tistory.com/entry/red-teaming-language-models-with-language-models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| InstructGPT: แบบจำลองภาษาการฝึกอบรมเพื่อทำตามคำแนะนำเกี่ยวกับข้อเสนอแนะของมนุษย์ | https://arxiv.org/abs/2203.02155 | https://cartinoe5930.tistory.com/entry/instructgpt-training-language-models-to follow-instructions-with-human-feedback-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7 เทศบาล |
| การฝึกอบรมผู้ช่วยที่เป็นประโยชน์และไม่เป็นอันตรายด้วยการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ | https://arxiv.org/abs/2204.05862 | https://cartinoe5930.tistory.com/entry/training-a-helpful-and-harmless-assistant-sistant-reinforcement-learning-from-human-feedback-%EB%85%BC%EB%AC%B8 -%EB%A6%AC%B |
| Alpacafarm: กรอบการจำลองสำหรับวิธีการเรียนรู้จากข้อเสนอแนะของมนุษย์ | https://arxiv.org/abs/2305.14387 | จะอัปโหลดในภายหลัง! |
| เกือบ: จัดแนวโมเดลภาษาขนาดใหญ่ผ่านข้อเสนอแนะสังเคราะห์ | https://arxiv.org/abs/2305.13735 | https://cartinoe5930.tistory.com/entry/aligning-large-language-models-through-synthetic-feedback-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| ปัญหาเปิดและข้อ จำกัด พื้นฐานของการเรียนรู้การเสริมแรงจากข้อเสนอแนะของมนุษย์ | https://arxiv.org/abs/2307.15217 | จะอัปโหลดในภายหลัง! |
| RLAIF: การปรับขนาดการเรียนรู้จากการตอบรับจากมนุษย์พร้อมข้อเสนอแนะ AI | https://arxiv.org/abs/2309.00267 | ไม่มีแผน! |
| Steerlm: Attribute SFFT เป็นทางเลือก (ผู้ใช้ที่ใช้งานได้) ทางเลือกสำหรับ RLHF | https://arxiv.org/abs/2310.05344 | ไม่มีแผน! |
| HelpSteer: ชุดข้อมูลความช่วยเหลือหลายอย่างสำหรับ Steerlm | https://arxiv.org/abs/2311.09528 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| อะแดปเตอร์: การเรียนรู้ที่มีประสิทธิภาพพารามิเตอร์สำหรับ NLP | https://arxiv.org/abs/1902.00751 | https://cartinoe5930.tistory.com/entry/%EB%8B%B9%EC%8B%A0%EB%8F%84-Fine-tuning- %ED%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-With-Peft-%F0%9F%A4%97 |
| คำนำหน้าการปรับแต่ง: การเพิ่มประสิทธิภาพการแจ้งเตือนอย่างต่อเนื่องสำหรับการสร้าง | https://arxiv.org/abs/2101.00190 | https://cartinoe5930.tistory.com/entry/%EB%8B%B9%EC%8B%A0%EB%8F%84-Fine-tuning- %ED%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-With-Peft-%F0%9F%A4%97 |
| LORA: การปรับระดับต่ำของแบบจำลองภาษาขนาดใหญ่ | https://arxiv.org/abs/2106.09685 | https://cartinoe5930.tistory.com/entry/%EB%8B%B9%EC%8B%A0%EB%8F%84-Fine-tuning- %ED%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-With-Peft-%F0%9F%A4%97 |
| สู่มุมมองแบบครบวงจรของการเรียนรู้การถ่ายโอนพารามิเตอร์ที่มีประสิทธิภาพ | https://arxiv.org/abs/2110.04366 | จะอัปโหลดในภายหลัง! |
| UNIPELT: เฟรมเวิร์กแบบครบวงจรสำหรับการปรับแต่งแบบจำลองภาษาที่ประหยัดพารามิเตอร์ | https://arxiv.org/abs/2110.07577 | จะอัปโหลดในภายหลัง! |
| (ia)^3: การปรับจูนพารามิเตอร์แบบไม่กี่ตัวแปรดีกว่าและถูกกว่าการเรียนรู้ในบริบท | https://arxiv.org/abs/2205.05638 | จะอัปโหลดในภายหลัง! |
| Qlora: การปรับจูน LLMs เชิงปริมาณอย่างมีประสิทธิภาพ | https://arxiv.org/abs/2305.14314 | จะอัปโหลดในภายหลัง! |
| สแต็กเลเยอร์ที่แตกต่างกันมากขึ้น: การฝึกอบรมระดับสูงผ่านการอัปเดตระดับต่ำ | https://arxiv.org/abs/2307.05695 | จะอัปโหลดในภายหลัง! |
| LORAHUB: การสรุปทั่วไปข้ามงานผ่านองค์ประกอบ LORA แบบไดนามิก | https://arxiv.org/abs/2307.13269 | จะอัปโหลดในภายหลัง! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| คำแนะนำการขุด: การเลือกข้อมูลการเรียนการสอนคุณภาพสูงสำหรับแบบจำลองภาษาขนาดใหญ่ | https://arxiv.org/abs/2307.06290 | ไม่มีแผน! |
| โซดา: การกลั่นกรองบทสนทนาหลายล้านครั้งด้วยการทำให้เป็นบริบททางสังคม | https://arxiv.org/abs/2212.10465 | ไม่มีแผน! |
| mods: การเลือกข้อมูลแบบจำลองที่มุ่งเน้นสำหรับการปรับแต่งคำสั่ง | https://arxiv.org/abs/2311.15653 | ไม่มีแผน! |
| นอกเหนือจากข้อมูลของมนุษย์: ปรับขนาดการฝึกอบรมตนเองเพื่อแก้ปัญหาด้วยแบบจำลองภาษา | https://arxiv.org/abs/2312.06585 | ไม่มีแผน! |
| Magicoder: ซอร์สโค้ดคือสิ่งที่คุณต้องการ | https://arxiv.org/abs/2312.02120 | ไม่มีแผน! |
| WaveCoder: การปรับแต่งการเรียนการสอนที่เพิ่มขึ้นอย่างกว้างขวางและหลากหลายด้วยการสร้างข้อมูลที่ละเอียดอ่อน | https://arxiv.org/abs/2312.14187 | ไม่มีแผน! |
| อะไรทำให้ข้อมูลที่ดีสำหรับการจัดตำแหน่ง: การศึกษาที่ครอบคลุมของการเลือกข้อมูลอัตโนมัติในการปรับแต่งการเรียนการสอน | https://arxiv.org/abs/2312.15685 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| 'วิศวกรรมที่รวดเร็ว' คืออะไร? | ดูบล็อกของฉัน! | https://cartinoe5930.tistory.com/entry/prompt-engineering%EC%9D%B4-%EB%AC%B4%EC%97%87%9D%BC%B9%8C |
| COT: ห่วงโซ่แห่งความคิดกระตุ้นให้เกิดการให้เหตุผลในรูปแบบภาษาขนาดใหญ่ | บล็อก: https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html, กระดาษ: https://arxiv.org/abs/2201.11903 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%B4-%EC%82%AC%EB%9E%8C%ICF3%BC -%EC%9C%A0%EC%82%AC%ED%95%9C -%EC%83%83%9D %9C%EC%84%B8%EC%8A%A4%EB%A5%BC-%EA%B0%80%EC%A7%80%EA%B2%8C-%EB%90%9C%E B%8B%A4%EB%A9%B4-Chain-of-Though-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| COT Zero-shot: รุ่นภาษาขนาดใหญ่เป็นเหตุผลที่ไม่มีการยิง | https://arxiv.org/abs/2205.11916 | https://cartinoe5930.tistory.com/entry/large-language-models-are-zero-shot-reasoners-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| แบบจำลองภาษาเป็นเหตุผลหลายภาษาหลายภาษา | https://arxiv.org/abs/2210.03057 | จะอัปโหลดในภายหลัง! |
| Auto-COT: ห่วงโซ่ความคิดอัตโนมัติในรูปแบบภาษาขนาดใหญ่ | https://arxiv.org/abs/2210.03493 | จะอัปโหลดในภายหลัง! |
| COT KD: การสอนแบบจำลองภาษาขนาดเล็กเพื่อเหตุผล | https://arxiv.org/abs/2212.08410 | จะอัปโหลดในภายหลัง! |
| tot: ต้นไม้แห่งความคิด: การแก้ปัญหาโดยเจตนาด้วยแบบจำลองภาษาขนาดใหญ่ | https://arxiv.org/abs/2305.10601 | https://cartinoe5930.tistory.com/entry/tree-of-thoughts-deliberate-problem-solving-with-large-large-large-language-models-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| คอลเลกชัน COT: การปรับปรุงการเรียนรู้แบบไม่เป็นศูนย์และการเรียนรู้แบบไม่กี่รูปแบบของแบบจำลองภาษาผ่านการปรับแต่งห่วงโซ่การปรับแต่ง | https://arxiv.org/abs/2305.14045 | https://cartinoe5930.tistory.com/entry/cot-collection-improving-zero-shot- และ-few-shot-learning-of-language-models-via-chain-of-thought-fine-tuning -%EB%85%BC%B เทศบาล |
| มาตรวจสอบทีละขั้นตอน | https://arxiv.org/abs/2305.20050 | https://cartinoe5930.tistory.com/entry/lets-verify-step-by-step-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| การวัดความไม่พอใจในการใช้เหตุผลในห่วงโซ่ | https://arxiv.org/abs/2307.13702 | จะอัปโหลดในภายหลัง! |
| SOT: Skeleton-of-Though: แบบจำลองภาษาขนาดใหญ่สามารถทำการถอดรหัสแบบขนาน | https://arxiv.org/abs/2307.15337 | จะอัปโหลดในภายหลัง! |
| กราฟแห่งความคิด: การแก้ปัญหาอย่างละเอียดเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ | https://arxiv.org/abs/2308.09687 | จะอัปโหลดในภายหลัง! |
| จากกระจัดกระจายถึงหนาแน่น: การสรุป GPT-4 ด้วยห่วงโซ่ของการกระตุ้นความหนาแน่น | https://arxiv.org/abs/2309.04269 | ไม่มีแผน! |
| ห่วงโซ่การตรวจสอบความเป็นจริงในรูปแบบภาษาขนาดใหญ่ | https://arxiv.org/abs/2309.11495 | https://www.youtube.com/watch?v=l0ZfJWREGOG&PP=YGUGAHR0CHM6LY9HCNHPDI5VCMCVYWJZLZIZMDKUMTE0OTU%3D |
| การกระตุ้นความคิดที่แตกต่างจากความคิด | https://arxiv.org/abs/2311.09277 | ไม่มีแผน! |
| หัวข้อความคิดที่คลี่คลายบริบทที่วุ่นวาย | https://arxiv.org/abs/2311.08734 | ไม่มีแผน! |
| ความสนใจของระบบ 2 (เป็นสิ่งที่คุณอาจต้องการเช่นกัน) | https://arxiv.org/abs/2311.11829 | ไม่มีแผน! |
| ห่วงโซ่ของรหัส: การให้เหตุผลกับตัวจำลองรหัสแบบจำลองภาษาแบบจำลองภาษา | https://arxiv.org/abs/2312.04474 | ไม่มีแผน! |
| ชื่อกระดาษ | กระดาษ | รีวิวกระดาษ |
|---|---|---|
| Flashattention: ความสนใจที่รวดเร็วและมีประสิทธิภาพอย่างรวดเร็ว | https://arxiv.org/abs/2205.14135 | https://gordicaleksa.medium.com/eli5-flash-attention-5C44017022AD |
| การสร้างแบบจำลองภาษาที่เร็วขึ้นแบบทวีคูณ | https://arxiv.org/abs/2311.10770 | ไม่มีแผน! |
| LLM ในแฟลช: การอนุมานแบบจำลองภาษาขนาดใหญ่ที่มีประสิทธิภาพพร้อมหน่วยความจำที่ จำกัด | https://arxiv.org/abs/2312.11514 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| การเพิ่มข้อมูลใน NLP | บล็อก: https://neptune.ai/blog/data-augmentation-nlp, https://amitness.com/2020/05/data-augmentation-for-nlp/ | https://cartinoe5930.tistory.com/entry/data-augmentation-methods-in-nlp |
| PET: การใช้ประโยชน์จากคำถามปิดบังสำหรับการจำแนกประเภทข้อความช็อตและการอนุมานภาษาธรรมชาติไม่กี่ | https://arxiv.org/abs/2001.07676 | https://cartinoe5930.tistory.com/entry/pet-exploiting-cloze-questions-for-few-shot-text-classification-lassification-and-natural-language-language-%EB%85%BC%EB%AC%B8 -%AB%A6%AC%B7 |
| ทางเดิน | https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/ | https://cartinoe5930.tistory.com/entry/%EB%A7%8C%EC%95%BD-%EB%AA%A8%EB%8D%B8%EC%9D%B4 -%EC%97%AC%EB%9F%AC -%B0%90% B0%81%EC%9D%84-%EB%8A%90%EB%82%84-%EC%88%98-%EC%9E%88%EA%B2%8C-%EB%90%9C%EB%8B%A4%EB% |
| LMSI: แบบจำลองภาษาขนาดใหญ่สามารถปรับปรุงตนเองได้ | https://arxiv.org/abs/2210.11610 | https://cartinoe5930.tistory.com/entry/lmsi-large-language-models-can-self-improve-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| Instruct ตนเอง: จัดแนวแบบภาษากับการเรียนการสอนที่สร้างขึ้นด้วยตนเอง | https://arxiv.org/abs/2212.10560 | https://cartinoe5930.tistory.com/entry/self-instruct-alligning-language-model-with-self-generated-instructions-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| Reflexion: ตัวแทนภาษาที่มีการเรียนรู้การเสริมแรงด้วยวาจา | https://arxiv.org/abs/2303.11366 | https://cartinoe5930.tistory.com/entry/reflexion-language-agents-with-verbal-reinforcement-learning-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0%B0 |
| Refine ตนเอง: การปรับแต่งซ้ำ ๆ ด้วยการให้นมเอง | https://arxiv.org/abs/2303.17651 | https://cartinoe5930.tistory.com/entry/self-refine-iterative-refinement-with-self-feedback-%EB%85%BC%EB%AC%B8-%EB%A6%AC%B7%B0 |
| โรงกลั่น: การให้เหตุผลข้อเสนอแนะเกี่ยวกับการเป็นตัวแทนระดับกลาง | https://arxiv.org/abs/2304.01904 | ไม่มีแผน! |
| ตนเอง: LLM Revising Revising ซ้ำ ๆ โดยการสร้างแบ็กตัวเอง | https://kaistai.github.io/selfee/ | https://cartinoe5930.tistory.com/entry/selfee-iterative-self-revising-llm-expowered-by-self-feedback-generation-%EB%85%BC%AC%B8-%EB%A6%AC%B7%B0 |
| GQA: การฝึกอบรมแบบจำลองหม้อแปลงหลายแบบทั่วไปจากจุดตรวจหลายหัว | https://arxiv.org/abs/2305.13245 | https://aliissa99.medium.com/-a596e4d86f79 |
| Shpherd: นักวิจารณ์สำหรับการสร้างแบบจำลองภาษา | https://arxiv.org/abs/2308.04592 | จะอัปโหลดในภายหลัง! |
| การจัดตำแหน่งตนเองด้วยการแนะนำการแนะนำ | https://arxiv.org/pdf/2308.06259 | จะอัปโหลดในภายหลัง! |
| สกรู: เฟรมเวิร์กแบบแยกส่วนสำหรับการให้เหตุผลในการแก้ไข | https://arxiv.org/pdf/2309.13075 | ไม่มีแผน! |
| Neftune: การฝังตัวที่มีเสียงดังปรับปรุงการเรียนการสอน | https://arxiv.org/abs/2310.05914 | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-%F0%9F%98%89 |
| แบบจำลองภาษาคือ Super Mario; ความสามารถในการดูดซับจากนางแบบ homologous เป็นอาหารกลางวันฟรี | https://arxiv.org/abs/2311.03099 | ไม่มีแผน! |
| Loramoe: การปฏิวัติส่วนผสมของผู้เชี่ยวชาญเพื่อรักษาความรู้โลกในการจัดแนวแบบจำลองภาษา | https://arxiv.org/abs/2312.09979 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| รุ่น Retrieval-Augmented สำหรับงาน NLP ที่ใช้ความรู้มาก | https://arxiv.org/abs/2005.11401 | ไม่มีแผน! |
| Rag-Rag: การเรียนรู้ที่จะเรียกคืนสร้างและวิจารณ์ผ่านการสะท้อนตนเอง | https://arxiv.org/abs/2310.11511 | ไม่มีแผน! |
| คำแนะนำ: การปรับแต่งโพสต์คำสั่ง | https://arxiv.org/abs/2310.07713 | ไม่มีแผน! |
| รุ่น Retrieval-Augmented สำหรับแบบจำลองภาษาขนาดใหญ่: การสำรวจ | https://arxiv.org/abs/2312.10997 | ไม่มีแผน! |
| ชื่อกระดาษ | ลิงค์กระดาษหรือเว็บไซต์อ้างอิง | รีวิวกระดาษ |
|---|---|---|
| บิ๊กเบนช์ยาก: ท้าทายงานใหญ่และไม่ว่าห่วงโซ่ของความคิดจะสามารถแก้ปัญหาได้หรือไม่ | https://arxiv.org/abs/2210.09261 | จะอัปโหลดในภายหลัง! |
| แบบจำลองภาษาขนาดใหญ่ไม่ใช่ตัวประเมินที่ยุติธรรม | https://arxiv.org/abs/2305.17926 | จะอัปโหลดในภายหลัง! |
| MT-BENCH: ตัดสิน LLM-AS-A-Judge ด้วย MT-Bench | https://arxiv.org/abs/2306.05685 | จะอัปโหลดในภายหลัง! |
| InstructEval: Towards Holistic Evaluation of Instruction-Tuned Large Language Models | https://arxiv.org/abs/2306.04757 | Will be uploaded later! |
| FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets | https://arxiv.org/abs/2307.10928 | Will be uploaded later! |
| GAIA: A Benchmark for General AI Assistants | https://arxiv.org/abs/2311.12983 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| A Length-Extrapolatable Transformer | https://arxiv.org/abs/2212.10554 | No plan! |
| Extending Context Window of Large Language Models via Positional Interpolation | https://arxiv.org/abs/2306.15595 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| LongNet: Scaling Transformers to 1,000,000,000 Tokens | https://arxiv.org/abs/2307.02486 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| Lost in the Middle: How Language Models Use Long Contexts | https://arxiv.org/abs/2307.03172 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| YaRN: Efficient Context Window Extension of Large Language Models | https://arxiv.org/abs/2309.00071 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Why can GPT learn in-context? | https://arxiv.org/abs/2212.10559 | https://cartinoe5930.tistory.com/entry/Why-can-GPT-learn-in-context-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Sparks of Artificial General Intelligence: Early experiments with GPT-4 | paper: https://arxiv.org/abs/2303.12712, youtube: https://www.youtube.com/watch?v=Mqg3aTGNxZ0 | https://cartinoe5930.tistory.com/entry/Sparks-of-Artificial-General-Intelligence-Early-experiments-with-GPT-4-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| The False Promise of Imitating Proprietary LLMs | https://arxiv.org/abs/2305.15717 | https://cartinoe5930.tistory.com/entry/%EA%B8%B0%EC%A1%B4-imitation-model%EC%9D%80-%EC%9E%98%EB%AA%BB-%ED%95%99%EC%8A%B5%EB%90%98%EA%B3%A0-%EC%9E%88%EB%8B%A4-%F0%9F%AB%A2-The-False-Promise-of-Imitating-Proprietary-L |
| TULU: How Far Can Camels Go? Exploring the State of Instructiopn Tuning on Open Resources | https://arxiv.org/abs/2306.04751 | Will be uploaded later! |
| How Is ChatGPT's Behavior Changing over Time? | https://arxiv.org/abs/2307.09009 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-%EC%84%B1%EB%8A%A5%EC%9D%B4-%EC%95%88-%EC%A2%8B%EC%95%84%EC%A7%80%EA%B3%A0-%EC%9E%88%EB%8B%A4%EA%B5%AC-%F0%9F%98%B2%F0%9F%98%B2 |
| Large Language Models Cannot Self-Correct Reasoning Yet | https://arxiv.org/abs/2310.01798 | |
| How Far Are Large Language Models from Agents with Theory-of-Mind | https://arxiv.org/pdf/2310.03051 | No plan! |
| Can LLMs Follow Simple Rules | https://arxiv.org/abs/2311.04235 | https://www.youtube.com/watch?v=CY6o43037OY |
| Camels in a Changing Climate; Enhancing LM Adaptation with Tulu 2 | https://arxiv.org/abs/2311.10702 | No plan! |
| ChatGPT's One-year Anniversary; Are Open-Source Large Language Models Catching up | https://arxiv.org/abs/2311.15653 | No plan! |
| An In-depth Look at Gemini's Language Abilities | https://arxiv.org/abs/2312.11444 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature | https://arxiv.org/abs/2301.11305 | https://cartinoe5930.tistory.com/entry/%EC%9D%B4-%EA%B8%80%EC%9D%B4-LM%EC%9D%B4-%EB%A7%8C%EB%93%A4%EC%96%B4%EB%82%B8-%EA%B8%80%EC%9D%BC%EA%B9%8C-%EB%8F%84%EC%99%80%EC%A4%98-DetectGPT-DetectGPT-Zero-Shot-Machine-Generated-Text-Detection-using-Probability-Curvature-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback | https://arxiv.org/abs/2302.12813 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-hallucination-%EC%96%B4%EB%96%BB%EA%B2%8C-%ED%95%B4%EA%B2%B0%ED%95%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-Check-Your-Facts-and-Try-Again-Improving-Large-Language-Models-with-External-Knowledge-and-Automated-Feedback |
| RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text | https://arxiv.org/abs/2305.13304 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%97%90-%EB%B0%98%EB%B3%B5-%EB%A9%94%EC%BB%A4%EB%8B%88%EC%A6%98LSTM%EC%9D%84-%EC%82%AC%EC%9A%A9%ED%95%9C%EB%8B%A4%EB%A9%B4-RecurrentGPT-Interactive-Generation-of-Arbitrarily-Long-Text-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Large Language Models as Tool Makers | https://arxiv.org/abs/2305.17126 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%B4-%EB%8F%84%EA%B5%AC%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B2%8C-%EB%90%9C%EB%8B%A4%EB%A9%B4-%F0%9F%94%AC-Large-Language-Models-as-Tool-Makers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion | https://arxiv.org/abs/2306.02561 | No plan! |
| การกลั่นความรู้ของแบบจำลองภาษาขนาดใหญ่ | https://arxiv.org/abs/2306.08543 | https://cartinoe5930.tistory.com/entry/KD%EC%97%90-%EC%82%B4%EC%A7%9D%EC%9D%98-%EB%B3%80%ED%99%94%EB%A5%BC-%EC%A4%98%EB%B3%B4%EC%9E%90-%F0%9F%98%9C-Knowledge-Distillation-of-Large-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Scaling Relationship on Learning Mathematical Reasoning with Large Language Models | https://arxiv.org/abs/2308.01825 | Will be uploaded later! |
| ToolLLM: Facilitating Lare Language Models to Master 16000+ Real-World APIs | https://arxiv.org/abs/2307.16789 | Will be uploaded later! |
| SelfCheck: Using LLMs to Zero-shot Check Their Own Step-by-Step Reasoning | https://arxiv.org/abs/2308.00436 | Will be uploaded later! |
| Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification | https://arxiv.org/abs/2308.07921 | Will be uploaded later! |
| Large Language Models as Optimizers | https://arxiv.org/abs/2309.03409 | No plan! |
| FIAT: Fusing Learning Paradigms with Instruction-Accelerated Tuning | https://arxiv.org/abs/2309.04663 | https://www.youtube.com/watch?v=EZsZEcRDte0&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDQ2NjM%3D |
| Contrastive Decoding Improves Reasoning in Large Language Models | https://arxiv.org/abs/2309.09117 | https://www.youtube.com/watch?v=nMR56TkwC1Q&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDkxMTc%3D |
| Think before you speak: Training Language Models with Pause Tokens | https://arxiv.org/abs/2310.02226 | https://www.youtube.com/watch?v=MtJ1jacr_yI |
| Large Language Models Can Learn Rules | https://arxiv.org/abs/2310.07064 | No plan! |
| In-context Pretraining: Language Modeling Beyond Document Boundaries | https://arxiv.org/abs/2310.10638 | https://www.youtube.com/watch?v=GI-0lAaILrU |
| Learning From Mistakes Makes LLM Better Reasoner | https://arxiv.org/abs/2310.20689 | No plan! |
| Language Models can be Logical Solvers | https://arxiv.org/abs/2311.06158 | No plan! |
| MART: Improving LLM Safety with Multi-round Automatic Red-Teaming | https://arxiv.org/abs/2311.07689 | No plan! |
| Fine-tuning Language Models for Factuality | https://arxiv.org/abs/2311.08401 | No plan! |
| Positional Description Matters for Transformers Arithmetic | https://arxiv.org/abs/2311.14737 | No plan! |
| Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision | https://arxiv.org/abs/2312.09390 | https://openai.com/research/weak-to-strong-generalization |
| TinyGSM: achieving higher than 80 percentage on GSM8k with small language models | https://arxiv.org/abs/2312.09241 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Morpheme-aware Subword Tokenizer: An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks | https://arxiv.org/abs/2010.02534 | Will be uploaded later! |
| What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers | https://arxiv.org/abs/2109.04650 | Will be uploaded later! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| history of CNN | LeNet, AlexNet, VGGNet, GoogLeNet, ResNet, ResNeXt, Sception, Mobilenet, DenseNet, EfficientNet, ConvNext | https://cartinoe5930.tistory.com/entry/CNN-network%EC%9D%98-%EC%97%AD%EC%82%AC |
| ViT: An Image Worth 16 x 16 Words: Transformers for Image Recognition at Scale | https://arxiv.org/abs/2010.11929 | https://cartinoe5930.tistory.com/entry/ViT-An-Image-Worth-16-x-16-Words-Transformers-for-Image-Recognition-at-Scale |
| Swin Transformer: Hierarchical Vision Transformer using Shifted Winodws | https://arxiv.org/abs/2103.14030 | https://cartinoe5930.tistory.com/entry/Swin-Transformer-Hierarchical-Vision-Transformer-using-Shifted-Windows-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| CLIP: Learning Transferable Visual Models From Natural Language Supervision | https://arxiv.org/abs/2103.00020 | https://cartinoe5930.tistory.com/entry/CLIP-Learning-Transferable-Visual-Models-From-Natural-Language-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Let's learn about VLM(Visual-Language Model) | https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-in-%F0%9F%A4%97-transformers | https://cartinoe5930.tistory.com/entry/VLMVision-Language-Model%EC%97%90-%EB%8C%80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90 |
| VisualBERT: A simple and Performant Baseline for Vision and Language | https://arxiv.org/abs/1908.03557 | https://cartinoe5930.tistory.com/entry/VisualBERT-A-Simple-and-Performant-Baseline-for-Vision-and-Language-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLBERT: Pre-training Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks | https://arxiv.org/abs/1908.02265 | https://cartinoe5930.tistory.com/entry/ViLBERT-Pretraining-Task-Agnostic-Visiolinguistic-Representations-for-Visual-and-Language-Tasks |
| LXMERT: Learning Cross-Modality Encoder Representations from Transformers | https://arxiv.org/abs/1908.07490 | https://cartinoe5930.tistory.com/entry/LXMERT-Learning-Cross-Modality-Encoder-Representations-from-Transformers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VL-BERT: Pre-training of Generic Visual-Linguistic Representations | https://arxiv.org/abs/1908.08530 | https://cartinoe5930.tistory.com/entry/VL-BERT-Pre-training-of-Generic-Visual-Linguistic-Representations-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLP: Unified Vision-Language Pre-Training for Image Captioning and VQA | https://arxiv.org/abs/1909.11059 | https://cartinoe5930.tistory.com/entry/VLP-Unified-Vision-Language-Pre-Traning-for-Image-Captioning-and-VQA-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks | https://arxiv.org/abs/2004.06165 | https://cartinoe5930.tistory.com/entry/Oscar-Object-Semantics-Aligned-Pre-training-for-Vision-Language-Tasks-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VinVL: Revisiting Visual Representations in Vision-Language Models | https://arxiv.org/abs/2101.00529 | https://cartinoe5930.tistory.com/entry/VinVL-Revisiting-Visual-Representations-in-Vision-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision | https://arxiv.org/abs/2102.03334 | https://cartinoe5930.tistory.com/entry/ViLT-Vision-and-Language-Transformer-Without-Convolution-or-Region-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision | https://arxiv.org/abs/2102.05918 | https://cartinoe5930.tistory.com/entry/ALIGN-Scaling-up-Visual-and-Vision-Language-Representation-with-Noisy-Text-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALBEF: Vision and Language Representation Learning with Momentum Distillation | https://arxiv.org/abs/2107.07651 | https://cartinoe5930.tistory.com/entry/ALBEF-Vision-and-Language-Representation-Learning-with-Momentum-Distillation-%EB%85%BC%EB%AC%B8 |
| SimVLM: Simple Visual Language Model Pretraining with Weak Supervision | https://arxiv.org/abs/2108.10904 | https://cartinoe5930.tistory.com/entry/SimVLM-Simple-Visual-Language-Model-Pre-training-with-Weak-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLMo: Unified Vision-Language Pre-training with Mixture-of-Modality-Experts | https://arxiv.org/abs/2111.02358 | https://cartinoe5930.tistory.com/entry/VLMo-Unified-Vision-Language-Pre-training-with-Mixture-of-Modality-Experts-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LiT : Zero-Shot Transfer with Locked-image text Tuning | https://arxiv.org/abs/2111.07991 | https://cartinoe5930.tistory.com/entry/LiT%F0%9F%94%A5-Zero-Shot-Transfer-with-Locked-image-text-Tuning-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| FLAVA: A Foundational Language And Vision Alignment Model | https://arxiv.org/abs/2112.04482 | https://cartinoe5930.tistory.com/entry/FLAVA-A-Foundational-Language-And-Vision-Alignment-Model-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation | https://arxiv.org/abs/2201.12086 | https://cartinoe5930.tistory.com/entry/BLIP-Bootstrapping-Language-Image-Pre-training-fro-Unified-Vision-Language-Understanding-and-Generation-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Paper or Posting Title | reference site Link | ทบทวน |
|---|---|---|
| Knowledge Distillation: Distilling the Knowledge in a Neural Network | https://arxiv.org/abs/1503.02531 | https://cartinoe5930.tistory.com/entry/Distilling-the-Knowledge-in-a-Neural-Network-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| What is Zero-shot, One-shot, Few-shot Learning? | see my blog! | https://cartinoe5930.tistory.com/entry/Zero-shot-One-shot-Few-shot-Learning%EC%9D%B4-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C |