Deep Learning Paper
1.0.0
قرأت هذه الأوراق المرتبطة بـ NLP والتعلم العميق. فيما يلي أوراق مختلفة من الأساس إلى المتقدم. ؟ بالإضافة إلى ذلك ، يمكنك التحقق من مراجعات الورق الكوري الخاص بي من خلال النقر على الرابط المرفق بالجدول.
يمكنك رؤية المزيد من مراجعات الورق ، وتنفيذ التعليمات البرمجية ، وأوصاف الرياضيات في مدونتي <- انقر هنا
أكتب عدة مقالات لشرح بعض تقنيات التعلم العميق بالتفصيل. يمكن العثور على هذه المقالات في الجدول أدناه.
| عنوان | رابط المدونة |
|---|---|
| كيف تم تطوير قانون التحجيم في NLP؟ ؟ | https://cartinoe5930.tistory.com/entry/how-has-scaling-lawded-in-nlp-٪f0٪9f٪A4٪94-nlp٪EC٪90٪900٪84 ٪ 9c-scaling-law ٪ EB ٪ 8a ٪ 94- ٪ EC ٪ 96 ٪ B4 ٪ EB ٪ 96 ٪ BB ٪ EA ٪ B2 ٪ 8C- ٪ EB ٪ B0 ٪ 9C ٪ EC ٪ A0 ٪ 84 EB ٪ 90 ٪ 98 EC ٪ 97 ٪ 88 EC ٪ 9D ٪ B9 ٪ 8C |
| مغلق المصدر؟ مفتوحة المصدر ؟؟ ما هذا؟؟ ؟ | https://cartinoe5930.tistory.com/entry/the-hopes-of-pens-open-source-٪f0٪9f٪A4٪97- ٪ EC ٪ 97 ٪ B0 ٪ EA ٪ B5 ٪ AC ٪ EC ٪ 9E ٪ 90 ٪ EB ٪ 93 ٪ A4 ٪ EC ٪ 9d 98- ٪ Ed ٪ 9d ٪ AC ٪ EB ٪ A7 ٪ 9D-Open-Source- ٪ F0 ٪ 9F A4 ٪ 97 |
| نافذة سياق LM ، هل يجب أن تكون طويلة؟ هل يجب أن يكون قصيرًا؟ ؟ | https://cartinoe5930.tistory.com/entry/lm٪9d٪98-context-window-٪B8٪B8٪EC٪96٪B4٪900٪B C- ٪ ED ٪ 95 ٪ A0 ٪ EA ٪ B9 ٪ 8C-٪ EC ٪ A7 ٪ A7 ٪ EC ٪ 95 ٪ 84 ٪ EC ٪ 95 ٪ BC-٪ ED 95 ٪ A0 ٪ B9 ٪ 8C- ٪ F0 ٪ 93 ٪ 8F ٪ F0 ٪ 9F ٪ A4 A8 |
| ما هي الطريقة الأمثل لتقييم LM؟ ؟ | https://cartinoe5930.tistory.com/entry/lm٪9d٪84-٪B0٪80٪9ED٪9E٪A5-٪B5٪9C٪AD٪A0٪81٪9C٪BC٪EB٪A100C-٪ED٪8F٪89٪89٪89٪89٪. B0 ٪ 80 ٪ ED ٪ 95 ٪ A0- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9e ٪ 88 ٪ EB ٪ 8A ٪ 94- ٪ EB ٪ B0 ٪ A9 ٪ B2 ٪ 95 ٪ EC ٪ 9D ٪ 80- ٪ EB ٪ B4 ٪ EC ٪ 97 ٪ 87 ٪ EC ٪ BC ٪ B9 ٪ B9 ٪ 8C-٪ F0 ٪ 98 |
| أداء chatgpt يزداد سوءا؟!؟!؟ ؟ | https://cartinoe5930.tistory.com/entry/chatgpt٪9D٪98-٪EC٪84٪B1٪EB٪8A٪A5٪9D٪B4-٪900٪95٪ 88- ٪ EC ٪ A2 ٪ 8B ٪ EC ٪ 95 ٪ 84 ٪ EC ٪ A7 ٪ 80 ٪ EA ٪ B3 ٪ A0- ٪ EC ٪ 9E ٪ 88 EB ٪ 8B ٪ A4 ٪ B5 ٪ AC- ٪ F0 ٪ 98 ٪ B2 ٪ F0 ٪ 9F 98 ٪ B2 |
| يمكنك ضبطها أيضًا! مع PEFT؟ | https://cartinoe5930.tistory.com/entry/٪EB٪8B٪B9٪8B٪A0٪EB٪8F٪84-Fine-tuning- ٪ ed ٪ 95 ٪ A0- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9e ٪ 88 ٪ EC ٪ 8A ٪ B5 ٪ EB ٪ 8B ٪ 88 EB ٪ 8B ٪ A4-with-peft- ٪ F0 ٪ 9F ٪ A4 ٪ 97 |
| دعونا نفكر خطوة بخطوة مثل البشر! ؟ | https://cartinoe5930.tistory.com/entry/٪ED٪95٪9C-٪EB٪8B٪A8٪B3٪84-٪ED٪95٪9C-٪EB٪A8٪B3٪84٪94٪94-94- ٪ EC ٪ 9d ٪ B8 ٪ EA ٪ B0 ٪ 84 ٪ EC ٪ B2 ٪ 98 EB ٪ 9F ٪ BC- ٪ EC ٪ 83 ٪ 9D ٪ EA ٪ B0 ٪ 81 ed ٪ 95 ٪ B4 ٪ B3 ٪ B4 ٪ 9E 9E 90- ٪ F0 ٪ 9F ٪ A0 ٪ F0 ٪ 9F ٪ A4 ٪ 94 |
| عملية تطوير طريقة صقلها !! من الضبط إلى RLHF؟ ➡؟ | https://cartinoe5930.tistory.com/entry/fine-tuning-method٪9D٪98-٪Eec٪A7٪84٪ED٪99٪94-٪B3٪BC٪A00٪95-٪F0٪A6٪96٪9E1EF٪B8F٪8F٪F0٪F0٪F0٪F0٪F0٪F0٪F0٪F0٪F0٪F0٪ |
| حان الوقت لضبط الدردشة !! ⏰ | https://cartinoe5930.tistory.com/entry/٪EC٪9D٪B4٪A0٪9C٪EB٪8A٪94-CHATGPT٪EB٪A5٪BC-Fine-Tuning-٪95٪A0-٪EC٪9C٪9C٪B0٪84-E28F٪B0 |
| الضوضاء تجعل LLM أفضل! - Neftune | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-٪F0٪9F٪98٪89 |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| تضمين المصفوفة | https://wikidocs.net/book/2155 | https://cartinoe5930.tistory.com/entry/embedding-matrix-٪ED٪95٪99٪EC٪8A٪B5 |
| LSTM: ذاكرة مصطلح طويل القدر | https://colah.github.io/posts/2015-08-trupsering-lstms/ | https://cartinoe5930.tistory.com/entry/٪EC٪95٪8C٪B8٪B0-٪EC٪89٪BD٪B2٪B2٪8C-LSTM-Networks-٪EC٪B4٪ED٪95٪B4٪95٪900٪B8٪B8٪B0 |
| GRU: تمثيلات التعلم باستخدام RNN Decoder-Decoder لترجمة الآلة الإحصائية | https://arxiv.org/abs/1406.1078 | https://cartinoe5930.tistory.com/entry/gru-empirical-evaluation-of-matrent-neurent-networks-on-equencence-modeling-٪EB٪85٪BC٪EB٪B8-٪EB٪AD٪EB٪B7٪B0 |
| LSTM مقابل GRU: التقييم التجريبي للشبكات العصبية المتكررة بوابات على نمذجة التسلسل | https://arxiv.org/abs/1412.3555 | https://cartinoe5930.tistory.com/entry/lstm-vs-gru-٪EB٪AD٪90٪B0٪80-٪EB٪8D٪94-٪EB٪82٪98٪9D٪84٪B9٪B9D التقييم IRICAL-OF-GUTRENT-RECURRENT-NEURTWORKS-ON-SEMPLENCENCE-MODELING-٪ EB ٪ 85 ٪ BC ٪ EB ٪ AC B8- ٪ EB ٪ A6 ٪ AC ٪ EB ٪ B7 B0 |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| المحول: الاهتمام هو كل ما تحتاجه | https://arxiv.org/abs/1706.03762 | https://cartinoe5930.tistory.com/entry/transformer-attention-is- all-need-itred-eb٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| إلمو: تمثيلات الكلمات العميقة السياقية | https://arxiv.org/abs/1802.05365 | https://cartinoe5930.tistory.com/entry/pre-trocrained-modeling-paper-paper-reading1-elmo-deep-contextual-word-spresentations |
| بيرت: ما قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة | https://arxiv.org/abs/1810.04805 | https://cartinoe5930.tistory.com/entry/pre-t-trocrained-modeling-paper-baper-reading2-bert-pre-training-of-deepediroctional-transformers-for-language-drenging |
| GPT-1: تحسين فهم اللغة من خلال التدريب قبل التدريب | https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understing_paper.pdf | https://cartinoe5930.tistory.com/entry/pre-trocrained-clanguage-modeling-paper-reading3-gpt-1-proving-language-ressing-by-pre-pree training |
| GPT-2: نماذج اللغة هي متعلمين غير خاضعين للإشراف على المهام المتعددة | https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf | https://cartinoe5930.tistory.com/entry/gpt-2-language-models-are-unsupervised-multitask-learners-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| GPT-3: نماذج اللغة متعلمين قليلة | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪AC٪EB٪B 7٪B0 | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪AC٪EB٪B 7٪B0 |
| Transformer-XL: نماذج لغة منتبهة تتجاوز سياق الطول الثابت | https://arxiv.org/abs/1901.02860 | https://cartinoe5930.tistory.com/entry/transformer-xl-ententive-language-models-beyond-a-fixed-length-context-٪EB٪85٪BC٪EC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| المحولات المتناثرة: توليد تسلسلات طويلة مع محولات متناثرة | https://arxiv.org/abs/1904.10509 | https://cartinoe5930.tistory.com/entry/sparse-transformers-splenate-sequence-with-sparse-transformers-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| XLNET: ما قبل التدريب المسبق لتفاهم اللغة | https://arxiv.org/abs/1906.08237 | https://cartinoe5930.tistory.com/entry/xlnet-generalized-autoregress-pretraining-for-language-trashing-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪AC٪B 7٪B0 |
| Spanbert: تحسين التدريب المسبق من خلال تمثيل الفترات والتنبؤ بها | https://arxiv.org/abs/1907.10529 | https://cartinoe5930.tistory.com/entry/spanbert-emproving-pre-training-by-representing-and-predicting-spans-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| روبرتا: نهج تدريب بيرت قبل التدريب بشكل قوي | https://arxiv.org/abs/1907.11692 | https://cartinoe5930.tistory.com/entry/roberta-a-robustly-optimized-bert-pretraining-approach-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| الجملة-بيرت: تدمير الجملة باستخدام Siamese Bert-Networks | https://arxiv.org/abs/1908.10084 | https://cartinoe5930.tistory.com/entry/sentence-bert-sentence-embeddings-using-siamese-bert-networks-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| ألبرت: لايت بيرت للتعلم الخاضع للرقابة لتمثيل اللغة | https://arxiv.org/abs/1909.11942 | https://cartinoe5930.tistory.com/entry/albert-a-lite-bert-for-sefervised-learning-of-language-representations-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| بارت: تقليل التسلسل إلى التسلسل قبل التدريب لتوليد اللغة الطبيعية وترجمة والفهم | https://arxiv.org/abs/1910.13461 | https://cartinoe5930.tistory.com/entry/bart-denoising-sequence-to-sequence-pre-training-for-natural-language-generation-translation-and-comphension-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AC٪EB٪B7٪B0 |
| محول ما قبل LN: على تطبيع الطبقة في بنية المحولات | https://arxiv.org/abs/2002.04745 | https://cartinoe5930.tistory.com/entry/pre-ln-transformer-on-layer-normalization-in-the-transformer-Architecture-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| Electra: ترميز النصوص قبل التدريب على أنها تمييزات بدلاً من المولدات | https://arxiv.org/abs/2003.10555 | https://cartinoe5930.tistory.com/entry/electra-pre-training-text-encoders-as-discriminators-rather-than-generators |
| Longformer: محول الوضع الطويل | https://arxiv.org/abs/2004.05150 | https://cartinoe5930.tistory.com/entry/longformer-th-long-document-transformer-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪EB٪B7٪B0 |
| Bigbird: Transformers لتسلسل أطول | https://arxiv.org/abs/2007.14062 | https://cartinoe5930.tistory.com/entry/bigbird-transformers-for-longer-sequences-٪EB٪85٪BC٪EB٪B8-٪EB٪AC٪EB٪B7٪B0 |
| WebGPT: إجابة أسئلة بمساعدة المتصفح مع ردود الفعل البشرية | https://arxiv.org/abs/2112.09332 | https://cartinoe5930.tistory.com/entry/webgpt-browser-assistion-question-answerge-with-human-feedback-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| OPT: افتح نماذج لغة المحولات المسبقة مسبقًا | https://arxiv.org/abs/2205.01068 | https://cartinoe5930.tistory.com/entry/opt-open-pre-pre-transformer-language-models-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪AC٪EB٪B 7٪B0 |
| مامبا: نمذجة تسلسل الوقت الخطي مع مساحات حالة انتقائية | https://arxiv.org/abs/2312.00752 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| Tinybert: تقطير بيرت لفهم اللغة الطبيعية | https://arxiv.org/abs/1909.10351 | https://cartinoe5930.tistory.com/entry/tinybert-distilling-bert-for-for-natural-language-underSting-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪AC٪EB٪B7٪B0 |
| Distilbert: نسخة مقطرة من Bert | https://arxiv.org/abs/1910.01108 | https://cartinoe5930.tistory.com/entry/distilbert-a-distilled-of-bert-smaller-faster-shaeper-and-lighter-٪EB٪85٪BC٪EC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| لا يقتصر الأمر على الحجم: نماذج اللغة الصغيرة هي أيضًا متعلمين قليلة (PET 응용) | https://arxiv.org/abs/2009.07118 | https://cartinoe5930.tistory.com/entry/its-not-just-size-that-matters-small-language-models-are-also-few-shot--edironers-٪EB٪85٪BC٪EB٪B8-٪EB٪AD٪EB٪B7٪B0 |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| شينشيلا: تدريب نماذج لغة كبيرة مثالية | https://arxiv.org/abs/2203.15556 | https://cartinoe5930.tistory.com/entry/٪EC٪A7٪80٪B8٪88-٪B9٪8C٪EC٪A7٪80٪E C ٪ 9d ٪ 98-lm-law-law ٪ EC ٪ 97 ٪ 90 ٪ EB ٪ 8a ٪ 94- ٪ EB ٪ AC ٪ B8 ٪ EC A0 ٪ 9C ٪ EC ٪ A0 ٪ 90 EC ٪ 9D ٪ B4- ٪ EC ٪ 9E ٪ 88 ٪ EB ٪ 8B ٪ A4- ٪ F0 ٪ 9F ٪ 98 ٪ B6 ٪ E2 ٪ 8d ٪ F0 ٪ 9F ٪ 8C ٪ AB ٪ B8 ٪ 8F-Chinchilla-Training-Compute-Compute-Compute-Large-Large-langage-models- ٪ eb ٪ bc ٪ eb |
| Pythia: جناح لتحليل نماذج اللغة الكبيرة عبر التدريب والتوسيع | https://arxiv.org/abs/2304.01373 | لا خطة! |
| ليما: أقل من ذلك بالنسبة للمحاذاة | https://arxiv.org/abs/2305.11206 | https://cartinoe5930.tistory.com/entry/lima-let-is-more-for-alignment-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| لاما: نماذج لغة أساس مفتوحة وفعالة | https://arxiv.org/abs/2302.13971 | https://cartinoe5930.tistory.com/entry/llama-open-and-file-foundation-language-models-٪EB٪85٪BC٪EB٪B8-٪EB٪AC٪EB٪B7٪B0 |
| WizardLM: تمكين نماذج اللغة الكبيرة لمتابعة التعليمات المعقدة | https://arxiv.org/abs/2304.12244 | https://cartinoe5930.tistory.com/entry/open-domain-instruction٪9D٪98-٪ED٪9A٪A8٪B3٪BC-٪F0٪9F٪84-Wiz ARDLM-empowing-large-language-language-to-foll-commlex-instructions- ٪ EB ٪ 85 ٪ bc ٪ eb ٪ AC B8- ٪ EB ٪ A6 ٪ AC ٪ EB ٪ B7 ٪ B0 |
| WizardCoder: تمكين نماذج اللغة الكبيرة مع Evol-instruct | https://arxiv.org/abs/2306.08568 | https://huggingface.co/wizardlm/wizardcoder-15b-v1.0 |
| WizardMath: تمكين التفكير الرياضي لنماذج اللغة الكبيرة من خلال بنية تعزيز معززة | https://arxiv.org/abs/2308.09583 | https://huggingface.co/wizardlm/wizardmath-70b-v1.0 |
| الألبكة: نموذج قوي متكرر للتعليمات | https://crfm.stanford.edu/2023/03/13/alpaca.html | https://cartinoe5930.tistory.com/entry/alpaca-a-rreplicable-instruction-follow-model-٪EB٪A6٪AC٪B00٪B0 |
| Vicuna: chatbot مفتوح المصدر يثير إعجاب GPT-4 | https://lmsys.org/blog/2023-03-30-vicuna/ | https://cartinoe5930.tistory.com/entry/vicuna-an-open-source-chatbot-repressing-gpt-4-٪EB٪A6٪EB٪B7٪B0 |
| كوالا: نموذج حوار للبحث الأكاديمي | https://bair.berkeley.edu/blog/2023/04/03/koala/ | https://cartinoe5930.tistory.com/entry/٪EC٪A4٪91٪9A٪94٪ED٪95٪9C-٪B1٪B4-٪Ba٪be٪9D٪B4٪EC ٪ A7 ٪ 80- ٪ EC ٪ 95 ٪ 8A ٪ EB ٪ 8A ٪ 94 جودة عالية-data-koala ٪ F0 ٪ 9F 90 ٪ A8-A-Dialogue-Model-For-Academic-RESERC |
| Baize: نموذج دردشة مفتوح المصدر مع ضبط فعال معلمة على بيانات التسلل الذاتي | https://arxiv.org/abs/2304.01196 | https://cartinoe5930.tistory.com/entry/٪F0٪9F٪90٪B2Baize-an-pen-source-chat-model-with-parameter-fteriant-tuning-on-on-chat-chat-data-٪EB٪85٪BC٪B00-٪B00٪Bطب |
| توسيع نطاق نماذج اللغة المقيدة للبيانات | https://arxiv.org/abs/2305.16264 | https://www.youtube.com/watch؟v=tk0-sitkcmw&pp=ygugahr0chm6ly9hcnhpdi5vcmcvywjzlzlzmduumtyynjq٪3d |
| فالكون و ENSITEDWEB | https://arxiv.org/abs/2306.01116 | https://cartinoe5930.tistory.com/entry/open-llm-leaderboard٪EB٪A5٪BC-٪ED٪9C٪A9٪9طب |
| ORCA: التعلم التدريجي من آثار التفسير المعقد لـ GPT-4 | https://arxiv.org/pdf/2306.02707 | https://cartinoe5930.tistory.com/entry/٪F0٪9F٪90٪ACorca-Progression-learning-from-complex-explanation-traces-of-gpt-4-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪EB٪BB0 |
| PHI-1: الكتب المدرسية كل ما تحتاجه | https://arxiv.org/abs/2306.11644 | https://cartinoe5930.tistory.com/entry/٪ED٪95٪84٪9AD٪94٪ED٪95٪9C-٪B1٪B4-٪98٪A4٪EC٪A7٪81-٪B5٪90٪B3٪BC٪00٪٪٪طب ٪ A4 ٪ 80 ٪ EC ٪ 9d ٪ 98- ٪ EB ٪ 8d ٪ B0 ٪ EC ٪ 9D ٪ B4 ٪ ED ٪ 84 B0 ٪ EB ٪ BF ٪ 90- ٪ F0 ٪ 9F ٪ 93 ٪ 96-PHI-1-1-textbooks-all-all-ed-eed- ٪ eb ٪ eb ٪ eB ٪ B8- |
| Alpagasus: تدريب ألبكة أفضل مع بيانات أقل | https://arxiv.org/abs/2307.08701 | سيتم تحميله لاحقًا! |
| Llama 2: Open Foundation ونماذج الدردشة المضبوطة | https://arxiv.org/abs/2307.09288 | https://cartinoe5930.tistory.com/entry/the-hopes-of-pens-open-source-٪f0٪9f٪A4٪97- ٪ EC ٪ 97 ٪ B0 ٪ EA ٪ B5 ٪ AC ٪ EC ٪ 9E ٪ 90 ٪ EB ٪ 93 ٪ A4 ٪ EC ٪ 9d 98- ٪ Ed ٪ 9d ٪ AC ٪ EB ٪ A7 ٪ 9D-Open-Source- ٪ F0 ٪ 9F A4 ٪ 97 |
| Platypus: صقل سريع ورخيص وقوي لـ LLMS | https://arxiv.org/abs/2308.07317 | سيتم تحميله لاحقًا! |
| رمز Llama: Open Foundation Models for Code | https://arxiv.org/abs/2308.12950 | لا خطة |
| FLM-101B: LLM مفتوح وكيفية تدريبه بميزانية قدرها 100 ألف دولار | https://arxiv.org/pdf/2309.03852 | لا خطة! |
| الكتب المدرسية هي كل ما تحتاجه II: PHI-1.5 التقرير الفني | https://arxiv.org/abs/2309.05463 | https://huggingface.co/Microsoft/Phi-1_5 |
| OpenChat: تقدم نماذج لغة مفتوحة المصدر مع بيانات مختلطة الجودة | https://arxiv.org/abs/2309.11235 | https://github.com/imoneoi/Openchat |
| MISTRAL 7B | https://arxiv.org/abs/2310.06825 | https://mistral.ai/news/announcing-mistral-7b/ |
| بروميثيوس: تحفيز قدرة التقييم الدقيقة في نماذج اللغة | https://arxiv.org/abs/2310.08491 | https://huggingface.co/papers/2310.08491#652A8E7F30355BEBA68C1BE6 |
| Zephyr: التقطير المباشر لمحاذاة LM | https://arxiv.org/abs/2310.16944 | https://www.youtube.com/watch؟v=tkzbg3mksio |
| ORCA2: تعليم نماذج اللغة الصغيرة كيفية التفكير | https://arxiv.org/abs/2311.11045 | https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small--language-models-to-to-season/ |
| سلسلة فالكون من نماذج اللغة المفتوحة | https://arxiv.org/abs/2311.16867 | لا خطة! |
| Solar 10.7b: تحجيم نماذج لغة كبيرة مع تقسيم العمق البسيط والفعال | https://arxiv.org/abs/2312.15166 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| لامدا: نماذج لغة لتطبيقات الحوار | المدونة: https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html ، ورقة: https://arxiv.org/abs/2201.08239 | https://cartinoe5930.tistory.com/Entry/٪EA٪B5٪AC٪B8٪80٪9D٪9D٪98-٪NEC٪9C٪B0٪95-٪B1٪97٪EB٪B4٪87 Lamda٪97٪90-EB٪9C ٪ 80 ٪ ED ٪ 95 ٪ B4- ٪ EC ٪ 95 ٪ 8C ٪ EC ٪ 95 ٪ 84 ٪ EB ٪ B3 ٪ B4 ٪ EC ٪ 9E ٪ 90-language-models-for-dialog-Aapplications- ٪ EB ٪ 85 ٪ BC ٪ eB ٪ AC B8- ٪ eb ٪ A6 EB ٪ B7 ٪ B0 |
| النخيل: نمذجة لغة التحجيم مع مسارات | المدونة: https://ai.googleblog.com/2022/04/pathways-clanguage-model-palm-scaling-to.html ، ورقة: https://arxiv.org/abs/2204.02311 | 1: https://cartinoe5930.tistory.com/entry/lamda٪9d٪98-٪EB٪92٪A4٪EB٪A5٪BC-٪9E٪87٪EB٪8A٪94-PATHWAYS٪EB٪A5٪BC-٪ED٪ED٪ED٪EDضافة 99 ٪ 9C ٪ EC ٪ 9A ٪ A9 ٪ ED ٪ 95 ٪ 9C- ٪ EC ٪ B4 ٪ 88 ٪ EA ٪ B1 ٪ B0 ٪ EB ٪ 8C ٪ 80- ٪ EC ٪ 96 ٪ B8 ٪ EC ٪ 96 B4- ٪ EB ٪ AA ٪ A8 EB ٪ 8D ٪ B8-PALM-٪ A6 ٪ AC EB ٪ B7 B0 ، 2: https://cartinoe5930.tistory.com/entry/lamda٪9d٪98-٪EB٪92٪A4٪EB٪A5٪BC-٪9E٪87٪EB٪8A٪94-PATHWAYS٪EB٪A5٪BC-٪BC-٪EC٪. 82 ٪ AC ٪ EC ٪ 9A ٪ A9 ٪ ED ٪ 95 ٪ 9C- ٪ EC ٪ B4 ٪ 88 ٪ EA ٪ B1 ٪ B0 ٪ EB ٪ 8C ٪ 8C ٪ EC ٪ 96 ٪ B8 ٪ EC ٪ 96 ٪ B4- ٪ EB ٪ AA ٪ EB ٪ 8D ٪ B8-Palm-٪ EB ٪ A AC EB ٪ B7 ٪ B02 |
| GPT-4: المراجعة الفنية | المدونة: https://openai.com/research/gpt-4 ، ورقة: https://arxiv.org/abs/2303.08774 | https://cartinoe5930.tistory.com/entry/gpt-4-techinal-report-review |
| الجوزاء: عائلة من النماذج متعددة الوسائط قادرة للغاية | https://arxiv.org/abs/2312.11805 | لا خطة! |
| التقرير الفني Alphacode 2 | https://storage.googleapis.com/deepmind-media/alphacode2/alphacode2_tech_report.pdf | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| فلان: نماذج اللغة التي يتم ضبطها هي متعلمين صفري | https://arxiv.org/abs/2109.01652 | https://cartinoe5930.tistory.com/entry/flan-fine-tuned-language-models-are-zero-shot- |
| T0: تمكين المهام المتعددة المدعوين تمكين تعميم المهام صفر الرصاص | https://arxiv.org/abs/2110.08207 | https://cartinoe5930.tistory.com/entry/t0-multitask-promped-training-enables-zero-shot-task-generalization-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪AB٪B 7٪B0 |
| التعليمات الطبيعية الفائقة: التعميم عبر التعليمات التعريفية على 1600+ مهمة NLP | https://arxiv.org/abs/2204.07705 | https://cartinoe5930.tistory.com/entry/super-natural-instructions-genalization-via-declarative-instructions-on-1600-nlp-tasks-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪ACB٪EB٪B0 |
| تعليمات غير طبيعية: نماذج لغة ضبط مع (تقريبا) لا يعمل البشرية | https://arxiv.org/abs/2212.09689 | سيتم تحميله لاحقًا! |
| خمن التعليمات! التعلم المقلوب يجعل نماذج اللغة متعلمين أقوى صفرية | https://arxiv.org/abs/2210.02969 | https://cartinoe5930.tistory.com/entry/guess-the-instruction-flipped-learning-makes--glanguage-models-stronger-zero-shot-learners-٪EB٪85٪BC٪EB٪B8-٪EB٪AD٪EB٪B7٪B0 |
| نماذج اللغة التي يتم وضعها في تعليمات التحجيم | https://arxiv.org/abs/2210.11416 | https://cartinoe5930.tistory.com/entry/scaling-instruction-finetuned-language-models-٪EB٪85٪BC٪EB٪B8-٪EB٪AC٪EB٪B 7٪B0 |
| استكشاف فوائد تدريب نماذج لغة الخبراء على ضبط التعليمات | https://arxiv.org/abs/2302.03202 | https://cartinoe5930.tistory.com/entry/exploring-the-benefits-of-training-oxpert-language-models-over-instruction-tuning-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| ICIL: تعلم التعليم في السياق | https://arxiv.org/abs/2302.14691 | https://cartinoe5930.tistory.com/entry/icil-in-context-instruction-learning-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| تعليمات ضبط مع GPT-4 | https://arxiv.org/abs/2304.03277 | https://cartinoe5930.tistory.com/entry/instruction-tuning-with-gpt-4-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪AC٪B 7٪B0 |
| FIP: تحديد معلمة الإدخال الثابتة للدعوة الفعالة | https://aclanthology.org/2023.findings-acl.533.pdf | سيتم تحميله لاحقًا! |
| Flacuna: أطلق العنان لقوة حل المشكلات في فيكونا باستخدام الضبط | https://arxiv.org/abs/2307.02053 | سيتم تحميله لاحقًا! |
| ربما تكون هناك حاجة فقط إلى 0.5 ٪ بيانات: استكشاف أولي لضبط تعليمات بيانات التدريب المنخفض | https://arxiv.org/abs/2305.09246 | سيتم تحميله لاحقًا! |
| أن تصبح بنية ذاتية: تقديم معايير التوقف المبكر للحد الأدنى من ضبط الأدوات | https://arxiv.org/abs/2307.03692 | سيتم تحميله لاحقًا! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| RLHF (التعلم التعزيز من ردود الفعل البشرية) | https://huggingface.co/blog/rlhf | https://cartinoe5930.tistory.com/entry/٪EC٪82٪AC٪EB٪9E٪8C٪9D٪98-٪ED٪94٪BC٪EB٪93٪9C٪B0٪B1٪9D٪84 -٪ ed ٪ 86 ٪ B5 ٪ ed ٪ 95 ٪ 9C- ٪ EA ٪ B0 ٪ 95 ٪ ED ٪ 99 ٪ 94 ٪ ED ٪ 95 ٪ 99 EC ٪ 8A ٪ B5-تعليم الإدارة الفائقة---Human-Feedback-RLHF |
| نماذج لغة جماعية حمراء مع نماذج اللغة | https://arxiv.org/abs/2202.03286 | https://cartinoe5930.tistory.com/entry/red-teaming-language-models-with-language-models-٪EB٪85٪BC٪EB٪B8-٪EB٪AC٪EB٪B7٪B0 |
| instructGPT: تدريب نماذج اللغة لمتابعة التعليمات مع التعليقات البشرية | https://arxiv.org/abs/2203.02155 | https://cartinoe5930.tistory.com/entry/instructgpt-training-language-to-follow-instructions-with-human-feedback-٪EB٪85٪BC٪EC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| تدريب مساعد مفيد وغير ضار مع التعلم التعزيز من ردود الفعل البشرية | https://arxiv.org/abs/2204.05862 | https://cartinoe5930.tistory.com/entry/training-a-helpful-and-harmless-esistant-with-reinforger-learning-from-human-feedback-٪EB٪85٪BC٪EB٪B8-٪EB٪AD٪EB٪B7٪B0 |
| ALPACAFARM: إطار محاكاة للطرق التي تتعلم من ردود الفعل البشرية | https://arxiv.org/abs/2305.14387 | سيتم تحميله لاحقًا! |
| تقريبا: محاذاة نماذج اللغة الكبيرة من خلال ردود الفعل الاصطناعية | https://arxiv.org/abs/2305.13735 | https://cartinoe5930.tistory.com/entry/aligning-large-language-models-through-synthetic-feedback-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪AC٪EB٪B7٪B0 |
| المشاكل المفتوحة والقيود الأساسية للتعلم التعزيز من ردود الفعل البشرية | https://arxiv.org/abs/2307.15217 | سيتم تحميله لاحقًا! |
| RLAIF: توسيع نطاق التعلم التعزيز من ردود الفعل البشرية مع ملاحظات الذكاء الاصطناعي | https://arxiv.org/abs/2309.00267 | لا خطة! |
| steerlm: السمة المكيفة SFT كبديل (قابل للتطبيق) لـ RLHF | https://arxiv.org/abs/2310.05344 | لا خطة! |
| HelpSteer: مجموعة بيانات المساعدة متعددة الجوزات لـ SteerLM | https://arxiv.org/abs/2311.09528 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| المحول: التعلم المعامل الفعال لـ NLP | https://arxiv.org/abs/1902.00751 | https://cartinoe5930.tistory.com/entry/٪EB٪8B٪B9٪8B٪A0٪EB٪8F٪84-Fine-tuning- ٪ ed ٪ 95 ٪ A0- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9e ٪ 88 ٪ EC ٪ 8A ٪ B5 ٪ EB ٪ 8B ٪ 88 EB ٪ 8B ٪ A4-with-peft- ٪ F0 ٪ 9F ٪ A4 ٪ 97 |
| صرف البادئة: تحسين المطالبات المستمرة للجيل | https://arxiv.org/abs/2101.00190 | https://cartinoe5930.tistory.com/entry/٪EB٪8B٪B9٪8B٪A0٪EB٪8F٪84-Fine-tuning- ٪ ed ٪ 95 ٪ A0- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9e ٪ 88 ٪ EC ٪ 8A ٪ B5 ٪ EB ٪ 8B ٪ 88 EB ٪ 8B ٪ A4-with-peft- ٪ F0 ٪ 9F ٪ A4 ٪ 97 |
| لورا: التكيف منخفض الرتبة لنماذج اللغة الكبيرة | https://arxiv.org/abs/2106.09685 | https://cartinoe5930.tistory.com/entry/٪EB٪8B٪B9٪8B٪A0٪EB٪8F٪84-Fine-tuning- ٪ ed ٪ 95 ٪ A0- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9e ٪ 88 ٪ EC ٪ 8A ٪ B5 ٪ EB ٪ 8B ٪ 88 EB ٪ 8B ٪ A4-with-peft- ٪ F0 ٪ 9F ٪ A4 ٪ 97 |
| نحو عرض موحد لتعلم النقل الموفرة للمعلمة | https://arxiv.org/abs/2110.04366 | سيتم تحميله لاحقًا! |
| Unipelt: إطار موحد لضبط نموذج اللغة الموفرة للمعلمة | https://arxiv.org/abs/2110.07577 | سيتم تحميله لاحقًا! |
| (ia)^3: صقل قليلة الكفاءة معلمة هو أفضل وأرخص من التعلم داخل السياق | https://arxiv.org/abs/2205.05638 | سيتم تحميله لاحقًا! |
| Qlora: صقل فعال من LLMs الكمية | https://arxiv.org/abs/2305.14314 | سيتم تحميله لاحقًا! |
| تكديس المزيد من الطبقات بشكل مختلف: التدريب عالي الرتبة من خلال التحديثات منخفضة الرتبة | https://arxiv.org/abs/2307.05695 | سيتم تحميله لاحقًا! |
| لورهوب: تعميم فعال في المهام عبر تكوين لورا الديناميكي | https://arxiv.org/abs/2307.13269 | سيتم تحميله لاحقًا! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| تعليمات التعليم: اختيار بيانات التعليمات عالي الجودة لنماذج اللغة الكبيرة | https://arxiv.org/abs/2307.06290 | لا خطة! |
| الصودا: تقطير الحوار على نطاق مليون | https://arxiv.org/abs/2212.10465 | لا خطة! |
| Mods: اختيار البيانات الموجهة للموديل لضبط التعليمات | https://arxiv.org/abs/2311.15653 | لا خطة! |
| ما وراء البيانات البشرية: توسيع نطاق التدريب الذاتي لحل المشكلات مع نماذج اللغة | https://arxiv.org/abs/2312.06585 | لا خطة! |
| Magicoder: رمز المصدر هو كل ما تحتاجه | https://arxiv.org/abs/2312.02120 | لا خطة! |
| المشفر: على نطاق واسع وضبط تعليمات محسّنة مع توليد البيانات المكررة | https://arxiv.org/abs/2312.14187 | لا خطة! |
| ما الذي يجعل بيانات جيدة للمحاذاة: دراسة شاملة لاختيار البيانات التلقائية في ضبط التعليمات | https://arxiv.org/abs/2312.15685 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| ما هي "الهندسة السريعة"؟ | انظر مدونتي! | https://cartinoe5930.tistory.com/entry/prompt-engineering٪9D٪B4-٪EB٪AC٪B4٪900٪87٪9D٪9D٪BC٪B9٪8C |
| COT: سلسلة من الفكر تثير التفكير في نماذج اللغة الكبيرة | المدونة: https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html ، ورقة: https://arxiv.org/abs/2201.11903 | https://cartinoe5930.tistory.com/entry/lm٪9d٪B4-٪82٪82٪EB٪EB٪9E٪8C٪B3٪BC-٪NEC٪AD٪82٪82٪AD٪95٪9C-٪83٪9D٪B000181-اج ٪ 9C ٪ EC ٪ 84 ٪ B8 ٪ EC ٪ 8A ٪ A4 ٪ EB ٪ A5 ٪ BC- ٪ EA ٪ B0 ٪ 80 ٪ EC ٪ A7 ٪ 80 ٪ B2 ٪ 8C- ٪ EB ٪ 90 9C ٪ 9C ٪ 8B ٪ A4 ٪ A9 EB ٪ EB ٪ eb ٪ eB ٪ eB ٪ eB ٪ eB ٪ eb ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ eb ٪ eB ٪ eb ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ eB ٪ |
| Zero-Shot Cot: نماذج لغة كبيرة هي أسباب صفرية | https://arxiv.org/abs/2205.11916 | https://cartinoe5930.tistory.com/entry/large-clanguage-models-are-zero-shot-reasoners-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪AC٪EB٪B 7٪B0 |
| نماذج اللغات هي أسباب متعددة اللغات في سلسلة الأفكار | https://arxiv.org/abs/2210.03057 | سيتم تحميله لاحقًا! |
| التلقائي: سلسلة تلقائية من الفكر تدفع في نماذج اللغة الكبيرة | https://arxiv.org/abs/2210.03493 | سيتم تحميله لاحقًا! |
| COT KD: تدريس نماذج اللغة الصغيرة للعقل | https://arxiv.org/abs/2212.08410 | سيتم تحميله لاحقًا! |
| TOT: شجرة الأفكار: حل المشكلات المتعمدة مع نماذج اللغة الكبيرة | https://arxiv.org/abs/2305.10601 | https://cartinoe5930.tistory.com/entry/tree-of-ithoughts-deliberty-problem-solving-with-large-language-models-٪EB٪85٪BC٪EC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| مجموعة COT: تحسين الصفر والتعلم القليلة من نماذج اللغة من خلال سلسلة من الفكرة الرقيقة | https://arxiv.org/abs/2305.14045 | https://cartinoe5930.tistory.com/entry/cot-collection-emproving-zero-shot-shot-spew-shot-learning-of-language-via-shain-f-of-fine tuning-٪EB٪85٪BC٪EB٪B8-٪EBطب |
| دعنا نتحقق من خطوة بخطوة | https://arxiv.org/abs/2305.20050 | https://cartinoe5930.tistory.com/entry/lets-everify-step-by-step-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪AC٪EB٪B7٪B0 |
| قياس الفتوة في سلسلة التفكير | https://arxiv.org/abs/2307.13702 | سيتم تحميله لاحقًا! |
| SOT: هيكل عظمي من الفكر: يمكن أن تقوم نماذج اللغة الكبيرة بفك التشفير الموازي | https://arxiv.org/abs/2307.15337 | سيتم تحميله لاحقًا! |
| الرسم البياني للأفكار: حل المشكلات التفصيلية مع نماذج اللغة الكبيرة | https://arxiv.org/abs/2308.09687 | سيتم تحميله لاحقًا! |
| من متناثر إلى كثيف: تلخيص GPT-4 مع سلسلة من الكثافة المطالبة | https://arxiv.org/abs/2309.04269 | لا خطة! |
| تقوم سلسلة التحسين بإنتاج الهلوسة في نماذج اللغة الكبيرة | https://arxiv.org/abs/2309.11495 | https://www.youtube.com/watch؟v=l0zfjwregog&pp=ygugahr0chm6ly9hcnhpdi5vcmcvywjzlzizmdkumte0otu٪3d |
| سلسلة التباين المفكر | https://arxiv.org/abs/2311.09277 | لا خطة! |
| موضوع الفكر يكشف عن سياقات الفوضى | https://arxiv.org/abs/2311.08734 | لا خطة! |
| انتباه النظام 2 (هو شيء قد تحتاجه أيضًا) | https://arxiv.org/abs/2311.11829 | لا خطة! |
| سلسلة التعليمات البرمجية: التفكير مع محاكي رمز تنشيط نموذج اللغة | https://arxiv.org/abs/2312.04474 | لا خطة! |
| عنوان الورق | ورق | مراجعة الورق |
|---|---|---|
| Flashattention: اهتمام سريع وفعال الذاكرة | https://arxiv.org/abs/2205.14135 | https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad |
| نمذجة لغة أسرع بشكل كبير | https://arxiv.org/abs/2311.10770 | لا خطة! |
| LLM في فلاش: استنتاج نموذج لغة كبير فعال مع ذاكرة محدودة | https://arxiv.org/abs/2312.11514 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| زيادة البيانات في NLP | المدونات: https://neptune.ai/blog/data-augmentation-nlp ، https://amitness.com/2020/05/data-augmentation-for-nlp/؟fbclid=iwar11mkcccti-2cd93ryftnphb7wxdj7alzg7nng4ehpabkmijkcbptdl1eo | https://cartinoe5930.tistory.com/entry/data-augmentation-methods-in-nlp |
| PET: استغلال أسئلة cloze لعدد قليل من تصنيف نص اللقطة واستدلال اللغة الطبيعية | https://arxiv.org/abs/2001.07676 | https://cartinoe5930.tistory.com/entry/pet-exploiting-cloze-questions-for-few-shot-text-classification-and natural-language-inference-٪EB٪85٪BC٪EB٪B8-٪EB٪AD٪EB٪B7٪B0 |
| مسارات | https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/ | https://cartinoe5930.tistory.com/entry/٪EB٪A7٪8C٪95٪BD-٪EB٪A00٪A8٪EB٪8D٪B8٪NEC٪9D٪B4-٪900٪AC٪EB٪9F٪AC-٪B0٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪90٪. B0 ٪ 81 ٪ EC ٪ 9D ٪ 84- ٪ EB ٪ 8A ٪ 90 ٪ EB ٪ 82 ٪ 84- ٪ EC ٪ 88 ٪ 98- ٪ EC ٪ 9E ٪ 88 EA ٪ B2 ٪ 8C-٪ EB ٪ 90 ٪ 9C ٪ EB ٪ 8B A4 ٪ EB ٪ A9 ٪ B4-PHATWAYS-EB ٪ A. |
| LMSI: نماذج لغة كبيرة يمكن أن تتولى الذات | https://arxiv.org/abs/2210.11610 | https://cartinoe5930.tistory.com/entry/lmsi-large-language-models-can-self-isprove-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AC٪EB٪B7٪B0 |
| البنية الذاتية: مواءمة نموذج اللغة مع تعليمات تم إنشاؤها ذاتيا | https://arxiv.org/abs/2212.10560 | https://cartinoe5930.tistory.com/entry/self-instruct-aligning-language-model-with-self--instructions-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| الانعكاس: وكلاء اللغة مع تعلم التعزيز اللفظي | https://arxiv.org/abs/2303.11366 | https://cartinoe5930.tistory.com/entry/reflexion-clanguage-agents-verbal-verbal-edinforced-learning-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪A6٪EB٪B7٪B0 |
| العكسي الذاتي: التحسين التكراري مع التراجع الذاتي | https://arxiv.org/abs/2303.17651 | https://cartinoe5930.tistory.com/entry/self-refine-iterative-refinement-with-self-feed-feedback-٪EB٪85٪BC٪EB٪AC٪B8-٪EB٪AD٪AC٪EB٪B7٪B0 |
| مصفاة: التفكير في التعليقات على التمثيلات الوسيطة | https://arxiv.org/abs/2304.01904 | لا خطة! |
| Selfee: التكرار المرجعية ذاتية LLM على تفسير من قبل توليد التغذية الذاتية | https://kaistai.github.io/selfee/ | https://cartinoe5930.tistory.com/entry/selfee-iterative-self-revising-llm-expowered-by-felf-feedback-generation-٪EB٪85٪BC٪EB٪B8-٪EB٪A6٪EB٪B7٪B0 |
| GQA: تدريب نماذج محولات متعددة المسارات معممة من نقاط التفتيش متعددة الرأس | https://arxiv.org/abs/2305.13245 | https://aliissa99.medium.com/-a596e4d86f79 |
| Shpherd: ناقد لتوليد نموذج اللغة | https://arxiv.org/abs/2308.04592 | سيتم تحميله لاحقًا! |
| التحالف الذاتي مع تعليمات الخلفية | https://arxiv.org/pdf/2308.06259 | سيتم تحميله لاحقًا! |
| البراغي: إطار معياري للتفكير مع المراجعات | https://arxiv.org/pdf/2309.13075 | لا خطة! |
| Neftune: تضمينات صاخبة تحسين التعليمات | https://arxiv.org/abs/2310.05914 | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-٪F0٪9F٪98٪89 |
| نماذج اللغة هي سوبر ماريو. امتصاص القدرات من النماذج المتماثلة كغداء مجاني | https://arxiv.org/abs/2311.03099 | لا خطة! |
| لوراموي: إحداث ثورة في مزيج من الخبراء للحفاظ على المعرفة العالمية في محاذاة نموذج اللغة | https://arxiv.org/abs/2312.09979 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| جيل من أجل الاسترجاع لمهام NLP كثيفة المعرفة | https://arxiv.org/abs/2005.11401 | لا خطة! |
| الرفق الذاتي: تعلم استرداد وتوليد ونقد من خلال التفكير الذاتي | https://arxiv.org/abs/2310.11511 | لا خطة! |
| instructretro: تعليمات توليف ما بعد الاسترجاع قبل الاسترجاع | https://arxiv.org/abs/2310.07713 | لا خطة! |
| جيل من أجل الاسترجاع لنماذج اللغة الكبيرة: دراسة استقصائية | https://arxiv.org/abs/2312.10997 | لا خطة! |
| عنوان الورق | رابط الموقع أو المرجعي | مراجعة الورق |
|---|---|---|
| من الصعب على المقعد الكبير: تحدي مهام كبيرة على المقعد وما إذا كانت سلسلة الأفكار يمكنها حل ثام | https://arxiv.org/abs/2210.09261 | سيتم تحميله لاحقًا! |
| نماذج اللغة الكبيرة ليست مُقيِّمًا عادلًا | https://arxiv.org/abs/2305.17926 | سيتم تحميله لاحقًا! |
| MT-BECK: الحكم LLM-AS-A-DUCK | https://arxiv.org/abs/2306.05685 | سيتم تحميله لاحقًا! |
| InstructEval: Towards Holistic Evaluation of Instruction-Tuned Large Language Models | https://arxiv.org/abs/2306.04757 | Will be uploaded later! |
| FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets | https://arxiv.org/abs/2307.10928 | Will be uploaded later! |
| GAIA: A Benchmark for General AI Assistants | https://arxiv.org/abs/2311.12983 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| A Length-Extrapolatable Transformer | https://arxiv.org/abs/2212.10554 | No plan! |
| Extending Context Window of Large Language Models via Positional Interpolation | https://arxiv.org/abs/2306.15595 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| LongNet: Scaling Transformers to 1,000,000,000 Tokens | https://arxiv.org/abs/2307.02486 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| Lost in the Middle: How Language Models Use Long Contexts | https://arxiv.org/abs/2307.03172 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| YaRN: Efficient Context Window Extension of Large Language Models | https://arxiv.org/abs/2309.00071 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Why can GPT learn in-context? | https://arxiv.org/abs/2212.10559 | https://cartinoe5930.tistory.com/entry/Why-can-GPT-learn-in-context-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Sparks of Artificial General Intelligence: Early experiments with GPT-4 | paper: https://arxiv.org/abs/2303.12712, youtube: https://www.youtube.com/watch?v=Mqg3aTGNxZ0 | https://cartinoe5930.tistory.com/entry/Sparks-of-Artificial-General-Intelligence-Early-experiments-with-GPT-4-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| The False Promise of Imitating Proprietary LLMs | https://arxiv.org/abs/2305.15717 | https://cartinoe5930.tistory.com/entry/%EA%B8%B0%EC%A1%B4-imitation-model%EC%9D%80-%EC%9E%98%EB%AA%BB-%ED%95%99%EC%8A%B5%EB%90%98%EA%B3%A0-%EC%9E%88%EB%8B%A4-%F0%9F%AB%A2-The-False-Promise-of-Imitating-Proprietary-L |
| TULU: How Far Can Camels Go? Exploring the State of Instructiopn Tuning on Open Resources | https://arxiv.org/abs/2306.04751 | Will be uploaded later! |
| How Is ChatGPT's Behavior Changing over Time? | https://arxiv.org/abs/2307.09009 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-%EC%84%B1%EB%8A%A5%EC%9D%B4-%EC%95%88-%EC%A2%8B%EC%95%84%EC%A7%80%EA%B3%A0-%EC%9E%88%EB%8B%A4%EA%B5%AC-%F0%9F%98%B2%F0%9F%98%B2 |
| Large Language Models Cannot Self-Correct Reasoning Yet | https://arxiv.org/abs/2310.01798 | |
| How Far Are Large Language Models from Agents with Theory-of-Mind | https://arxiv.org/pdf/2310.03051 | No plan! |
| Can LLMs Follow Simple Rules | https://arxiv.org/abs/2311.04235 | https://www.youtube.com/watch?v=CY6o43037OY |
| Camels in a Changing Climate; Enhancing LM Adaptation with Tulu 2 | https://arxiv.org/abs/2311.10702 | No plan! |
| ChatGPT's One-year Anniversary; Are Open-Source Large Language Models Catching up | https://arxiv.org/abs/2311.15653 | No plan! |
| An In-depth Look at Gemini's Language Abilities | https://arxiv.org/abs/2312.11444 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature | https://arxiv.org/abs/2301.11305 | https://cartinoe5930.tistory.com/entry/%EC%9D%B4-%EA%B8%80%EC%9D%B4-LM%EC%9D%B4-%EB%A7%8C%EB%93%A4%EC%96%B4%EB%82%B8-%EA%B8%80%EC%9D%BC%EA%B9%8C-%EB%8F%84%EC%99%80%EC%A4%98-DetectGPT-DetectGPT-Zero-Shot-Machine-Generated-Text-Detection-using-Probability-Curvature-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback | https://arxiv.org/abs/2302.12813 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-hallucination-%EC%96%B4%EB%96%BB%EA%B2%8C-%ED%95%B4%EA%B2%B0%ED%95%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-Check-Your-Facts-and-Try-Again-Improving-Large-Language-Models-with-External-Knowledge-and-Automated-Feedback |
| RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text | https://arxiv.org/abs/2305.13304 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%97%90-%EB%B0%98%EB%B3%B5-%EB%A9%94%EC%BB%A4%EB%8B%88%EC%A6%98LSTM%EC%9D%84-%EC%82%AC%EC%9A%A9%ED%95%9C%EB%8B%A4%EB%A9%B4-RecurrentGPT-Interactive-Generation-of-Arbitrarily-Long-Text-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Large Language Models as Tool Makers | https://arxiv.org/abs/2305.17126 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%B4-%EB%8F%84%EA%B5%AC%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B2%8C-%EB%90%9C%EB%8B%A4%EB%A9%B4-%F0%9F%94%AC-Large-Language-Models-as-Tool-Makers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion | https://arxiv.org/abs/2306.02561 | No plan! |
| تقطير المعرفة لنماذج اللغة الكبيرة | https://arxiv.org/abs/2306.08543 | https://cartinoe5930.tistory.com/entry/KD%EC%97%90-%EC%82%B4%EC%A7%9D%EC%9D%98-%EB%B3%80%ED%99%94%EB%A5%BC-%EC%A4%98%EB%B3%B4%EC%9E%90-%F0%9F%98%9C-Knowledge-Distillation-of-Large-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Scaling Relationship on Learning Mathematical Reasoning with Large Language Models | https://arxiv.org/abs/2308.01825 | Will be uploaded later! |
| ToolLLM: Facilitating Lare Language Models to Master 16000+ Real-World APIs | https://arxiv.org/abs/2307.16789 | Will be uploaded later! |
| SelfCheck: Using LLMs to Zero-shot Check Their Own Step-by-Step Reasoning | https://arxiv.org/abs/2308.00436 | Will be uploaded later! |
| Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification | https://arxiv.org/abs/2308.07921 | Will be uploaded later! |
| Large Language Models as Optimizers | https://arxiv.org/abs/2309.03409 | No plan! |
| FIAT: Fusing Learning Paradigms with Instruction-Accelerated Tuning | https://arxiv.org/abs/2309.04663 | https://www.youtube.com/watch?v=EZsZEcRDte0&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDQ2NjM%3D |
| Contrastive Decoding Improves Reasoning in Large Language Models | https://arxiv.org/abs/2309.09117 | https://www.youtube.com/watch?v=nMR56TkwC1Q&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDkxMTc%3D |
| Think before you speak: Training Language Models with Pause Tokens | https://arxiv.org/abs/2310.02226 | https://www.youtube.com/watch?v=MtJ1jacr_yI |
| Large Language Models Can Learn Rules | https://arxiv.org/abs/2310.07064 | No plan! |
| In-context Pretraining: Language Modeling Beyond Document Boundaries | https://arxiv.org/abs/2310.10638 | https://www.youtube.com/watch?v=GI-0lAaILrU |
| Learning From Mistakes Makes LLM Better Reasoner | https://arxiv.org/abs/2310.20689 | No plan! |
| Language Models can be Logical Solvers | https://arxiv.org/abs/2311.06158 | No plan! |
| MART: Improving LLM Safety with Multi-round Automatic Red-Teaming | https://arxiv.org/abs/2311.07689 | No plan! |
| Fine-tuning Language Models for Factuality | https://arxiv.org/abs/2311.08401 | No plan! |
| Positional Description Matters for Transformers Arithmetic | https://arxiv.org/abs/2311.14737 | No plan! |
| Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision | https://arxiv.org/abs/2312.09390 | https://openai.com/research/weak-to-strong-generalization |
| TinyGSM: achieving higher than 80 percentage on GSM8k with small language models | https://arxiv.org/abs/2312.09241 | No plan! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Morpheme-aware Subword Tokenizer: An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks | https://arxiv.org/abs/2010.02534 | Will be uploaded later! |
| What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers | https://arxiv.org/abs/2109.04650 | Will be uploaded later! |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| history of CNN | LeNet, AlexNet, VGGNet, GoogLeNet, ResNet, ResNeXt, Sception, Mobilenet, DenseNet, EfficientNet, ConvNext | https://cartinoe5930.tistory.com/entry/CNN-network%EC%9D%98-%EC%97%AD%EC%82%AC |
| ViT: An Image Worth 16 x 16 Words: Transformers for Image Recognition at Scale | https://arxiv.org/abs/2010.11929 | https://cartinoe5930.tistory.com/entry/ViT-An-Image-Worth-16-x-16-Words-Transformers-for-Image-Recognition-at-Scale |
| Swin Transformer: Hierarchical Vision Transformer using Shifted Winodws | https://arxiv.org/abs/2103.14030 | https://cartinoe5930.tistory.com/entry/Swin-Transformer-Hierarchical-Vision-Transformer-using-Shifted-Windows-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| CLIP: Learning Transferable Visual Models From Natural Language Supervision | https://arxiv.org/abs/2103.00020 | https://cartinoe5930.tistory.com/entry/CLIP-Learning-Transferable-Visual-Models-From-Natural-Language-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Paper Title | Paper or reference site Link | Paper Review |
|---|---|---|
| Let's learn about VLM(Visual-Language Model) | https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-in-%F0%9F%A4%97-transformers | https://cartinoe5930.tistory.com/entry/VLMVision-Language-Model%EC%97%90-%EB%8C%80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90 |
| VisualBERT: A simple and Performant Baseline for Vision and Language | https://arxiv.org/abs/1908.03557 | https://cartinoe5930.tistory.com/entry/VisualBERT-A-Simple-and-Performant-Baseline-for-Vision-and-Language-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLBERT: Pre-training Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks | https://arxiv.org/abs/1908.02265 | https://cartinoe5930.tistory.com/entry/ViLBERT-Pretraining-Task-Agnostic-Visiolinguistic-Representations-for-Visual-and-Language-Tasks |
| LXMERT: Learning Cross-Modality Encoder Representations from Transformers | https://arxiv.org/abs/1908.07490 | https://cartinoe5930.tistory.com/entry/LXMERT-Learning-Cross-Modality-Encoder-Representations-from-Transformers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VL-BERT: Pre-training of Generic Visual-Linguistic Representations | https://arxiv.org/abs/1908.08530 | https://cartinoe5930.tistory.com/entry/VL-BERT-Pre-training-of-Generic-Visual-Linguistic-Representations-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLP: Unified Vision-Language Pre-Training for Image Captioning and VQA | https://arxiv.org/abs/1909.11059 | https://cartinoe5930.tistory.com/entry/VLP-Unified-Vision-Language-Pre-Traning-for-Image-Captioning-and-VQA-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks | https://arxiv.org/abs/2004.06165 | https://cartinoe5930.tistory.com/entry/Oscar-Object-Semantics-Aligned-Pre-training-for-Vision-Language-Tasks-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VinVL: Revisiting Visual Representations in Vision-Language Models | https://arxiv.org/abs/2101.00529 | https://cartinoe5930.tistory.com/entry/VinVL-Revisiting-Visual-Representations-in-Vision-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision | https://arxiv.org/abs/2102.03334 | https://cartinoe5930.tistory.com/entry/ViLT-Vision-and-Language-Transformer-Without-Convolution-or-Region-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision | https://arxiv.org/abs/2102.05918 | https://cartinoe5930.tistory.com/entry/ALIGN-Scaling-up-Visual-and-Vision-Language-Representation-with-Noisy-Text-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALBEF: Vision and Language Representation Learning with Momentum Distillation | https://arxiv.org/abs/2107.07651 | https://cartinoe5930.tistory.com/entry/ALBEF-Vision-and-Language-Representation-Learning-with-Momentum-Distillation-%EB%85%BC%EB%AC%B8 |
| SimVLM: Simple Visual Language Model Pretraining with Weak Supervision | https://arxiv.org/abs/2108.10904 | https://cartinoe5930.tistory.com/entry/SimVLM-Simple-Visual-Language-Model-Pre-training-with-Weak-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLMo: Unified Vision-Language Pre-training with Mixture-of-Modality-Experts | https://arxiv.org/abs/2111.02358 | https://cartinoe5930.tistory.com/entry/VLMo-Unified-Vision-Language-Pre-training-with-Mixture-of-Modality-Experts-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LiT : Zero-Shot Transfer with Locked-image text Tuning | https://arxiv.org/abs/2111.07991 | https://cartinoe5930.tistory.com/entry/LiT%F0%9F%94%A5-Zero-Shot-Transfer-with-Locked-image-text-Tuning-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| FLAVA: A Foundational Language And Vision Alignment Model | https://arxiv.org/abs/2112.04482 | https://cartinoe5930.tistory.com/entry/FLAVA-A-Foundational-Language-And-Vision-Alignment-Model-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation | https://arxiv.org/abs/2201.12086 | https://cartinoe5930.tistory.com/entry/BLIP-Bootstrapping-Language-Image-Pre-training-fro-Unified-Vision-Language-Understanding-and-Generation-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Paper or Posting Title | reference site Link | مراجعة |
|---|---|---|
| Knowledge Distillation: Distilling the Knowledge in a Neural Network | https://arxiv.org/abs/1503.02531 | https://cartinoe5930.tistory.com/entry/Distilling-the-Knowledge-in-a-Neural-Network-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| What is Zero-shot, One-shot, Few-shot Learning? | see my blog! | https://cartinoe5930.tistory.com/entry/Zero-shot-One-shot-Few-shot-Learning%EC%9D%B4-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C |