Deep Learning Paper
1.0.0
Ich habe diese Papiere gelesen, die mit NLP und Deep Learning zusammenhängen. Hier sind verschiedene Papiere von Basic bis Advanced. ? Darüber hinaus können Sie meine koreanischen Papierbewertungen überprüfen, indem Sie auf den an die Tabelle angehängten Link klicken.
In meinem Blog können Sie mehr Papierbewertungen, Code-Implementierung und Mathematikbeschreibungen sehen.
Ich schreibe mehrere Artikel, um einige tiefe Lerntechnologien ausführlich zu erklären. Diese Artikel finden Sie in der folgenden Tabelle.
| Titel | Blog -Link |
|---|---|
| Wie hat sich das Skalierungsrecht in NLP entwickelt? ? | https://cartinoe5930.tistory.com/entry/how-has-scaling-law-developed-in-nlp-%f0%9f%A4%94-nlp%ec%97%90%EC%84 %9c-scaling-Law%EB%8A%94-%EC%96%B4%EB%96%BB%EA%B2%8c-%EB%B0%9C%%%A0%84%EB%90%98%EC%97%8%%%84%Eb9%8c |
| Closed-Source? Open-Source? Was ist das?? ? | https://cartinoe5930.tistory.com/entry/the-hopes-of-researchers-open-source-%f0%9f%A4%97- %EC%97%B0%EA%B5%AC%%EC%9E%90%EB%93%A4%EC%9d%98-%ED%9D%AC%EB%A7%9D-Open-Source-%F0%9f%A4%97 |
| Kontextfenster von LM, sollte es lang sein? Sollte es kurz sein? ? | https://cartinoe5930.tistory.com/entry/lm%EC%9d%98-context-window-%a%b8%b8%96%B4%EC%95%B C-%ED%95%A0%EA%B9%8c-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8c-%F0%9f%93%8f%F0%9f%A4%A8 |
| Was ist der optimalste Weg, um LM zu bewerten? ? | https://cartinoe5930.tistory.com/entry/lm%ec%9d%84-%a%B0%80%EC%9E%A5-%EC%9C%EC%A0%81%EC%9C%B%AP%9C-%8F%89%89%89%89%89%89%89%89%89%89%8 ]%89%89%89%8 9%8 ]%8 9%8] B0%80%ED%95%A0-%EC%88%98-%EC%9E%88%EB%8A%94-%EB%B0%A9%EB%B2%95%EC%9D%80-%EB%EB%EB%%%%%%%%%%%%Ig%8%%8%%%%%%%%8.%8%%%%%%8%%%%%%%%ig%Eag%EAGS |
| Die Leistung von Chatgpt wird schlechter?!?!? ? | https://cartinoe5930.tistory.com/entry/chatgpt%EC%9d%98-%ec%84%B1%AB%8A%A5%EC%9D%B4-%EC%95% 88-%EC%A2%8B%EC%95%84%EC%A7%80%EA%B3%A0-%EC%9E%88%EB%8B%A4%EA%B5%AC-%F0%9f%98%B2%F0%9f%98%B2 |
| Sie können auch gut abschneiden! mit Peft? | https://cartinoe5930.tistory.com/entry/%eB%8B%B9%EC%8B%A0%AB%8F%84-FINE-TUNINING- %Ed%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-PEFT-%F0%9f%A4%97 |
| Denken wir Schritt für Schritt wie Menschen nach! ? | https://cartinoe5930.tistory.com/entry/%ed%95%9c-%eeb%8b%A8%a%b3%84-%d%95%9c-%eb%8b%A8%aB3%8 16%94%A9- %EC%9D%B8%EA%B0%84%EC%B2%98%EB%9F%BC-%EC%83%9D%EA%B0%81%ED%95%B4%EB%B3%B4%EC%9E%90-%F0%9F%A7%A0%F0%9F%A4%94 |
| Entwicklungsprozess der Feinabstimmungsmethode !! Von Feinabstimmungen bis RLHF? ➡️? | https://cartinoe5930.tistory.com/entry/fine-tuning-method%EC%9d%98-%EC%A7%84% |
| Es ist Zeit, Chatgpt zu optimieren !! ⏰ | https://cartinoe5930.tistory.com/entry/%EC%9d%B4%EC%9C%AB%8A%94-Chatgpt%AB%A5%BC-Fine-Tuning-%95%A0-%8b%9c%b0%84-%8f] |
| Lärm macht LLM besser! - Neftune | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-%f0%9f%98%89 |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Einbettungsmatrix | https://wikidocs.net/book/2155 | https://cartinoe5930.tistory.com/entry/embedding-matrix-%ed%95%99%EC%8A%B5 |
| LSTM: Long-Short Term Memory | https://colah.github.io/posts/2015-08-VERSTANDIGNE-LSTMS/ | https://cartinoe5930.tistory.com/entry/%EC%95%8C%A%B8%B0-%EC%89%BD%AB2%8C-LSTM-NETWORKKS-%EC%9D%B4%D%95%B4%95%98%B8%B8%B0 .b0 |
| Gru: Lernphrase-Darstellungen unter Verwendung des RNN-Encoder-Decoders für die statistische maschinelle Übersetzung | https://arxiv.org/abs/1406.1078 | https://cartinoe5930.tistory.com/entry/gru-empirical-evaluations-of-gated-recurrent-neural-networks-on-quence-modeling-%eeb%85%bc%eB%AC%B8-%AB%AC%AB%B7%B0 |
| LSTM vs. Gru: Empirische Bewertung von wiederkehrenden wiederkehrenden neuronalen Netzwerken zur Sequenzmodellierung | https://arxiv.org/abs/1412.3555 | https://cartinoe5930.tistory.com/entry/lstm-vs---Bru-%Ab%90%EEA%B0%80-%B%8D%94-%AB%82%98%EC%9D%84%B9%8C-emp IRICAL-EVALIERUNG VON GATTER ACKURRENT-NEURAL-NETWORKS-ON-SEQUENCE-MODELING-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Transformator: Aufmerksamkeit ist alles, was Sie brauchen | https://arxiv.org/abs/1706.03762 | https://cartinoe5930.tistory.com/entry/transformer-attention-all-all-you-need-%EB%85%BC%AB%AC%B8-%AB%A6%AC%AB%B7%B0 |
| ELMO: Tiefe kontextualisierte Wortdarstellungen | https://arxiv.org/abs/1802.05365 | https://cartinoe5930.tistory.com/entry/pre-trained-language-modeling-paper-reading1-elmo-yep-contextualisierte-repräsentationen |
| Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für das Sprachverständnis | https://arxiv.org/abs/1810.04805 | https://cartinoe5930.tistory.com/entry/pre-trained-language-modeling-paper-reading2-tbert-pre-training-of-pidirectional-transformers-forder-language-verstanding |
| GPT-1: Verbesserung des Sprachverständnisse | https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/slanguage-unsupervised/glanguage_undinging_paper.pdf | https://cartinoe5930.tistory.com/entry/pre-trained-language-modeling-paper-reading3-gpt-1-improving-language-verstanding- by generative-pre-training |
| GPT-2: Sprachmodelle sind unbeaufsichtigte Multitasking-Lernende | https://d4mucfpkSywv.cloudfront.net/better-language-models/slanguage_models_are_unsupervised_multitask_learners.pdf | https://cartinoe5930.tistory.com/entry/gpt-2-language-models-are-unsupervised-multitask-learners-%eeb%85%bc%Ab%AC%B8-%AB%A6%AB%B7%B0 |
| GPT-3: Sprachmodelle sind nur wenige Schusslerner | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-%eb%8%bc%eB%AC%B8-%AB%A6%AC%EB%B7%B0 | https://cartinoe5930.tistory.com/entry/gpt-3-language-models-are-few-shot-learners-%eb%8%bc%eB%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Transformator-XL: aufmerksame Sprachmodelle über einen Kontext mit fester Länge hinaus | https://arxiv.org/abs/1901.02860 | https://cartinoe5930.tistory.com/entry/transformer-xl-attentive-language-models-beyond-a-fixed-length-context-%eB%85%BC%EB%AC%B8-%AB%AC%AB%B7%B0 |
| Spärliche Transformatoren: Erzeugen Sie lange Sequenzen mit spärlichen Transformatoren | https://arxiv.org/abs/1904.10509 | https://cartinoe5930.tistory.com/entry/sparse-transformers-generating-long-sequence-with-sparse-transformers-%eB%85%Bc%EB%AC%B8-%AB%A6%AB%B7%B0 |
| XLNET: Verallgemeinerte autoregressive Vorbereitung für das Sprachverständnis | https://arxiv.org/abs/1906.08237 | https://cartinoe5930.tistory.com/entry/xlnet-generalisierte-autoregressive-praction-for-language-verstanding-%eB%85%Bc%EB%AC%B8-%AB%A6%AB%B7%B0 |
| Spanbert: Verbesserung der Vorausbildung durch Vertretung und Vorhersage von Spannweiten | https://arxiv.org/abs/1907.10529 | https://cartinoe5930.tistory.com/entry/spanbert-imprecting-pre-training-by-Repesenting-and-Predicting-Spans-%eB%85%Bc%AC%AC%B8-%AB%A6%AB%B7%B0 |
| Roberta: Ein robust optimierter Bert Pre-Training-Ansatz | https://arxiv.org/abs/1907.11692 | https://cartinoe5930.tistory.com/entry/roberta-a-robustly-optimized-praetraining-approach-%eb%85%bc%eB%AC%B8-%AB%A6%AC%AB%B7%B0 |
| Satzbert: Satz Einbettungen mit siamesischer Bert-Networks | https://arxiv.org/abs/1908.10084 | https://cartinoe5930.tistory.com/entry/sentence-tbert-ssence-embeddings-using-siamese-tbert-networks-%eB%85%Bc%EB%AC%B8-%AB%A6%AB%B7%B0 |
| Albert: Ein Lite Bert für das selbstbewertete Lernen von Sprachdarstellungen | https://arxiv.org/abs/1909.11942 | https://cartinoe5930.tistory.com/entry/albert-a-lite-tbert-for-supervised-learning-of-language-Representations-%AB%85%BC%AB%AC%B8-%AB%AC%AB%B7%B0 |
| BART: Denoising Sequenz-zu-Sequenz-Vorausbildung für die Erzeugung, Übersetzung und das Verständnis der natürlichen Sprache | https://arxiv.org/abs/1910.13461 | https://cartinoe5930.tistory.com/entry/bart-denoising-sequence-t-sequence-pre-training-for-natural-language-generation-translation-and-compredesion-%eB%B%85%BC%EB%AC%B8-%AB%AC%AB%B7%B0 |
| PRE-LN-Transformator: Bei der Normalisierung der Schicht in der Transformatorarchitektur | https://arxiv.org/abs/2002.04745 | https://cartinoe5930.tistory.com/entry/pre-ln-transformer-on-layer-normalisation-in-the-transformer-architecture-%eeb%8 15%bc%eB%AC%B8-%EB%A6%AB%B7%B0 |
| Electra: Textcodierer vor dem Training eher als Diskriminatoren als als Generatoren | https://arxiv.org/abs/2003.10555 | https://cartinoe5930.tistory.com/entry/electra-pre-training-text-coder-ascriminators-rather- than-generatoren |
| Longformer: Der Langdokumentwandler | https://arxiv.org/abs/2004.05150 | https://cartinoe5930.tistory.com/entry/longformer-the-long-document-transformer-%eB%85%BC%AB%AC%B8-%EB%A6%AC%AB%B7%B0 |
| Bigbird: Transformatoren für längere Sequenzen | https://arxiv.org/abs/2007.14062 | https://cartinoe5930.tistory.com/entry/bigbird-transformers-for-longer-sequences-%EB%85%BC%AB%AC%B8-%EB%A6%AC%AB%B7%B0 |
| WebGPT: Browser-unterstützte Fragen-Beantwortung mit menschlichem Feedback | https://arxiv.org/abs/2112.09332 | https://cartinoe5930.tistory.com/entry/webgpt-browser-assisted-question-answering-with-human-feedback-%eb%bc%eB%AC%B8-%AB%A6%AB%B7%B0 |
| OPT: Öffnen Sie Vorausgebläer-Transformatorsprachmodelle | https://arxiv.org/abs/2205.01068 | https://cartinoe5930.tistory.com/entry/opt-open-pre-transformer-language-models-%eeb%85%bc%eb%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Mamba: Modellierung der linearen Zeitsequenz mit selektiven Zustandsräumen | https://arxiv.org/abs/2312.00752 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Tinybert: Bert für das Verständnis der natürlichen Sprache destillieren | https://arxiv.org/abs/1909.10351 | https://cartinoe5930.tistory.com/entry/tinybert-distilling-tber-for-natural-language-verstanding-%eeb%85%bc%eB%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Distilbert: Eine destillierte Version von Bert | https://arxiv.org/abs/1910.01108 | https://cartinoe5930.tistory.com/entry/distilbert-a-distillieren-versions-of-tbert-smaler-faster-chaper-and- & leichter-%eb%bc%eb%Ab%AC%B8-%EB%A6%AB%B7%B0 |
| Es ist nicht nur die Größe, die zählt: Kleinsprachenmodelle sind auch nur wenige Lernende (PET 응용) | https://arxiv.org/abs/2009.07118 | https://cartinoe5930.tistory.com/entry/its-not-just-ssize-that-matters-small-language-models-are-also-few-shot-Learners-%eB%85%BC%AB%AC%B8-%AB%AC%AB%B7%B0 |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Chinchilla: Training rechenoptimal großer Sprachmodelle | https://arxiv.org/abs/2203.15556 | https://cartinoe5930.tistory.com/entry/%EC%A7%80%A%B8%88-%AB9%8C%EC%A7%80%E C%9d%98-lm-Scaling-Gesetz%EC%97%90%EB%8A%94-%EB%AC%B8%EC%A0%%%EC%A0%90%EC%9d%B4- %EC%9E%88%EB%8B%A4-%F0%9F%98%B6%E2%80%8D%F0%9F%8C%AB%EF%B8%8F-Chinchilla-Training-Compute-Optimal-Large-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Pythien: Eine Suite zur Analyse von großsprachigen Modellen im Training und der Skalierung | https://arxiv.org/abs/2304.01373 | Kein Plan! |
| Lima: Weniger ist mehr für die Ausrichtung | https://arxiv.org/abs/2305.11206 | https://cartinoe5930.tistory.com/entry/lima-less-is-more-for-alignment-%eeb%ebc%eB%AC%B8-%AB%A6%AC%AB%B7%B0 |
| LAMA: Offene und effiziente Foundation -Sprachmodelle | https://arxiv.org/abs/2302.13971 | https://cartinoe5930.tistory.com/entry/llama-open-and-effound-foundation-language-models-%eb%85%bc%eB%AC%B8-%AB%A6%AC%AB%B7%B0 |
| WizardLM: Ermächtigung großer Sprachmodelle, komplexe Anweisungen zu befolgen | https://arxiv.org/abs/2304.12244 | https://cartinoe5930.tistory.com/entry/open-domain-instruction%ec%9d%98-%ed%9a%A8%a%b3%bc-%f0%9f%aa%84-wiz ARDLM-Empowering-Large-Sprache-Modelle zu Follow-Komplex-Anträglichkeiten-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| WizardCoder: Ermächtigung des Code Großsprachenmodelle mit EVOL-Instruction | https://arxiv.org/abs/2306.08568 | https://huggingface.co/wizardlm/wizardcoder-15b-v1.0 |
| Wizardmath: Ermächtigung mathematischer Argumentation für Großsprachenmodelle durch verstärkte Evol-Struktur | https://arxiv.org/abs/2308.09583 | https://huggingface.co/wizardlm/wizardmath-70b-v1.0 |
| ALPACA: Ein starkes, reproduzierbares Anweisungsmodell | https://crfm.stanford.edu/2023/03/13/alpaca.html | https://cartinoe5930.tistory.com/entry/alpaca-a-Strong-replyable-instruction-following-model-%EB%A6%AC%AB%B7%B0 |
| Vicuna: Ein Open-Source-Chatbot, der GPT-4 beeindruckt | https://lmsys.org/blog/2023-03-30-vicuna/ | https://cartinoe5930.tistory.com/entry/vicuna-an-open-source-chatbot-impress-gpt-4-%EB%A6%AC%AB%B7%B0 |
| Koala: Ein Dialogmodell für die akademische Forschung | https://bair.berkeley.edu/blog/2023/04/03/koala/ | https://cartinoe5930.tistory.com/entry/%EC%A4%91%9A%94%ED%95%9C-%AB1%B4-%A%BE%EC%9D%B4%EC %A7%80-%EC%95%8A%EB%8A%94-Hoch-Qualität-Data-Koala%F0%9f%90%A8-A-Dialogue-Model-for-Academic-Researc |
| Baize: Ein Open-Source-Chat-Modell mit parametereffizientem Abtauchen auf Selbstversorgungsdaten | https://arxiv.org/abs/2304.01196 | https://cartinoe5930.tistory.com/entry/%f0%9f%90%b2baize-an-open-source-chat-model-with-parameter-effizientes Tuning-on-self-chata-data-%Ab%Bc%AB%AC%B8-%AB%AB%AB7 |
| Skalierung von datenbeschränkten Sprachmodellen | https://arxiv.org/abs/2305.16264 | https://www.youtube.com/watch?v=tk0-sitkcmw&pp=ygugahr0ChM6ly9HCNHPDI5VCMCVYWJZIZMDUUMYYNJQ%3D |
| Falcon & Raffinedweb | https://arxiv.org/abs/2306.01116 | https://cartinoe5930.tistory.com/entry/open-llm-leaderboard%AB%A5%BC-%D%9C%A9%EC%93%B4-FALCON%F0%9F%A6%85-lm-falcon-refinedweb |
| ORCA: Progressives Lernen aus komplexen Erklärungsspuren von GPT-4 | https://arxiv.org/pdf/2306.02707 | https://cartinoe5930.tistory.com/entry/%f0%9f%90%Acorca-progressive-Learning-FROM-Complex- Explanation-Traces-of-Gpt-4-%eB%85%BC%AB%AC%AB%AC%AB%B7%B7%B0B0 |
| PHI-1: Lehrbücher sind alles, was Sie brauchen | https://arxiv.org/abs/2306.11644 | https://cartinoe5930.tistory.com/entry/%ED%95%84%EC%9A%94%ED%95%9C-%EA%B1%B4-%EC%98%A4%EC%A7%81-%EA%B5%90%EA%B3%BC%EC%84%9C-%EC%88%98%EC %A4%80%EC%9d%98-%EB%8d%B0%EC%9d%B4%ED%84%B0%EB%BF%90-%F0%9f%93%96-Phi-1-TEXTBOOKS-ARE-you-n |
| Alpagasus: Training ein besseres Alpaka mit weniger Daten | https://arxiv.org/abs/2307.08701 | Wird später hochgeladen! |
| LAMA 2: Open Foundation und Feinabstimmung Chat-Modelle | https://arxiv.org/abs/2307.09288 | https://cartinoe5930.tistory.com/entry/the-hopes-of-researchers-open-source-%f0%9f%A4%97- %EC%97%B0%EA%B5%AC%%EC%9E%90%EB%93%A4%EC%9d%98-%ED%9D%AC%EB%A7%9D-Open-Source-%F0%9f%A4%97 |
| Platypus: Schnell, billig und starke Verfeinerung von LLMs | https://arxiv.org/abs/2308.07317 | Wird später hochgeladen! |
| Code LLAMA: Open Foundation -Modelle für Code offen | https://arxiv.org/abs/2308.12950 | Kein Plan |
| FLM-101B: Ein offenes LLM und wie man es mit einem Budget von 100.000 USD trainiert | https://arxiv.org/pdf/2309.03852 | Kein Plan! |
| Lehrbücher sind alles, was Sie brauchen II: PHI-1.5 Technischer Bericht | https://arxiv.org/abs/2309.05463 | https://huggingface.co/microsoft/phi-1_5 |
| OpenChat: Weiterentwickeln von Open-Source-Sprachmodellen mit Daten mit gemischter Qualität | https://arxiv.org/abs/2309.11235 | https://github.com/imoneoi/openchat |
| Mistral 7b | https://arxiv.org/abs/2310.06825 | https://mistal.ai/news/announcing-mistal-7b/ |
| Prometheus: Induzieren feinkörniger Bewertungsfähigkeit in Sprachmodellen | https://arxiv.org/abs/2310.08491 | https://huggingface.co/papers/2310.08491#652a8e7f30355Ba68c1be6 |
| Zephyr: Direktdestillation der LM -Ausrichtung | https://arxiv.org/abs/2310.16944 | https://www.youtube.com/watch?v=tkzbg3mksio |
| ORCA2: Unterrichten kleiner Sprachmodelle, wie man argumentiert | https://arxiv.org/abs/2311.11045 | https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small-language-models-how-to-resto |
| Die Falcon -Reihe offener Sprachmodelle | https://arxiv.org/abs/2311.16867 | Kein Plan! |
| Solar 10.7b: Skalierung großer Sprachmodelle mit einfacher, aber effektiver Tiefe Up-Scaling | https://arxiv.org/abs/2312.15166 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| LAMDA: Sprachmodelle für Dialoganwendungen | Blog: https://ai.googleblog.com/2022/01/lamda-towards-safe-curgeed-and-high.html, Papier: https://arxiv.org/abs/2201.08239 | https://cartinoe5930.tistory.com/entry/%EEA%B5%AC%AB8%80%EC%9D%98-%EC%9C%EEA%B0%95-%EC%B1%97%AB%B4%87-lamda%97%97%90-%90-%90- Alles %80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90-Sprache-Modelle-für-Dialog-Anwendungen-%%EB%85%BC%EB%AC%%%Eb%A6%AC%EB%B7%B0 |
| Palm: Skalierung der Sprachmodellierung mit Wegen | Blog: https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html, Papier: https://arxiv.org/abs/2204.02311 | 1: https://cartinoe5930.tistory.com/entry/lamda%EC%9d%98-%eB%92%A4%AB%A5%BC-%9E%87%AB%8A%94-PATHWAYS%ABC-%ED%ED%ED%. 99%9c%EC%9A%A9%ED%95%9c-%EC%B4%88%EA%B1%B0%EB%8C%80-%EC%96%%EC%96%B4-%EB%AA%A8%B7%B0, IB%EB%A6%EB%EB%EB%EB%B7%B7%B0, IB%A6%EB%EB%EB%B7%B7%B0, 6%%i6%EB%EB%EB%B7%B0, 6%%%EB%EB%EB%B7%B0, 6%%%EB%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%ib%b7%b0, 2: https://cartinoe5930.tistory.com/entry/lamda%EC%9d%98-%eB%92%A4%AB%A5%BC-%9E%87%AB%8A%94-PATHWAYS%AVC-%EC% 82%AC%EC%9A%A9%ED%95%9C-%EC%B4%88%EA%B1%B0%EB%8C%80-%EC%96%B8%EC%96%B4-%EB%AA%A8%EB 8D%%%EB%EB%EB%EB%B7%B7%B7%B7%B7%%ib%EB%EB%B7%B02 |
| GPT-4: Technische Bewertung | Blog: https://openai.com/research/gpt-4, Papier: https://arxiv.org/abs/2303.08774 | https://cartinoe5930.tistory.com/entry/gpt-4-techinal-report-review |
| Gemini: Eine Familie hochwertiger multimodaler Modelle | https://arxiv.org/abs/2312.11805 | Kein Plan! |
| Alphacode 2 Technischer Bericht | https://storage.googleapis.com/deepmind-media/alphacode2/alphacode2_tech_report.pdf | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Flan: Feinabstimmige Sprachmodelle sind Null-Shot-Lernende | https://arxiv.org/abs/2109.01652 | https://cartinoe5930.tistory.com/entry/flan-fine-tuned-language-models-are-zero-shot-learners-%eb%85%bc%eb%AC%B8-%AB%A6%AC%B%B7%B0 |
| T0: Multitaskaned Training ermöglicht die Verallgemeinerung der Aufgabe der Null-Shot-Aufgabe | https://arxiv.org/abs/2110.08207 | https://cartinoe5930.tistory.com/entry/t0-multitask-Prompted-training-enables-dero-shot-task-Generalisierung-%AB%85%Bc%AB%AC%B8-%AB%A6%AB%B7%B0 |
| Super natürliche Anweisungen: Verallgemeinerung durch deklarative Anweisungen zu über 1600 NLP-Aufgaben | https://arxiv.org/abs/2204.07705 | https://cartinoe5930.tistory.com/entry/super-natural-instructions-Generalisierung-via-declarative-instructionss-on-1600-nlp-tasks-%eB%85%BC%AB%AC%AB%AC%AB%B7%B0B0 |
| Unnatürliche Anweisungen: Sprachmodelle mit (fast) nicht menschlicher Arbeit abstellen | https://arxiv.org/abs/2212.09689 | Wird später hochgeladen! |
| Ratet der Anweisung! Durch geflipptes Lernen werden Sprachmodelle stärker Null-Shot-Lerner | https://arxiv.org/abs/2210.02969 | https://cartinoe5930.tistory.com/entry/guess-the-instruction-flipped-learning-makes-language-models-stonger-zero-shot-Learners-%eB%85%BC%eB%AC%B8-%AB%AC%AB%B7%B0 |
| Skalierung von Sprachmodellen mit Anweisungen | https://arxiv.org/abs/2210.11416 | https://cartinoe5930.tistory.com/entry/scaling-instruction-finetuned-language-models-%eB%85%Bc%AC%B8-%AB%A6%AC%AB%B7%B0 |
| Erforschen der Vorteile von Ausbildungsexperten -Sprachmodellen für die Unterrichtsstimmung | https://arxiv.org/abs/2302.03202 | https://cartinoe5930.tistory.com/entry/exploring-the-benefits-of-training-expert-language-models-over-instruction-tuning-%eB%85%BC%EB%AC%B8-%AB%AC%AB%B7%B0 |
| ICIL: In-Kontext-Anweisungslernen | https://arxiv.org/abs/2302.14691 | https://cartinoe5930.tistory.com/entry/icil-in-context-instruction-learning-%EB%85%BC%EB%AC%B8-%AB%A6%AC%AB%B7%B0 |
| Anweisung Tuning mit GPT-4 | https://arxiv.org/abs/2304.03277 | https://cartinoe5930.tistory.com/entry/instruction-tuning-with-gpt-4-%EB%85%BC%EB%AC%B8-%AB%AC%AB%B7%B0 |
| FIP: Festeingangsparameterisierung für eine effiziente Aufforderung | https://aclanthology.org/2023.findings-acl.533.pdf | Wird später hochgeladen! |
| Flacuna: Entfesseln Sie die Problemlösungskraft von Vicuna mit Flan-Feinabstimmung | https://arxiv.org/abs/2307.02053 | Wird später hochgeladen! |
| Möglicherweise sind nur 0,5% Daten erforderlich: Eine vorläufige Untersuchung der Tuning niedriger Trainingsdatenunterrichtsanweisungen | https://arxiv.org/abs/2305.09246 | Wird später hochgeladen! |
| Selbstverstärkung werden: Frühe Stoppkriterien für die minimale Anweisungsstimmung einführen | https://arxiv.org/abs/2307.03692 | Wird später hochgeladen! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| RLHF (Verstärkungslernen aus menschlichem Feedback) | https://huggingface.co/blog/rlhf | https://cartinoe5930.tistory.com/entry/%EC%82%AC%B%9E%8C%EC%9D%98-% -%ed%86%b5%ed%95%9c-%ea%b0%95%ED%99%94%ED%95%99%EC%8A%B5-Verstärkungs-Learning-From-Human-Feedback-Rlhf |
| Rote Teaming -Sprachmodelle mit Sprachmodellen | https://arxiv.org/abs/2202.03286 | https://cartinoe5930.tistory.com/entry/red-teaming-language-models-with-language-models-%eeb%85%bc%eB%AC%B8-%EB%A6%AC%AB%B7%B0 |
| InstructGPT: Trainingssprachmodelle, um Anweisungen mit menschlichem Feedback zu befolgen | https://arxiv.org/abs/2203.02155 | https://cartinoe5930.tistory.com/entry/instructgpt-training-language-models-twork-instructions-with-human-feedback-%eeb%85%bc%eB%AC%B8-%AB%AC%AB%B7%B0 |
| Training eines hilfsbereiten und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback | https://arxiv.org/abs/2204.05862 | https://cartinoe5930.tistory.com/entry/training-a-helpful-and-harmless-assistant-with-inforcement-learning-from-human-feedback-%eeb%eb%8%bc%eB%AC%B8-%AB%AC%B 16%B7%B0 |
| Alpacafarm: Ein Simulationsrahmen für Methoden, die aus menschlichem Feedback lernen | https://arxiv.org/abs/2305.14387 | Wird später hochgeladen! |
| Fast: Ausrichten von großsprachigen Modellen durch synthetisches Feedback | https://arxiv.org/abs/2305.13735 | https://cartinoe5930.tistory.com/entry/Aligning-large-language-models-through-synthethethethethethethethethethethethethethethethethethethetik-Feedback-%B%85%BC%AC%B8-%AB%A6%AC%AB%B7%B0 |
| Offene Probleme und grundlegende Grenzen des Verstärkungslernens durch menschliches Feedback | https://arxiv.org/abs/2307.15217 | Wird später hochgeladen! |
| RLAIF: Skalierung des Verstärkungslernens aus menschlichem Feedback mit KI -Feedback | https://arxiv.org/abs/2309.00267 | Kein Plan! |
| Steerlm: Attribut konditioniertes SFT als (benutzerdefierbare) Alternative zu RLHF | https://arxiv.org/abs/2310.05344 | Kein Plan! |
| HelpSter: Multi-Attribute-Hilfsfut-Datensatz für Steerlm | https://arxiv.org/abs/2311.09528 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Adapter: Parametereffizientes Lernen für NLP | https://arxiv.org/abs/1902.00751 | https://cartinoe5930.tistory.com/entry/%eB%8B%B9%EC%8B%A0%AB%8F%84-FINE-TUNINING- %Ed%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-PEFT-%F0%9f%A4%97 |
| Präfixabbau: Optimieren Sie kontinuierliche Eingabeaufforderungen für die Generation | https://arxiv.org/abs/2101.00190 | https://cartinoe5930.tistory.com/entry/%eB%8B%B9%EC%8B%A0%AB%8F%84-FINE-TUNINING- %Ed%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-PEFT-%F0%9f%A4%97 |
| LORA: Niedrige Anpassung von Großsprachmodellen | https://arxiv.org/abs/2106.09685 | https://cartinoe5930.tistory.com/entry/%eB%8B%B9%EC%8B%A0%AB%8F%84-FINE-TUNINING- %Ed%95%A0-%EC%88%98-%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4-PEFT-%F0%9f%A4%97 |
| Auf eine einheitliche Ansicht des parametereffizienten Transferlernens | https://arxiv.org/abs/2110.04366 | Wird später hochgeladen! |
| Unipelt: Ein einheitliches Framework für die parametereffiziente Sprachmodellabung | https://arxiv.org/abs/2110.07577 | Wird später hochgeladen! |
| (Ia)^3: Wenige Parameter-effiziente Feinabstimmung ist besser und billiger als das Lernen des Kontextes | https://arxiv.org/abs/2205.05638 | Wird später hochgeladen! |
| Qlora: Effiziente Feinabstimmung quantisierter LLMs | https://arxiv.org/abs/2305.14314 | Wird später hochgeladen! |
| Stapel mehr Schichten anders: Hochranges Training durch niedrige Updates | https://arxiv.org/abs/2307.05695 | Wird später hochgeladen! |
| LORAHUB: Effiziente Querverallgemeinerung durch dynamische LORA-Zusammensetzung | https://arxiv.org/abs/2307.13269 | Wird später hochgeladen! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Anweisungsabbau: Hochwertige Befehlsdatenauswahl für Großsprachmodelle | https://arxiv.org/abs/2307.06290 | Kein Plan! |
| Soda: Millionen im Maßstab Dialog Destillation mit Social Commonsense-Kontextualisierung | https://arxiv.org/abs/2212.10465 | Kein Plan! |
| Mods: Modell-orientierte Datenauswahl für die Anweisungsstimmung | https://arxiv.org/abs/2311.15653 | Kein Plan! |
| Über menschliche Daten hinaus: Skalierung der Selbsttraining für Problemlösungen mit Sprachmodellen | https://arxiv.org/abs/2312.06585 | Kein Plan! |
| Magicoder: Quellcode ist alles, was Sie brauchen | https://arxiv.org/abs/2312.02120 | Kein Plan! |
| WeveCoder: weit verbreitete und vielseitige Verbesserung der Anweisungen mit raffinierter Datenerzeugung | https://arxiv.org/abs/2312.14187 | Kein Plan! |
| Was gute Daten zur Ausrichtung ausmacht: Eine umfassende Untersuchung der automatischen Datenauswahl in der Anweisungsabstimmung | https://arxiv.org/abs/2312.15685 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Was ist das 'schnelle Engineering'? | Sehen Sie meinen Blog! | https://cartinoe5930.tistory.com/entry/prompt-gineering%EC%9d%B4-%AC%AC%B4%EC%97%87%EC%BC%AEGOB9%8C |
| COT: Kette der Gedanken, die Anlauferwiderung ausübt | Blog: https://ai.googleblog.com/2022/05/slanguage-models-perform-resaison-via.html, Papier: https://arxiv.org/abs/2201.11903 | https://cartinoe5930.tistory.com/entry/lm%EC%9d%B4-%82%AC%AB%9E%8c%AB3%BC-%EC%9C%A0%EC%82%AC%95%9C-%83%9D%AD%9D] %9c%EC%84%B8%EC%8A%A4%EB%A5%BC-%EA%B0%80%EC%A7%80%EA%B2%8c-%EB%90%9c%E B%8B%A4%EB%A9%B4-Kette des Gedanke-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Null-Shot-Kinderbett: Großsprachige Modelle sind Null-Shot-Gründeer | https://arxiv.org/abs/2205.11916 | https://cartinoe5930.tistory.com/entry/large-language-models-are-zero-shot-resters-%eB%85%Bc%AB%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Sprachmodelle sind mehrsprachige Kette der Gedächtniskette | https://arxiv.org/abs/2210.03057 | Wird später hochgeladen! |
| Auto-COT: Automatische Denkkette, die in Großsprachenmodellen aufzufordern | https://arxiv.org/abs/2210.03493 | Wird später hochgeladen! |
| COT KD: Unterrichten kleiner Sprachmodelle zur Vernunft | https://arxiv.org/abs/2212.08410 | Wird später hochgeladen! |
| TOT: Baum der Gedanken: bewusste Problemlösung mit großen Sprachmodellen | https://arxiv.org/abs/2305.10601 | https://cartinoe5930.tistory.com/entry/tree-of-doughts-deliberate-problem-solving-with-large-language-models-%eb%bc%eB%AC%B8-%AB%AC%AB%B7%B0 |
| Die COT-Sammlung: Verbesserung von Null-Shot- und wenigen Shot-Lernen von Sprachmodellen über die Gedankenkette der Feinabstimmung | https://arxiv.org/abs/2305.14045 | https://cartinoe5930.tistory.com/entry/cot-collection-impulting-Zero-shot-and-few-shot-larning-of-language-models-via-Chain-of-thought-Fine-Tuning-%eB%85%Bc%AC%B8-%A6%AC%AC%AB7%B0 |
| Überprüfen Sie schrittweise | https://arxiv.org/abs/2305.20050 | https://cartinoe5930.tistory.com/entry/lets-verify-tep-by-step-%eB%85%BC%AB%AC%B8-%AB%AC%AB%B7%B0 |
| Messung der Faitheit im Denken der Kette des Gedankens | https://arxiv.org/abs/2307.13702 | Wird später hochgeladen! |
| SOT: Skelett des Gedankens: Große Sprachmodelle können parallele Dekodierung durchführen | https://arxiv.org/abs/2307.15337 | Wird später hochgeladen! |
| Graphe der Gedanken: Lösen von ausgeklügelten Problemen mit großen Sprachmodellen | https://arxiv.org/abs/2308.09687 | Wird später hochgeladen! |
| Von spärlich bis dicht: GPT-4-Zusammenfassung mit Kette der Dichteanlauf | https://arxiv.org/abs/2309.04269 | Kein Plan! |
| Die Verfasserkette setzt die Halluzination in Großsprachenmodellen neu | https://arxiv.org/abs/2309.11495 | https://www.youtube.com/watch?v=l0zfjwregog&pp=ygugahr0ChM6ly9HCNHPDI5VCMCVYWJZIZMDKUMTE0OTU%3D |
| Kontrastive Kette der Gedanken auf Anlaufer | https://arxiv.org/abs/2311.09277 | Kein Plan! |
| Denkfaden entwirren chaotische Kontexte | https://arxiv.org/abs/2311.08734 | Kein Plan! |
| Aufmerksamkeit von System 2 (ist etwas, das Sie auch brauchen) | https://arxiv.org/abs/2311.11829 | Kein Plan! |
| Codekette: Argumentation mit einem sprachmodell-ausgerichteten Code-Emulator | https://arxiv.org/abs/2312.04474 | Kein Plan! |
| Papierentitel | Papier | Papierbewertung |
|---|---|---|
| Flashattention: schnelle und speichereffiziente genaue Aufmerksamkeit | https://arxiv.org/abs/2205.14135 | https://gordicaleksa.medium.com/eli5-flash-attention-5c44017022ad |
| Exponentiell schnellere Sprachmodellierung | https://arxiv.org/abs/2311.10770 | Kein Plan! |
| LLM in einem Blitz: Effizientes Großsprachenmodellinferenz mit begrenztem Speicher | https://arxiv.org/abs/2312.11514 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Datenvergrößerungen in NLP | Blogs: https://neptune.ai/blog/data-augmentation-nlp, https://amitness.com/2020/05/data-augmentation-for-nlp/?fbclid=iwar11mkccCti-2Cd93Ftnphb7wb7wBoBoBoMoNng7nng4Nng4EhpbabKmiJKMBOBOBOBOBSO | https://cartinoe5930.tistory.com/entry/data-augmentation-methods-in-nlp |
| PET: Nutzung von Lückleerfragen für wenige Schusstextklassifizierung und Inferenz für natürliche Sprache | https://arxiv.org/abs/2001.07676 | https://cartinoe5930.tistory.com/entry/pet-exploiting-cloze-questions-for-few-shot-text-classification-and-natural-language-inference-%eeb%85%bc%eB%AC%B8-%AB%AC%AB%B7%B0 |
| Wege | https://blog.google/technology/ai/Introducing-pathways-next-generation-ai-architecture/ | https://cartinoe5930.tistory.com/entry/%eb%A7%8c%95%bd-%eb%AA%A8%eB%8D%B8%EC%9D%B4-%EC%97%AC%9F%AC-%B0%90%90%90%90%90%An0%90% &.a ]% B0%81%EC%9D%84-%EB%8A%90%EB%82%84-%EC%88%98-%EC%9E%88%EA%B2%8C-%EB%90%9C%EB%8B%A4%EB%A9%B4-Pathways-%EB%A6%AC%EB%B7%B0 |
| LMSI: Große Sprachmodelle können sich selbst verbessern | https://arxiv.org/abs/2210.11610 | https://cartinoe5930.tistory.com/entry/lmsi-large-language-models-can- self-improve-%eb%85%bc%Ab%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Selbststruktur: Ausrichtung des Sprachmodells mit selbst erzeugtem Unterricht | https://arxiv.org/abs/2212.10560 | https://cartinoe5930.tistory.com/entry/self-instruct-aligning-language-model-with- self-generated-instructions-%eB%85%Bc%Ab%AC%B8-%EB%AC%AB%B7%B0 |
| Reflexion: Sprachmittel mit verbalem Verstärkungslernen | https://arxiv.org/abs/2303.11366 | https://cartinoe5930.tistory.com/entry/reflexion-language-agents-with-verbal-inforcement-learning-%eb%85%bc%eB%AC%B8-%AB%A6%AC%B%B7%B0 |
| Self-Refine: iterative Verfeinerung mit Selbstfütterung | https://arxiv.org/abs/2303.17651 | https://cartinoe5930.tistory.com/entry/self-refine-iterations-refinement-with-self-feedback-%eB%85%BC%AB%AC%B8-%AB%A6%AC%EB%B7%B0 |
| Raffiner: Argumentation Feedback zu Zwischendarstellungen | https://arxiv.org/abs/2304.01904 | Kein Plan! |
| Selfee: Iterative selbstreviierende LLM, die durch die Erzeugung der Selbstversehrung ausgebildet wird | https://kaistai.github.io/selfee/ | https://cartinoe5930.tistory.com/entry/selfee-iterative- self-revising-lm-expowered-y-feedback-generation-%eb%bc%eB%AC%B8-%AB%A6%AB%B7%B0 |
| GQA: Schulungsverallgemeinerte verallgemeinerte Multiquery-Transformatormodelle von mehrköpfigen Kontrollpunkten | https://arxiv.org/abs/2305.13245 | https://aliissa99.medium.com/-a596e4d86f79 |
| Shpherd: Ein Kritiker für die Erzeugung des Sprachmodells | https://arxiv.org/abs/2308.04592 | Wird später hochgeladen! |
| Selbstausrichtung mit Unterrichtsbacktranslation | https://arxiv.org/pdf/2308.06259 | Wird später hochgeladen! |
| Schrauben: Ein modulares Rahmen für die Argumentation mit Überarbeitungen | https://arxiv.org/pdf/2309.13075 | Kein Plan! |
| Neftune: Laute Einbettungen verbessern die Anweisung | https://arxiv.org/abs/2310.05914 | https://cartinoe5930.tistory.com/entry/noise-makes-llm-better-neftune-%f0%9f%98%89 |
| Sprachmodelle sind Super Mario; Absorbing Fähigkeiten aus homologen Modellen als kostenloses Mittagessen | https://arxiv.org/abs/2311.03099 | Kein Plan! |
| Loramoe: Revolutionierung der Mischung von Experten zur Aufrechterhaltung des weltweiten Wissens in der Sprachmodellausrichtung | https://arxiv.org/abs/2312.09979 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Abruf-generierte Generation für wissensintensive NLP-Aufgaben | https://arxiv.org/abs/2005.11401 | Kein Plan! |
| Selbstabschnitte: Durch die Selbstreflexion lernen, generieren und kritisieren | https://arxiv.org/abs/2310.11511 | Kein Plan! |
| Instructretro: Anweisungsabstimmung nach dem Abrufen von Vorabend | https://arxiv.org/abs/2310.07713 | Kein Plan! |
| Retrieval-Augmented-Generation für Großsprachmodelle: eine Umfrage | https://arxiv.org/abs/2312.10997 | Kein Plan! |
| Papierentitel | Papier- oder Referenz -Site -Link | Papierbewertung |
|---|---|---|
| Hartes Big-Bench: Herausfordernde Aufgaben mit großer Bank und der Frage, ob der Gedanke Tham lösen kann | https://arxiv.org/abs/2210.09261 | Wird später hochgeladen! |
| Großsprachmodelle sind keine fairen Bewerter | https://arxiv.org/abs/2305.17926 | Wird später hochgeladen! |
| MT-Bench: LLM-as-a-Richter mit MT-Bench beurteilen | https://arxiv.org/abs/2306.05685 | Wird später hochgeladen! |
| InstructEval: Towards Holistic Evaluation of Instruction-Tuned Large Language Models | https://arxiv.org/abs/2306.04757 | Will be uploaded later! |
| FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets | https://arxiv.org/abs/2307.10928 | Will be uploaded later! |
| GAIA: A Benchmark for General AI Assistants | https://arxiv.org/abs/2311.12983 | No plan! |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| A Length-Extrapolatable Transformer | https://arxiv.org/abs/2212.10554 | No plan! |
| Extending Context Window of Large Language Models via Positional Interpolation | https://arxiv.org/abs/2306.15595 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| LongNet: Scaling Transformers to 1,000,000,000 Tokens | https://arxiv.org/abs/2307.02486 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| Lost in the Middle: How Language Models Use Long Contexts | https://arxiv.org/abs/2307.03172 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%98-context-window-%EA%B8%B8%EC%96%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-%EC%A7%A7%EC%95%84%EC%95%BC-%ED%95%A0%EA%B9%8C-%F0%9F%93%8F%F0%9F%A4%A8 |
| YaRN: Efficient Context Window Extension of Large Language Models | https://arxiv.org/abs/2309.00071 | No plan! |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| Why can GPT learn in-context? | https://arxiv.org/abs/2212.10559 | https://cartinoe5930.tistory.com/entry/Why-can-GPT-learn-in-context-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Sparks of Artificial General Intelligence: Early experiments with GPT-4 | paper: https://arxiv.org/abs/2303.12712, youtube: https://www.youtube.com/watch?v=Mqg3aTGNxZ0 | https://cartinoe5930.tistory.com/entry/Sparks-of-Artificial-General-Intelligence-Early-experiments-with-GPT-4-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| The False Promise of Imitating Proprietary LLMs | https://arxiv.org/abs/2305.15717 | https://cartinoe5930.tistory.com/entry/%EA%B8%B0%EC%A1%B4-imitation-model%EC%9D%80-%EC%9E%98%EB%AA%BB-%ED%95%99%EC%8A%B5%EB%90%98%EA%B3%A0-%EC%9E%88%EB%8B%A4-%F0%9F%AB%A2-The-False-Promise-of-Imitating-Proprietary-L |
| TULU: How Far Can Camels Go? Exploring the State of Instructiopn Tuning on Open Resources | https://arxiv.org/abs/2306.04751 | Will be uploaded later! |
| How Is ChatGPT's Behavior Changing over Time? | https://arxiv.org/abs/2307.09009 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-%EC%84%B1%EB%8A%A5%EC%9D%B4-%EC%95%88-%EC%A2%8B%EC%95%84%EC%A7%80%EA%B3%A0-%EC%9E%88%EB%8B%A4%EA%B5%AC-%F0%9F%98%B2%F0%9F%98%B2 |
| Large Language Models Cannot Self-Correct Reasoning Yet | https://arxiv.org/abs/2310.01798 | |
| How Far Are Large Language Models from Agents with Theory-of-Mind | https://arxiv.org/pdf/2310.03051 | No plan! |
| Can LLMs Follow Simple Rules | https://arxiv.org/abs/2311.04235 | https://www.youtube.com/watch?v=CY6o43037OY |
| Camels in a Changing Climate; Enhancing LM Adaptation with Tulu 2 | https://arxiv.org/abs/2311.10702 | No plan! |
| ChatGPT's One-year Anniversary; Are Open-Source Large Language Models Catching up | https://arxiv.org/abs/2311.15653 | No plan! |
| An In-depth Look at Gemini's Language Abilities | https://arxiv.org/abs/2312.11444 | No plan! |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature | https://arxiv.org/abs/2301.11305 | https://cartinoe5930.tistory.com/entry/%EC%9D%B4-%EA%B8%80%EC%9D%B4-LM%EC%9D%B4-%EB%A7%8C%EB%93%A4%EC%96%B4%EB%82%B8-%EA%B8%80%EC%9D%BC%EA%B9%8C-%EB%8F%84%EC%99%80%EC%A4%98-DetectGPT-DetectGPT-Zero-Shot-Machine-Generated-Text-Detection-using-Probability-Curvature-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback | https://arxiv.org/abs/2302.12813 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%9D%98-hallucination-%EC%96%B4%EB%96%BB%EA%B2%8C-%ED%95%B4%EA%B2%B0%ED%95%B4%EC%95%BC-%ED%95%A0%EA%B9%8C-Check-Your-Facts-and-Try-Again-Improving-Large-Language-Models-with-External-Knowledge-and-Automated-Feedback |
| RecurrentGPT: Interactive Generation of (Arbitrarily) Long Text | https://arxiv.org/abs/2305.13304 | https://cartinoe5930.tistory.com/entry/ChatGPT%EC%97%90-%EB%B0%98%EB%B3%B5-%EB%A9%94%EC%BB%A4%EB%8B%88%EC%A6%98LSTM%EC%9D%84-%EC%82%AC%EC%9A%A9%ED%95%9C%EB%8B%A4%EB%A9%B4-RecurrentGPT-Interactive-Generation-of-Arbitrarily-Long-Text-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Large Language Models as Tool Makers | https://arxiv.org/abs/2305.17126 | https://cartinoe5930.tistory.com/entry/LM%EC%9D%B4-%EB%8F%84%EA%B5%AC%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B2%8C-%EB%90%9C%EB%8B%A4%EB%A9%B4-%F0%9F%94%AC-Large-Language-Models-as-Tool-Makers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion | https://arxiv.org/abs/2306.02561 | No plan! |
| Wissensdestillation großer Sprachmodelle | https://arxiv.org/abs/2306.08543 | https://cartinoe5930.tistory.com/entry/KD%EC%97%90-%EC%82%B4%EC%A7%9D%EC%9D%98-%EB%B3%80%ED%99%94%EB%A5%BC-%EC%A4%98%EB%B3%B4%EC%9E%90-%F0%9F%98%9C-Knowledge-Distillation-of-Large-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Scaling Relationship on Learning Mathematical Reasoning with Large Language Models | https://arxiv.org/abs/2308.01825 | Will be uploaded later! |
| ToolLLM: Facilitating Lare Language Models to Master 16000+ Real-World APIs | https://arxiv.org/abs/2307.16789 | Will be uploaded later! |
| SelfCheck: Using LLMs to Zero-shot Check Their Own Step-by-Step Reasoning | https://arxiv.org/abs/2308.00436 | Will be uploaded later! |
| Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification | https://arxiv.org/abs/2308.07921 | Will be uploaded later! |
| Large Language Models as Optimizers | https://arxiv.org/abs/2309.03409 | No plan! |
| FIAT: Fusing Learning Paradigms with Instruction-Accelerated Tuning | https://arxiv.org/abs/2309.04663 | https://www.youtube.com/watch?v=EZsZEcRDte0&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDQ2NjM%3D |
| Contrastive Decoding Improves Reasoning in Large Language Models | https://arxiv.org/abs/2309.09117 | https://www.youtube.com/watch?v=nMR56TkwC1Q&pp=ygUgaHR0cHM6Ly9hcnhpdi5vcmcvYWJzLzIzMDkuMDkxMTc%3D |
| Think before you speak: Training Language Models with Pause Tokens | https://arxiv.org/abs/2310.02226 | https://www.youtube.com/watch?v=MtJ1jacr_yI |
| Large Language Models Can Learn Rules | https://arxiv.org/abs/2310.07064 | No plan! |
| In-context Pretraining: Language Modeling Beyond Document Boundaries | https://arxiv.org/abs/2310.10638 | https://www.youtube.com/watch?v=GI-0lAaILrU |
| Learning From Mistakes Makes LLM Better Reasoner | https://arxiv.org/abs/2310.20689 | No plan! |
| Language Models can be Logical Solvers | https://arxiv.org/abs/2311.06158 | No plan! |
| MART: Improving LLM Safety with Multi-round Automatic Red-Teaming | https://arxiv.org/abs/2311.07689 | No plan! |
| Fine-tuning Language Models for Factuality | https://arxiv.org/abs/2311.08401 | No plan! |
| Positional Description Matters for Transformers Arithmetic | https://arxiv.org/abs/2311.14737 | No plan! |
| Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision | https://arxiv.org/abs/2312.09390 | https://openai.com/research/weak-to-strong-generalization |
| TinyGSM: achieving higher than 80 percentage on GSM8k with small language models | https://arxiv.org/abs/2312.09241 | No plan! |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| Morpheme-aware Subword Tokenizer: An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks | https://arxiv.org/abs/2010.02534 | Will be uploaded later! |
| What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers | https://arxiv.org/abs/2109.04650 | Will be uploaded later! |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| history of CNN | LeNet, AlexNet, VGGNet, GoogLeNet, ResNet, ResNeXt, Sception, Mobilenet, DenseNet, EfficientNet, ConvNext | https://cartinoe5930.tistory.com/entry/CNN-network%EC%9D%98-%EC%97%AD%EC%82%AC |
| ViT: An Image Worth 16 x 16 Words: Transformers for Image Recognition at Scale | https://arxiv.org/abs/2010.11929 | https://cartinoe5930.tistory.com/entry/ViT-An-Image-Worth-16-x-16-Words-Transformers-for-Image-Recognition-at-Scale |
| Swin Transformer: Hierarchical Vision Transformer using Shifted Winodws | https://arxiv.org/abs/2103.14030 | https://cartinoe5930.tistory.com/entry/Swin-Transformer-Hierarchical-Vision-Transformer-using-Shifted-Windows-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| CLIP: Learning Transferable Visual Models From Natural Language Supervision | https://arxiv.org/abs/2103.00020 | https://cartinoe5930.tistory.com/entry/CLIP-Learning-Transferable-Visual-Models-From-Natural-Language-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Papierentitel | Paper or reference site Link | Paper Review |
|---|---|---|
| Let's learn about VLM(Visual-Language Model) | https://huggingface.co/blog/vision_language_pretraining#supporting-vision-language-models-in-%F0%9F%A4%97-transformers | https://cartinoe5930.tistory.com/entry/VLMVision-Language-Model%EC%97%90-%EB%8C%80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90 |
| VisualBERT: A simple and Performant Baseline for Vision and Language | https://arxiv.org/abs/1908.03557 | https://cartinoe5930.tistory.com/entry/VisualBERT-A-Simple-and-Performant-Baseline-for-Vision-and-Language-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLBERT: Pre-training Task-Agnostic Visiolinguistic Representations for Visual-and-Language Tasks | https://arxiv.org/abs/1908.02265 | https://cartinoe5930.tistory.com/entry/ViLBERT-Pretraining-Task-Agnostic-Visiolinguistic-Representations-for-Visual-and-Language-Tasks |
| LXMERT: Learning Cross-Modality Encoder Representations from Transformers | https://arxiv.org/abs/1908.07490 | https://cartinoe5930.tistory.com/entry/LXMERT-Learning-Cross-Modality-Encoder-Representations-from-Transformers-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VL-BERT: Pre-training of Generic Visual-Linguistic Representations | https://arxiv.org/abs/1908.08530 | https://cartinoe5930.tistory.com/entry/VL-BERT-Pre-training-of-Generic-Visual-Linguistic-Representations-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLP: Unified Vision-Language Pre-Training for Image Captioning and VQA | https://arxiv.org/abs/1909.11059 | https://cartinoe5930.tistory.com/entry/VLP-Unified-Vision-Language-Pre-Traning-for-Image-Captioning-and-VQA-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks | https://arxiv.org/abs/2004.06165 | https://cartinoe5930.tistory.com/entry/Oscar-Object-Semantics-Aligned-Pre-training-for-Vision-Language-Tasks-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VinVL: Revisiting Visual Representations in Vision-Language Models | https://arxiv.org/abs/2101.00529 | https://cartinoe5930.tistory.com/entry/VinVL-Revisiting-Visual-Representations-in-Vision-Language-Models-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision | https://arxiv.org/abs/2102.03334 | https://cartinoe5930.tistory.com/entry/ViLT-Vision-and-Language-Transformer-Without-Convolution-or-Region-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision | https://arxiv.org/abs/2102.05918 | https://cartinoe5930.tistory.com/entry/ALIGN-Scaling-up-Visual-and-Vision-Language-Representation-with-Noisy-Text-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| ALBEF: Vision and Language Representation Learning with Momentum Distillation | https://arxiv.org/abs/2107.07651 | https://cartinoe5930.tistory.com/entry/ALBEF-Vision-and-Language-Representation-Learning-with-Momentum-Distillation-%EB%85%BC%EB%AC%B8 |
| SimVLM: Simple Visual Language Model Pretraining with Weak Supervision | https://arxiv.org/abs/2108.10904 | https://cartinoe5930.tistory.com/entry/SimVLM-Simple-Visual-Language-Model-Pre-training-with-Weak-Supervision-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| VLMo: Unified Vision-Language Pre-training with Mixture-of-Modality-Experts | https://arxiv.org/abs/2111.02358 | https://cartinoe5930.tistory.com/entry/VLMo-Unified-Vision-Language-Pre-training-with-Mixture-of-Modality-Experts-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| LiT : Zero-Shot Transfer with Locked-image text Tuning | https://arxiv.org/abs/2111.07991 | https://cartinoe5930.tistory.com/entry/LiT%F0%9F%94%A5-Zero-Shot-Transfer-with-Locked-image-text-Tuning-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| FLAVA: A Foundational Language And Vision Alignment Model | https://arxiv.org/abs/2112.04482 | https://cartinoe5930.tistory.com/entry/FLAVA-A-Foundational-Language-And-Vision-Alignment-Model-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation | https://arxiv.org/abs/2201.12086 | https://cartinoe5930.tistory.com/entry/BLIP-Bootstrapping-Language-Image-Pre-training-fro-Unified-Vision-Language-Understanding-and-Generation-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| Paper or Posting Title | reference site Link | Rezension |
|---|---|---|
| Knowledge Distillation: Distilling the Knowledge in a Neural Network | https://arxiv.org/abs/1503.02531 | https://cartinoe5930.tistory.com/entry/Distilling-the-Knowledge-in-a-Neural-Network-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0 |
| What is Zero-shot, One-shot, Few-shot Learning? | see my blog! | https://cartinoe5930.tistory.com/entry/Zero-shot-One-shot-Few-shot-Learning%EC%9D%B4-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C |