Kertas AI yang luar biasa ️
Keterangan
Repositori ini adalah daftar terkini dari makalah AI penting yang diselenggarakan berdasarkan tanggal publikasi. Ini mencakup lima bidang: visi komputer, pemrosesan bahasa alami, pemrosesan audio, pembelajaran multimodal dan pembelajaran penguatan. Jangan ragu untuk memberikan bintang ini jika Anda menikmati pekerjaan.
Pemelihara: Aimerou Ndiaye
Daftar isi
- 2023 Makalah
- Visi komputer
- Pemrosesan bahasa alami
- Pemrosesan audio
- Pembelajaran multimodal
- Pembelajaran Penguatan
- Kertas lain
- 2022 Makalah
- Visi komputer
- Pemrosesan bahasa alami
- Pemrosesan audio
- Pembelajaran multimodal
- Pembelajaran Penguatan
- Kertas lain
- Makalah Sejarah
Taksonomi
Untuk memilih makalah yang paling relevan, kami memilih batas subyektif dalam hal jumlah kutipan. Setiap ikon di sini menunjuk jenis kertas yang memenuhi salah satu kriteria ini.
? Makalah Historis: Lebih dari 10k kutipan dan dampak yang menentukan dalam evolusi AI.
Kertas penting: Lebih dari 50 kutipan dan hasil canggih.
⏫ Tren: 1 hingga 50 kutipan, makalah baru -baru ini dan inovatif dengan meningkatnya adopsi.
? Artikel penting: Pekerjaan menentukan yang tidak disertai dengan makalah penelitian.
2023 Makalah
Visi komputer
- 01/2023: Muse: Text-to-Image Generation Via Masked Generative Transformers (Muse)
- 02/2023: Sintesis video yang dipandu oleh struktur dan konten dengan model difusi (Gen-1)
- 02/2023: Transformer penglihatan penskalaan menjadi 22 miliar parameter (VIT 22B)
- 02/2023: Menambahkan kontrol bersyarat ke model difusi teks-ke-gambar (CONTROLNET)
- 03/2023: Visual Chatgpt: Berbicara, Menggambar dan Mengedit dengan Model Visual Foundation (Visual ChatGPT)
- 03/2023: Meningkatkan GAN untuk sintesis teks-ke-gambar (Gigagan)
- 04/2023: Segmen apapun (SAM)
- 04/2023: DINOV2: Belajar fitur visual yang kuat tanpa pengawasan (DINOV2)
- 04/2023: Tuning Instruksi Visual
- 04/2023: Sejajarkan laten Anda: Sintesis video beresolusi tinggi dengan model difusi laten (videoldm)
- 04/2023: Data sintetis dari model difusi meningkatkan klasifikasi ImageNet
- 04/2023: Segmen apa pun dalam gambar medis (Medsam)
- 05/2023: Seret GAN Anda: Manipulasi berbasis titik interaktif pada manifold gambar generatif (draggan)
- 06/2023: Neuralangelo: Rekonstruksi Permukaan Saraf Tinggi (Neuralangelo)
- 07/2023: SDXL: Meningkatkan model difusi laten untuk sintesis gambar resolusi tinggi (SDXL)
- 08/2023: 3D Gaussian Splatting untuk Rendering Lapangan Radiance Real-Time
- 08/2023: QWEN-VL: Model bahasa penglihatan serbaguna untuk pemahaman, lokalisasi ... (Qwen-VL)
- ⏫ 08/2023: MVDream: Difusi Multi-View untuk Generasi 3D (MVDream)
- ⏫ 11/2023: Florence-2: Memajukan representasi terpadu untuk berbagai tugas penglihatan (Florence-2)
- ⏫ 12/2023: VideoPoet: Model Bahasa Besar untuk Pembuatan Video Zero-Shot (VideoPoet)
NLP
- 01/2023: Detectgpt: Deteksi teks yang dihasilkan oleh mesin zero-shot menggunakan kelengkungan probabilitas (DetectGpt)
- 02/2023: ToolFormer: Model Bahasa dapat mengajar diri mereka sendiri untuk menggunakan alat (alat pahat)
- 02/2023: Llama: Model Bahasa Yayasan Terbuka dan Efisien (LLAMA)
- ? 03/2023: GPT-4
- 03/2023: Percakan Kecerdasan Umum Buatan: Eksperimen Awal dengan GPT-4 (GPT-4 Eval)
- 03/2023: HuggingGpt: Memecahkan tugas AI dengan chatgpt dan teman -temannya di Huggingface (HuggingGpt)
- 03/2023: Bloomberggpt: Model bahasa besar untuk keuangan (Bloomberggpt)
- 04/2023: Penyetelan instruksi dengan GPT-4
- 04/2023: Agen generatif: simulacra interaktif manusia (agen gen)
- 05/2023: Laporan Teknis Palm 2 (Palm-2)
- 05/2023: Pohon Pikiran: Pemecahan masalah yang disengaja dengan model bahasa besar (TOT)
- 05/2023: Lima: Less lebih banyak untuk penyelarasan (Lima)
- 05/2023: Qlora: Finetuning efisien LLMS terkuantisasi (Qlora)
- 05/2023: Voyager: Agen terwujud terbuka dengan model bahasa besar (Voyager)
- 07/2023: TOOLLLM: Memfasilitasi model bahasa besar untuk menguasai 16000+ API dunia nyata (TOOLLLM)
- 08/2023: METAGPT: Pemrograman Meta untuk Kerangka Kolaboratif Multi-Agen (METAGPT)
- 08/2023: Kode Llama: Model Yayasan Terbuka untuk Kode (Kode Llama)
- ⏫ 09/2023: RLAIF: Penskalaan Penguatan Pembelajaran dari Umpan Balik Manusia dengan Umpan Balik AI (RLAIF)
- 09/2023: Model bahasa besar sebagai pengoptimal (OPRO)
- ⏫ 10/2023: Eureka: Desain hadiah tingkat manusia melalui pengkodean model bahasa besar (Eureka)
- ⏫ 12/2023: Penemuan matematika dari pencarian program dengan model bahasa besar (FunSearch)
Pemrosesan audio
- 01/2023: Model bahasa codec saraf adalah teks nol-shot untuk synthesizer ucapan (vall-e)
- 01/2023: Musiclm: Menghasilkan Musik Dari Teks (MusicLM)
- 01/2023: Audioldm: generasi teks-ke-audio dengan model difusi laten (audiOldM)
- 03/2023: Google USM: Menskalakan Pengenalan Pidato Otomatis Di luar 100 Bahasa (USM)
- 05/2023: SCALING TEKNOLOGI PIDORAN UNTUK 1.000+ Bahasa (MMS)
- ⏫ 06/2023: Generasi Musik Sederhana dan Terkendali (MusicGen)
- ⏫ 06/2023: audiopalm: model bahasa besar yang dapat berbicara dan mendengarkan (audiopalm)
- ⏫ 06/2023: VoiceBox: Generasi Pidato Universal Multilingual yang Dipandu Teks pada Skala (VoiceBox)
Pembelajaran multimodal
- 02/2023: Bahasa tidak semua yang Anda butuhkan: Menyelaraskan persepsi dengan model bahasa (Kosmos-1)
- 03/2023: Palm-E: Model bahasa multimodal yang diwujudkan (Palm-E)
- 04/2023: Audiogpt: Memahami dan Menghasilkan Pidato, Musik, Suara, dan Kepala Talking (Audiogpt)
- 05/2023: ImageBind: Satu ruang embedding untuk mengikat semuanya (ImageBind)
- ⏫ 07/2023: SKALING AUTORGRESIF MODEL MULTI-MODAL: Pretraining and Instruction Tuning (CM3LEON)
- ⏫ 07/2023: Meta-Transformer: Kerangka Kerja Terpadu untuk Pembelajaran Multimodal (Meta-Transformer)
- ⏫ 08/2023: SeamlessM4T: Terjemahan mesin multibahasa & multimodal besar -besaran (SeamlessM4T)
Pembelajaran Penguatan
- 01/2023: Menguasai beragam domain melalui model dunia (Dreamerv3)
- ⏫ 02/2023: Mengarahkan model bahasa besar di lingkungan interaktif dengan RL online (Glam)
- ⏫ 02/2023: Pembelajaran penguatan online yang efisien dengan data offline (RLPD)
- ⏫ 03/2023: Desain hadiah dengan model bahasa
- 05/2023: Optimalisasi Preferensi Langsung: Model bahasa Anda diam -diam adalah model hadiah (DPO)
- ⏫ 06/2023: Algoritma penyortiran yang lebih cepat ditemukan menggunakan pembelajaran penguatan yang dalam (Alphadev)
- ⏫ 08/2023: Retroformer: Retrospektif Agen Bahasa Besar dengan Optimalisasi Gradien Kebijakan (Retroformer)
Kertas lain
- 02/2023: Penemuan simbolik algoritma optimasi (LION)
- 07/2023: RT-2: Model Visi-Bahasa Aksi Transfer Pengetahuan Web ke Kontrol Robot (RT-2)
- ⏫ 11/2023: Penskalaan pembelajaran mendalam untuk penemuan material (GNOME)
- ⏫ 12/2023: Penemuan kelas struktural antibiotik dengan pembelajaran mendalam yang dapat dijelaskan
2022 Makalah
Visi komputer
- 01/2022: Convnet untuk tahun 2020 -an (ConvNext)
- 01/2022: Patch adalah semua yang Anda butuhkan (convmixer)
- 02/2022: Block-Nerf: Scalable SCENE BESAR SINGIN SINGKAT (BLOCK-BERF)
- 03/2022: DINO: DETR DENGAN KOTAK JUMER DENOISing yang lebih baik untuk Deteksi Objek End-to-End (Dino)
- 03/2022: Meningkatkan kernel Anda ke 31 × 31: Meninjau kembali desain kernel besar di CNNs (kernel besar CNN)
- 03/2022: Tensorf: bidang pancaran tensorial (tensorf)
- 04/2022: MAXVIT: Multi-Axis Vision Transformer (MaxVit)
- 04/2022: Hierarkis Text-Conditional Image Generation dengan Clip Latents (Dall-E 2)
- 05/2022: Model difusi teks-ke-gambar fotorealistik dengan pemahaman bahasa yang dalam (Imagen)
- 05/2022: git: transformator gambar ke teks generatif untuk visi dan bahasa (git)
- 06/2022: CMT: Jaringan saraf konvolusional Meet Vision Transformers (CMT)
- 07/2022: Swin Unetr: Swin Transformers untuk segmentasi semantik tumor otak ... (Swin Unetr)
- 07/2022: Bimbingan difusi bebas classifier
- 08/2022: Model Difusi Teks-ke-Tex-Tuning untuk Generasi Berbasis Subjek (DreamBooth)
- 09/2022: DreamFusion: Text-to-3d Menggunakan Difusi 2D (DreamFusion)
- 09/2022: Make-A-Video: Text-to-Video Generation Tanpa Data Teks-Video (Make-A-Video)
- 10/2022: Tentang Distilasi Model Difusi Terpandu
- 10/2022: Laion-5b: Dataset berskala besar terbuka untuk pelatihan model teks-gambar generasi berikutnya (Laion-5b)
- 10/2022: Imagic: Pengeditan gambar nyata berbasis teks dengan model difusi (Imagic)
- 11/2022: penyetelan prompt visual
- 11/2022: Magic3D: Pembuatan Konten Teks-ke-3D Resolusi Tinggi (Magic3D)
- 11/2022: DifusionDet: Model Difusi untuk Deteksi Objek (DifusionDet)
- 11/2022: Instrukturpix2pix: Belajar mengikuti instruksi pengeditan gambar (Instrukturpix2pix)
- 12/2022: Kustomisasi multi-konsep difusi teks-ke-gambar (difusi khusus)
- 12/2022: Model Difusi yang Dapat Diukur dengan Transformers (DIT)
NLP
- 01/2022: Lambda: Model Bahasa untuk Aplikasi Dialog (Lambda)
- 01/2022: Rantai-pemikiran yang mendorong memunculkan penalaran dalam model bahasa besar (COT)
- 02/2022: Pembuatan kode tingkat kompetisi dengan alphacode (alphacode)
- 02/2022: Model bahasa finetuned adalah pelajar zero-shot (FLAN)
- 03/2022: Model bahasa pelatihan untuk mengikuti instruksi manusia dengan umpan balik manusia (Instruktur)
- 03/2022: Pelatihan multitask yang diminta memungkinkan generalisasi tugas zero-shot (T0)
- 03/2022: Model bahasa besar komputasi pelatihan-optimal (Chinchilla)
- 04/2022: lakukan semampu saya, bukan seperti yang saya katakan: bahasa landasan dalam biaya robot (saycan)
- 04/2022: GPT-NEOX-20B: Model Bahasa Autoregresif Sumber Terbuka (GPT-NEOX)
- 04/2022: Palm: Pemodelan bahasa penskalaan dengan jalur (Palm)
- 06/2022: Di luar permainan imitasi: mengukur dan mengekstrapolasi kemampuan Lang ... (Big-Bench)
- 06/2022: Memecahkan masalah penalaran kuantitatif dengan model bahasa (minerva)
- 10/2022: Bereaksi: Penalaran Sinergisasi dan Bertindak dalam Model Bahasa (React)
- 11/2022: BLOOM: Model Bahasa Multilingual Akses Terbuka 176B-Parameter (BLOOM)
- ? 11/2022: Mengoptimalkan model bahasa untuk dialog (chatgpt)
- 12/2022: Model bahasa besar menyandikan pengetahuan klinis (Med-Palm)
Pemrosesan audio
- 02/2022: MSLAM: Pra-pelatihan sendi multibahasa besar-besaran untuk bicara dan teks (MSLAM)
- 02/2022: Tambahkan 2022: Tantangan Deteksi Sintesis Deep Audio Pertama (Tambah)
- 03/2022: Pelatihan transformator audio yang efisien dengan Patchout (Passt)
- 04/2022: Maestro: Representasi teks ucapan yang cocok melalui pencocokan modalitas (maestro)
- 05/2022: pidato: pra-pelatihan pra-pelatihan encoder-modal-modal untuk bahasa lisan ... (pidato)
- 06/2022: WAVLM: Pra-pelatihan swadaya skala besar untuk pemrosesan ucapan tumpukan penuh (WAVLM)
- 07/2022: BIGSSL: Menjelajahi perbatasan pembelajaran semi-diawasi skala besar untuk ASR (BigSSL)
- 08/2022: Mulan: Sebuah embedding bersama audio musik dan bahasa alami (Mulan)
- 09/2022: Audiolm: Pendekatan Pemodelan Bahasa untuk Generasi Audio (Audiolm)
- 09/2022: Audiogen: generasi audio yang dipandu secara tekstual (audiogen)
- 10/2022: Kompresi Audio Saraf Tinggi (EncodeC)
- 12/2022: Pengenalan ucapan yang kuat melalui pengawasan lemah skala besar (Whisper)
Pembelajaran multimodal
- 01/2022: BLIP: Boostrapping Pre-training-training-boostrapping for Unified Vision-Language ... (Blip)
- 02/2022: Data2VEC: Kerangka kerja umum untuk pembelajaran yang di-swadaya dalam pidato, visi dan ... (data2vec)
- 03/2022: Adaptor VL: Pembelajaran transfer yang efisien parameter untuk tugas penglihatan-dan-bahasa (adaptor VL)
- 04/2022: Winoground: Visi Probing dan Model Bahasa untuk Visio-Linguistic ... (Winoground)
- 04/2022: Flamingo: Model Bahasa Visual untuk Pembelajaran Beberapa-Shot (Flamingo)
- 05/2022: Agen generalis (GATO)
- 05/2022: Coca: Captioners kontras adalah model Yayasan Teks Gambar (COCA)
- 05/2022: VLMO: Pra-pelatihan visi-visi terpadu dengan campuran-modalitas-ekspert (VLMO)
- 08/2022: Gambar sebagai Bahasa Asing: Beit Pretraining Untuk Semua Tugas Visi dan Visi-Bahasa (Beit)
- 09/2022: Pali: Model Image Bahasa Multilingual (Pali) yang berskala bersama
Pembelajaran Penguatan
- 01/2022: Mempelajari penggerak perseptif yang kuat untuk robot quadrupedal di alam liar
- 02/2022: BC-Z: Generalisasi tugas zero-shot dengan robot imitasi pembelajaran
- 02/2022: Juara Outracing Gran Turismo Driver dengan Penguatan Penguatan Deep (Sophy)
- 02/2022: Kontrol magnetik plasma tokamak melalui pembelajaran penguatan yang mendalam
- 08/2022: Belajar berjalan dalam hitungan menit menggunakan pembelajaran penguatan mendalam paralel (anymal) yang sangat paralel
- 10/2022: Menemukan algoritma multiplikasi matriks yang lebih cepat dengan pembelajaran penguatan (Alphatensor)
Kertas lain
- 02/2022: FourcastNet: Model cuaca resolusi tinggi yang digerakkan oleh data global ... (FourcastNet)
- 05/2022: Colabfold: Membuat protein lipat dapat diakses oleh semua (colabfold)
- 06/2022: Mengukur dan meningkatkan penggunaan informasi grafik di GNN
- 10/2022: Timesnet: Pemodelan variasi 2D temporal untuk analisis deret waktu umum (Timesnet)
- 12/2022: RT-1: Transformator Robotika untuk Kontrol Dunia Nyata pada Skala (RT-1)
Makalah Sejarah
- ? 1958: Perceptron: Model Probabilistik untuk Penyimpanan Informasi dan Organisasi di Otak (Perceptron)
- ? 1986: Representasi pembelajaran dengan kesalahan propagasi back (backpropagation)
- ? 1986: Induksi Pohon Keputusan (CART)
- ? 1989: Tutorial tentang model Markov tersembunyi dan aplikasi yang dipilih dalam pengenalan suara (HMM)
- ? 1989: Jaringan feedforward multilayer adalah perkiraan universal
- ? 1992: Algoritma pelatihan untuk pengklasifikasi margin optimal (SVM)
- ? 1996: Prediktor mengantongi
- ? 1998: Pembelajaran berbasis gradien diterapkan untuk pengakuan dokumen (CNN/GTN)
- ? 2001: Hutan acak
- ? 2001: Algoritma genetika multiobjective yang cepat dan elitis (NSGA-II)
- ? 2003: Laten Dirichlet Allocation (LDA)
- ? 2006: Mengurangi dimensi data dengan jaringan saraf (autoencoder)
- ? 2008: Visualisasi data menggunakan T-SNE (T-SNE)
- ? 2009: Imagenet: database gambar hierarkis skala besar (ImageNet)
- ? 2012: Klasifikasi Imagenet dengan jaringan saraf konvolusional yang dalam (Alexnet)
- ? 2013: Estimasi Efisien Representasi Kata di Ruang Vektor (Word2Vec)
- ? 2013: Bayes variasional encoding otomatis (VAE)
- ? 2014: Generatif Perpisahan Jaringan (GAN)
- ? 2014: Dropout: Cara sederhana untuk mencegah jaringan saraf dari overfitting (dropout)
- ? 2014: urutan pembelajaran urutan dengan jaringan saraf
- ? 2014: Terjemahan Mesin Saraf dengan Bersama Belajar untuk Menyelaraskan dan Menerjemahkan (RnnSearch-50)
- ? 2014: Adam: Metode untuk Optimasi Stokastik (Adam)
- ? 2015: Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi COV Internal ... (Batchnorm)
- ? 2015: Menjadi lebih dalam dengan Convolutions (Inception)
- ? 2015: Kontrol tingkat manusia melalui pembelajaran penguatan yang mendalam (Deep Q Network)
- ? 2015: R-CNN lebih cepat: Menuju deteksi objek real-time dengan jaringan proposal wilayah (lebih cepat R-CNN)
- ? 2015: U-Net: Jaringan Konvolusional untuk Segmentasi Gambar Biomedis (U-NET)
- ? 2015: Pembelajaran residu yang mendalam untuk pengenalan gambar (ResNet)
- ? 2016: Anda hanya melihat sekali: Deteksi objek yang disatukan, real-time (YOLO)
- ? 2017: Perhatian adalah yang Anda butuhkan (transformator)
- ? 2018: Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa (BerT)
- ? 2020: Model bahasa adalah beberapa pelajar shot (GPT-3)
- ? 2020: Denoising Difusion Probabilistic Models (DDPM)
- ? 2020: Gambar bernilai 16x16 kata: transformer untuk pengenalan gambar pada skala (vit)
- ? 2021: Prediksi struktur protein yang sangat akurat dengan Alphafold (Alphafold)
- ? 2022: ChatGPT: Mengoptimalkan model bahasa untuk dialog (chatgpt)