LLM · NLP
Text2all · all2all
Multi-modal · multi-tugas
Kecerdasan manusia berkembang pada konsep sinergi kognitif, di mana kolaborasi dan integrasi informasi di antara proses kognitif yang berbeda menghasilkan hasil yang unggul dibandingkan dengan proses kognitif individu dalam isolasi. Meskipun model bahasa besar (LLM) telah menunjukkan kinerja yang menjanjikan sebagai agen pemecahan tugas umum, mereka masih berjuang dengan tugas yang membutuhkan pengetahuan domain intensif dan penalaran yang kompleks. Dalam karya ini, kami mengusulkan kinerja solo coretan (SPP), yang mengubah llm tunggal menjadi sinergis kognitif dengan terlibat dalam multi-turn-gulungan diri sendiri dengan banyak persona. Seorang sinergis kognitif mengacu pada agen cerdas yang berkolaborasi dengan banyak pikiran, menggabungkan kekuatan dan pengetahuan individu mereka, untuk meningkatkan pemecahan masalah dan kinerja keseluruhan dalam tugas-tugas kompleks. Dengan mengidentifikasi dan mensimulasikan persona yang berbeda secara dinamis berdasarkan input tugas, SPP melepaskan potensi sinergi kognitif dalam LLMS. Kami telah menemukan bahwa menetapkan beberapa persona berbutir halus di LLMS memunculkan kemampuan pemecahan masalah yang lebih baik dibandingkan dengan menggunakan jumlah persona tunggal atau tetap. Kami mengevaluasi SPP pada tiga tugas yang menantang: Penulisan Kreatif Trivia, Kolaboratif Nama Koden, dan Teka-teki Grid Logika, yang mencakup tipe intensif yang intensif dan penalaran. Tidak seperti karya-karya sebelumnya, seperti rantai-dipikirkan, yang semata-mata meningkatkan kemampuan penalaran di LLM, SPP secara efektif memunculkan kemampuan perolehan pengetahuan internal, mengurangi halusinasi, dan mempertahankan kemampuan penalaran yang kuat. Kode, data, dan prompt dapat ditemukan di: URL HTTPS ini.
Kami menyajikan LLM-Blender, kerangka kerja ensembling yang dirancang untuk mencapai kinerja yang lebih unggul secara konsisten dengan memanfaatkan beragam kekuatan dari beberapa model bahasa open-source besar (LLM). Kerangka kerja kami terdiri dari dua modul: PairRanker dan GenFuser, membahas pengamatan bahwa LLM optimal untuk contoh yang berbeda dapat bervariasi secara signifikan. PairRanker menggunakan metode perbandingan berpasangan khusus untuk membedakan perbedaan halus antara output kandidat. Bersama mengkodekan teks input dan sepasang kandidat, menggunakan encoder silang untuk menentukan yang superior. Hasil kami menunjukkan bahwa PairRanker menunjukkan korelasi tertinggi dengan peringkat berbasis chatgpt. Kemudian, GenFuser bertujuan untuk menggabungkan kandidat peringkat teratas, menghasilkan output yang lebih baik dengan memanfaatkan kekuatan mereka dan mengurangi kelemahan mereka. Untuk memfasilitasi evaluasi skala besar, kami memperkenalkan dataset benchmark, MixInstruct, yang merupakan campuran dari beberapa set data instruksi yang menampilkan perbandingan oracle berpasangan. LLM-Blender kami secara signifikan mengungguli LLM individu dan metode dasar di berbagai metrik, menetapkan kesenjangan kinerja yang substansial.
Model Bahasa Besar (LLM) telah menunjukkan janji dalam membuktikan teorema formal menggunakan asisten bukti seperti Lean. Namun, metode yang ada sulit untuk direproduksi atau dibangun, karena kode pribadi, data, dan persyaratan komputasi besar. Ini telah menciptakan hambatan substansial untuk meneliti metode pembelajaran mesin untuk pembuktian teorema. Makalah ini menghilangkan hambatan ini dengan memperkenalkan Leandojojo: taman bermain lean open-source yang terdiri dari toolkit, data, model, dan tolok ukur. LeandoJo mengekstrak data dari lean dan memungkinkan interaksi dengan lingkungan bukti secara terprogram. Ini berisi anotasi premis berbutir halus dalam bukti, memberikan data berharga untuk pemilihan premis-hambatan utama dalam pembuktian teorema. Menggunakan data ini, kami mengembangkan penindasan (pengambilan-pengambilan pepatah): prover berbasis LLM pertama yang ditambah dengan pengambilan untuk memilih tempat dari perpustakaan matematika yang luas. Ini murah dan hanya membutuhkan satu minggu pelatihan GPU. Retriever kami memanfaatkan kemampuan analisis program LeAndojo untuk mengidentifikasi tempat yang dapat diakses dan contoh negatif yang keras, yang membuat pengambilan lebih efektif. Selain itu, kami membangun tolok ukur baru yang terdiri dari 96.962 teorema dan bukti yang diekstraksi dari Perpustakaan Matematika Lean. Ini fitur split data yang menantang yang membutuhkan pepatah untuk menggeneralisasi ke teorema yang mengandalkan tempat baru yang tidak pernah digunakan dalam pelatihan. Kami menggunakan tolok ukur ini untuk pelatihan dan evaluasi, dan hasil eksperimen menunjukkan keefektifan penindasan atas garis dasar non-retrieval dan GPT-4. Dengan demikian, kami memberikan set pertama pembuktian teorema berbasis LLM open-source tanpa set data hak milik dan melepaskannya di bawah lisensi MIT permisif untuk memfasilitasi penelitian lebih lanjut.
Menjawab pertanyaan visual adalah tugas kompleks yang membutuhkan pemrosesan dan penalaran visual. Model ujung ke ujung, pendekatan dominan untuk tugas ini, tidak secara eksplisit membedakan antara keduanya, membatasi interpretabilitas dan generalisasi. Mempelajari program modular menyajikan alternatif yang menjanjikan, tetapi telah terbukti menantang karena kesulitan mempelajari baik program dan modul secara bersamaan. Kami memperkenalkan Vipergpt, kerangka kerja yang memanfaatkan model generasi kode untuk menyusun model penglihatan-dan-bahasa menjadi subrutin untuk menghasilkan hasil untuk setiap kueri. Vipergpt menggunakan API yang disediakan untuk mengakses modul yang tersedia, dan menyusunnya dengan menghasilkan kode Python yang kemudian dieksekusi. Pendekatan sederhana ini tidak memerlukan pelatihan lebih lanjut, dan mencapai hasil canggih di berbagai tugas visual yang kompleks.
Panjang urutan penskalaan telah menjadi permintaan kritis di era model bahasa besar. Namun, metode yang ada berjuang dengan kompleksitas komputasi atau model ekspresif, membuat panjang urutan maksimum dibatasi. Dalam karya ini, kami memperkenalkan Longnet, varian transformator yang dapat skala panjang urutan menjadi lebih dari 1 miliar token, tanpa mengorbankan kinerja pada urutan yang lebih pendek. Secara khusus, kami mengusulkan perhatian yang melebar, yang memperluas bidang yang penuh perhatian secara eksponensial seiring dengan tumbuhnya jarak. Longnet memiliki keunggulan yang signifikan: 1) memiliki kompleksitas komputasi linier dan ketergantungan logaritma antara token; 2) dapat disajikan sebagai pelatih terdistribusi untuk urutan yang sangat panjang; 3) Perhatiannya yang melebar adalah penggantian drop-in untuk perhatian standar, yang dapat diintegrasikan dengan mulus dengan optimasi berbasis transformator yang ada. Hasil percobaan menunjukkan bahwa Longnet menghasilkan kinerja yang kuat pada pemodelan jangka panjang dan tugas bahasa umum. Pekerjaan kami membuka kemungkinan baru untuk memodelkan urutan yang sangat panjang, misalnya, memperlakukan seluruh korpus atau bahkan seluruh internet sebagai urutan.
Konvergensi besar bahasa, visi, dan pretraining multimodal muncul. Dalam karya ini, kami memperkenalkan model yayasan multimodal tujuan umum Beit-3, yang mencapai kinerja transfer canggih pada tugas penglihatan dan penglihatan. Secara khusus, kami memajukan konvergensi besar dari tiga aspek: arsitektur tulang punggung, tugas pretraining, dan model penskalaan. Kami memperkenalkan transformator multiway untuk pemodelan tujuan umum, di mana arsitektur modular memungkinkan penyandian fusi yang dalam dan modalitas khusus. Berdasarkan tulang punggung yang dibagikan, kami melakukan pemodelan "bahasa" bertopeng pada gambar (imglish), teks (bahasa Inggris), dan pasangan teks gambar ("kalimat paralel") dengan cara yang disatukan. Hasil eksperimen menunjukkan bahwa Beit-3 memperoleh kinerja canggih pada deteksi objek (COCO), segmentasi semantik (ADE20K), klasifikasi gambar (ImageNet), penalaran visual (NLVR2), penjawab pertanyaan visual (VQAV2), captioning gambar (Coco), dan retrieval (Flickr30k, Coco.
Model Bahasa Besar (LLM) telah melihat gelombang kemajuan yang mengesankan baru -baru ini, dengan model yang sekarang unggul dalam berbagai tugas, seperti penalaran matematika dan sintesis program. Namun, potensi mereka untuk secara efektif menggunakan alat melalui panggilan API masih tidak terpenuhi. Ini adalah tugas yang menantang bahkan untuk LLMS canggih saat ini seperti GPT-4, sebagian besar karena ketidakmampuan mereka untuk menghasilkan argumen input yang akurat dan kecenderungan mereka untuk berhalusinasi penggunaan yang salah dari panggilan API. Kami merilis Gorilla, model yang berbasis di Llama yang melampaui kinerja GPT-4 pada penulisan panggilan API. Ketika dikombinasikan dengan retriever dokumen, Gorilla menunjukkan kemampuan yang kuat untuk beradaptasi dengan perubahan dokumen waktu tes, memungkinkan pembaruan pengguna yang fleksibel atau perubahan versi. Ini juga secara substansial mengurangi masalah halusinasi, biasanya ditemui ketika mendorong LLMS secara langsung. Untuk mengevaluasi kemampuan model, kami memperkenalkan Apibench, dataset komprehensif yang terdiri dari API Huggingface, TorchHub, dan TensorHub. Integrasi yang berhasil dari sistem pengambilan dengan gorila menunjukkan potensi LLM untuk menggunakan alat dengan lebih akurat, mengikuti dokumentasi yang sering diperbarui, dan akibatnya meningkatkan keandalan dan penerapan output mereka. Model dan kode gorila tersedia di https://github.com/shishirpatil/gorilla.
Model bahasa besar (LLM) telah mencapai kemajuan luar biasa dalam berbagai tugas pemrosesan bahasa alami dengan kemampuan yang muncul. Namun, mereka menghadapi keterbatasan yang melekat, seperti ketidakmampuan untuk mengakses informasi terkini, memanfaatkan alat eksternal, atau melakukan penalaran matematika yang tepat. Dalam makalah ini, kami memperkenalkan Chameleon, kerangka penalaran komposisi plug-and-play yang menambah LLM untuk membantu mengatasi tantangan ini. Chameleon mensintesis program untuk menyusun berbagai alat, termasuk model LLM, model visi di luar rak, mesin pencari web, fungsi python, dan modul berbasis aturan yang disesuaikan dengan minat pengguna. Dibangun di atas LLM sebagai perencana bahasa alami, Chameleon menyimpulkan urutan alat yang tepat untuk menyusun dan mengeksekusi untuk menghasilkan respons akhir. Kami memamerkan kemampuan beradaptasi dan efektivitas bunglon pada dua tugas: scienceqa dan tabmwp. Khususnya, bunglon dengan GPT-4 mencapai akurasi 86,54% di scienceQA, secara signifikan membaik pada model beberapa shot terbaik yang diterbitkan sebesar 11,37%; Menggunakan GPT-4 sebagai LLM yang mendasarinya, Chameleon mencapai peningkatan 17,8% dari model canggih, yang mengarah ke akurasi keseluruhan 98,78% pada TABMWP. Studi lebih lanjut menunjukkan bahwa menggunakan GPT-4 sebagai perencana menunjukkan pemilihan alat yang lebih konsisten dan rasional dan mampu menyimpulkan kendala potensial mengingat instruksi, dibandingkan dengan LLM lain seperti ChatGPT.
Cara mengubah model bahasa besar (LLM) secara efisien menjadi pengikut instruksi baru-baru ini merupakan arah penelitian yang populer, sementara melatih LLM untuk penalaran multi-modal masih kurang dieksplorasi. Meskipun adaptor Llama baru-baru ini menunjukkan potensi untuk menangani input visual dengan LLM, masih tidak dapat digeneralisasi dengan baik untuk instruksi visual terbuka dan kelambatan di belakang GPT-4. Dalam makalah ini, kami menyajikan Llama-Adapter V2, model instruksi visual yang efisien parameter. Secara khusus, kami pertama-tama menambah adaptor Llama dengan membuka parameter yang lebih dapat dipelajari (misalnya, norma, bias dan skala), yang mendistribusikan kemampuan mengikuti instruksi di seluruh model LLAMA selain adaptor. Kedua, kami mengusulkan strategi fusi awal untuk memberi makan token visual hanya ke lapisan LLM awal, berkontribusi pada penggabungan pengetahuan visual yang lebih baik. Ketiga, paradigma pelatihan bersama dari pasangan teks-teks dan data mengikuti instruksi diperkenalkan dengan mengoptimalkan kelompok terpisah dari parameter yang dapat dipelajari. Strategi ini secara efektif mengurangi gangguan antara dua tugas penyelarasan teks-teks dan pengajaran mengikuti dan mencapai penalaran multi-modal yang kuat dengan hanya sebuah teks gambar skala kecil dan dataset instruksi. Selama inferensi, kami memasukkan model pakar tambahan (misalnya Captioning/OCR Systems) ke dalam adaptor Llama untuk lebih meningkatkan kemampuan pemahaman citra tanpa menimbulkan biaya pelatihan. Dibandingkan dengan adaptor Llama asli, Llama-Adapter V2 kami dapat melakukan instruksi multi-modal terbuka dengan hanya memperkenalkan parameter 14m di atas Llama. Kerangka kerja yang baru dirancang juga menunjukkan kemampuan mengikuti instruksi-khusus yang lebih kuat dan bahkan unggul dalam interaksi obrolan. Kode dan model kami tersedia di URL HTTPS ini.
Proksi perilaku manusia yang dapat dipercaya dapat memberdayakan aplikasi interaktif mulai dari lingkungan yang mendalam hingga ruang latihan untuk komunikasi interpersonal hingga alat pembuatan prototipe. Dalam makalah ini, kami memperkenalkan agen generatif-agen perangkat lunak komputasi yang mensimulasikan perilaku manusia yang dapat dipercaya. Agen generatif bangun, memasak sarapan, dan pergi bekerja; seniman melukis, sementara penulis menulis; mereka membentuk pendapat, saling memperhatikan, dan memulai percakapan; Mereka mengingat dan merenungkan hari -hari yang lalu saat mereka merencanakan hari berikutnya. Untuk mengaktifkan agen generatif, kami menggambarkan arsitektur yang memperluas model bahasa besar untuk menyimpan catatan lengkap dari pengalaman agen menggunakan bahasa alami, mensintesis ingatan tersebut dari waktu ke waktu menjadi refleksi tingkat yang lebih tinggi, dan mengambilnya secara dinamis untuk merencanakan perilaku. Kami instantiate agen generatif untuk mengisi lingkungan kotak pasir interaktif yang terinspirasi oleh SIMS, di mana pengguna akhir dapat berinteraksi dengan kota kecil dua puluh lima agen yang menggunakan bahasa alami. Dalam sebuah evaluasi, agen generatif ini menghasilkan perilaku sosial individu dan yang muncul yang dapat dipercaya: misalnya, dimulai dengan hanya satu gagasan yang ditentukan pengguna bahwa satu agen ingin mengadakan pesta Hari Valentine, agen-agen secara mandiri menyebarkan undangan ke partai selama dua hari ke depan, membuat kenalan baru, menanyakan satu sama lain pada tanggal ke pesta, dan berkoordinasi untuk muncul bersama-sama bersama-sama. Kami menunjukkan melalui ablasi bahwa komponen arsitektur agen kami-pengamatan, perencanaan, dan refleksi-masing-masing berkontribusi secara kritis terhadap perilaku perilaku agen. Dengan menggabungkan model bahasa besar dengan agen komputasi dan interaktif, karya ini memperkenalkan pola arsitektur dan interaksi untuk memungkinkan simulasi perilaku manusia yang dapat dipercaya.
Kemajuan baru-baru ini dalam agen Model Bahasa Besar (LLM) pengambilan keputusan telah menunjukkan kinerja yang mengesankan di berbagai tolok ukur. Namun, pendekatan canggih ini biasanya memerlukan fine-tuning model internal, penyempurnaan model eksternal, atau optimasi kebijakan atas ruang keadaan yang ditentukan. Menerapkan metode ini dapat terbukti menantang karena kelangkaan data pelatihan berkualitas tinggi atau kurangnya ruang negara yang terdefinisi dengan baik. Selain itu, agen-agen ini tidak memiliki kualitas tertentu yang melekat pada proses pengambilan keputusan manusia, khususnya kemampuan untuk belajar dari kesalahan. Refleksi diri memungkinkan manusia untuk menyelesaikan masalah baru secara efisien melalui proses coba-coba. Membangun penelitian terbaru, kami mengusulkan refleksi, suatu pendekatan yang memberikan agen dengan memori dinamis dan kemampuan refleksi diri untuk meningkatkan jejak penalaran yang ada dan kemampuan pilihan tindakan khusus tugas. Untuk mencapai otomatisasi penuh, kami memperkenalkan heuristik langsung namun efektif yang memungkinkan agen untuk menentukan instance halusinasi, menghindari pengulangan dalam urutan tindakan, dan, di beberapa lingkungan, membangun peta memori internal dari lingkungan yang diberikan. Untuk menilai pendekatan kami, kami mengevaluasi kemampuan agen untuk menyelesaikan tugas pengambilan keputusan di lingkungan Alfworld dan tugas-tugas tanya jawab berbasis pencarian di lingkungan hotpotqa. Kami mengamati tingkat keberhasilan 97% dan 51%, masing-masing, dan memberikan diskusi tentang properti yang muncul dari refleksi diri.
Seperti orang, LLM tidak selalu menghasilkan teks terbaik untuk masalah generasi yang diberikan pada percobaan pertama mereka (misalnya, ringkasan, jawaban, penjelasan). Sama seperti orang kemudian memperbaiki teks mereka, kami memperkenalkan referensi diri, kerangka kerja untuk meningkatkan output awal yang sama dari LLM melalui umpan balik dan penyempurnaan berulang. Gagasan utamanya adalah menghasilkan output menggunakan LLM, kemudian memungkinkan model yang sama memberikan umpan balik multi-aspek untuk outputnya sendiri; Akhirnya, model yang sama memperbaiki output yang sebelumnya dihasilkan mengingat umpan baliknya sendiri. Tidak seperti pekerjaan sebelumnya, kerangka kerja penyempurnaan berulang kami tidak memerlukan data pelatihan yang diawasi atau pembelajaran penguatan, dan bekerja dengan LLM tunggal. Kami bereksperimen dengan 7 tugas yang beragam, mulai dari penulisan ulang ulasan hingga penalaran matematika, menunjukkan bahwa pendekatan kami mengungguli generasi langsung. Dalam semua tugas, output yang dihasilkan dengan referensi diri lebih disukai oleh manusia dan oleh metrik otomatis daripada yang dihasilkan langsung dengan GPT-3.5 dan GPT-4, meningkat rata-rata dengan 20% absolut di seluruh tugas.
Memecahkan tugas AI yang rumit dengan domain dan modalitas yang berbeda adalah langkah kunci menuju kecerdasan buatan yang canggih. Meskipun ada model AI berlimpah yang tersedia untuk berbagai domain dan modalitas, mereka tidak dapat menangani tugas AI yang rumit. Mempertimbangkan model bahasa besar (LLM) telah menunjukkan kemampuan luar biasa dalam pemahaman bahasa, generasi, interaksi, dan penalaran, kami menganjurkan agar LLM dapat bertindak sebagai pengontrol untuk mengelola model AI yang ada untuk menyelesaikan tugas AI yang rumit dan bahasa dapat menjadi antarmuka generik untuk memberdayakan hal ini. Berdasarkan filosofi ini, kami menyajikan HuggingGpt, kerangka kerja yang memanfaatkan LLMS (misalnya, chatgpt) untuk menghubungkan berbagai model AI di komunitas pembelajaran mesin (misalnya, memeluk wajah) untuk menyelesaikan tugas AI. Secara khusus, kami menggunakan chatgpt untuk melakukan perencanaan tugas saat menerima permintaan pengguna, memilih model sesuai dengan deskripsi fungsi mereka yang tersedia dalam pelukan wajah, menjalankan setiap subtugas dengan model AI yang dipilih, dan merangkum respons sesuai dengan hasil eksekusi. Dengan memanfaatkan kemampuan bahasa yang kuat dari chatgpt dan model AI berlimpah dalam memeluk wajah, HuggingGpt mampu mencakup banyak tugas AI canggih dalam berbagai modalitas dan domain dan mencapai hasil yang mengesankan dalam bahasa, visi, ucapan, dan tugas -tugas menantang lainnya, yang membuka jalan baru menuju kecerdasan buatan yang maju.
Auto-GPT adalah aplikasi sumber terbuka eksperimental yang menampilkan kemampuan model bahasa GPT-4. Program ini, didorong oleh GPT-4, rantai bersama "pikiran", untuk secara mandiri mencapai tujuan apa pun yang Anda tetapkan. Sebagai salah satu contoh pertama GPT-4 yang berjalan sepenuhnya secara mandiri, Auto-GPT mendorong batas-batas apa yang mungkin dengan AI.
Ada semakin banyak model bahasa besar (LLM) yang dapat diminta oleh pengguna dengan biaya. Kami meninjau biaya yang terkait dengan permintaan API LLM populer, misalnya GPT-4, ChatGPT, J1-Jumbo, dan menemukan bahwa model-model ini memiliki struktur harga yang heterogen, dengan biaya yang dapat berbeda dengan dua pesanan besarnya. Secara khusus, menggunakan LLM pada koleksi besar kueri dan teks bisa mahal. Termotivasi oleh ini, kami menguraikan dan membahas tiga jenis strategi yang dapat dieksploitasi pengguna untuk mengurangi biaya inferensi yang terkait dengan penggunaan LLM: 1) adaptasi cepat, 2) perkiraan LLM, dan 3) kaskade LLM. Sebagai contoh, kami mengusulkan Frugalgpt, instantiasi Cascade LLM yang sederhana namun fleksibel yang mengetahui kombinasi LLM mana yang akan digunakan untuk berbagai kueri untuk mengurangi biaya dan meningkatkan akurasi. Eksperimen kami menunjukkan bahwa FrugalGpt dapat mencocokkan kinerja LLM individu terbaik (misalnya GPT-4) dengan pengurangan biaya hingga 98% atau meningkatkan akurasi lebih dari GPT-4 sebesar 4% dengan biaya yang sama. Gagasan dan temuan yang disajikan di sini meletakkan dasar untuk menggunakan LLMS secara berkelanjutan dan efisien.
Model Bahasa Besar (LLM) telah menunjukkan janji dalam membuktikan teorema formal menggunakan asisten bukti seperti Lean. Namun, metode yang ada sulit untuk direproduksi atau dibangun, karena kode pribadi, data, dan persyaratan komputasi besar. Ini telah menciptakan hambatan substansial untuk meneliti metode pembelajaran mesin untuk pembuktian teorema. Makalah ini menghilangkan hambatan ini dengan memperkenalkan Leandojojo: taman bermain lean open-source yang terdiri dari toolkit, data, model, dan tolok ukur. LeandoJo mengekstrak data dari lean dan memungkinkan interaksi dengan lingkungan bukti secara terprogram. Ini berisi anotasi premis berbutir halus dalam bukti, memberikan data berharga untuk pemilihan premis-hambatan utama dalam pembuktian teorema. Menggunakan data ini, kami mengembangkan penindasan (pengambilan-pengambilan pepatah): prover berbasis LLM pertama yang ditambah dengan pengambilan untuk memilih tempat dari perpustakaan matematika yang luas. Ini murah dan hanya membutuhkan satu minggu pelatihan GPU. Retriever kami memanfaatkan kemampuan analisis program LeAndojo untuk mengidentifikasi tempat yang dapat diakses dan contoh negatif yang keras, yang membuat pengambilan lebih efektif. Selain itu, kami membangun tolok ukur baru yang terdiri dari 96.962 teorema dan bukti yang diekstraksi dari Perpustakaan Matematika Lean. Ini fitur split data yang menantang yang membutuhkan pepatah untuk menggeneralisasi ke teorema yang mengandalkan tempat baru yang tidak pernah digunakan dalam pelatihan. Kami menggunakan tolok ukur ini untuk pelatihan dan evaluasi, dan hasil eksperimen menunjukkan keefektifan penindasan atas garis dasar non-retrieval dan GPT-4. Dengan demikian, kami memberikan set pertama pembuktian teorema berbasis LLM open-source tanpa set data hak milik dan melepaskannya di bawah lisensi MIT permisif untuk memfasilitasi penelitian lebih lanjut.
Pekerjaan terbaru telah menunjukkan bahwa mendorong model bahasa dengan representasi seperti kode bahasa alami mengarah pada peningkatan kinerja pada tugas penalaran terstruktur. Namun, tugas -tugas tersebut hanya terdiri dari sebagian kecil dari semua tugas bahasa alami. Dalam pekerjaan kami, kami berusaha untuk menjawab apakah cara prompompting kode adalah cara yang lebih disukai untuk berinteraksi dengan model bahasa secara umum. Kami membandingkan permintaan kode dan teks di tiga model GPT populer (DAVinci, Code-Davinci-002, dan Text-DavI-002) pada pilihan tugas yang lebih luas (misalnya, QA, sentimen, ringkasan) dan menemukan bahwa dengan beberapa pengecualian, petunjuk kode tidak secara konsisten mengungguli permintaan teks. Selain itu, kami menunjukkan bahwa gaya prompt kode memiliki efek besar pada kinerja untuk beberapa tetapi tidak semua tugas dan bahwa penyesuaian pada instruksi teks mengarah pada kinerja relatif yang lebih baik dari prompt kode.
Model bahasa besar (LLM) melakukan penalaran yang kompleks dengan menghasilkan penjelasan untuk prediksi mereka. Namun, tujuan pelengkap dari penjelasan adalah untuk mengkomunikasikan pengetahuan yang bermanfaat yang meningkatkan agen yang lebih lemah. Oleh karena itu, kami menyelidiki apakah LLM juga membuat guru yang baik untuk agen yang lebih lemah. Secara khusus, kami mempertimbangkan kerangka kerja siswa-guru antara dua agen LLM dan belajar jika, kapan, dan bagaimana guru harus campur tangan dengan penjelasan bahasa alami untuk meningkatkan kinerja siswa. Karena komunikasi itu mahal, kami mendefinisikan anggaran sehingga guru hanya mengkomunikasikan penjelasan untuk sebagian kecil dari data, setelah itu siswa harus tampil baik dengan sendirinya. Kami menguraikan masalah pengajaran di sepanjang empat sumbu: (1) Jika intervensi waktu tes guru meningkatkan prediksi siswa, (2) ketika layak menjelaskan titik data, (3) bagaimana guru harus mempersonalisasikan penjelasan untuk mengajar siswa dengan lebih baik, dan (4) jika penjelasan guru juga meningkatkan kinerja siswa pada data yang tidak dapat dijelaskan di masa depan. Kami pertama -tama menunjukkan bahwa LLMS guru memang dapat mengintervensi penalaran siswa untuk meningkatkan kinerja mereka. Selanjutnya, kami mengusulkan pendekatan teori pikiran, di mana guru membangun dua model mental beberapa shot siswa. Model pertama mendefinisikan fungsi intervensi yang mensimulasikan kegunaan intervensi, yang memungkinkan guru untuk campur tangan ketika utilitas ini adalah kinerja siswa tertinggi dan meningkatkan dengan anggaran yang lebih rendah. Model kedua memungkinkan guru untuk mempersonalisasikan penjelasan untuk siswa tertentu dan mengungguli guru yang tidak pribadi. Kami juga menunjukkan bahwa dalam interaksi multi-giliran, penjelasan guru menggeneralisasi dan belajar dari data yang dijelaskan meningkatkan kinerja siswa pada data yang tidak dapat dijelaskan di masa depan. Akhirnya, kami juga memverifikasi bahwa guru yang tidak selaras dapat menurunkan kinerja siswa ke kesempatan acak dengan sengaja menyesatkan mereka.
Kami memperkenalkan Kosmos-2, model bahasa besar multimodal (MLLM), memungkinkan kemampuan baru memahami deskripsi objek (misalnya, kotak pembatas) dan teks landasan ke dunia visual. Secara khusus, kami mewakili ekspresi referensi sebagai tautan dalam markdown, yaitu, `` [rentang teks] (kotak pembatas) '', di mana deskripsi objek adalah urutan token lokasi. Bersama dengan korpora multimodal, kami membangun data skala besar dari pasangan teks-gambar grounded (disebut grit) untuk melatih model. Selain kemampuan MLLMS yang ada (misalnya, merasakan modalitas umum, mengikuti instruksi, dan melakukan pembelajaran dalam konteks), Kosmos-2 mengintegrasikan kemampuan pembumian ke dalam aplikasi hilir. Kami mengevaluasi KOSMOS-2 pada berbagai tugas, termasuk (i) landasan multimodal, seperti merujuk pemahaman ekspresi, dan landasan frasa, (ii) merujuk multimodal, seperti merujuk generasi ekspresi, (iii) tugas-tugas bahasa, dan (iv) pemahaman dan generasi bahasa. Karya ini menjabarkan fondasi untuk pengembangan perwujudan AI dan menjelaskan konvergensi besar bahasa, persepsi multimodal, tindakan, dan pemodelan dunia, yang merupakan langkah kunci menuju kecerdasan umum buatan. Kode dan model pretrained tersedia di URL HTTPS ini.
Kami memperkenalkan Palm 2, model bahasa canggih yang memiliki kemampuan multibahasa dan penalaran yang lebih baik dan lebih efisien komputasi daripada Palm pendahulunya. Palm 2 adalah model berbasis transformator yang dilatih menggunakan campuran tujuan. Melalui evaluasi yang luas pada bahasa Inggris dan bahasa multibahasa, dan tugas penalaran, kami menunjukkan bahwa Palm 2 telah secara signifikan meningkatkan kualitas pada tugas hilir di berbagai ukuran model, sementara secara bersamaan menunjukkan inferensi yang lebih cepat dan lebih efisien dibandingkan dengan Palm. Efisiensi yang lebih baik ini memungkinkan penyebaran yang lebih luas sementara juga memungkinkan model untuk merespons lebih cepat, untuk laju interaksi yang lebih alami. Palm 2 menunjukkan kemampuan penalaran yang kuat yang dicontohkan oleh perbaikan besar atas Palm di Big Bigh dan tugas penalaran lainnya. Palm 2 menunjukkan kinerja yang stabil pada serangkaian evaluasi AI yang bertanggung jawab, dan memungkinkan kontrol waktu inferensi atas toksisitas tanpa overhead tambahan atau dampak pada kemampuan lain. Secara keseluruhan, Palm 2 mencapai kinerja canggih di berbagai tugas dan kemampuan.
Menghasilkan gerakan manusia yang realistis dari deskripsi tindakan yang diberikan telah mengalami kemajuan yang signifikan karena persyaratan yang muncul dari manusia digital. Sementara karya -karya terbaru telah mencapai hasil yang mengesankan dalam menghasilkan gerakan langsung dari deskripsi tindakan tekstual, mereka sering mendukung hanya modalitas tunggal dari sinyal kontrol, yang membatasi aplikasi mereka dalam industri manusia digital yang sebenarnya. Makalah ini menyajikan generator tujuan umum (MotionGpt) yang dapat menggunakan sinyal kontrol multimodal, misalnya, teks dan pose bingkai tunggal, untuk menghasilkan gerakan manusia berturut-turut dengan memperlakukan sinyal multimoda sebagai token input khusus dalam model bahasa besar (LLM). Secara khusus, pertama -tama kami mengukur sinyal kontrol multimodal ke dalam kode diskrit dan kemudian merumuskannya dalam instruksi prompt terpadu untuk meminta LLMS untuk menghasilkan jawaban gerak. MotionGPT kami menunjukkan model pembuatan gerak manusia terpadu dengan sinyal kontrol multimodal dengan menyetel hanya 0,4% dari parameter LLM. Sepengetahuan kami, MotionGpt adalah metode pertama untuk menghasilkan gerakan manusia dengan sinyal kontrol multimodal, yang kami harap dapat menjelaskan arah baru ini. Kode harus dilepaskan setelah penerimaan.
Model Bahasa Besar (LLM) telah menunjukkan kinerja yang mengesankan pada penalaran yang kompleks dengan memanfaatkan rantai-pemikiran (COT) yang diminta untuk menghasilkan rantai penalaran menengah sebagai alasan untuk menyimpulkan jawabannya. Namun, studi COT yang ada berfokus pada modalitas bahasa. Kami mengusulkan modalitas multimodal-cot yang menggabungkan modalitas bahasa (teks) dan visi (gambar) ke dalam kerangka kerja dua tahap yang memisahkan generasi pemikiran dan menjawab inferensi. Dengan cara ini, jawab inferensi dapat memanfaatkan rasional yang lebih baik yang didasarkan pada informasi multimodal. Dengan Multimodal-Cot, model kami di bawah 1 miliar parameter mengungguli LLM canggih sebelumnya (GPT-3.5) dengan 16 poin persentase (75,17%-> 91,68% akurasi) pada benchmark ScienceQA dan bahkan melampaui kinerja manusia. Kode tersedia untuk umum tersedia di URL HTTPS ini.
Llama 2: Open Foundation and Fine-Tuned Chat Model
UNILM: Pra-pelatihan swadaya skala besar di seluruh tugas, bahasa, dan modalitas
Jaringan saraf yang sangat besar: Lapisan campuran yang jarang
Glam: Penskalaan Efisien Model Bahasa dengan Campuran Eksek
Visi penskalaan dengan campuran para ahli yang jarang
Klasifikasi teks “rendah sumber daya”: metode klasifikasi bebas parameter dengan kompresor
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| matematika | machine learning | Transformator | Wajah memeluk |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | Pemrosesan bahasa alami dengan transformer |