Sumber Daya Penelitian Pengalihan Kode
Ini adalah daftar tutorial, lokakarya, makalah, dan sumber daya tentang pendekatan linguistik komputasi untuk penelitian pengalihan kode. Daftar akan diperbarui dari waktu ke waktu. Anda dipersilakan untuk mengirim permintaan tarik untuk memperbarui daftar dan menjadi salah satu kontributor!
? Saya berencana untuk mengumpulkan tesis dan buku tentang pengalihan kode dan daftar di sini. Jika Anda memilikinya, jangan ragu untuk menghubungi saya atau membuat permintaan tarik!
Daftar isi
- Highlight
- ? Bengkel
- ? Makalah Penelitian
- Kertas survei
- Model bahasa besar
- Identifikasi bahasa dan penandaan POS
- Corpus
- Pemodelan bahasa dan pengenalan ucapan
- Ceramah
- Generasi
- Sintesis ucapan
- Metrik
- Pembelajaran Representasi
- Terjemahan mesin
- Terjemahan ucapan
- Pemahaman bahasa alami
- Pengakuan entitas yang disebutkan
- Ilmu bahasa
- Komputasi afektif
- Dialog dan sistem percakapan
- Ceramah
- Sintaksis
- Serangan musuh
- Linguistik Sosial
- Benchmark
- Media sosial
- Normalisasi teks
- Toolkit
- Buku
- Tesis
Highlight
- Kami akan mengatur lokakarya pengalihan kode di NAACL 2025! Kami akan segera memperbarui situs web! [Situs web]
- Jika Anda baru dalam pengalihan kode atau mencari arah penelitian baru, kami telah menulis makalah survei yang komprehensif tentang pengalihan kode: Dekade berkembang pada penelitian pengalihan kode di NLP: survei sistematis tentang tren dan tantangan [kertas]. Jangan ragu untuk membaca dan memberi tahu kami jika Anda memiliki saran! Terima kasih kepada Alham Fikri Aji, Zheng-Xin Yong, dan Thamar Solorio untuk memungkinkan ini?
- Kami mengatur lokakarya pengalihan kode di EMNLP 2023! [Situs web]
- Kami (I, Marina Zhukova, dan Sudipta Kar) menyelenggarakan sesi burung-dari-bulu di EMNLP 2022 di Abu Dhabi. Kami memiliki sekitar 30 orang yang bergabung (secara langsung dan online). Terima kasih sudah datang!
- ? Ada tutorial komprehensif tentang pencampuran kode oleh Microsoft Research (Monojit Choudhury, Kalika Bali, Anirudh Srinivasan, dan Sandipan Dandapat) di EMNLP 2019, Anda dapat memeriksa tautan berikut.
? Bengkel
Ini adalah daftar seri lokakarya pengalihan kode:
- Lokakarya Pertama tentang Pendekatan Komputasi untuk Pengalihan Kode, EMNLP 2014 [Situs Web]
- Lokakarya Kedua tentang Pendekatan Komputasi untuk Pengalihan Kode, EMNLP 2016
- Lokakarya Ketiga tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik, ACL 2018 [Situs Web]
- Lokakarya Keempat tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik, LREC 2020 [Situs Web]
- Lokakarya Pertama tentang Teknologi Pidato untuk Pengalihan Kode di Komunitas Multilingual, Interspeech 2020 [Situs Web]
- Lokakarya Kelima tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik, NAACL 2021 [Situs Web]
- Lokakarya Keenam tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik, EMNLP 2023 [Situs Web]
- Lokakarya Ketujuh tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik, NAACL 2025 [Situs web (akan segera terbuka)]
? Makalah Penelitian
Kertas survei
- Winata, dkk. (2023) Dekade-dekade berkembang dalam penelitian pengalihan kode di NLP: survei sistematis tentang tren dan tantangan . Temuan ACL [kertas]
- Doğruöz, dkk (2021) Survei Kode-Pengalihan: Perspektif Linguistik dan Sosial untuk Teknologi Bahasa . ACL [kertas]
- Jose, et al. (2020) Survei kumpulan data saat ini untuk penelitian pengalihan kode . Konferensi Internasional tentang Komputasi Lanjutan dan Sistem Komunikasi (ICACCS) [kertas]
- Sitaram, dkk. (2019) Survei pemrosesan pidato dan bahasa yang beralih . Arxiv [kertas]
Model bahasa besar
- Winata, dkk. (2024) Penambang: Model bahasa multibahasa sebagai pengambil semantik . Temuan EMNLP [kertas] [kode]
- Yoo, et al. (2024) Kode-switching red-time: Evaluasi LLM untuk keselamatan dan pemahaman multibahasa . Arxiv [kertas]
- Leon, et al., (2024) Probe pencampur kode menunjukkan bagaimana model pra-terlatih menggeneralisasi pada teks yang digerakkan kode . LREC [kertas] [kode]
- Huzaifah, dkk. (2024) Mengevaluasi terjemahan pengalihan kode dengan model bahasa besar . LREC-COLING [kertas]
- Yong, dkk. (2023) Minta model bahasa besar untuk menghasilkan teks-teks yang dicampur kode: Kasus bahasa Asia Tenggara . Calcs, EMNLP [kertas]
Identifikasi bahasa dan penandaan POS
- Burchell, dkk. (2024) Identifikasi bahasa yang digerakkan kode lebih sulit dari yang Anda pikirkan . EACL [kertas]
- Igor Sterner dan Simone Teufel (2023) Longueswitcher: Identifikasi berbutir halus dari pengalihan kode Jerman-Inggris . Calcs, EMNLP [kertas]
- Ostapenko, dkk. (2022) Informasi pembicara dapat memandu model untuk bias induktif yang lebih baik: studi kasus tentang memprediksi pengalihan kode . ACL [kertas]
- Nguyen, dkk. (2021) Identifikasi bahasa otomatis dalam teks media sosial Hindi-Inggris yang beralih . Jurnal Data Humaniora Terbuka [kertas]
- Tarunesh, et al. (2021) Dari terjemahan mesin ke switching kode: menghasilkan teks yang beralih kode berkualitas tinggi . ACL [kertas]
- Gustavo Aguilar dan Thamar Solorio. (2020) Dari Bahasa Inggris ke Pengalihan Kode: Transfer Pembelajaran dengan petunjuk morfologis yang kuat . ACL [kertas] [kode]
- Mager, dkk. (2019) Identifikasi bahasa tingkat subword untuk pengalihan kode intra-kata . NAACL [kertas]
- Zhang, et al. (2018) Model yang cepat, kompak, dan akurat untuk identifikasi bahasa teks codemix . EMNLP [kertas]
- Kelsey Ball dan Dan Garrette. (2018) Tagging bagian-of-speech untuk teks-teks yang ditransliterasikan dengan kode yang ditransliterasikan tanpa identifikasi bahasa eksplisit . EMNLP [kertas]
- Zeynep Yirmibesoglu dan Gulsen Eryigit. (2018) Mendeteksi pengalihan kode antara pasangan bahasa Turki-Inggris . Workshop W-Nut, EMNLP [kertas]
- Mavem, dkk. (2018) Identifikasi Bahasa dan Analisis Teks Media Sosial yang Berputar Kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Victor Soto dan Julia Hirschberg. (2018) Part-of-speech dan penandaan ID Bahasa untuk data yang digerakkan kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Bullock, dkk. (2018) Memprediksi keberadaan bahasa matriks dalam pengalihan kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Soto, dkk. (2018) Peran kata-kata serumpun, tag POS, dan entrainment dalam pengalihan kode . Interspeech [kertas]
- Barman, dkk. (2016) Tagging sebagian dari konten media sosial yang dicampur kode: pipa, penumpukan dan pemodelan bersama . Lokakarya ke-2 tentang Pendekatan Komputasi untuk Pengalihan Kode, ACL [Kertas]
- Vyas, dkk. (2014) POS Tagging Konten Media Sosial Bahasa Inggris-Hindi-dicampur . EMNLP [kertas]
- Heba Elfardy dan Mona Diab. (2012) Identifikasi tingkat switching kode linguistik . Coling [kertas]
- Thamar Solorio dan Yang Liu. (2008) Belajar memprediksi poin pengalihan kode . EMNLP [kertas]
- Dau-cheng Lyu dan Ren-yuan Lyu. (2008) Identifikasi bahasa pada ucapan pengalihan kode menggunakan beberapa isyarat . Interspeech [kertas]
Corpus
- Kuwanto, dkk. (2024) Teori Linguistik Bertemu LLM: Pembuatan teks yang digerakkan oleh kode melalui kesetaraan membatasi model bahasa besar . Arxiv [kertas] [kode] [dataset]
- Ruochen Zhang dan Carsten Eickhoff (2024) Crocosum: Dataset Benchmark untuk Ringkasan Cross-Lingual-Switched . LREC [kertas] [dataset]
- Whitehouse, et al. (2022) EntityCS: Meningkatkan transfer lintas-bahasa nol-shot dengan switching kode entitas-sentris . EMNLP [kertas] [kode]
- Lovenia, dkk. (2022) Ascend: Dataset Cina-Inggris yang spontan untuk pengalihan kode dalam percakapan multi-putaran . LREC [kertas] [dataset]
- Nguyen, dkk. (2020) Canvec-The Canberra Vietnam-English Code-Switching Natural Speech Corpus . LREC [kertas]
- Umapathy, et al. (2020) Investigasi teknik pemodelan untuk inferensi bahasa alami pada dialog yang digerakkan kode dalam film Bollywood . Lokakarya Pertama tentang Teknologi Bicara untuk Pengalihan Kode di Komunitas Multilingual, Interspeech 2020 [Dataset]
- Xiang, dkk. (2020) Kata-kata Alfabet Sina Mandarin: Sumber Daya Leksikal Pencampuran Kode Web . AACL-IJCNLP [TBC]
- Chakravarthi, dkk. (2020) Penciptaan corpus untuk analisis sentimen dalam teks Tamil-Inggris yang dicampur kode . Teknologi bahasa lisan untuk bahasa yang kurang sumber daya) dan CCURL (kolaborasi dan komputasi untuk lokakarya bahasa yang kurang sumber daya, LREC [kertas]
- Khanuja, dkk. (2020) Dataset baru untuk inferensi bahasa alami dari percakapan campuran kode . Lokakarya ke-4 dari pendekatan komputasi untuk pengalihan kode linguistik, LREC [kertas]
- Barik, dkk. (2019) Normalisasi data Twitter yang dicampur oleh kode Indonesia-Bahasa Inggris . W-nut, emnlp [kertas] [dataset]
- Singh, et al. (2018) Sebuah korpus Twitter untuk kode Hindi-Inggris campuran POS Tagging . Lokakarya Internasional Keenam tentang Pemrosesan Bahasa Alami untuk Media Sosial, ACL [Kertas]
- Li, et al. (2012) Corpus switching kode bahasa Mandarin-Inggris . LREC [kertas]
- Lyu, et al. (2010) Seame: Corpus pidato pengalihan kode Mandarin-Inggris di Asia Tenggara . Interspeech [kertas]
- Lyu, et al. (2010) Analisis Corpus Pidato Pengalihan Kode Mandarin-Inggris: Seame . Umur [kertas]
Pemodelan bahasa dan pengenalan ucapan
- Yu, et al. (2023) Pembuatan teks dan suntikan kode dalam ASR Mandarin-Inggris . ICASSP [kertas]
- Tolúlopé, dkk. (2023) Representasi ucapan swadaya multibahasa meningkatkan pengenalan suara dari bahasa Afrika dengan sumber daya rendah dengan codeswitching . Lokakarya Keenam tentang Pendekatan Komputasi untuk Pengalihan Kode Linguistik. [Kertas]
- Kumar, dkk. (2020) Pemodelan Bahasa Berbasis Pembelajaran Mesin dari Data Berganti Kode . Konferensi Internasional tentang Elektronik dan Sistem Komunikasi Berkelanjutan (ICESC) [Kertas]
- Madhumani, dkk. (2020) Pembelajaran untuk tidak membedakan: pembelajaran agnostik tugas untuk meningkatkan pengenalan suara monolingual dan kode yang digerakkan . Arxiv [kertas]
- Shah, dkk. (2020) Belajar Mengenali Pidato yang Diaktifkan Kode Tanpa Melupakan Pengakuan Pidato Monolingual . Arxiv [kertas]
- Winata, dkk. (2020) Pembelajaran meta-transfer untuk pengenalan ucapan yang digerakkan oleh kode . ACL [kertas] [kode]
- Chandu, dkk. (2020) Variasi gaya sebagai titik pandang untuk pengalihan kode . Arxiv [kertas]
- Ganji Sreeram dan Rohit Sinha (2020) Eksplorasi kerangka kerja end-to-end untuk tugas pengenalan ucapan pengalihan kode: tantangan dan peningkatan . IEEE Access [kertas]
- Winata, dkk. (2019) Model bahasa yang digerakkan kode menggunakan data sintetis berbasis saraf dari kalimat paralel . Conll [kertas]
- Hila Gonen dan Yoav Goldberg (2019) Pemodelan Bahasa untuk Pengalihan Kode: Evaluasi, Integrasi Data Monolingual, dan Pelatihan Diskriminatif . EMNLP [kertas]
- Lee, et al. (2019) augmentasi data paralel yang dimotivasi secara linguistik untuk pemodelan bahasa switch kode . Interspeech [kertas]
- Victor Soto dan Julia Hirschberg (2019) Meningkatkan kinerja pemodelan bahasa yang beralih kode menggunakan fitur serumpun . Interspeech [kertas]
- Chang, et al. (2019) Pembuatan Kalimat Pengalihan Kode oleh Jaringan permusuhan generatif dan penerapannya pada augmentasi data . Interspeech [kertas]
- Zeng, et al. (2019) tentang solusi ujung-ke-ujung untuk pengenalan ucapan pengalihan kode Mandarin-Inggris . Interspeech [kertas]
- Taneja, dkk. (2019) mengeksploitasi korpora pidato monolingual untuk pengakuan ucapan yang dicampur kode . Interspeech [kertas]
- Shan, dkk. (2019) Menyelidiki pengakuan ucapan ujung ke ujung untuk pengalihan kode Mandarin-Inggris . Konferensi Internasional IEEE tentang Akustik, Pidato, dan Pemrosesan Sinyal (ICASSP) [kertas]
- Grandee Lee, Haizhou Li. (2019) Kata dan kelas embedding ruang umum untuk pemodelan bahasa switch kode . Konferensi Internasional IEEE tentang Akustik, Pidato, dan Pemrosesan Sinyal (ICASSP) [kertas]
- Hamed, dkk. (2019) Pemodelan bahasa pengalihan kode dengan embeddings kata bilingual: studi kasus untuk bahasa Arab-Inggris Mesir . Konferensi Internasional tentang Pidato dan Komputer [Makalah]
- Winata, dkk. (2018) Belajar dengan Kode-Switch: Augmentasi data menggunakan mekanisme salinan pada pemodelan bahasa . Arxiv [kertas]
- Winata, dkk. (2018) Menuju pengenalan ucapan pengalihan kode otomatis end-to-end . Arxiv [kertas]
- Nakayama, dkk. (2018) Rantai pidato untuk pembelajaran semi-diawasi dari ASR dan TTS-tts-switching Jepang-Inggris . IEEE Lisan Lokakarya Teknologi Bahasa (SLT) [Kertas]
- Jesse Emond, Bhuwana Ramabhadran, Brian Roark, Pedro Moreno, dan Min Ma. (2018) Pendekatan berbasis transliterasi untuk meningkatkan kinerja pengenalan ucapan yang digerakkan oleh kode , IEEE Lisan Bahasa Teknologi Bahasa (SLT) [kertas]
- Ganji Sreeram dan Rohit Sinha. (2018) mengeksploitasi bagian-of-speech untuk pemodelan tekstual yang lebih baik dari data pengalihan kode . 2018 Konferensi Nasional Dua Puluh Keempat tentang Komunikasi (NCC) [Makalah]
- Garg, et al. (2018) Model bahasa yang digerakkan kode menggunakan RNN ganda dan pretraining sumber yang sama . EMNLP [kertas]
- Ewald van der Westhuizen dan Thomas R. Niesler. (2018) mensintesis bigrams menggunakan kata embeddings untuk ASR yang dipecat dari empat pasangan bahasa Afrika Selatan . Pidato dan Bahasa Komputer [Kertas]
- Biswal, dkk. (2018) Pemodelan akustik jaringan saraf multibahasa untuk ASR dari pidato berbahasa Inggris-Isizulu yang kurang sumber daya . Interspeech [kertas]
- Winata, dkk. (2018) Pemodelan Bahasa Pengalihan Kode Menggunakan Pembelajaran Multi-Task Sintaks-Sadar . Lokakarya ke-3 pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas] [kode]
- Chandu, dkk. (2018) Bahasa yang menginformasikan pemodelan teks yang digerakkan kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Pratapa, dkk. (2018) Pemodelan Bahasa untuk Pencampur Kode: Peran Data Sintetis Berbasis Teori Linguistik . ACL [kertas]
- Sivasankaran, dkk. (2018) Penggabungan telepon untuk pengenalan suara yang beralih kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Garg, et al. (2018) Model bahasa ganda untuk pengenalan ucapan yang dialihkan kode . Interspeech [kertas]
- Baheti, dkk. (2017) Desain kurikulum untuk pengalihan kode: Eksperimen dengan identifikasi bahasa dan pemodelan bahasa dengan jaringan saraf yang dalam . Ikon [kertas]
- Adel, et al. (2015) Fitur sintaksis dan semantik untuk model bahasa factored switching kode . Transaksi IEEE pada audio, ucapan, dan pemrosesan bahasa [kertas]
- Ying Li dan Pascale Fung. (2014) Code Switch Bahasa Pemodelan Bahasa dengan batasan kepala fungsional . ICASSP [kertas]
- Ying Li dan Pascale Fung. (2014) Pemodelan bahasa dengan batasan kepala fungsional untuk pengenalan ucapan pengalihan kode . EMNLP [kertas]
- Adel, et al. (2013) Kombinasi jaringan saraf berulang dan model bahasa faktor untuk pemodelan bahasa pengalasan kode . ACL [kertas]
- Adel, et al. (2013) Pemodelan bahasa jaringan saraf berulang untuk pengalihan kode pidato percakapan . ICASSP [kertas]
- Vu, et al. (2012) Sistem pengenalan ucapan pertama untuk pidato percakapan Code-Switch Mandarin-Inggris . ICASSP [kertas]
- Ying Li dan Pascale Fung. (2012) Model Bahasa Kode-Switch dengan kendala inversi untuk pengenalan ucapan bahasa campuran . Coling [kertas]
- Li, et al. (2011) Pemodelan akustik asimetris dari pidato bahasa campuran . ICASSP [kertas]
Ceramah
- Sravani, dkk. (2021) Analisis Wacana Politik: Studi kasus pencampuran kode dan pengalihan kode dalam pidato politik . Prosiding Lokakarya ke -5 tentang Pendekatan Komputasi untuk Peralihan Kode (CalcS), NAACL [Kertas]
Generasi
- Gupta, dkk. (2020) Pendekatan semi-diawasi untuk menghasilkan teks yang dicampur kode menggunakan encoder pra-terlatih dan pembelajaran transfer . Temuan EMNLP [kertas]
- Bryan Gregorius dan Takeshi Okadome (2022) Menghasilkan teks yang digerakkan kode dari teks monolingual dengan pohon ketergantungan . Lokakarya Tahunan ke -20 Asosiasi Teknologi Bahasa Australasia [Makalah] [Kode]
Sintesis ucapan
- Sai Krishna Rallabandi dan Alan W Black (2019) Perhatian variasional menggunakan prior artikulator untuk menghasilkan kode campuran kode menggunakan korpora monolingual . Interspeech [kertas]
- Sai Krishna Rallabandi dan Alan W Black (2017) tentang membangun sistem sintesis ucapan bahasa campuran. Interspeech [kertas]
- Chandu, dkk. (2017) Sintesis pidato untuk instruksi navigasi berbahasa campuran. Interspeech [kertas]
Metrik
- Guzman, dkk. (2017) Metrik untuk pemodelan kode-switching di seluruh korpora . Interspeech [kertas]
Pembelajaran Representasi
- Adilazuarda, dkk. (2023) Indorobusta: Menuju ketahanan terhadap beragam bahasa lokal Indonesia yang dicampur . Prosiding lokakarya pertama tentang meningkatkan evaluasi multibahasa, AACL [kertas] [kode]
- Prasad, dkk. (2021) Efektivitas pelatihan tugas-menengah untuk pemahaman bahasa alami yang digerakkan oleh kode . Prosiding Lokakarya Pertama tentang Pembelajaran Representasi Multilingual, EMNLP [Kertas]
- Winata, dkk. (2021) Apakah model multibahasa efektif dalam pengalihan kode? . Prosiding Lokakarya ke -5 tentang Pendekatan Komputasi untuk Peralihan Kode (CalcS), NAACL [Kertas]
- Rizal, et al. (2020) Mengevaluasi embeddings kata untuk teks-campuran kode-Indonesia-Inggris berdasarkan data sintetis . Prosiding lokakarya ke -4 tentang pendekatan komputasi untuk switching kode (calcs), LREC [kertas]
- Winata, dkk. (2019) Meta-Embeddings Hierarkis untuk Pengakuan Entitas yang Diperlukan Kode . EMNLP [kertas] [kode]
- Pratapa, dkk. (2018) Word Embeddings untuk pemrosesan bahasa yang dicampur kode . EMNLP [kertas]
Terjemahan mesin
- Pengpun, dkk. (2024) Tentang membuat terjemahan mesin berbahasa Inggris-THAI-SWITCHED dalam domain medis. EMNLP [kertas]
- Gaser, et al. (2023) Menjelajahi pendekatan segmentasi untuk terjemahan mesin saraf dari teks bahasa Arab-Inggris yang beralih kode . EACL [kertas]
- Kuwanto, dkk. (2021) Kurikulum pelatihan terjemahan mesin rendah sumber daya cocok untuk bahasa rendah sumber daya . Arxiv [kertas]
- Vivek Srivastava dan Mayak Singh (2020) Phinc: Corpus Media Sosial Hinglish Hinglish untuk terjemahan mesin . W-nut, emnlp [kertas] [dataset]
- Thoudam Doren Singh dan Thamar Solorio. (2017) menuju menerjemahkan komentar kode campuran dari media sosial . Cicling [kertas]
Terjemahan ucapan
- Alastruey, dkk. (2023) Menuju terjemahan pidato streaming dunia nyata untuk pidato yang digerakkan oleh kode . Calcs, EMNLP [kertas]
Pemahaman bahasa alami
- Krishnan, dkk. (2021) Pengalihan kode multibahasa untuk prediksi niat cross-lingual nol-shot dan pengisian slot . MRL, EMNLP [kertas]
Pengakuan entitas yang disebutkan
- Priyadharshini, dkk. (2020) Bernama pengakuan entitas untuk corpus India yang dicampur kode menggunakan meta embedding . Konferensi Internasional ke -6 tentang Komputasi Lanjutan dan Sistem Komunikasi (ICACCS) [kertas]
- Winata, dkk. (2019) Belajar meta-embeddings multibahasa untuk pengakuan entitas yang dinamai kode . REPL4NLP, ACL [kertas] [Kode]
- Aguilar, dkk. (2018) dinobatkan sebagai pengakuan entitas pada data yang digerakkan kode: Tinjauan Tugas Bersama Calcs 2018 . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Wang, et al. (2018) Code-Switched bernama Entity Recognition dengan menanamkan perhatian . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Winata, dkk. (2018) Representasi karakter dwibahasa untuk secara efisien menangani kata-kata di luar vokabulary dalam pengalihan entitas yang dinamai kode . Lokakarya ke-3 dari pendekatan komputasi untuk pengalihan kode linguistik, ACL [kertas]
- Aguilar, dkk. (2017) Pendekatan multi-tugas untuk pengakuan entitas yang disebutkan dalam data media sosial . Lokakarya ke-3 tentang teks yang dibuat pengguna yang berisik, EMNLP [kertas]
Ilmu bahasa
- Li Nyuyen. (2018) pinjaman atau pengalihan kode? Jejak norma-norma komunitas dalam pidato Vietnam-Inggris. Australian Journal of Linguistics 38.4 (2018): 443-466. [Kertas]
- Fairchild, Sarah, dan Janet G. Van Hell. (2017) Penentu-Noun Code-Switching dalam penutur warisan Spanyol. Bilingualisme: Bahasa dan Kognisi 20.1 (2017): 150-161. [Kertas]
- Bhatt, Rakesh M., dan Agnes Bolonyai. (2011) Pengalihan kode dan tata bahasa optimal penggunaan bahasa dwibahasa. Bilingualisme: Bahasa dan Kognisi 14.4 (2011): 522-546. [Kertas]
- Lipski (2005) Pengalihan kode atau pinjaman? Tidak ada sé jadi tidak ada puedo decir, Anda tahu. Lokakarya kedua tentang sosiolinguistik Spanyol [kertas]
- Roberto R. Heredia dan Jeanette Altarriba (2001) Bahasa Bilingual Campuran: Mengapa Bilinguals Code-Switch? Sage Publications [kertas]
- Belazi, dkk. (1994) Kode switching dan teori X-Bar: kendala kepala fungsional . Linguistic Inquiry Vol 25 No.2 Spring [Paper]
- Shana Poplack (1980) Kadang-kadang saya akan memulai kalimat dalam bahasa Spanyol y termino en espanol: menuju tipologi kode-switching1 . Linguistik 18 (7-8) [kertas]
- Pfaff, Carol W. (1979) Kendala pada pencampuran bahasa: Pengalihan kode intrasentensial dan pinjaman dalam bahasa Spanyol/Inggris. Bahasa: 291-318. [Kertas]
- Shana Poplack (1978) Struktur sintaksis dan fungsi sosial dari pengalihan kode . Vol. 2. Centro de Estudios Puertorriqueños, City University of New York [kertas]
- Gumperz, JJ, & Hernandez, E. (1969) Aspek kognitif komunikasi bilingual . Institut Studi Internasional, Universitas California [kertas]
Komputasi afektif
- Chakravarthi, dkk. (2021) DravidianCodemix: Analisis sentimen dan dataset identifikasi bahasa ofensif untuk bahasa Dravida dalam teks yang dicampur kode . Arxiv [kertas] [kode dan dataset]
- Siddharth Yadav (2020) Analisis sentimen tanpa pengawasan untuk data yang dicampur kode . Arxiv [kertas] [kode]
- Wang, et al. (2017) Analisis Emosi dalam Teks Pengalihan Kode dengan Model Grafik Faktor Bersama . Transaksi IEEE/ACM pada audio, ucapan, dan pemrosesan bahasa [kertas]
- Wang, et al. (2016) Jaringan perhatian dwibahasa untuk prediksi emosi yang digerakkan oleh kode . Coling [kertas]
- Sophia Lee dan Zhongqing Wang (2015) Emosi dalam Teks Pengalihan Kode: Konstruksi dan Analisis Corpus . Prosiding Lokakarya Sighan Kedelapan tentang Pemrosesan Bahasa Cina [Kertas]
- Wang, et al. (2015) Deteksi emosi dalam teks-teks pengalihan kode melalui informasi dwibahasa dan sentimental . ACL [kertas]
Dialog dan sistem percakapan
- Gupta, dkk. (2018) Mengungkap Tantangan yang Dipicu Kode: Kerangka kerja untuk pembuatan pertanyaan yang didorong secara bahasa dan menjawab pertanyaan berbasis saraf . Conll [kertas]
Ceramah
- Sravani, dkk. (2021) Analisis Wacana Politik: Studi kasus pencampuran kode dan pengalihan kode dalam pidato politik . Calcs Prosiding Lokakarya ke -5 tentang Pendekatan Komputasi untuk Peralihan Kode (CalcS), NAACL [Kertas]
Sintaksis
- Kodali, dkk. (2022) Symcom-Ukuran sintaksis dari kode pencampuran studi pencampuran kode bahasa Inggris-Hindi . Temuan ACL [kertas]
- Özlem Çetinoglu dan çagrı Çöltekin (2019) Tantangan anotasi bank switching kode . Sintaksfest [kertas]
Serangan musuh
- Samson Tan dan Shafiq Joty (2021) Pencampuran kode di Sesame Street: Dawn of the Adversarial Polyglots . NAACL [kertas]
Linguistik Sosial
- Bolock, et al. (2020) Siapa, kapan dan mengapa: 3 WS-switching kode . Konferensi Internasional tentang Aplikasi Praktis Agen dan Sistem Multi-Agen [Kertas]
- Yoder, et al. (2017) Code-Switching sebagai Tindakan Sosial: Kasus Halaman Pembicaraan Wikipedia Arab . Prosiding Lokakarya Kedua tentang Pemrosesan Bahasa Alami dan Ilmu Sosial Komputasi, ACL [Kertas]
- Agrawal, dkk. (2017) Agarwal, Prabhat, dkk. Saya dapat berbicara dalam bahasa Inggris tetapi Gaali Toh Hindi Mein Hi Denge: Sebuah studi tentang pengalihan kode-Inggris-switching dan sumpah serapah di jejaring sosial . Konferensi Internasional tentang Sistem dan Jaringan Komunikasi (COMSNET) [Kertas]
Benchmark
- Khanuja, dkk. (2020) Gluecos: Benchmark evaluasi untuk NLP yang digerakkan oleh kode . ACL [kertas]
- Aguilar, dkk. (2020) Lince: Benchmark terpusat untuk evaluasi pengalihan kode linguistik . LREC [kertas]
Media sosial
- Bali, dkk. (2014) “Saya meminjam pencampuran ya?” Analisis pencampuran kode bahasa Inggris-Hindi di Facebook . Prosiding lokakarya pertama tentang pendekatan komputasi untuk pengalihan kode [kertas]
Normalisasi teks
- Dwija Parikh dan Thamar Solorio (2021) Normalisasi dan transliterasi belakang untuk data yang dibasahi kode . Calcs Prosiding Lokakarya ke -5 tentang Pendekatan Komputasi untuk Peralihan Kode (CalcS), NAACL [Kertas]
Toolkit
Toolkit Pembuatan Data Sintetis
- Jayanthi, dkk. (2021) codemixednlp: toolkit NLP yang dapat diperluas dan terbuka untuk pencampuran kode . Calcs Prosiding Lokakarya ke -5 tentang Pendekatan Komputasi untuk Peralihan Kode (CalcS), NAACL [Kertas] [Kode]
- Rizvi, dkk. (2021) GCM: Toolkit untuk menghasilkan teks campuran kode sintetis . EACL (Demonstrasi Sistem) [Kertas] [Kode]
Perangkat Anotasi
- Shah, dkk. (2019) Cossat: Alat Anotasi Pidato yang Beralih Kode . Prosiding lokakarya pertama tentang agregat dan menganalisis anotasi crowdsourced untuk NLP [kertas]
Peringkasan
- Mehnaz, dkk. (2021) GUPSHUP: Meringkas percakapan domain-domain-switched . EMNLP
Pertanyaan menjawab
- Gupta, dkk. (2020) Kerangka kerja terpadu untuk menjawab pertanyaan visual multibahasa dan kode-campuran . AACL-IJCNLP [TBA]
Dialog dan sistem percakapan
- Bawa, dkk. (2020) Apakah pengguna multibahasa lebih suka obrolan-bot itu-campuran kode? Mari kita dorong dan cari tahu! . ACM pada interaksi manusia-komputer [kertas]
- Banerjee, dkk. (2018) Dataset untuk membangun sistem percakapan berorientasi tujuan yang dicampur dengan kode . Coling [kertas]
Kertas Posisi
- Nguyen, dkk. (2022) Membangun Teknologi Pendidikan untuk Pengalihan Kode: Praktik Saat Ini, Kesulitan dan Arah Masa Depan . Bahasa [kertas]
Buku
- Bilingualisme Caciullos dan Travis (2018) di masyarakat . Cambridge University Press
Tesis
- Genta Indra Winata (2021) Pembelajaran transfer multibahasa untuk bahasa yang beralih kode dan pemodelan saraf ucapan . [Tesis]
- Gustavo Aguilar (2020) Label urutan saraf pada teks media sosial . [Tesis]
- Victor Soto Martinez (2020) mengidentifikasi dan memodelkan bahasa yang digelar kode . [Tesis]