Jika Anda perlu berkontribusi pada proyek open source ini, silakan hubungi saya.
- Pembelajaran mendalam untuk grafik pengetahuan
- Tautan Eksternal Sumber Daya
- Masa lalu dan masa kini dari grafik pengetahuan
- Daftar Ringkasan Penelitian
- Penelitian Khusus
- Analisis Teori Terkait KG & QA
- Analisis makalah terkait NLP
- Penelitian tentang struktur dokumen keuangan Cina
- Konferensi terkait grafik pengetahuan
- Analogi fakta
- Teknologi Sistem Dialog
- Terkait dengan komersialisasi NLP/dialog/kg (hanya untuk komunikasi dan pembelajaran)
- Daftar Tanya Jawab Sumber Terbuka & Sistem Percakapan Sumber Terbuka
- Daftar platform semantik arus utama
- Daftar Alat Preprocessing Teks Cina dan Bahasa Inggris
- Alat penyimpanan dan permintaan grafik
- Alat visualisasi
- Daftar Dataset Grafik Pengetahuan Cina dan Inggris
- Kontes
- memikirkan
- Sejarah Bintang
- menjelaskan
- Kontak
Pembelajaran mendalam untuk grafik pengetahuan
Jelajahi Seri Intelijen Kognitif --- Tren: 1. Pengetahuan Fusion Data; 2. Semua di llm. Termasuk akuisisi pengetahuan, konstruksi basis pengetahuan, dan serangkaian penelitian teknis dan penerapan sistem T&J berdasarkan basis pengetahuan. Ini melibatkan teknologi mutakhir dan kertas di bidang NLP.
Tautan Eksternal Sumber Daya
NLP-Progress
Repositori untuk melacak kemajuan dalam pemrosesan bahasa alami (NLP), termasuk set data dan canggih saat ini untuk tugas NLP yang paling umum.
Makalahwithcode
Makalah dan kode disediakan.
Teknologi Online
Teknologi harian pribadi dan situs web obrolan.
Masa lalu dan masa kini dari grafik pengetahuan
| Nomor seri | artikel |
|---|
| 1 | Mengapa "grafik pengetahuan" kembali ke tahun 1956? |
Daftar Ringkasan Penelitian
Penelitian Khusus
- Sistem dialog berdasarkan grafik pengetahuan
Analisis Teori Terkait KG & QA
- Ringkasan Grafik Pengetahuan
- Tantangan Grafik Pengetahuan
- Pembelajaran yang mendalam dan grafik pengetahuan
- CN-Dbpedia: Sistem ekstraksi pengetahuan Cina yang tidak pernah berakhir
- KBQA
- Zhao Tingyang: Bagaimana kesadaran diri dari kecerdasan buatan? 1-3
- Universitas NLP Membuka Daji-guru Li Wei, Universitas Simon Fraser, Ph.D.
- ACL 2019 Ringkasan komprehensif dari grafik pengetahuan
Analisis makalah terkait NLP
- Transformator yang diilustrasikan
- Survei perhatian yang penuh perhatian
- Bert: representasi enkoder dua arah dari transformator
- Ernie: Representasi yang Ditingkatkan Melalui Integrasi Pengetahuan
- Ernie: Representasi bahasa yang ditingkatkan dengan entitas informatif
- Google T5: Transformator transfer teks ke teks
Penelitian tentang struktur dokumen keuangan Cina
- Doc2edag
Konferensi terkait grafik pengetahuan
| nomor seri | nama | nilai | jenis | bidang |
|---|
| 1 | ACL | Kelas a | Konferensi Akademik | Ai |
| 2 | CVPR | Kelas a | Konferensi Akademik | Ai |
| 3 | ICML | Kelas a | Konferensi Akademik | Ai |
| 4 | Ijcai | Kelas a | Konferensi Akademik | Ai |
| 5 | EMNLP | Kelas B. | Konferensi Akademik | Ai |
| 6 | Cikm | Kelas B. | Konferensi Akademik | Database/Penambangan Data/Pengambilan Konten |
| 7 | Aaai | Kelas a | Konferensi Akademik | Ai |
| 8 | Sigkdd | Kelas a | Konferensi Akademik | Database/Penambangan Data/Pengambilan Konten |
| 9 | Tkde | Kelas a | Jurnal akademik | (Database/Data Mining/Content Retrieval) |
| 10 | Sigir | Kelas a | Konferensi Akademik | Database/Penambangan Data/Pengambilan Konten |
Analogi fakta
- Ringkasan Peta Materi
- Bai Shuo: Enam Pertanyaan dan Enam Jawaban Di Peta Hal
Teknologi Sistem Dialog
- CSDN | Catatan Kelas Terbuka: Penjelasan Rinci tentang Manajemen Pengetahuan dalam Dialog Heuristik_Aispeech
- Tinjauan Dialog Sistematik
- Teknologi pemahaman lisan (SLU) dalam sistem dialog
Terkait dengan komersialisasi NLP/dialog/kg (hanya untuk komunikasi dan pembelajaran)
- Teknologi Pemrosesan Bahasa Alami dalam Interaksi Suara-Xiaomi
- Metodologi Grafik Pengetahuan Lean-Wenyin Internet
- Penelitian dan Kemajuan Robot Xiaoi di Platform Terbuka Semantik Tiongkok-Robot Xiaoi
- Iflytek terlihat pada nilai dan tantangan grafik pengetahuan dari perspektif aplikasi-jika itu
Daftar Tanya Jawab Sumber Terbuka & Sistem Percakapan Sumber Terbuka
| nomor seri | nama | alamat |
|---|
| 1 | Sistem tanya jawab | PERTANYAANSWERINGING SYSTEM adalah sistem tanya jawab manusia dan jawaban yang diimplementasikan Java yang dapat secara otomatis menganalisis pertanyaan dan memberikan jawaban kandidat. |
| 2 | QabasedonMedicaknowgraph | Dari awal, kami membangun grafik pengetahuan lapangan medis yang berpusat pada penyakit tertentu, dan menggunakan grafik pengetahuan ini untuk menyelesaikan layanan tanya jawab dan analisis otomatis. Python |
| 3 | DEEPPAVLOV | Perpustakaan Sumber Terbuka untuk Sistem Dialog dan Chatbots End-to-End Belajar Deep Learning. Python |
Daftar platform semantik arus utama
| nomor seri | nama |
|---|
| 1 | Tencent Wenzhi Chinese Semantik Platform |
| 2 | Iflytek Open Semantic Platform |
| 3 | Platform Terbuka Semantik Tiongkok Bosen |
| 4 | HARBIN Institute of Technology Language Cloud |
Daftar Alat Preprocessing Teks Cina dan Bahasa Inggris
| nomor seri | nama | Fungsi utama |
|---|
| 1 | Thulac | Alat Analisis Leksikal Cina, Mendukung C ++/Java/Python oleh Tsinghua |
| 2 | LTP | Platform Teknologi Bahasa Pylyp LTP Python Packaging oleh Harbin Institute of Technology |
| 3 | Hanlp | Dukung Java |
| 4 | Stutter Participle | Kata China Participle (Only Word participle participle), Java, Python, C ++ |
| 5 | Jiagu | Menyediakan fungsi pemrosesan bahasa alami yang umum seperti segmentasi kata Cina, anotasi bagian-of-speech, pengenalan entitas penamaan, ekstraksi kata kunci, ringkasan teks, dan penemuan kata baru. Python |
| 6 | Fudannlp | Kata participle kata Cina (kata participle, anotasi bagian-of-speech, pengakuan entitas penamaan), mendukung java |
| 7 | Deepdive Deepdive | Alat Ekstraksi Pengetahuan Sumber Terbuka Stanford (Triple Extraction), mendukung Python |
| 8 | Fudandnn-nlp3.0 | Used for Chinese word segmentation, naming recognition, part-of-speech annotation, sentence classification, semantic analysis, knowledge base access, dialogue question and answer, and supports Java------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| 9 | Stanford Corenlp | Multilingual part-of-speech marker, naming entity recognizer, parser (sentence and grammatical structure), reference digester (that is, the question of determining which noun phrase the pronoun points to in the chapter), sentiment analyzer, guided mode learner, open information extractor, Java/Python----- Stanford CoreNLP is Stanford University's natural language processing toolkit, the toolkit requires Java support |
Alat penyimpanan dan permintaan grafik
| nomor seri | nama | Fungsi utama |
|---|
| 1 | Neo4j | Database grafik sumber terbuka yang dikembangkan oleh Java. |
| 2 | Orientdb | Database NoSQL open source yang dapat menangani dokumen, grafik, dan komponen basis data tradisional. Ditulis oleh Java, penyimpanan cepat. |
| 3 | Ahli pemain alat musik | Mendukung kueri RDF dan SPARQL. |
| 4 | Titan | Ini dapat diintegrasikan dengan Gremlin/HBase untuk memungkinkan penyimpanan terdistribusi dan pemrosesan data grafik yang terdistribusi. |
| 5 | Apache Jena-IDB | Operasikan RDF di bawah Java. Di antara mereka, TDB menggunakan triple store untuk menyediakan toko persisten untuk data RDF. TDB lebih cepat dan terukur dari RDB dan SDB. |
| 6 | Nol | Bahasa Permintaan Grafik Deklaratif, Kueri Efisien dan Perbarui Basis Data Grafik. |
| 7 | Gremlin | Bahasa aliran data fungsional yang memungkinkan pengguna untuk mengekspresikan traversal atau permintaan grafik properti yang kompleks dengan cara yang ringkas. |
| 8 | Sparql | Bahasa kueri dan protokol akuisisi data yang dikembangkan untuk RDF. |
| 9 | rdflib | Parser dan serializer yang ditulis berdasarkan Python, RDF/XML, N3, Ntriples, N-Quads, Turtle, Trix, RDFA dan Microdata, mendukung pernyataan kueri dan pembaruan SPARQL 1.1. |
Alat visualisasi
| nomor seri | nama | Fungsi utama |
|---|
| 1 | Echarts | Alat Sumber Terbuka Baidu, enkapsulasi API lengkap, sederhana dan mudah digunakan, dan mudah digunakan, tetapi tidak mendukung pemrosesan acara. |
| 2 | Cytoscape.js | Untuk grafik dan jaringan, interaktivitas acara baik dan mudah digunakan. |
| 3 | D3.js | Ambang batas untuk digunakan tinggi, tetapi mendukung prosesor acara. D3 memiliki overhead yang sangat kecil, mendukung perilaku dinamis set data besar dan animasi interaktif, dan mendukung grafik yang kaya. |
Daftar Dataset Grafik Pengetahuan Cina dan Inggris
| nomor seri | nama | Tugas aplikasi |
|---|
| 1 | OpenKg | Grafik pengetahuan terbuka |
| 2 | Cn-probase | Peta konsep Cina skala besar |
| 3 | Sentibridge | Basis Pengetahuan Emosional Entitas Cina, menggambarkan bagaimana orang menggambarkan suatu entitas, termasuk berita, pariwisata, dan katering, total 300.000 pasangan |
| 4 | Grafik Pengetahuan Musik | Grafik Pengetahuan Musik Cina, Penyanyi, Lagu dan Informasi Lainnya |
| 5 | Karakter Pengetahuan RDF | Pengetahuan karakter yang dikumpulkan dari situs web Encyclopedia, total 650.000 RDF tiga kali lipat |
| 6 | Grafik Pengetahuan Tempat Pariwisata Cina | Peta Pengetahuan Tiongkok tentang Tempat Pariwisata Tiongkok adalah bagian dari Peta Pengetahuan Casi-KB. Diekstraksi dari ensiklopedia Baidu dan ensiklopedia interaktif. Peta pengetahuan tempat wisata dapat digunakan dalam geografi, kehidupan, hiburan, dan aplikasi lainnya. |
| 7 | 2 juta data potret produk | Data ini adalah ringkasan dari data potret produk yang diakumulasikan oleh Bai Dan dalam tujuh tahun operasi. Bai Dan telah membangun sistem klasifikasi e-commerce yang kaya dan sistem klasifikasi media. |
| 8 | Bank gejala Cina | Ini adalah dataset yang berisi entitas gejala dan kembar tiga yang berhubungan dengan gejala. Data dari database gejala Cina berasal dari 8 situs web konsultasi kesehatan utama, 3 situs web ensiklopedia Cina dan catatan medis elektronik. |
| 9 | Grafik Pengetahuan Bandara Cnschema | Grafik pengetahuan bandara berdasarkan CNSCHEMA dapat meminta properti bandara di seluruh dunia, termasuk nama, zona waktu, kode bandara, lokasi geografis (lintang dan bujur), dll. |
| 10 | Grafik Pengetahuan Umum Seven-karakter | Data ini berisi total 80 juta triplet ensiklopedia, yang merupakan bagian dari subset dari puisi tujuh karakter, dan akan terus lebih terbuka di masa depan. Qiluo-7lore adalah grafik pengetahuan ensiklopedia yang dibuat dengan cermat oleh teknologi rumput dogtail. Ini adalah kumpulan pengetahuan besar -besaran di dunia manusia. Ini berisi hal -hal, fakta, konsep, aturan, dll. |
Kontes
- Kompetisi Pembelajaran Kompetisi Pengembang Ant ATEC-Perhitungan Kesamaan Masalah NLP-2019-3
- Baidu 2019 Bahasa dan Kompetisi Teknologi Cerdas Lagu Kedua-Dialog yang Digerakkan oleh Knowledge-2019-4
- SMP2019 Evaluasi Teknologi Dialog Manusia-Komputer Cina (ECDT), Subtugas: Klasifikasi Domain, Pengenalan Niat dan Pengisian Slot Semantik -Task1: Evaluasi Pemahaman Bahasa Alami-2019-5
memikirkan
- Konstruksi grafik pengetahuan adalah proyek teknik sistematis. Saat ini, menggabungkan teknologi pembelajaran yang mendalam dan pengetahuan pemrosesan bahasa alami telah meningkatkan efisiensi konstruksi sampai batas tertentu dan mengurangi biaya. Status grafik pengetahuan adalah dalam arti bahwa kecerdasan kognitif adalah fasilitas sumber daya dasar, berdasarkan yang dapat digunakan dalam pertanyaan-dan-jawaban, dialog, sistem rekomendasi, dan meningkatkan interpretabilitas.
- Saat ini, ada banyak permintaan untuk konstruksi grafik pengetahuan di bidang vertikal. Dalam hal aplikasi, praktik sistem dialog tanya jawab dan aktif yang cerdas adalah topik yang relatif hangat.
- Saya pribadi berpikir bahwa sistem crawler dapat menyediakan sumber pengetahuan yang diperbarui secara dinamis untuk basis pengetahuan.
- Sistem dialog yang menggabungkan pengetahuan/akal sehat, dengan lebih akurat dan keragaman, adalah arah yang layak dipelajari, memungkinkan mesin untuk memandu pengguna untuk mengkomunikasikan topik. Misalnya, Game 2 di atas adalah aplikasi ke arah ini.
- Ambang batas untuk pemrosesan/pemahaman bahasa alami telah dinaikkan ke Bert, yang pada dasarnya harus dimiliki dalam tugas-tugas sejumlah besar, berdasarkan transformator sebagai encoder! Cara mengintegrasikan pengetahuan (bisa multimodal) ke dalam pelatihan model telah menjadi topik hangat dalam penelitian. Sebagai contoh, Baidu baru -baru ini mengusulkan bahwa model representasi Ernie memperkenalkan ide ini, yang juga telah mencapai hasil yang baik dalam tugas hilir.
- Pengembaraan Grafik Pengetahuan (KGE) adalah hotspot penelitian saat ini.
- Integrasi pengetahuan data multimodal harus menjadi tahap eksplorasi penting bagi kecerdasan mesin domain untuk bergerak menuju kecerdasan pengetahuan umum. Pertama, karena karakteristik data multimodal itu sendiri, struktur sangat penting. Setelah struktur, itu dapat sangat memperkaya komposisi pengetahuan dari grafik pengetahuan dan memperkaya ekspresi. Kedua, rasanya lebih menarik jika komponen CV dan NLP dapat dihubungkan dan bekerja bersama, seperti konten balasan dari skenario T&J adalah komunikasi yang lebih kaya dan lebih alami dengan orang -orang.
-
<strong> untuk struktur data teks, selain menggunakan metode pembelajaran mesin, ekspresi reguler juga dapat digunakan untuk ekstraksi data, tautan pemrosesan menengah dalam pemodelan, dll. Misalnya: ekspresi reguler dikombinasikan dengan pembelajaran yang mendalam </strong> - 20230226: Pengembangan NLP adalah perubahan paradigma lain dari paruh kedua tahun 2022 hingga 2023. Dengan munculnya chatgpt, semua orang di dalam dan di luar lapangan telah diketahui, yang telah menyebabkan diskusi panas di semua lapisan masyarakat, dan perusahaan -perusahaan domestik dan asing utama telah mengikuti. Misalnya, LLM (model bahasa besar), AIGC (konten yang dihasilkan AI), dan beberapa tugas subdivisi NLP telah bersatu karena LLM, dan LLM telah menjadi topik infrastruktur di berbagai industri. Munculnya chatgpt adalah memberi orang kejutan, memberi orang kemungkinan eksplorasi baru, dan untuk AI, untuk dipopulerkan.
- Dari perspektif mengalami chatgpt, saya pada dasarnya membahas semua pemikiran sebelumnya, termasuk ekstraksi informasi, dialog, generasi opini, rantai berpikir-ada alasan, pengetahuan baru dapat ditambahkan ke pembaruan, dan kode. Yang paling mengejutkan adalah saya dapat berbicara dengan serius dan mendaftar langkah -langkah untuk masalah logis.
- Pelajari lebih lanjut tentang prinsip -prinsip dari kertas. Untuk pengembangan GPT-1 ke GPT3, pahami infrastruktur transformator.
- 20230521: Kecepatan tindak lanjut LLM domestik sangat cepat, dan model bahasa besar yang dikembangkan sendiri telah dirilis, dan ada juga yang open source, seperti Tsinghua's ChatGLM-6/130B. Ekosistem di sekitar LLM juga berkembang pesat. Berbagai aplikasi, seperti chatpdf, plug-in, dll. Baru-baru ini, OpenAI merilis versi chatgpt iOS, yang telah membawa implementasi LLM sebagai langkah besar. Dapat membayangkan bahwa banyak aplikasi di masa depan akan didasarkan pada kemampuan LLM. Mengenai cara membangun beberapa aplikasi berdasarkan LLM, kerangka kerja open source langchain berulang dengan sangat cepat. Beberapa baris kode dapat memungkinkan Anda untuk mengalami pengalaman dengan cepat seperti tanya jawab berdasarkan dokumen pribadi, perhitungan vektor, penyimpanan, dll., Yang nyaman dan cepat. Dianjurkan agar semua orang belajar dan menggunakannya. Untuk teks, sebagian besar teks sebenarnya tidak terstruktur, seperti PDF, Word, HTML, dll., Perlu disusun berdasarkan alat lain, dan Langchain juga menyediakan metode open source. Kemampuan Deployment PrivateTized LLM + Akses Pengetahuan Lokal + Perluasan Plug-In LLM adalah arah pengembangan saat ini.
Sejarah Bintang
menjelaskan
- Konten di atas semuanya terkait dengan proses pembelajaran individu (termasuk konten internet, catatan pribadi, dll.). Saya berharap ini akan membantu teman -teman di bidang mempelajari kecerdasan kognitif.
Kontak
- Csdn
- Situs web pribadi
- Ringkasan Wiki-Teknis
- Email: [email protected]
- Waktu Pembaruan: 2023.5.21
- Li Hanghang