Doocl
Inhaltsverzeichnis
- Einführung in das Wörterbuch
- Thesaurus -Format und Wortfrequenzstatistik Corpus
- Liste des Wörterbuchs
- Open -Source -Protokoll
- Autor
Einführung in das Wörterbuch
Thuocl (Thu Open Chinese Lexicon) ist ein hochwertiges chinesisches Vokabular, das von der natürlichen Sprachverarbeitung und dem Social Humanities Computing Laboratory der Tsinghua University zusammengestellt und ins Leben gerufen wird. Die Vokabularliste stammt aus sozialen Tags, durchsuchte heiße Wörter, Eingabethoden -Vokabeln usw. der Mainstream -Websites. Thuocl hat die folgenden Eigenschaften:
Enthält den DF -Wert (Dokumentfrequenz) für personalisierte Benutzerauswahl.
Das Wortschatz hat mehrere manuelle Screening -Runden durchlaufen, um die Genauigkeit der Vokabulareinbeziehung zu gewährleisten.
Offene Updates aktualisieren weiterhin vorhandene Vokabularlisten und starten Sie weitere Kategorie -Vokabeln. Profis sind herzlich eingeladen, sich anzumachen und zusammenzuarbeiten, um einen offenen Thesaurus aufzubauen. Interessierte Menschen können gerne an [email protected] schreiben.
Dieser Thesaurus kann zur automatischen Wortsegmentierung in Chinesisch verwendet werden, um die Auswirkung der Wortsegmentierung auf Chinesisch zu verbessern. Es wird empfohlen, es mit dem von dieser Gruppe entwickelten Thulac -Toolkit zu verwenden, um die Wirksamkeit der chinesischen Wortsegmentierung in bestimmten Bereichen zu verbessern.
Thesaurus -Format und Wortfrequenzstatistik Corpus
Jede Zeile des Lexikons besteht aus zwei Teilen, nämlich das Wort und den DF -Wert (die Anzahl der Dokumente, in denen dieses Wort existiert), und wird durch eine Registerkarte getrennt.
Wortfrequenzstatistik Corpus:
- CSDN-Blog-Zeit: 2014.07-2016.07 Anzahl der Dokumente: 3785976
- SINA News Time: 2008.01-2016.11 Anzahl der Dokumente: 8421097
- Dokumentnummer von SOGOU Corpus: 729008561
Liste des Wörterbuchs
ES
- Einführung in das Wortschatz: Dieser Wortschatz enthält eine große Anzahl von IT -Wortschatz.
- Beispiele für Eingänge: Dateisicherung, virtuelle Adresse, C ++ - Programmierung, Transaktionsplanung, starke Verbindungsdeflationspunkte.
- Anzahl der Einträge: 16.000
- Wortfrequenzstatistik Corpus: CSDN -Blog
- Aktualisiert: 2016-12-24
- Mitwirkende: Ma Yunshan, Han Shiyi, Zhang Yuhui
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Finanzen
- Einführung in das Wortschatz: Dieser Wortschatz enthält eine große Anzahl von finanziellen Vokabeln.
- Eintrittsbeispiele: Jahr, Anpassungsplan, umfassende Akquisition, Preisdifferenz, Schrumpfung.
- Anzahl der Einträge: 3830
- Wortfrequenzstatistik Corpus: Sina News
- Aktualisiert: 2016-12-24
- Mitwirkende: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Idiom
- Einführung in das Wortschatz: Dieser Wortschatz enthält eine große Anzahl von Redewendungen und Wortschatz.
- Beispiele für den Eintritt: Ich habe vorgeben, tiefgreifend, vernünftig und begründet, unerschöpflich zu sein, die subtilen Worte der Menschen, die lokalen Bedingungen anpassen und Talente so eifrig suchen.
- Anzahl der Einträge: 8519
- Wortfrequenzstatistik Corpus: Sina News
- Aktualisiert: 2016-12-24
- Mitwirkende: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Ortsname
- Einführung in den Wortschatz: Dieser Wortschatz enthält eine große Anzahl von Substantiven.
- Eintrittsbeispiele: Zhejiang, Shanghai, Australien, Mount Everest, County in Xiangtan, Dajia Town.
- Anzahl der Einträge: 44.805
- Wortfrequenzstatistik Korpus: SOGOU -Inhaltsstoff
- Aktualisiert: 2017-06-01
- Mitwirkende: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Historische Prominente
- Einführung in das Wortschatz: Dieser Wortschatz enthält eine große Anzahl historischer menschlicher Wortschatz.
- Eintrittsbeispiele: Lu, Xun Yu, Zhuge Liang, Sun Quan, Chamberlain.
- Anzahl der Einträge: 13658
- Wortfrequenzstatistik Corpus: Sina News
- Aktualisiert: 2016-12-24
- Mitwirkende: Han Shiyi, Zhang Yuhui, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Poesie
- Einführung in die Wortschatzliste: Diese Vokabularliste enthält eine große Anzahl berühmter Gedichte und Sätze.
- Beispiel für den Eintritt: Wenn Sie zum nächsten Level gehen, haben Sie immer noch ein Pipa, das Ihr Gesicht bedeckt. Die Straße ist lang und mühsam, egal wie sich östlich, westlich, südlich und nördwinde winkt.
- Anzahl der Einträge: 13703
- Wortfrequenzstatistik Corpus: Sina News
- Aktualisiert: 2017-01-20
- Mitwirkende: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Medizin
- Einführung in das Wortschatz: Dieser Wortschatz enthält eine große Anzahl von medizinischen Vokabeln.
- Eintrittsbeispiele: Patient, Überlastung, Hautausschlag, Cordyceps sinensis.
- Anzahl der Einträge: 18749
- Wortfrequenzstatistik Corpus: Sina News
- Aktualisiert: 2017-01-20
- Mitwirkende: Zhang Yuhui, Han Shiyi, Ma Yunshan
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Diät
- Einführung in das Wörterbuch: Dieses Wörterbuch enthält das meiste Ernährungsvokabular.
- Eintrittsbeispiele: Kartoffeln, heißer Topf, Nudeln, Obst, Affenkopfpilze.
- Anzahl der Einträge: 8974
- Wortfrequenzstatistik Korpus: SOGOU -Inhaltsstoff
- Aktualisiert: 2017-04-20
- Mitwirkende: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Gesetz
- Einführung in das Wörterbuch: Dieses Wörterbuch enthält das legale Wortschatz.
- Eintrittsbeispiele: Urheberrecht, relevante Abteilungen, Unternehmen mit beschränkter Haftung, Richter des Land Tribunal, japanisches Herrenhaussystem.
- Anzahl der Einträge: 9896
- Wortfrequenzstatistik Korpus: SOGOU -Inhaltsstoff
- Aktualisiert: 2017-04-28
- Mitwirkende: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Auto
- Einführung in das Wörterbuch: Dieses Wörterbuch enthält das meiste Automobilvokabular.
- Eintrittsbeispiele: Limousine, Auto Show, Dongfeng Honda, vordere Windschutzscheibe, Sichuan Toyota.
- Anzahl der Einträge: 1752
- Wortfrequenzstatistik Korpus: SOGOU -Inhaltsstoff
- Aktualisiert: 2017-05-15
- Mitwirkende: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Tier
- Einführung in das Wörterbuch: Dieses Wörterbuch enthält den meisten tierischen Vokabeln.
- Beispiele für den Eintritt: Trägertauben, Sika -Hirsche, Straßentauben, quadratische Reben, Fleckwaldtauben.
- Anzahl der Einträge: 17287
- Wortfrequenzstatistik Korpus: SOGOU -Inhaltsstoff
- Aktualisiert: 2017-06-01
- Mitwirkende: Wang Mengyuan, Wu Jiaoyu, Huang Weijie, Lin Yongtian
- Link herunterladen: Klicken Sie hier, um herunterzuladen
Open -Source -Protokoll
- Thuocl ist für Universitäten, Forschungsinstitute, Unternehmen, Institutionen und Einzelpersonen im In- und Ausland frei und kann für Forschung und Wirtschaft verwendet werden.
- Alle wertvollen Kommentare und Vorschläge sind willkommen, um dieses Toolkit zu liefern. Bitte senden Sie eine E -Mail an [email protected].
- Wenn Sie ein Papier veröffentlichen oder wissenschaftliche Forschungsergebnisse auf der Grundlage von Thuocl erhalten, erklären Sie bitte, dass "das offene chinesische Wörterbuch der Tsinghua University" verwendet wird, wenn das Papier veröffentlicht und die Ergebnisse beantragt werden, und zitieren Sie es im folgenden Format:
中文: 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.
英文: Shiyi Han, Yuhui Zhang, Yunshan Ma, Cunchao Tu, Zhipeng Guo, Zhiyuan Liu, Maosong Sun. THUOCL: Tsinghua Open Chinese Lexicon. 2016.
Autor
Contributors: Shiyi Han (Han Shiyi, undergraduate student at Beijing University of Aeronautics and Astronautics), Yuhui Zhang (Zhang Yuhui, undergraduate student at Tsinghua University), Yunshan Ma (Ma Yunshan), Cunchao Tu (Tu Cunchao, doctoral student at Tsinghua University), Zhipeng Guo (Guo Zhipeng, Student an der Tsinghua University).
Ausbilder: Zhiyuan Liu (Liu Zhiyuan, Assistenzprofessor an der Tsinghua University), Maosong Sun (Sun, Professor an der Tsinghua University).