THUOCL
目錄
- 詞庫簡介
- 詞庫格式及詞頻統計語料庫
- 詞庫清單
- 開源協議
- 作者
詞庫介紹
THUOCL(THU Open Chinese Lexicon)是由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫,詞表來自主流網站的社會標籤、搜索熱詞、輸入法詞庫等。 THUOCL具有以下特點:
包含詞頻統計信息DF值(Document Frequency),方便用戶個性化選擇使用。
詞庫經過多輪人工篩選,保證詞庫收錄的準確性。
開放更新,將不斷更新現有詞表,並推出更多類別詞表。歡迎專業人士加入,協作建設開放詞庫,有意者請致信[email protected]。
該詞庫可以用於中文自動分詞,提升中文分詞效果。建議搭配本組研製開發的THULAC工具包使用,提升特定領域中文分詞的效果。
詞庫格式及詞頻統計語料庫
詞庫每一行由兩部分組成,分別是詞和DF值(存在此單詞的文檔個數),中間由Tab間隔。
詞頻統計語料庫:
- CSDN博客時間:2014.07-2016.07 文檔數:3785976
- 新浪新聞時間:2008.01-2016.11 文檔數:8421097
- 搜狗語料文檔數:729008561
詞庫清單
IT
- 詞表簡介:本詞表包含了大量IT類詞彙。
- 詞條樣例:文件備份、虛擬地址、C++編程、事務調度、強連通縮點。
- 詞條數量:16000條
- 詞頻統計語料庫:CSDN博客
- 更新時間:2016-12-24
- 貢獻者:馬雲山、韓世依、張鈺暉
- 下載鏈接:點此下載
財經
- 詞表簡介:本詞表包含了大量財經類詞彙。
- 詞條樣例:年期、調整方案、全面收購、差價、萎縮。
- 詞條數量:3830條
- 詞頻統計語料庫:新浪新聞
- 更新時間:2016-12-24
- 貢獻者:韓世依、張鈺暉、馬雲山
- 下載鏈接:點此下載
成語
- 詞表簡介:本詞表包含了大量成語詞彙。
- 詞條樣例:故作高深、有理有據、用之不竭、人微言輕、因地制宜、求賢若渴。
- 詞條數量:8519條
- 詞頻統計語料庫:新浪新聞
- 更新時間:2016-12-24
- 貢獻者:韓世依、張鈺暉、馬雲山
- 下載鏈接:點此下載
地名
- 詞表簡介:本詞表包含了大量地名詞彙。
- 詞條樣例:浙江、上海、澳大利亞、珠穆朗瑪峰、湘潭縣、大甲鎮。
- 詞條數量:44805條
- 詞頻統計語料庫:搜狗語料
- 更新時間:2017-06-01
- 貢獻者:韓世依、張鈺暉、馬雲山
- 下載鏈接:點此下載
歷史名人
- 詞表簡介:本詞表包含了大量歷史名人類詞彙。
- 詞條樣例:陸游、荀彧、諸葛亮、孫權、張伯倫。
- 詞條數量:13658條
- 詞頻統計語料庫:新浪新聞
- 更新時間:2016-12-24
- 貢獻者:韓世依、張鈺暉、馬雲山
- 下載鏈接:點此下載
詩詞
- 詞表簡介:本詞表包含了大量詩詞名句。
- 詞條樣例:更上一層樓、猶抱琵琶半遮面、路漫漫其修遠兮、任爾東西南北風。
- 詞條數量:13703條
- 詞頻統計語料庫:新浪新聞
- 更新時間:2017-01-20
- 貢獻者:張鈺暉、韓世依、馬雲山
- 下載鏈接:點此下載
醫學
- 詞表簡介:本詞表包含了大量醫學類詞彙。
- 詞條樣例:患者、充血、皮疹、冬蟲夏草。
- 詞條數量:18749條
- 詞頻統計語料庫:新浪新聞
- 更新時間:2017-01-20
- 貢獻者:張鈺暉、韓世依、馬雲山
- 下載鏈接:點此下載
飲食
- 詞庫簡介:本詞庫包含了大部分飲食類詞彙。
- 詞條樣例:土豆、火鍋、意大利面、果佳、猴頭菇。
- 詞條數量:8974條
- 詞頻統計語料庫:搜狗語料
- 更新時間:2017-04-20
- 貢獻者:王盟源、吳佼玉、黃偉傑,林永天
- 下載鏈接:點此下載
法律
- 詞庫簡介:本詞庫包含了大部分法律類詞彙。
- 詞條樣例:版權、有關部門、有限責任公司、土地審裁處法官、日本莊園制度。
- 詞條數量:9896條
- 詞頻統計語料庫:搜狗語料
- 更新時間:2017-04-28
- 貢獻者:王盟源、吳佼玉、黃偉傑,林永天
- 下載鏈接:點此下載
汽車
- 詞庫簡介:本詞庫包含了大部分汽車類詞彙。
- 詞條樣例:轎車、車展、東風本田、前擋風玻璃、四川豐田。
- 詞條數量:1752條
- 詞頻統計語料庫:搜狗語料
- 更新時間:2017-05-15
- 貢獻者:王盟源、吳佼玉、黃偉傑,林永天
- 下載鏈接:點此下載
動物
- 詞庫簡介:本詞庫包含了大部分動物類詞彙。
- 詞條樣例:信鴿、梅花鹿、街鴿、四方藤、斑尾林鴿。
- 詞條數量:17287條
- 詞頻統計語料庫:搜狗語料
- 更新時間:2017-06-01
- 貢獻者:王盟源、吳佼玉、黃偉傑,林永天
- 下載鏈接:點此下載
開源協議
- THUOCL面向國內外大學、研究所、企業、機構以及個人免費開放,可用於研究與商業。
- 歡迎對該工具包提出任何寶貴意見和建議。請發郵件至[email protected]。
- 如果您在THUOCL基礎上發表論文或取得科研成果,請您在發表論文和申報成果時聲明“使用了清華大學開放中文詞庫”,並按如下格式引用:
中文: 韩世依, 张钰晖, 马云山, 涂存超, 郭志芃, 刘知远, 孙茂松. THUOCL:清华大学开放中文词库. 2016.
英文: Shiyi Han, Yuhui Zhang, Yunshan Ma, Cunchao Tu, Zhipeng Guo, Zhiyuan Liu, Maosong Sun. THUOCL: Tsinghua Open Chinese Lexicon. 2016.
作者
貢獻者: Shiyi Han (韓世依,北京航空航天大學本科生), Yuhui Zhang(張鈺暉,清華大學本科生), Yunshan Ma(馬雲山), Cunchao Tu(塗存超,清華大學博士生), Zhipeng Guo(郭志芃,清華大學本科生).
指導老師: Zhiyuan Liu(劉知遠,清華大學助理教授), Maosong Sun(孫茂松,清華大學教授).