OpenHowNet скачать - загрузка исходного кода OpenHowNet

中 | en

Логотип OpenHownet

API OpenHownet разработан Thunlp, который предоставляет удобный способ поиска информации в Howlet, отображать деревья Sememe, рассчитать сходство слов через Sememes и т. Д. Вы также можете посетить наш веб -сайт, чтобы насладиться поиском и демонстрацией слов в Интернете.

Если вы используете какие -либо данные или API, предоставленные OpenHownet в вашем исследовании, укажите следующую статью:

 @article{qi2019openhownet,
    title={OpenHowNet: An Open Sememe-based Lexical Knowledge Base},
    author={Qi, Fanchao and Yang, Chenghao and Liu, Zhiyuan and Dong, Qiang and Sun, Maosong and Dong, Zhendong},
    journal={arXiv preprint arXiv:1901.09957},
    year={2019},
}

Введение в Hownet

Howlet - самая типичная база знаний Sememe . Семем определяется как минимальная семантическая единица в лингвистике, и некоторые лингвисты считают, что значения всех слов на любом языке могут быть представлены ограниченным набором Sememes. Г -н Жендонг Донг и его сын Цян Донг применили эту идею на практику и провели почти 30 лет, наращивая Howtet, что предопределяет около 2000 семем и использует их для аннотирования более 200 000 чувств английского и китайского слов.

С тех пор, как Hownet был построен, он широко использовался в различных задачах NLP. Вы можете обратиться к этому списку бумаги, чтобы взглянуть на все исследования, связанные с Hownet.

Словарь Howlet

Файл данных Hownet Core (а именно словарь Hownet, который можно скачать здесь) состоит из 237 973 концепций (или чувств), представленных китайскими и английскими словами и фразами. Каждая концепция в Howlet аннотирована с определением на основе Sememe, TAG POS, ориентацией настроений, примерами предложений и т. Д. Вот пример того, как концепции аннотируются в Howlet:

 NO.=000000026417 	# Concept ID
W_C=不惜 	# Chinese word
G_C=verb 	# POS tag of the Chinese word
S_C=PlusFeeling|正面情感 	# Sentiment orientation
E_C=~牺牲业余时间，~付出全部精力，~出卖自己的灵魂 	# Example sentences of the Chinese word
W_E=do not hesitate to 	# English word 
G_E=verb 	# POS tag of the English word
S_E=PlusFeeling|正面情感 	# Sentiment orientation
E_E=               	# Example sentences of the English word
DEF={willing|愿意} 	# Sememe-based definition
RMK=

OpenHownet API

Установка

Вы можете выбрать любой из следующих двух методов для установки API OpenHownet.

Установка через PIP (рекомендуется)

pip install OpenHowNet

Установка через GitHub

git clone https://github.com/thunlp/OpenHowNet/
cd OpenHowNet
python setup.py install

Требования

Python> = 3,6
Anytree> = 2.4.3
TQDM> = 4.31.1
Запросы> = 2,22,0

Основной тип данных

HOWNETDICT : класс Dictionary HOWET, который инкапсулирует основные функции, такие как поиск данных HOWET CORE, представление, расчет сходства и т. Д.
Смысл : класс, который инкапсулирует информацию о концепциях в Howlet, в основном включающих китайские и английские слова, POS, определение на основе Sememe и т. Д.
Семем : Класс, который инкапсулирует информацию о Семемесах в Хоунете, включая китайские и английские слова, описывающие семемом, частоту семи в Howlet и отношения между Семемесом.

Основное использование

Следующие фрагменты кода иллюстрируют некоторые основные функции API OpenHownet. Вы также можете скачать эту записную книжку Jupyter для запуска кода. Для получения дополнительной информации и подробной информации, пожалуйста, обратитесь к нашей документации.

Инициализация

 import OpenHowNet
hownet_dict = OpenHowNet . HowNetDict ()

Ошибка произойдет, если вы не загрузили данные Hownet. В этом случае вам нужно сначала запустить OpenHowNet.download() .

Получите концепции, представленные словом

По умолчанию API будет искать Howet для всех концепций (чувств), представленных данным словом (на английском или китайском) и вернуть список экземпляров в классе смысла. Вы также можете установить язык, чтобы сократить время поиска. Если данное слово не существует в Howlet, этот API вернет пустой список.

 > >> # Get all the senses represented by the word "苹果".
>> > result_list = hownet_dict . get_sense ( "苹果" )
> >> print ( "The number of retrievals: " , len ( result_list ))
The number of retrievals :  8
 
> >> print ( "An example of retrievals: " , result_list )
An example of retrievals :  [ No . 244401 | apple |苹果, No . 244402 | malus pumila |苹果, No . 244403 | orchard apple tree |苹果, No . 244396 | apple |苹果, No . 244397 | apple |苹果, No . 244398 | IPHONE |苹果, No . 244399 | apple |苹果, No . 244400 | iphone |苹果]

Вы можете получить подробную информацию о чувстве от чувственного экземпляра.

 > >> sense_example = result_list [ 0 ]
> >> print ( "Sense example:" , sense_example )
Sense example : No . 244401 | apple |苹果
> >> print ( "Sense id: " , sense_example . No )
Sense id :  000000244401
> >> print ( "English word in the sense: " , sense_example . en_word )
English word in the sense :  apple
> >> print ( "Chinese word in the sense: " , sense_example . zh_word )
Chinese word in the sense :  苹果
> >> print ( "HowNet Def of the sense: " , sense_example . Def )
HowNet Def of the sense :  { tree |树:{ reproduce |生殖: PatientProduct = { fruit |水果}, agent = { ~ }}}
>> > print ( "Sememe list of the sense: " , sense_example . get_sememe_list ())
Sememe list of the sense :  { fruit |水果, tree |树, reproduce |生殖}

Вы можете визуализировать структурированное определение чувства, основанное на семеме (а именно «Семемное дерево»)

 > >> sense_example . visualize_sememe_tree ()
[ sense ] No .244401 | apple |苹果
└── [ None ] tree |树
    └── [ agent ] reproduce |生殖
        └── [ PatientProduct ] fruit |水果

Получите все слова и семенные в Hownet

Пакет предоставляет API для получения всех чувств, слов и семье в Howlet.

 > >> all_senses = hownet_dict . get_all_senses ()
> >> print ( "The number of all senses: {}" . format ( len ( all_senses )))
The number of all senses : 237974
  
> >> zh_word_list = hownet_dict . get_zh_words ()
> >> print ( "Chinese words in HowNet: " , zh_word_list [: 30 ])
Chinese words in HowNet :  [ '' , '"' , '#' , '#号标签' , '$' , '$.J.' , '$A.' , '$NZ.' , '%' , "'" , '(' , ')' , '*' , '+' , ',' , '-' , '--' , '.' , '...' , '...为止' , '...也同样使然' , '...以上' , '...以内' , '...以来' , '...何如' , '...内' , '...出什么问题' , '...发生了什么' , '...发生故障' , '...家里有几口人' ]

> >> en_word_list = hownet_dict . get_en_words ()
> >> print ( "English words in HowNet: " , en_word_list [: 30 ])
English words in HowNet :  [ 'A' , 'An' , 'Frenchmen' , 'Frenchwomen' , 'Ottomans' , 'a' , 'aardwolves' , 'abaci' , 'abandoned' , 'abbreviated' , 'abode' , 'aboideaux' , 'aboiteaux' , 'abscissae' , 'absorbed' , 'acanthi' , 'acari' , 'accepted' , 'acciaccature' , 'acclaimed' , 'accommodating' , 'accompanied' , 'accounting' , 'accused' , 'acetabula' , 'acetified' , 'aching' , 'acicula' , 'acini' , 'acquired' ]

> >> all_sememes = hownet_dict . get_all_sememes ()
> >> print ( 'There are {} sememes in HowNet' . format ( len ( all_sememes )))
There are 2540 sememes in HowNet

Получить Семемой слова

Вы можете получить на основе Sememe определения чувств, представленных данным словом. По умолчанию пакет извлечет все чувства, представленные словом, и вернет свой список Sememe отдельно.

 > >> hownet_dict . get_sememes_by_word ( word = '苹果' , display = 'list' , merge = False , expanded_layer = - 1 , K = None )
[{ 'sense' : No . 244396 | apple |苹果,
  'sememes' : { PatternValue |样式值, SpeBrand |特定牌子, able |能, bring |携带, computer |电脑}},
 { 'sense' : No . 244397 | apple |苹果, 
  'sememes' : { fruit |水果}},
 { 'sense' : No . 244398 | IPHONE |苹果,
  'sememes' : { PatternValue |样式值, SpeBrand |特定牌子, able |能, bring |携带, communicate |交流, tool |用具}},
 { 'sense' : No . 244399 | apple |苹果,
  'sememes' : { PatternValue |样式值, SpeBrand |特定牌子, able |能, bring |携带, communicate |交流, tool |用具}},
 { 'sense' : No . 244400 | iphone |苹果,
  'sememes' : { PatternValue |样式值, SpeBrand |特定牌子, able |能, bring |携带, communicate |交流, tool |用具}},
 { 'sense' : No . 244401 | apple |苹果, 
  'sememes' : { fruit |水果, reproduce |生殖, tree |树}},
 { 'sense' : No . 244402 | malus pumila |苹果,
  'sememes' : { fruit |水果, reproduce |生殖, tree |树}},
 { 'sense' : No . 244403 | orchard apple tree |苹果,
  'sememes' : { fruit |水果, reproduce |生殖, tree |树}}]

Изменяя display , Sememes в смысле можно отобразить в форме списка ( list ), форме словаря ( dict ), форме узла деревьев ( tree ) и визуализации ( visual ).

 # Get the sememes in the form of dictionary
> >> hownet_dict . get_sememes_by_word ( word = '苹果' , display = 'dict' )[ 0 ]
{ 'sense' : No . 244396 | apple |苹果, 'sememes' : { 'role' : 'sense' , 'name' : No . 244396 | apple |苹果, 'children' : [{ 'role' : 'None' , 'name' : computer |电脑, 'children' : [{ 'role' : 'modifier' , 'name' : PatternValue |样式值, 'children' : [{ 'role' : 'CoEvent' , 'name' : able |能, 'children' : [{ 'role' : 'scope' , 'name' : bring |携带, 'children' : [{ 'role' : 'patient' , 'name' : '$' }]}]}]}, { 'role' : 'patient' , 'name' : SpeBrand |特定牌子}]}]}}

# Get the sememes in the form of tree node (get the root node of the sememe tree)
> >> d . get_sememes_by_word ( word = '苹果' , display = 'tree' )[ 0 ]
{ 'sense' : No . 244396 | apple |苹果, 'sememes' : Node ( '/No.244396|apple|苹果' , role = 'sense' )}

# Visualize the sememes (Set K to control the num of visualized tree to print)
> >> d . get_sememes_by_word ( word = '苹果' , display = 'visual' , K = 2 )
Find 8 result ( s )
Display #0 sememe tree
[ sense ] No .244396 | apple |苹果
└── [ None ] computer |电脑
    ├── [ modifier ] PatternValue |样式值
    │   └── [ CoEvent ] able |能
    │       └── [ scope ] bring |携带
    │           └── [ patient ]$
    └── [ patient ] SpeBrand |特定牌子

Display #1 sememe tree
[ sense ] No .244397 | apple |苹果
└── [ None ] fruit |水果

Кроме того, когда display=='list' вы можете объединить все списки Sememe в один и ограничить расширение слоя деревьев Sememe, изменив параметр expanded_layer (-1 означает расширение всех слоев).

 > >> hownet_dict . get_sememes_by_word ( word = '苹果' , display = 'list' , merge = True , expanded_layer = - 1 , K = None )
{ PatternValue |样式值, SpeBrand |特定牌子, able |能, bring |携带, communicate |交流, computer |电脑, fruit |水果,
 reproduce |生殖, tool |用具, tree |树}

Получите отношения между двумя семями

Вы можете получить связь между двумя семями, введя слова (английский или китайский), которые представляют Семины. Вы можете показать триплеты (Sememe1, отношения, Sememe2).

 > >> relations = hownet_dict . get_sememe_relation ( 'FormValue' , '圆' , return_triples = False )
> >> print ( relations )
'hyponym'

> >> triples = hownet_dict . get_sememe_relation ( 'FormValue' , '圆' , return_triples = True )
> >> print ( triples )
[( FormValue |形状值, 'hyponym' , round |圆)]

Получите связанные Семины с семемом

Вы можете искать все семенные, которые имеют определенное отношение с семемом. Точно так же семем должен быть представлен словом (английский или китайский), но соотношение должно быть на нижнем английском языке.

 > >> triples = hownet_dict . get_related_sememes ( 'FormValue' , relation = 'hyponym' , return_triples = True )
> >> print ( triples )
[( FormValue |形状值, 'hyponym' , round |圆), ( FormValue |形状值, 'hyponym' , unformed |不成形), ( AppearanceValue |外观值, 'hyponym' , FormValue |形状值), ( FormValue |形状值, 'hyponym' , angular |角), ( FormValue |形状值, 'hyponym' , square |方), ( FormValue |形状值, 'hyponym' , netlike |网), ( FormValue |形状值, 'hyponym' , formed |成形)]

Расширенные функции

1: Сходство слов, основанное на семеме и подобные слова

Реализация основана на статье:

Цзянминг Лю, Джинан Сюй, Юджи Чжан. Подход гибридной иерархической структуры для вычислений сходства слов Hownet. В материалах IJCNLP 2013. [PDF]

Дополнительная инициализация

Поскольку существуют некоторые файлы, необходимые для загрузки для расчета сходства, накладные расходы инициализации будут больше, чем раньше.

Начнем с того, что вы можете инициализировать объект hownet_dict следующим образом:

 > >> hownet_dict_advanced = OpenHowNet . HowNetDict ( init_sim = True )
Initializing OpenHowNet succeeded !
Initializing similarity calculation succeeded !

Вы также можете отложить инициализацию расчета сходства до использования.

 > >> hownet_dict . initialize_similarity_calculation ()
Initializing similarity calculation succeeded !

Получите чувства, у которых есть точно такие же семенные

Вы можете получить чувства, которые имеют одинаковое определение на основе семемой с чувством.

 > >> s = hownet_dict_advanced . get_sense ( '苹果' )[ 0 ]
> >> hownet_dict_advanced . get_sense_synonyns ( s )[: 10 ]
[ No . 110999 | pear |山梨, No . 111007 | hawthorn |山楂, No . 111009 | haw |山楂树, No . 111010 | hawthorn |山楂树, No . 111268 | Chinese hawthorn |山里红, No . 122955 | Pistacia vera |开心果树, No . 122956 | pistachio |开心果树, No . 122957 | pistachio tree |开心果树, No . 135467 | almond tree |扁桃, No . 154699 | fig |无花果]

Получите ближайшие слова для слова

Поиск пакетов для чувств, представленных данным словом, получает ближайшие чувства Top-K и возвращает соответствующие слова. Обратите внимание, что язык данного слова должно быть установлено.

Вы также можете установить POS слов, выбирать для вывода сходства и объединить все слова, принадлежащие различиям, в один список и т. Д., Пожалуйста, смотрите документацию для получения дополнительной информации.

Если входного слова не в Howlet, API возвращает пустой список.

 > >> hownet_dict_advanced . get_nearest_words ( '苹果' , language = 'zh' , K = 5 )
{ No . 244396 | apple |苹果: [ 'IBM' , '东芝' , '华为' , '戴尔' , '索尼' ],
 No . 244397 | apple |苹果: [ '丑橘' , '乌梅' , '五敛子' , '凤梨' , '刺梨' ],
 No . 244398 | IPHONE |苹果: [ 'OPPO' , '华为' , '苹果' , '智能手机' , '彩笔' ],
 No . 244399 | apple |苹果: [ 'OPPO' , '华为' , '苹果' , '智能手机' , '彩笔' ],
 No . 244400 | iphone |苹果: [ 'OPPO' , '华为' , '苹果' , '智能手机' , '彩笔' ],
 No . 244401 | apple |苹果: [ '山梨' , '山楂' , '山楂树' , '山里红' , '开心果树' ],
 No . 244402 | malus pumila |苹果: [ '山梨' , '山楂' , '山楂树' , '山里红' , '开心果树' ],
 No . 244403 | orchard apple tree |苹果: [ '山梨' , '山楂' , '山楂树' , '山里红' , '开心果树' ]}
> >> hownet_dict_advanced . get_nearest_words ( '苹果' , language = 'zh' , K = 5 , merge = True )
[ 'IBM' , '东芝' , '华为' , '戴尔' , '索尼' ]

Рассчитайте сходство между двумя словами

Если какое -либо из двух данных слов не существует в Hownet, оно вернется -1 .

 > >> print ( 'The similarity of 苹果 and 梨 is {}.' . format ( hownet_dict_advanced . calculate_word_similarity ( '苹果' , '梨' )))
The similarity of 苹果 and 梨 is 1.0 .

2: Словарь Synset Babelnet

Этот пакет интегрирует функцию запроса для информации о Synsets в Babelnet (Babelnet Synset). Babelnet - это многоязычный словарь энциклопедии, состоящий из Synsets Babelnet, каждый из которых содержит несколько многоязычных синонимов, которые имеют одинаковое значение. Следующая работа аннотирует Sememes для некоторых синсетов Babelnet, и функция в этой части основана на результатах его аннотации.

На пути построения многоязычной базы знаний Sememe: прогнозирование Sememes для Sememes для Synsets Babelnet . Фанчао Ци, Лян Чанг, Маосонг Солнца, Сиконг Оуянг и Жиюань Лю . AAAI-20. [PDF] [Код]

Дополнительная инициализация

Начнем с того, что вы должны инициализировать словарь Synset Babelnet:

 > >> hownet_dict . initialize_babelnet_dict ()
Initializing BabelNet synset Dict succeeded !
# Or you can initialize when create the HowNetDict instance
>> > hownet_dict_advanced = HowNetDict ( init_babel = True )
Initializing OpenHowNet succeeded !
Initializing BabelNet synset Dict succeeded !

Информация Babelnet Synset

Следующий API позволяет вам запросить богатую информацию в синсету Babelnet (китайские и английские синонимы, определения, URL -адреса и т. Д.).

 > >> syn_list = hownet_dict_advanced . get_synset ( '黄色' )
> >> print ( "{} results are retrieved and take the first one as an example" . format ( len ( syn_list )))
3 results are retrieved and take the first one as an example

>> > syn_example = syn_list [ 0 ]
> >> print ( "Synset: {}" . format ( syn_example ))
Synset : bn : 00113968 a | yellow |黄

> >> print ( "English synonyms: {}" . format ( syn_example . en_synonyms ))
English synonyms : [ 'yellow' , 'yellowish' , 'xanthous' ]

> >> print ( "Chinese synonyms: {}" . format ( syn_example . zh_synonyms ))
Chinese synonyms : [ '黄' , '黄色' , '淡黄色+的' , '黄色+的' , '微黄色' , '微黄色+的' , '黄+的' , '淡黄色' ]

> >> print ( "English glosses: {}" . format ( syn_example . en_glosses ))
English glosses : [ 'Of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk' , 'Having the colour of a yolk, a lemon or gold.' ]

> >> print ( "Chinese glosses: {}" . format ( syn_example . zh_glosses ))
Chinese glosses : [ '像丝瓜花或向日葵花的颜色。' ]

Babelnet Synset Relations

Вы можете получить соответствующие синсеты Babelnet с данным синсионером.

 > >> related_synsets = syn_example . get_related_synsets ()
> >> print ( "There are {} synsets that have relation with the {}, they are: " . format ( len ( related_synsets ), syn_example ))
There are 6 synsets that have relation with the bn : 00113968 a | yellow |黄, they are : 

>> > print ( related_synsets )
[ bn : 00099663 a | chromatic |彩色, bn : 00029925 n | egg_yolk |蛋黄, bn : 00092876 v | resemble |相似, bn : 00020726 n | color |颜色, bn : 00020748 n | visible_spectrum |可见光, bn : 00081866 n | yellow |黄色]

Получите Sememe Annotations of Babelnet Synset

Вы можете получить Sememes of Babelnet Synsets, введя слово в Synsets Babelnet:

 > >> print ( hownet_dict_advanced . get_sememes_by_word_in_BabelNet ( '黄色' ))
[{ 'synset' : bn : 00113968 a | yellow |黄, 'sememes' : [ yellow |黄]}, { 'synset' : bn : 00101430 a | dirty |淫秽的, 'sememes' : [ lascivious |淫, dirty |龊, despicable |卑劣, BadSocial |坏风气]}, { 'synset' : bn : 00081866 n | yellow |黄色, 'sememes' : [ yellow |黄]}]

> >> print ( hownet_dict_advanced . get_sememes_by_word_in_BabelNet ( '黄色' , merge = True ))
[ lascivious |淫, despicable |卑劣, BadSocial |坏风气, dirty |龊, yellow |黄]

Для получения более подробных инструкций, пожалуйста, обратитесь к документации.

Цитирование

Если код или данные помогут вам, пожалуйста, укажите следующую статью:

 @article{qi2019openhownet,
  title={Openhownet: An open sememe-based lexical knowledge base},
  author={Qi, Fanchao and Yang, Chenghao and Liu, Zhiyuan and Dong, Qiang and Sun, Maosong and Dong, Zhendong},
  journal={arXiv preprint arXiv:1901.09957},
  year={2019}
}

Расширять