Word Sense Dismbiguation(WSD)テクノロジーのPython実装:
レスクアルゴリズム
類似性の最大化(Pedersen et al。(2003)も参照)
注:pywsdはpython 3のみをサポートしています( pywsd>=1.2.0 )。 Python 2を使用している場合、最後の可能なバージョンはpywsd==1.1.7です。
pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd
$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'すべてのワードWSDについては、次のことを試してください。
> >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]Synsetごとに事前に計算された署名を読み取るには:
> >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])
> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])pywsdを引用する:
リリングタン。 2014。Pywsd:Word Sense Dismbiguation(WSD)Technologies [ソフトウェア]のPython実装。 https://github.com/alvations/pywsdから取得
bibtexで:
@misc{pywsd14,
author = {Liling Tan},
title = {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}
マイケル・レスク。 1986年。機械の読み取り可能な辞書を使用した自動センスの曖昧性除去:アイスクリームコーンから松ぼっくりを伝える方法。バージニア州デブイズ(編)の第5回年次国際会議に関する国際会議(SIGDOC '86)の議事録。 ACM、ニューヨーク、ニューヨーク、米国、24-26。 doi = 10.1145/318723.318728 http://doi.acm.org/10.1145/318723.318728
Satanjeev BanerjeeとTed Pedersen。 2002年。WordNetを使用したWord Senseの分解のための適応されたレスクアルゴリズム。計算言語学とインテリジェントテキスト処理に関する第3回国際会議(Cicling '02)、Alexander F. Gelbukh(編)の議事録。 Springer-Verlag、ロンドン、英国、英国、136-145。
Satanjeev BanerjeeとTed Pedersen。 2003年。セマンティック関連性の尺度としての拡張グロスオーバーラップ。人工知能に関する第18回国際合同会議の議事録、805〜810ページ、Acapulco。
ジェイ・J・ジャンとデビッド・W・コンラス。 1997。コーパス統計と語彙分類に基づくセマンティックな類似性。台湾の計算言語学研究に関する国際会議の議事録。
クラウディア・リーコックとマーティン・チョドロー。 1998。WordSense IdentificationのローカルコンテキストとWordNetの類似性の組み合わせ。 Fellbaum 1998、pp。265–283。
Lee、Yoong Keok、Hwee Tou Ng、およびTee Kiah Chia。 「サポートベクトルマシンと複数の知識ソースを使用した監視された単語感覚の曖昧性の師団。」 Senseval-3:テキストのセマンティック分析のためのシステムの評価に関する3番目の国際ワークショップ。 2004年。
デカン・リン。 1998年。類似性の情報理論的定義。ウィスコンシン州マディソンの機械学習に関する第15回国際会議の議事録。
Linlin Li、Benjamin Roth、Caroline Sporleder。 2010。WordSenseの曖昧性とトークンベースのイディオム検出のトピックモデル。第48回計算言語学会(ACL)の年次総会。スウェーデン、ウプサラ。
アンドレア・モロ、ロベルト・ナビリグリ、フランチェスコ・マリア・トゥッチ、レベッカ・J・パソノー。 2014年。マスコンズにバベルネットを注釈します。言語リソースと評価に関する第9回国際会議の議事録(LREC'14)。レイキャビク、アイスランド。
Zhi ZhongとHwee Tou ng。 2010年。それは理にかなっています:無料のテキストのための広範なカバーの言葉の感覚分解システム。 ACL 2010システムデモンストレーションの議事録(ACLDEMOS '10)。コンピューテティ言語学会、米国ペンシルベニア州ストラウズバーグ、78-83。
スティーブン・バード、ユアン・クライン、エドワード・ローパー。 2009年。Pythonによる自然言語処理(第1版)。 O'Reilly Media、Inc ..
Eneko AgirreとAitor Soroa。 2009年。単語感覚の乱用のためのPagerankのパーソナライズ。計算言語学会協会の欧州支部の第12回会議の議事録(EACL-2009)。ギリシャ、アテネ。