การใช้งาน Python ของ Word Sense Disambiguation (WSD) เทคโนโลยี:
อัลกอริทึม Lesk
เพิ่มความคล้ายคลึงกันให้มากที่สุด (ดูเพิ่มเติม Pedersen et al. (2003))
หมายเหตุ : PYWSD รองรับ Python 3 เท่านั้นตอนนี้ ( pywsd>=1.2.0 ) หากคุณใช้ Python 2 เวอร์ชันที่เป็นไปได้ล่าสุดคือ pywsd==1.1.7
pip install -U nltk
python -m nltk.downloader 'popular'
pip install -U pywsd
$ python
> >> from pywsd . lesk import simple_lesk
> >> sent = 'I went to the bank to deposit my money'
> >> ambiguous = 'bank'
> >> answer = simple_lesk ( sent , ambiguous , pos = 'n' )
> >> print answer
Synset ( 'depository_financial_institution.n.01' )
> >> print answer . definition ()
'a financial institution that accepts deposits and channels the money into lending activities'สำหรับคำทั้งหมด WSD ลอง:
> >> from pywsd import disambiguate
> >> from pywsd . similarity import max_similarity as maxsim
> >> disambiguate ( 'I went to the bank to deposit my money' )
[( 'I' , None ), ( 'went' , Synset ( 'run_low.v.01' )), ( 'to' , None ), ( 'the' , None ), ( 'bank' , Synset ( 'depository_financial_institution.n.01' )), ( 'to' , None ), ( 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , None ), ( 'money' , Synset ( 'money.n.03' ))]
> >> disambiguate ( 'I went to the bank to deposit my money' , algorithm = maxsim , similarity_option = 'wup' , keepLemmas = True )
[( 'I' , 'i' , None ), ( 'went' , u'go' , Synset ( 'sound.v.02' )), ( 'to' , 'to' , None ), ( 'the' , 'the' , None ), ( 'bank' , 'bank' , Synset ( 'bank.n.06' )), ( 'to' , 'to' , None ), ( 'deposit' , 'deposit' , Synset ( 'deposit.v.02' )), ( 'my' , 'my' , None ), ( 'money' , 'money' , Synset ( 'money.n.01' ))]ในการอ่านลายเซ็นที่คำนวณล่วงหน้าต่อ synset:
> >> from pywsd . lesk import cached_signatures
> >> cached_signatures [ 'dog.n.01' ][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ])
> >> cached_signatures [ 'dog.n.01' ][ 'adapted' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'leonberg' , ... , u'newfoundland' , u'pack' ])
> >> from nltk . corpus import wordnet as wn
> >> wn . synsets ( 'dog' )[ 0 ]
Synset ( 'dog.n.01' )
> >> dog = wn . synsets ( 'dog' )[ 0 ]
> >> dog . name ()
u'dog.n.01'
> >> cached_signatures [ dog . name ()][ 'simple' ]
set ([ u'canid' , u'belgian_griffon' , u'breed' , u'barker' , ... , u'genus' , u'newfoundland' ]) เพื่ออ้างอิง pywsd :
Liling Tan 2014. PYWSD: การใช้ Python ของ Word Sense Disambiguation (WSD) เทคโนโลยี [ซอฟต์แวร์] สืบค้นจาก https://github.com/alvations/pywsd
ใน bibtex :
@misc{pywsd14,
author = {Liling Tan},
title = {Pywsd: Python Implementations of Word Sense Disambiguation (WSD) Technologies [software]},
howpublished = {https://github.com/alvations/pywsd},
year = {2014}
}
Michael Lesk 1986. ความรู้สึกอัตโนมัติ disambiguation โดยใช้พจนานุกรมที่อ่านได้ของเครื่อง: วิธีบอกโคนต้นสนจากกรวยไอศครีม ในการดำเนินการประชุมนานาชาติประจำปีครั้งที่ 5 เกี่ยวกับเอกสารระบบ (Sigdoc '86), Virginia Debuys (ed.) ACM, New York, NY, USA, 24-26 doi = 10.1145/318723.318728 http://doi.acm.org/10.1145/318723.318728
Satanjeev Banerjee และ Ted Pedersen 2545. อัลกอริทึม LESK ที่ปรับเปลี่ยนสำหรับการทำให้รู้สึกเป็นบ้าโดยใช้ WordNet ในการประชุมวิชาการนานาชาติครั้งที่สามเกี่ยวกับภาษาศาสตร์เชิงคำนวณและการประมวลผลข้อความอัจฉริยะ (CICLING '02), Alexander F. Gelbukh (ed.) Springer-Verlag, London, UK, UK, 136-145
Satanjeev Banerjee และ Ted Pedersen 2546. การขยายเงาขยายเป็นตัวชี้วัดความสัมพันธ์ทางความหมาย ในการประชุมร่วมกันระหว่างประเทศที่สิบแปดเกี่ยวกับปัญญาประดิษฐ์หน้า 805–810, Acapulco
Jay J. Jiang และ David W. Conrath 1997. ความคล้ายคลึงกันตามสถิติของคลังข้อมูลและอนุกรมวิธานคำศัพท์ ในการประชุมนานาชาติเกี่ยวกับการวิจัยเกี่ยวกับภาษาศาสตร์การคำนวณไต้หวัน
Claudia Leacock และ Martin Chodorow 1998. การรวมบริบทในท้องถิ่นและความคล้ายคลึงกันของ WordNet สำหรับการระบุความรู้สึกของคำ ใน Fellbaum 1998, pp. 265–283
Lee, Yoong Keok, hwee tou ng และ Tee Kiah Chia "การควบคุมความรู้สึกไม่เป็นไปตามคำศัพท์ที่มีการสนับสนุนเครื่องเวกเตอร์และแหล่งความรู้หลายแหล่ง" SENSEVAL-3: การประชุมเชิงปฏิบัติการระหว่างประเทศครั้งที่สามเกี่ยวกับการประเมินระบบสำหรับการวิเคราะห์ความหมายของข้อความ 2547.
Dekang Lin 1998. คำจำกัดความของข้อมูลทฤษฎีของความคล้ายคลึงกัน ในการประชุมนานาชาติครั้งที่ 15 เรื่องการเรียนรู้ของเครื่องเมดิสันรัฐวิสคอนซิน
Linlin Li, Benjamin Roth และ Caroline Sporleder 2010. โมเดลหัวข้อสำหรับคำศัพท์ disambiguation และการตรวจจับสำนวนที่ใช้โทเค็น การประชุมประจำปีครั้งที่ 48 ของสมาคมเพื่อการคำนวณภาษาศาสตร์ (ACL) Uppsala ประเทศสวีเดน
Andrea Moro, Roberto Navigli, Francesco Maria Tucci และ Rebecca J. Passsonneau 2014. คำอธิบายประกอบ MASC Corpus กับ Babelnet ในการประชุมวิชาการนานาชาติครั้งที่เก้าเกี่ยวกับทรัพยากรภาษาและการประเมินผล (LREC'14) Reykjavik, ไอซ์แลนด์
Zhi Zhong และ Hwee tou ng 2010 มันสมเหตุสมผล: ระบบความรู้สึกที่ครอบคลุมความรู้สึกกว้างสำหรับข้อความฟรี ในการดำเนินการสาธิตระบบ ACL 2010 (ACLDEMOS '10) สมาคมสำหรับภาษาศาสตร์คำนวณ, Stroudsburg, PA, USA, 78-83
Steven Bird, Ewan Klein และ Edward Loper 2552. การประมวลผลภาษาธรรมชาติด้วย Python (1st ed.) O'Reilly Media, Inc.
Eneko Agirre และ Aitor Soroa 2552. การปรับแต่ง PageRank สำหรับคำศัพท์ที่ไม่น่าเชื่อ การดำเนินการประชุมครั้งที่ 12 ของบทยุโรปของสมาคมเพื่อการคำนวณภาษาศาสตร์ (EACL-2009) เอเธนส์กรีซ