
اسم غامض المطابقة مع التعلم الآلي. أداء مهام مطابقة الأسماء الغامضة المشتركة بما في ذلك تسجيل التشابه ، وربط السجل ، وإلهاء التخفيف والتطبيع.
يتم تدريب HMNI على مجموعة بيانات FirstName لاتينية لاتينية ، حيث يتم منح الدقة الأولوية.
| نموذج | دقة | دقة | يتذكر | F1 درجة |
|---|---|---|---|---|
| hmni-latin | 0.9393 | 0.9255 | 0.7548 | 0.8315 |
للحصول على مقدمة للمنهجية والبحث وراء HMNI ، يرجى الرجوع إلى منشور مدونتي.
باستخدام PIP عبر PYPI
pip install hmni import hmni
matcher = hmni . Matcher ( model = 'latin' ) matcher . similarity ( 'Alan' , 'Al' )
# 0.6838303319889133
matcher . similarity ( 'Alan' , 'Al' , prob = False )
# 1
matcher . similarity ( 'Alan Turing' , 'Al Turing' , surname_first = False )
# 0.6838303319889133 import pandas as pd
df1 = pd . DataFrame ({ 'name' : [ 'Al' , 'Mark' , 'James' , 'Harold' ]})
df2 = pd . DataFrame ({ 'name' : [ 'Mark' , 'Alan' , 'James' , 'Harold' ]})
merged = matcher . fuzzymerge ( df1 , df2 , how = 'left' , on = 'name' ) names_list = [ 'Alan' , 'Al' , 'Al' , 'James' ]
matcher . dedupe ( names_list , keep = 'longest' )
# ['Alan', 'James']
matcher . dedupe ( names_list , keep = 'frequent' )
# ['Al, 'James']
matcher . dedupe ( names_list , keep = 'longest' , replace = True )
# ['Alan, 'Alan', 'Alan', 'James'] hmni.matcher (model = 'latin' ، prefilter = true ، allow_alt_surname = true ، lead_initials = true ، allow_missing_components = true)
التشابه (name_a ، name_b ، prob = true ، surname_first = false)
fuzzymerge (df1 ، df2 ، how = 'inner' ، on = none ، left_on = none ، right_on = none ، aducator = false ، limit = 1 ، threshold = 0.5 ، lemexact_matches = true ، surname_first = false)
inner (افتراضي): استخدم تقاطع المفاتيح من كلا الإطارات ، على غرار انضمام SQL الداخلي ؛ الحفاظ على ترتيب المفاتيح اليسرىleft : استخدم مفاتيح فقط من الإطار الأيسر ، على غرار الانضمام الخارجي اليسرى ؛ الحفاظ على الترتيب الرئيسيright : استخدم مفاتيح فقط من الإطار الأيمن ، على غرار الانضمام الخارجي اليمنى SQL ؛ الحفاظ على الترتيب الرئيسيouter : استخدم Union of Keys من كلا الإطارات ، على غرار انضمام SQL الخارجي الكامل ؛ فرز مفاتيح معجميةdedupe (الأسماء ، العتبة = 0.5 ، Keep = '' longister '، revers = true ، limit = 3 ، replace = false ، surname_first = false)
longest (افتراضي): يحتفظ بأطول اسمfrequent : يحتفظ بالأسماء الأكثر شيوعًا في قائمة الأسماءississ_similarity (name_a ، name_b ، النتيجة)
طلبات السحب موضع ترحيب. للمطورين الذين يرغبون في إنشاء نموذج باستخدام أجهزة الكمبيوتر المحمولة اللاتينية أو غير اللاتينية (الصينية ، السيريلية ، العربية) ، تتم مشاركة دفاتر الملاحظات Jupyter في مجلد dev لإنشاء نماذج باستخدام طرق مماثلة.
معهد ماساتشوستس للتكنولوجيا