hmni下載hmni源代碼下載

hmni

其他源碼

v0.1.8: Beta Release

下載

hmni

模糊名稱與機器學習匹配。執行常見的模糊名稱匹配任務，包括相似性評分，記錄鏈接，重複數據刪除和歸一化。

HMNI接受了國際通信的拉丁名字數據集的培訓，該數據集優先。

模型	準確性	精確	記起	F1得分
hmni-latin	0.9393	0.9255	0.7548	0.8315

有關HMNI背後的方法和研究的介紹，請參閱我的博客文章。

要求

Python 3.5–3.8

張量
Scikit-Learn
fuzzywuzzy
阿比多斯
UNIDECODE

快速使用指南

安裝

使用PIA通過PYPI

pip install hmni

初始化匹配器對象

 import hmni
matcher = hmni . Matcher ( model = 'latin' )

單對相似性

 matcher . similarity ( 'Alan' , 'Al' )
# 0.6838303319889133

matcher . similarity ( 'Alan' , 'Al' , prob = False )
# 1

matcher . similarity ( 'Alan Turing' , 'Al Turing' , surname_first = False )
# 0.6838303319889133

記錄鏈接

 import pandas as pd

df1 = pd . DataFrame ({ 'name' : [ 'Al' , 'Mark' , 'James' , 'Harold' ]})
df2 = pd . DataFrame ({ 'name' : [ 'Mark' , 'Alan' , 'James' , 'Harold' ]})

merged = matcher . fuzzymerge ( df1 , df2 , how = 'left' , on = 'name' )

命名重複數據命名和歸一化

 names_list = [ 'Alan' , 'Al' , 'Al' , 'James' ]

matcher . dedupe ( names_list , keep = 'longest' )
# ['Alan', 'James']

matcher . dedupe ( names_list , keep = 'frequent' )
# ['Al, 'James']

matcher . dedupe ( names_list , keep = 'longest' , replace = True )
# ['Alan, 'Alan', 'Alan', 'James']

匹配器參數

hmni.matcher（ model ='latin'，prefilter = true，ally_alt_surname = true，ally_initials = true，ally_missing_components = true）

模型（str） - HMNI統計模型（默認情況下）
預濾器（布爾） - 匹配者的預濾器不太可能候選人（默認為ture）
allow_alt_surname （bool） - 匹配者應考慮語音匹配的姓氏，例如史密斯（schmidt ）
laster_initials （bool） - 匹配器應考慮使用縮寫的名稱（默認為tum）
allow_missing_components （bool） - 匹配器應考慮具有丟失組件的名稱（默認為true）

匹配器方法

相似性（name_a，name_b，prob = true，surname_first = false）

name_a （str） - 比較的名字
name_b （str） - 比較的第二個名字
prob （bool） - 如果true返回預測的概率，則否則二進制類標籤
閾值（float） - 積極匹配的預測概率閾值（默認為0.5）
surmame_first （bool） - 如果名稱字符串以姓氏開頭（默認為false）

fuzzymerge （df1，df2，how ='inner'，on = none，left_on = none，right_on = none = none，indisator = false，limit = 1，threshold = 0.5，ally_exact_matches = true，surmame_first = false）

DF1 （pandas dataframe或命名系列） - 首先/左對象合併
DF2 （pandas dataframe或命名系列） - 第二/正確的對象與
如何（str） - 合併的類型
- inner （默認）：使用兩個幀的鍵相交，類似於sql內連接；保留左鍵的順序
- left ：僅使用左側框架的鍵，類似於SQL左外連接；保留密鑰順序
- right ：僅使用右框架的鍵，類似於SQL右外連接；保留密鑰順序
- outer ：使用兩個幀的鍵聯合，類似於SQL完整的外部連接；從詞典上分類鑰匙
在（標籤或列表） - 要加入的列或索引級別名稱。這些必須在兩個數據范圍中找到
left_on （標籤或列表） - 列或索引級別名稱在左數據框中加入
right_on （標籤或列表） - 列或索引級別名稱在右數據幀中加入
指示器（bool） - 如果為true，則將列添加到輸出數據框架中，稱為“ _merge”，並在每行源上提供信息（默認為false）
限制（int） - 要考慮的名稱匹配的最高數（默認為1）
閾值（float） - 積極匹配的預測概率閾值（默認為0.5）
allow_exact_matches （bool） - 如果true允許在確切的名稱匹配下合併，則不考慮確切的匹配（默認為true）
surmame_first （bool） - 如果名稱字符串以姓氏開頭（默認為false）

dedupe （名稱，閾值= 0.5，keep ='最長'，反向= true，limit = 3，替換= false，surname_first = false）

名稱（列表） - dedupe的名稱列表
閾值（float） - 積極匹配的預測概率閾值（默認為0.5）
保持（str） - 指定保留多個替代名稱之一的方法
- longest （默認）：保留最長的名稱
- frequent ：在名稱列表中保留最頻繁的名稱
反向（bool） - 如果true會排序匹配下降順序，則上升（默認為true）
限制（int） - 要考慮的名稱匹配的最高數（默認為3）
替換（bool） - 如果真正返回歸一化名稱列表，則else返回reduplicated名稱列表（默認為false）
surmame_first （bool） - 如果名稱字符串以姓氏開頭（默認為false）