hmni下载hmni源代码下载

hmni

其他源码

v0.1.8: Beta Release

下载

hmni

模糊名称与机器学习匹配。执行常见的模糊名称匹配任务，包括相似性评分，记录链接，重复数据删除和归一化。

HMNI接受了国际通信的拉丁名字数据集的培训，该数据集优先。

模型	准确性	精确	记起	F1得分
hmni-latin	0.9393	0.9255	0.7548	0.8315

有关HMNI背后的方法和研究的介绍，请参阅我的博客文章。

要求

Python 3.5–3.8

张量
Scikit-Learn
fuzzywuzzy
阿比多斯
UNIDECODE

快速使用指南

安装

使用PIA通过PYPI

pip install hmni

初始化匹配器对象

 import hmni
matcher = hmni . Matcher ( model = 'latin' )

单对相似性

 matcher . similarity ( 'Alan' , 'Al' )
# 0.6838303319889133

matcher . similarity ( 'Alan' , 'Al' , prob = False )
# 1

matcher . similarity ( 'Alan Turing' , 'Al Turing' , surname_first = False )
# 0.6838303319889133

记录链接

 import pandas as pd

df1 = pd . DataFrame ({ 'name' : [ 'Al' , 'Mark' , 'James' , 'Harold' ]})
df2 = pd . DataFrame ({ 'name' : [ 'Mark' , 'Alan' , 'James' , 'Harold' ]})

merged = matcher . fuzzymerge ( df1 , df2 , how = 'left' , on = 'name' )

命名重复数据命名和归一化

 names_list = [ 'Alan' , 'Al' , 'Al' , 'James' ]

matcher . dedupe ( names_list , keep = 'longest' )
# ['Alan', 'James']

matcher . dedupe ( names_list , keep = 'frequent' )
# ['Al, 'James']

matcher . dedupe ( names_list , keep = 'longest' , replace = True )
# ['Alan, 'Alan', 'Alan', 'James']

匹配器参数

hmni.matcher（ model ='latin'，prefilter = true，ally_alt_surname = true，ally_initials = true，ally_missing_components = true）

模型（str） - HMNI统计模型（默认情况下）
预滤器（布尔） - 匹配者的预滤器不太可能候选人（默认为ture）
allow_alt_surname （bool） - 匹配者应考虑语音匹配的姓氏，例如史密斯（schmidt ）
laster_initials （bool） - 匹配器应考虑使用缩写的名称（默认为tum）
allow_missing_components （bool） - 匹配器应考虑具有丢失组件的名称（默认为true）

匹配器方法

相似性（name_a，name_b，prob = true，surname_first = false）

name_a （str） - 比较的名字
name_b （str） - 比较的第二个名字
prob （bool） - 如果true返回预测的概率，则否则二进制类标签
阈值（float） - 积极匹配的预测概率阈值（默认为0.5）
surmame_first （bool） - 如果名称字符串以姓氏开头（默认为false）

fuzzymerge （df1，df2，how ='inner'，on = none，left_on = none，right_on = none = none，indisator = false，limit = 1，threshold = 0.5，ally_exact_matches = true，surmame_first = false）

DF1 （pandas dataframe或命名系列） - 首先/左对象合并
DF2 （pandas dataframe或命名系列） - 第二/正确的对象与
如何（str） - 合并的类型
- inner （默认）：使用两个帧的键相交，类似于sql内连接；保留左键的顺序
- left ：仅使用左侧框架的键，类似于SQL左外连接；保留密钥顺序
- right ：仅使用右框架的键，类似于SQL右外连接；保留密钥顺序
- outer ：使用两个帧的键联合，类似于SQL完整的外部连接；从词典上分类钥匙
在（标签或列表） - 要加入的列或索引级别名称。这些必须在两个数据范围中找到
left_on （标签或列表） - 列或索引级别名称在左数据框中加入
right_on （标签或列表） - 列或索引级别名称在右数据帧中加入
指示器（bool） - 如果为true，则将列添加到输出数据框架中，称为“ _merge”，并在每行源上提供信息（默认为false）
限制（int） - 要考虑的名称匹配的最高数（默认为1）
阈值（float） - 积极匹配的预测概率阈值（默认为0.5）
allow_exact_matches （bool） - 如果true允许在确切的名称匹配下合并，则不考虑确切的匹配（默认为true）
surmame_first （bool） - 如果名称字符串以姓氏开头（默认为false）

dedupe （名称，阈值= 0.5，keep ='最长'，反向= true，limit = 3，替换= false，surname_first = false）

名称（列表） - dedupe的名称列表
阈值（float） - 积极匹配的预测概率阈值（默认为0.5）
保持（str） - 指定保留多个替代名称之一的方法
- longest （默认）：保留最长的名称
- frequent ：在名称列表中保留最频繁的名称
反向（bool） - 如果true会排序匹配下降顺序，则上升（默认为true）
限制（int） - 要考虑的名称匹配的最高数（默认为3）
替换（bool） - 如果真正返回归一化名称列表，则else返回reduplicated名称列表（默认为false）
surmame_first （bool） - 如果名称字符串以姓氏开头（默认为false）

分配_simurility （name_a，name_b，分数）

name_a （str） - 相似性得分分配的名字
name_b （str） - 相似性得分分配的第二个名字
得分（浮点） - 分配的一对名称的相似性得分

贡献

欢迎拉动请求。对于希望使用拉丁或非拉丁语写作系统（中文，西里尔，阿拉伯语）构建模型的开发人员，在dev文件夹中共享Jupyter笔记本，以使用类似的方法构建模型。

执照

麻省理工学院

展开

附加信息

版本 v0.1.8: Beta Release
类型其他源码
更新时间 2025-04-18
大小 21.26MB
来自于 Github

hmni

hmni

要求

Python 3.5–3.8

快速使用指南

安装

初始化匹配器对象

单对相似性

记录链接

命名重复数据命名和归一化

匹配器参数

匹配器方法

贡献

执照

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express