hmni 다운로드 hmni 소스 코드 다운로드

hmni

기타 소스코드

v0.1.8: Beta Release

다운로드

심벌 마크

HMNI

머신 러닝과 일치하는 퍼지 이름. 유사성 스코어링, 레코드 링키지, 중복 제거 및 정규화를 포함한 일반적인 퍼지 이름 매칭 작업을 수행하십시오.

HMNI는 정밀도가 우선 순위가 지정되는 국제적으로 정화 된 라틴어 이름 데이터 세트에 대해 교육을받습니다.

모델	정확성	정도	상기하다	F1- 점수
hmni-latin	0.9393	0.9255	0.7548	0.8315

HMNI의 방법론과 연구에 대한 소개는 내 블로그 게시물을 참조하십시오.

요구 사항

파이썬 3.5–3.8

텐서 플로
Scikit-Learn
퍼지 우지
abydos
불일치

빠른 사용 안내서

설치

PYPI를 통해 PIP 사용

pip install hmni

매칭 객체를 초기화하십시오

 import hmni
matcher = hmni . Matcher ( model = 'latin' )

단일 쌍 유사성

 matcher . similarity ( 'Alan' , 'Al' )
# 0.6838303319889133

matcher . similarity ( 'Alan' , 'Al' , prob = False )
# 1

matcher . similarity ( 'Alan Turing' , 'Al Turing' , surname_first = False )
# 0.6838303319889133

기록 연결

 import pandas as pd

df1 = pd . DataFrame ({ 'name' : [ 'Al' , 'Mark' , 'James' , 'Harold' ]})
df2 = pd . DataFrame ({ 'name' : [ 'Mark' , 'Alan' , 'James' , 'Harold' ]})

merged = matcher . fuzzymerge ( df1 , df2 , how = 'left' , on = 'name' )

이름 중복 제거 및 정규화

 names_list = [ 'Alan' , 'Al' , 'Al' , 'James' ]

matcher . dedupe ( names_list , keep = 'longest' )
# ['Alan', 'James']

matcher . dedupe ( names_list , keep = 'frequent' )
# ['Al, 'James']

matcher . dedupe ( names_list , keep = 'longest' , replace = True )
# ['Alan, 'Alan', 'Alan', 'James']

일치하는 매개 변수

hmni.matcher (model = 'latin', prefilter = true, alc

Model (STR) -HMNI 통계 모델 (기본적으로 라틴어)
프리 필터 (BOOL) - 경기자 프리 필터가 후보자가 없어야합니다 (기본적으로 true)
allow_alt_surname (bool) - 매치자가 음성 일치 성을 고려하면 Smith, Schmidt (기본적으로 true)
allow_Initials (bool) - 마칭자가 이니셜로 이름을 고려해야합니다 (기본적으로 true)
allow_missing_components (bool) - 매치자가 부족한 구성 요소가있는 이름을 고려해야합니다 (기본적으로 true)

매칭 방법

유사성 (name_a, name_b, prob = true, surname_first = false)

name_a (str) - 비교의 이름
name_b (str) - 비교의 두 번째 이름
Prob (bool) - 예측 확률을 반환하면 이진 클래스 레이블이 있습니다.
임계 값 (float) - 양수 일치에 대한 예측 확률 임계 값 (기본적으로 0.5)
surname_first (bool) - 이름 문자열이 성으로 시작하는 경우 (기본적으로 false)

fuzzymerge (df1, df2, how = '내부', on = none, left_on = none, right_on = none, right _ ender = false = 1, threshold = 0.5, allow_exact_matches = true, surname_first = false)

DF1 (Pandas Dataframe 또는 이름이 지정된 시리즈) - 병합 할 첫 번째/왼쪽 객체
DF2 (Pandas Dataframe 또는 명명 된 시리즈) - 두 번째/오른쪽 객체
방법 (str) - 수행 할 병합 유형
- inner (기본값) : SQL 내부 조인과 유사한 두 프레임에서 키의 교차로를 사용합니다. 왼쪽 키의 순서를 유지하십시오
- left : SQL 왼쪽 외부 조인과 유사한 왼쪽 프레임의 키만 사용하십시오. 키 순서를 보존하십시오
- right : SQL 오른쪽 외부 조인과 유사한 오른쪽 프레임의 키만 사용하십시오. 키 순서를 보존하십시오
- outer : SQL 전체 외부 조인과 유사한 두 프레임의 키를 사용하십시오. 키를 사전으로 정렬하십시오
ON (레이블 또는 목록) - 가입 할 열 또는 색인 레벨 이름. 이것들은 두 데이터 프레임 모두에서 찾아야합니다
LEFT_ON (레이블 또는 목록) - 왼쪽 데이터 프레임에 가입 할 열 또는 색인 레벨 이름
Right_on (레이블 또는 목록) - 오른쪽 데이터 프레임에 가입 할 열 또는 색인 레벨 이름
표시기 (bool) - true 인 경우 각 행 소스의 정보와 함께 "_merge"라는 데이터 프레임에 열을 추가합니다 (기본적으로 False)
Limit (int) - 고려해야 할 상위 이름 일치 (기본적으로 1)
임계 값 (float) - 양수 일치에 대한 예측 확률 임계 값 (기본적으로 0.5)
allow_exact_matches (bool) - 정확한 이름 일치에서 합병 허용이라면 정확한 일치를 고려하지 마십시오 (기본적으로 true).
surname_first (bool) - 이름 문자열이 성으로 시작하는 경우 (기본적으로 false)

dedupe (이름, 임계 값 = 0.5, repo = 'longest', reverse = true, limit = 3, replace = false, surname_first = false)

이름 (목록) - Dedupe의 이름 목록
임계 값 (float) - 양수 일치에 대한 예측 확률 임계 값 (기본적으로 0.5)
keep (str) - 여러 대체 이름 중 하나를 유지하기위한 메소드를 지정합니다.
- longest (기본값) : 가장 긴 이름을 유지합니다
- frequent : 이름 목록에서 가장 빈번한 이름을 유지합니다
Reverse (bool) - True가 순서 하강 순서와 일치하는 경우, 그렇지 않으면 오름차순 (기본적으로 true).
Limit (int) - 고려할 상위 이름 일치 (기본적으로 3)
대체 (bool) - true return 정규화 된 이름 목록이면 중복 제거 된 이름 목록을 반환합니다 (기본적으로 false).
surname_first (bool) - 이름 문자열이 성으로 시작하는 경우 (기본적으로 false)

antady_similarity (name_a, name_b, score)

name_a (str) - 유사성 점수 할당의 이름
name_b (str) - 유사성 점수 할당의 두 번째 이름
score (float) - 한 쌍의 유사성 점수를 지정했습니다.

기여

풀 요청을 환영합니다. 라틴어 또는 라틴어 또는 라틴어 쓰기 시스템 (중국어, 키릴, 아랍어)을 사용하여 모델을 구축하려는 개발자의 경우 Jupyter Notebook은 dev 폴더에서 공유하여 유사한 방법을 사용하여 모델을 구축합니다.

특허

MIT

확장하다

추가 정보

버전 v0.1.8: Beta Release
유형 기타 소스코드
업데이트 시간 2025-04-18
크기 21.26MB
출처 Github

hmni

HMNI

요구 사항

파이썬 3.5–3.8

빠른 사용 안내서

설치

매칭 객체를 초기화하십시오

단일 쌍 유사성

기록 연결

이름 중복 제거 및 정규화

일치하는 매개 변수

매칭 방법

기여

특허

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express