hmniダウンロード-HMNIソースコードのhmni

hmni

その他のソースコード

v0.1.8: Beta Release

ダウンロード

hmni

機械学習と一致するファジー名。類似性スコアリング、レコードリンケージ、重複排除、正規化など、一般的なファジー名マッチングタスクを実行します。

HMNIは、国際的に翻訳されたラテン語のファースト名データセットで訓練されており、精度が優先されます。

モデル	正確さ	精度	想起	F1スコア
hmni-latin	0.9393	0.9255	0.7548	0.8315

HMNIの背後にある方法論と調査の紹介については、私のブログ投稿を参照してください。

要件

Python 3.5–3.8

Tensorflow
Scikit-Learn
ファジーワジー
アビドス
unidecode

簡単な使用ガイド

インストール

Pypi経由でPIPを使用します

pip install hmni

Matcherオブジェクトを初期化します

 import hmni
matcher = hmni . Matcher ( model = 'latin' )

シングルペアの類似性

 matcher . similarity ( 'Alan' , 'Al' )
# 0.6838303319889133

matcher . similarity ( 'Alan' , 'Al' , prob = False )
# 1

matcher . similarity ( 'Alan Turing' , 'Al Turing' , surname_first = False )
# 0.6838303319889133

リンクを記録します

 import pandas as pd

df1 = pd . DataFrame ({ 'name' : [ 'Al' , 'Mark' , 'James' , 'Harold' ]})
df2 = pd . DataFrame ({ 'name' : [ 'Mark' , 'Alan' , 'James' , 'Harold' ]})

merged = matcher . fuzzymerge ( df1 , df2 , how = 'left' , on = 'name' )

名前の重複排除と正規化

 names_list = [ 'Alan' , 'Al' , 'Al' , 'James' ]

matcher . dedupe ( names_list , keep = 'longest' )
# ['Alan', 'James']

matcher . dedupe ( names_list , keep = 'frequent' )
# ['Al, 'James']

matcher . dedupe ( names_list , keep = 'longest' , replace = True )
# ['Alan, 'Alan', 'Alan', 'James']

マッチャーパラメーター

hmni.matcher（model = 'latin'、prefilter = true、aopt_alt_surname = true、awtow_initials = true 、appro_missing_components = true）

モデル（str） -hmni統計モデル（デフォルトによるラテン語）
Prefilter （bool） -Matcher Prefilterが候補者の可能性が低い場合（デフォルトで真）
Allow_alt_surname （bool） - マッチャーは音声マッチング姓などを検討する必要があります。
Allow_initials （bool） - マッチャーはイニシャルのある名前を検討する必要があります（デフォルトでは真）
Allow_missing_components （bool） - マッチャーは不足しているコンポーネントのある名前を検討する必要があります（デフォルトでは真）

マッチャーメソッド

類似性（name_a、name_b、prob = true、surname_first = false）

name_a （str） - 比較の名
name_b （str） - 比較のための2番目の名前
prob （bool） - 真の場合、予測された確率を返す場合、その他のバイナリクラスラベル
しきい値（フロート） - 正の一致の予測確率のしきい値（デフォルトでは0.5）
surname_first （bool） - 名前文字列がsurnameで始まる場合（デフォルトでfalse）

fuzzymerge （df1、df2、how = 'inner'、on = none、left_on = none、right_on = none、indicator = false、limit = 1、threshold = 0.5、aople_exact_matches = true、surname_first = false）

DF1 （PANDAS DATAFRAMEまたは名前付きシリーズ） - マージする最初の/左オブジェクト
DF2 （PANDAS DATAFRAMEまたは名前付きシリーズ） - マージする2番目/右オブジェクト
方法（str） - 実行されるマージのタイプ
- inner （デフォルト）：SQLインナー結合と同様に、両方のフレームからキーの交差点を使用します。左キーの順序を保存します
- left ：左フレームからのキーのみを使用して、SQLの左外の結合と同様に使用します。キーオーダーを保持します
- right ：SQL右外の結合と同様に、右フレームからキーのみを使用します。キーオーダーを保持します
- outer ：SQLフルアウター結合と同様に、両方のフレームからキーの組合を使用します。辞書編集的にキーをソートします
on （ラベルまたはリスト） - 参加する列またはインデックスレベルの名前。これらは両方のデータフレームにある必要があります
left_on （ラベルまたはリスト） - 左のデータフレームに参加する列またはインデックスレベル名
right_on （ラベルまたはリスト） - 正しいデータフレームに参加する列またはインデックスレベル名
インジケータ（BOOL） - trueの場合、各行のソースに関する情報を使用して「_merge」と呼ばれるデータフレームを出力する列を追加します（デフォルトではfalse）
limit （int） - 考慮すべき名前の一致のトップ数（デフォルトで1）
しきい値（フロート） - 正の一致の予測確率のしきい値（デフォルトでは0.5）
Allow_exact_matches （bool） - 正確な名前の一致でマージすることをtrueする場合、それ以外は正確な一致を考慮しない（デフォルトで真）
surname_first （bool） - 名前文字列がsurnameで始まる場合（デフォルトでfalse）

dedupe （名前、しきい値= 0.5、keep = 'longest'、reverse = true、limit = 3、置換= false、surname_first = false）

名前（リスト） - dedupeの名前のリスト
しきい値（フロート） - 正の一致の予測確率のしきい値（デフォルトでは0.5）
keep （str） - 複数の代替名のいずれかを保持する方法を指定します
- longest （デフォルト）：最長の名前を保持します
- frequent ：最も頻繁な名前を名前リストに保持します
reverse （bool） - trueが下降順に一致する場合、昇順（デフォルトでtrue）
limit （int） - 考慮すべき名前の一致のトップ数（デフォルトで3）
交換（bool） - true return recornized name list、elseを返す場合は、重複排除された名前リストを返します（デフォルトでfalse）
surname_first （bool） - 名前文字列がsurnameで始まる場合（デフォルトでfalse）

assile_similarity （name_a、name_b、score）

name_a （str） - 類似性スコア割り当ての名
name_b （str） - 類似性スコア割り当ての2番目の名前
スコア（フロート） - 名前のペアに割り当てられた類似性スコア

貢献

プルリクエストは大歓迎です。ラテン語または非ラチンライティングシステム（中国語、キリル語、アラビア語）を使用してモデルを構築したい開発者のために、Jupyterノートブックはdevフォルダーで共有され、同様の方法を使用してモデルを構築します。

ライセンス

mit

拡大する

追加情報

バージョン v0.1.8: Beta Release
タイプその他のソースコード
更新時間 2025-04-18
サイズ 21.26MB
から Github

hmni

hmni

要件

Python 3.5–3.8

簡単な使用ガイド

インストール

Matcherオブジェクトを初期化します

シングルペアの類似性

リンクを記録します

名前の重複排除と正規化

マッチャーパラメーター

マッチャーメソッド

貢献

ライセンス

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express