usaddress -Download - usaddress Quellcode Download

usaddress

Anderer Quellcode

1.0.0

Herunterladen

Usaddress

Usaddress ist eine Python -Bibliothek für die Parsen unstrukturierter US -Adresskomponenten mit fortschrittlichen NLP -Methoden in Adresskomponenten.

Was dies kann: Verwenden eines probabilistischen Modells (sehr ausgebildete) Vermutungen bei der Identifizierung von Adresskomponenten, selbst in schwierigen Fällen, in denen regelbasierte Parser normalerweise zusammenbrechen.

Was dies nicht kann: Es können keine Adresskomponenten mit perfekter Genauigkeit identifiziert, noch kann dies überprüfen, ob eine bestimmte Adresse korrekt/gültig ist.

Es normalisiert auch die Adresse nicht. Diese Bibliothek, die auf Usaddress aufgebaut ist.

Werkzeuge, die mit USAddress erstellt wurden

Parserator -API

Eine erholsame API, die auf Usaddress für Programmierer aufgebaut ist, die Python nicht verwenden. Benötigt einen API -Schlüssel und die ersten 1.000 Parse sind frei.

Parserator Google Sheets App

Parserator: Analyse und geteilte Adressen ermöglichen es Ihnen, Adressen einfach in separate Spalten durch Straße, Stadt, Bundesstaat, Zipcode und mehr in Google Sheets aufzuteilen.

So verwenden Sie die USADdress Python Library

Installieren Sie Usaddress mit PIP, einem Werkzeug zum Installieren und Verwalten von Python -Paketen (Anfängerhandbuch hier).

Im Terminal,

pip install usaddress

Analysieren Sie einige Adressen!

Beachten Sie, dass parse und tag unterschiedliche Methoden sind:

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

So verwenden Sie diesen Entwicklungscode (für die Nerds)

Usaddress verwendet Parserator, eine Bibliothek, um probabilistische Parser zu erstellen und zu verbessern - insbesondere Parser, die Python -CRFSuite -Implementierung von bedingten Zufallsfeldern verwenden. Mit Parserator können Sie das Modell von USADdress Parser's Model (A.CRFSuite -Einstellungsdatei) für beschriftete Trainingsdaten trainieren und Tools zum Hinzufügen neuer beschrifteter Trainingsdaten bereitstellen.

Erstellen und Testen des Code in diesem Repo

Führen Sie den folgenden Code in Ihrer Befehlszeile aus, um eine Entwicklungsversion von Usaddress auf Ihrem Computer zu erstellen:

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

Führen Sie dann die Testsuite aus, um zu bestätigen, dass alles richtig funktioniert:

 nosetests .

Haben Sie Probleme, den Code aufzubauen? Öffnen Sie ein Problem und wir würden Ihnen gerne helfen, Fehler zu beheben.

Hinzufügen neuer Trainingsdaten

Wenn USAddress in bestimmten Adressmustern konsequent fehlschlägt, können Sie das Verhalten des Parsers anpassen, indem Sie dem Modell neue Trainingsdaten hinzufügen. Folgen Sie unserem Leitfaden im Trainingsverzeichnis und stellen Sie sicher, dass Sie eine Pull -Anfrage stellen, damit wir Ihren Beitrag in unsere nächste Veröffentlichung einbeziehen können!

Wichtige Links

Webschnittstelle: https://parserator.datamade.us/usaddress
Python -Paketverteilung: https://pypi.python.org/pypi/usaddress
Python -Paketdokumentation: https://usaddress.readthedocs.io/
API-Dokumentation: https://parserator.datamade.us/api-docs
Repository: https://github.com/datamade/usaddress
Probleme: https://github.com/datamade/usaddress/issues
Blogbeitrag: http://datamade.us/blog/parsing-addres-with-usaddress

Team

Forest Gregg, Datamade
Cathy Deng, Datamade
Miroslav Batchkarov, Universität Sussex
Jean Cochrane, Datamade

Schlechte Parse / Fehler

Melden Sie Probleme im Problem Tracker

Wenn eine Adresse falsch analysiert wurde, lassen Sie es uns bitte wissen! Sie können entweder ein Problem eröffnen oder (wenn Sie abenteuerlustig sind) neue Trainingsdaten hinzufügen, um das Modell des Parsers zu verbessern. Wenn möglich, senden Sie bitte einige Beispiele für ähnliche Adressmuster mit einigen Informationen zur Quelle der Daten. Dies hilft uns, den Parser zu schulen und seine Leistung zu verbessern.

Wenn sich etwas in der Bibliothek nicht intuitiv verhält, ist es ein Fehler und sollte gemeldet werden.

Hinweis zu Patches/Pull -Anfragen

Geben Sie das Projekt auf.
Machen Sie Ihre Funktionsanbietung oder Fehlerbehebung.
Senden Sie uns eine Pull -Anfrage. Bonuspunkte für Themenzweige!

Copyright

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 4.25MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

usaddress

Usaddress

Werkzeuge, die mit USAddress erstellt wurden

Parserator -API

Parserator Google Sheets App

So verwenden Sie die USADdress Python Library

So verwenden Sie diesen Entwicklungscode (für die Nerds)

Erstellen und Testen des Code in diesem Repo

Hinzufügen neuer Trainingsdaten

Wichtige Links

Team

Schlechte Parse / Fehler

Hinweis zu Patches/Pull -Anfragen

Copyright

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express