Descarga usaddress - Descargar el código fuente usaddress

usaddress

Otro código fuente

1.0.0

Descargar

Usaddress

Usaddress es una biblioteca de Python para analizar las cadenas de direcciones de los Estados Unidos no estructuradas en los componentes de la dirección, utilizando métodos NLP avanzados.

Lo que esto puede hacer: al usar un modelo probabilístico, hace conjeturas (muy educadas) para identificar componentes de dirección, incluso en casos difíciles en los que los analizadores basados en reglas generalmente se descomponen.

Lo que esto no puede hacer: no puede identificar los componentes de la dirección con una precisión perfecta, ni puede verificar que una dirección dada sea correcta/válida.

Tampoco normaliza la dirección. Sin embargo, esta biblioteca construida sobre Usaddress sí.

Herramientas construidas con usaddress

API de patserador

Una API RESTful construida sobre Usaddress para programadores que no usan Python. Requiere una clave API y los primeros 1,000 analizados son gratuitos.

Aplicación de hojas de Google de Parserator

Parserator: las direcciones de análisis y dividido le permiten dividir fácilmente las direcciones en columnas separadas por calle, ciudad, estado, zipcode y más correcto en las hojas de Google.

Cómo usar la biblioteca de Python Usaddress

Instale usaddress con PIP, una herramienta para instalar y administrar paquetes de Python (guía para principiantes aquí).

En la terminal,

pip install usaddress

¡Analiza algunas direcciones!

Tenga en cuenta que parse y tag son métodos diferentes:

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

Cómo usar este código de desarrollo (para los nerds)

Usaddress utiliza Parserator, una biblioteca para realizar y mejorar los analizadores probabilísticos, específicamente, los analizadores que utilizan la implementación de los campos aleatorios condicionales de Python -Crfsuite de los campos aleatorios condicionales. Parserator le permite capacitar al modelo de analizador Usaddress (un archivo de configuración .Crfsuite) en datos de capacitación etiquetados, y proporciona herramientas para agregar nuevos datos de capacitación etiquetados.

Construir y probar el código en este repositorio

Para construir una versión de desarrollo de Usaddress en su máquina, ejecute el siguiente código en su línea de comando:

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

Luego ejecute la suite de prueba para confirmar que todo funciona correctamente:

 nosetests .

¿Tiene problemas para construir el código? Abra un problema y nos alegraría ayudarlo a solucionar problemas.

Agregar nuevos datos de entrenamiento

Si Usaddress está fallando constantemente en patrones de dirección particulares, puede ajustar el comportamiento del analizador agregando nuevos datos de entrenamiento al modelo. ¡Siga nuestra guía en el directorio de capacitación y asegúrese de hacer una solicitud de extracción para que podamos incorporar su contribución en nuestro próximo lanzamiento!

Enlaces importantes

Interfaz web: https://parserator.datamade.us/usaddress
Distribución del paquete de Python: https://pypi.python.org/pypi/usaddress
Documentación del paquete de Python: https://usaddress.readthedocs.io/
Documentación de API: https://parserator.datamade.us/api-docs
Repositorio: https://github.com/datamade/usaddress
Problemas: https://github.com/datamade/usaddress/issues
Publicación del blog: http://datamade.us/blog/parsing-addresses-with-usaddress

Equipo

Forest Gregg, DataMade
Cathy Deng, Datamade
Miroslav Batchkarov, Universidad de Sussex
Jean Cochrane, Datamade

Malos analgésicos / errores

Informar cuestiones en el rastreador de problemas

Si una dirección se analizó incorrectamente, ¡háganoslo saber! Puede abrir un problema o (si es aventurero) agregar nuevos datos de entrenamiento para mejorar el modelo de analizador. Cuando sea posible, envíe algunos ejemplos del mundo real de patrones de dirección similares, junto con cierta información sobre la fuente de los datos; esto nos ayudará a capacitar al analizador y mejorar su rendimiento.

Si algo en la biblioteca no se está comportando intuitivamente, es un error y debe informarse.

Nota sobre las solicitudes de parches/extracción

Bifurca el proyecto.
Haga que su característica sea adición o corrección de errores.
Envíenos una solicitud de extracción. Puntos de bonificación para ramas de temas!

Derechos de autor

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 4.25MB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo