Download do usaddress - Download do código fonte usaddress

usaddress

Outro código-fonte

1.0.0

Baixar

usaddress

O USADDRESS é uma biblioteca Python para analisar os Estados Unidos não estruturados que abordam seqüências de strings em componentes de endereço, usando métodos avançados de PNL.

O que isso pode fazer: usando um modelo probabilístico, ele faz adivinhação (muito educada) na identificação de componentes de endereço, mesmo em casos complicados em que os analisadores baseados em regras normalmente se quebram.

O que isso não pode fazer: não pode identificar componentes de endereço com precisão perfeita, nem pode verificar se um determinado endereço está correto/válido.

Também não normaliza o endereço. No entanto, esta biblioteca construída sobre o USADDRESS.

Ferramentas construídas com USADDress

API do Parserator

Uma API RESTful construída sobre o UsAddress para programadores que não usam Python. Requer uma chave da API e as primeiras 1.000 parses são gratuitas.

Aplicativo do Google Parserator Google

Parserator: Endereços de análise e divisão permitem dividir facilmente endereços em colunas separadas por rua, cidade, estado, código postal e muito mais nas folhas do Google.

Como usar a Biblioteca Python USAddress

Instale o USAddress com o PIP, uma ferramenta para instalar e gerenciar pacotes Python (guia para iniciantes aqui).

No terminal,

pip install usaddress

Analise alguns endereços!

Observe que parse e tag são métodos diferentes:

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

Como usar este código de desenvolvimento (para os nerds)

O USADDress usa o Parserator, uma biblioteca para fazer e melhorar os analisadores probabilísticos - especificamente, analisadores que usam a implementação de campos aleatórios condicionais do Python -Crfsuite. O Parserator permite que você treine o modelo do analisador do USADDRED (um arquivo de configurações .crfsuite) nos dados de treinamento rotulados e fornece ferramentas para adicionar novos dados de treinamento rotulados.

Construindo e testando o código neste repositório

Para construir uma versão de desenvolvimento do USADDress em sua máquina, execute o código a seguir em sua linha de comando:

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

Em seguida, execute a suíte de teste para confirmar que tudo está funcionando corretamente:

 nosetests .

Tendo problemas para criar o código? Abra um problema e ficaremos felizes em ajudá -lo a solucionar problemas.

Adicionando novos dados de treinamento

Se o USADDress estiver constantemente falhando em padrões de endereço específicos, você poderá ajustar o comportamento do analisador adicionando novos dados de treinamento ao modelo. Siga nosso guia no diretório de treinamento e faça uma solicitação de tração para que possamos incorporar sua contribuição ao nosso próximo lançamento!

Links importantes

Interface da Web: https://parserator.datamade.us/usaddress
Distribuição do pacote Python: https://pypi.python.org/pypi/usaddress
Documentação do pacote Python: https://usaddress.readthedocs.io/
Documentação da API: https://parserator.datamade.us/api-docs
Repositório: https://github.com/datamade/usaddress
Questões: https://github.com/datamade/usaddress/issues
Postagem do blog: http://datamade.us/blog/parsing-addresses-with-usaddress

Equipe

Forest Gregg, Datamade
Cathy Deng, Datamade
Miroslav Batchkarov, Universidade de Sussex
Jean Cochrane, Datamade

Palavras / insetos ruins

Relatar questões no rastreador de edição

Se um endereço foi analisado incorretamente, informe -nos! Você pode abrir um problema ou (se for aventureiro) adicionar novos dados de treinamento para melhorar o modelo do analisador. Quando possível, envie alguns exemplos do mundo real de padrões de endereço semelhantes, juntamente com algumas informações sobre a fonte dos dados - isso nos ajudará a treinar o analisador e melhorar seu desempenho.

Se algo na biblioteca não estiver se comportando intuitivamente, é um bug e deve ser relatado.