O USADDRESS é uma biblioteca Python para analisar os Estados Unidos não estruturados que abordam seqüências de strings em componentes de endereço, usando métodos avançados de PNL.
O que isso pode fazer: usando um modelo probabilístico, ele faz adivinhação (muito educada) na identificação de componentes de endereço, mesmo em casos complicados em que os analisadores baseados em regras normalmente se quebram.
O que isso não pode fazer: não pode identificar componentes de endereço com precisão perfeita, nem pode verificar se um determinado endereço está correto/válido.
Também não normaliza o endereço. No entanto, esta biblioteca construída sobre o USADDRESS.
Uma API RESTful construída sobre o UsAddress para programadores que não usam Python. Requer uma chave da API e as primeiras 1.000 parses são gratuitas.
Parserator: Endereços de análise e divisão permitem dividir facilmente endereços em colunas separadas por rua, cidade, estado, código postal e muito mais nas folhas do Google.
No terminal,
pip install usaddress Observe que parse e tag são métodos diferentes:
import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'
# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )
# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )O USADDress usa o Parserator, uma biblioteca para fazer e melhorar os analisadores probabilísticos - especificamente, analisadores que usam a implementação de campos aleatórios condicionais do Python -Crfsuite. O Parserator permite que você treine o modelo do analisador do USADDRED (um arquivo de configurações .crfsuite) nos dados de treinamento rotulados e fornece ferramentas para adicionar novos dados de treinamento rotulados.
Para construir uma versão de desenvolvimento do USADDress em sua máquina, execute o código a seguir em sua linha de comando:
git clone https://github.com/datamade/usaddress.git
cd usaddress
pip install -r requirements.txt
python setup.py develop
parserator train training/labeled.xml usaddress
Em seguida, execute a suíte de teste para confirmar que tudo está funcionando corretamente:
nosetests .
Tendo problemas para criar o código? Abra um problema e ficaremos felizes em ajudá -lo a solucionar problemas.
Se o USADDress estiver constantemente falhando em padrões de endereço específicos, você poderá ajustar o comportamento do analisador adicionando novos dados de treinamento ao modelo. Siga nosso guia no diretório de treinamento e faça uma solicitação de tração para que possamos incorporar sua contribuição ao nosso próximo lançamento!
Relatar questões no rastreador de edição
Se um endereço foi analisado incorretamente, informe -nos! Você pode abrir um problema ou (se for aventureiro) adicionar novos dados de treinamento para melhorar o modelo do analisador. Quando possível, envie alguns exemplos do mundo real de padrões de endereço semelhantes, juntamente com algumas informações sobre a fonte dos dados - isso nos ajudará a treinar o analisador e melhorar seu desempenho.
Se algo na biblioteca não estiver se comportando intuitivamente, é um bug e deve ser relatado.
Copyright (c) 2014 Atlanta Journal Constituição. Liberado sob a licença do MIT.