USADDress - это библиотека Python для разбора неструктурированных адресных строк США в компоненты адреса, используя расширенные методы NLP.
Что это может сделать: использование вероятностной модели, она делает (очень образованную) догадки при выявлении компонентов адреса, даже в сложных случаях, когда парсеры, основанные на правилах, обычно разрушаются.
Что это не может сделать: он не может идентифицировать адреса с идеальной точностью, и не может убедиться, что заданный адрес правильный/действительный.
Это также не нормализует адрес. Тем не менее, эта библиотека, построенная на вершине Usaddress.
RESTFUL API, построенный на вершине USADDRESS для программистов, которые не используют Python. Требуется ключ API, а первые 1000 анализов бесплатны.
Парсератор: Parse и Split Adders позволяет легко разделиться адресами на отдельные столбцы по улице, городу, штату, ZipCode и более правым в Google Sheets.
В терминале,
pip install usaddress Обратите внимание, что parse и tag - это разные методы:
import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'
# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )
# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )USADDress использует анализатор, библиотеку для создания и улучшения вероятностных анализаторов - в частности, анализаторов, которые используют реализацию Python -CRFSuite условных случайных полей. Парсератор позволяет вам обучить модель Parser Parser USADDRESS (файл настройки .crfSuite) на помеченных данных обучения и предоставляет инструменты для добавления новых помеченных данных обучения.
Чтобы создать версию разработки USADDRESS на вашей машине, запустите следующий код в вашей командной строке:
git clone https://github.com/datamade/usaddress.git
cd usaddress
pip install -r requirements.txt
python setup.py develop
parserator train training/labeled.xml usaddress
Затем запустите набор тестирования, чтобы подтвердить, что все работает правильно:
nosetests .
Возникают проблемы с созданием кода? Откройте проблему, и мы будем рады помочь вам устранения неполадок.
Если USADDress постоянно терпит неудачу в конкретных шаблонах адреса, вы можете настроить поведение синтаксиса, добавив новые учебные данные в модель. Следуйте нашему руководству в учебном каталоге и обязательно сделайте запрос на привлечение, чтобы мы могли включить ваш вклад в наш следующий релиз!
Сообщите о проблемах в трекере выпуска
Если адрес был неверно проанализирован, пожалуйста, сообщите нам об этом! Вы можете либо открыть проблему, либо (если вы приключении) добавить новые учебные данные, чтобы улучшить модель анализатора. По возможности, пожалуйста, отправьте несколько реальных примеров аналогичных образований адресов, а также некоторую информацию об источнике данных - это поможет нам обучить анализатор и улучшить его производительность.
Если что -то в библиотеке не ведет себя интуитивно, это ошибка, и следует сообщать.
Copyright (C) 2014 Atlanta Journal Concention. Выпущено по лицензии MIT.