Скачать usaddress - Скачать исходный код usaddress

usaddress

Другой исходный код

1.0.0

Скачать

USADDRESS

USADDress - это библиотека Python для разбора неструктурированных адресных строк США в компоненты адреса, используя расширенные методы NLP.

Что это может сделать: использование вероятностной модели, она делает (очень образованную) догадки при выявлении компонентов адреса, даже в сложных случаях, когда парсеры, основанные на правилах, обычно разрушаются.

Что это не может сделать: он не может идентифицировать адреса с идеальной точностью, и не может убедиться, что заданный адрес правильный/действительный.

Это также не нормализует адрес. Тем не менее, эта библиотека, построенная на вершине Usaddress.

Инструменты, построенные с USADDRESS

Апи -анализатор API

RESTFUL API, построенный на вершине USADDRESS для программистов, которые не используют Python. Требуется ключ API, а первые 1000 анализов бесплатны.

Приложение Google Sheets

Парсератор: Parse и Split Adders позволяет легко разделиться адресами на отдельные столбцы по улице, городу, штату, ZipCode и более правым в Google Sheets.

Как использовать библиотеку Python USADDress

Установите USADDress с PIP, инструмент для установки и управления пакетами Python (руководство для начинающих здесь).

В терминале,

pip install usaddress

Проанализируйте несколько адресов!

Обратите внимание, что parse и tag - это разные методы:

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

Как использовать этот код разработки (для ботаников)

USADDress использует анализатор, библиотеку для создания и улучшения вероятностных анализаторов - в частности, анализаторов, которые используют реализацию Python -CRFSuite условных случайных полей. Парсератор позволяет вам обучить модель Parser Parser USADDRESS (файл настройки .crfSuite) на помеченных данных обучения и предоставляет инструменты для добавления новых помеченных данных обучения.

Создание и тестирование кода в этом репо

Чтобы создать версию разработки USADDRESS на вашей машине, запустите следующий код в вашей командной строке:

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

Затем запустите набор тестирования, чтобы подтвердить, что все работает правильно:

 nosetests .

Возникают проблемы с созданием кода? Откройте проблему, и мы будем рады помочь вам устранения неполадок.

Добавление новых учебных данных

Если USADDress постоянно терпит неудачу в конкретных шаблонах адреса, вы можете настроить поведение синтаксиса, добавив новые учебные данные в модель. Следуйте нашему руководству в учебном каталоге и обязательно сделайте запрос на привлечение, чтобы мы могли включить ваш вклад в наш следующий релиз!

Важные ссылки

Веб -интерфейс: https://parserator.datamade.us/usaddress
Распределение пакетов Python: https://pypi.python.org/pypi/usaddress
Документация пакета Python: https://usaddress.readthedocs.io/
Документация API: https://parserator.datamade.us/api-docs
Репозиторий: https://github.com/datamade/usaddress
Проблемы: https://github.com/datamade/usaddress/issues
Сообщение в блоге: http://datamade.us/blog/parsing-addresses-with-usaddress

Команда

Форест Грегг, DataMade
Кэти Денг, DataMade
Мирослав Батчкаров, Университет Сассекса
Джин Кокрейн, DataMade

Плохие синтаксики / ошибки

Сообщите о проблемах в трекере выпуска

Если адрес был неверно проанализирован, пожалуйста, сообщите нам об этом! Вы можете либо открыть проблему, либо (если вы приключении) добавить новые учебные данные, чтобы улучшить модель анализатора. По возможности, пожалуйста, отправьте несколько реальных примеров аналогичных образований адресов, а также некоторую информацию об источнике данных - это поможет нам обучить анализатор и улучшить его производительность.

Если что -то в библиотеке не ведет себя интуитивно, это ошибка, и следует сообщать.

Примечание на патчах/запросах на вытягивание

Форк проект.
Сделайте свою функцию с добавлением или исправлением ошибки.
Отправьте нам запрос на привлечение. Бонусные баллы за темы филиалов!

Авторское право

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-17
размер 4.25MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

usaddress

USADDRESS

Инструменты, построенные с USADDRESS

Апи -анализатор API

Приложение Google Sheets

Как использовать библиотеку Python USADDress

Как использовать этот код разработки (для ботаников)

Создание и тестирование кода в этом репо

Добавление новых учебных данных

Важные ссылки

Команда

Плохие синтаксики / ошибки

Примечание на патчах/запросах на вытягивание

Авторское право

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express