usaddress下載 - usaddress源代碼下載

usaddress

其他源碼

1.0.0

下載

Usaddress

USADDRESS是使用高級NLP方法將非結構化的美國地址字符串解析為地址組件的Python庫。

這可以做到的：使用概率模型，它在識別地址組件的情況下（非常受過教育的）猜測，即使在基於規則的解析器通常會分解的棘手情況下。

這無法做到的事情：它無法以完美的準確性識別地址組件，也無法驗證給定的地址正確/有效。

它也不使地址歸一化。但是，該庫構建在Usaddress之上。

使用USADDRESS構建的工具

解析器API

一個不使用Python的程序員在USADDRESS上建立的寧靜API。需要一個API鍵，前1,000個分析是免費的。

解析器Google Shays應用程序

解析器：解析和拆分地址使您可以輕鬆地將地址劃分為街道，城市，州，Zipcode以及更多在Google表格中的單獨列。

如何使用USADDRESS PYTHON庫

使用PIP安裝USADDRESS，該工具是用於安裝和管理Python軟件包的工具（在此處，初學者指南）。

在碼頭中，

pip install usaddress

解析一些地址！

請注意， parse和tag是不同的方法：

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

如何使用此開發代碼（對於書呆子）

USADDRESS使用Parserator，這是一個用於製作和改進概率解析器的庫 - 特別是使用Python -Crfsuite實現條件隨機字段的解析器。解析器允許您在標記的培訓數據上訓練USADDRESS解析器的模型（.crfsuite設置文件），並提供用於添加新標記的培訓數據的工具。

在此存儲庫中構建和測試代碼

要在計算機上構建USADDRESS的開發版本，請在命令行中運行以下代碼：

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

然後運行測試套件以確認一切正常工作：