usaddress下载 - usaddress源代码下载

usaddress

其他源码

1.0.0

下载

Usaddress

USADDRESS是使用高级NLP方法将非结构化的美国地址字符串解析为地址组件的Python库。

这可以做到的：使用概率模型，它在识别地址组件的情况下（非常受过教育的）猜测，即使在基于规则的解析器通常会分解的棘手情况下。

这无法做到的事情：它无法以完美的准确性识别地址组件，也无法验证给定的地址正确/有效。

它也不使地址归一化。但是，该库构建在Usaddress之上。

使用USADDRESS构建的工具

解析器API

一个不使用Python的程序员在USADDRESS上建立的宁静API。需要一个API键，前1,000个分析是免费的。

解析器Google Shays应用程序

解析器：解析和拆分地址使您可以轻松地将地址划分为街道，城市，州，Zipcode以及更多在Google表格中的单独列。

如何使用USADDRESS PYTHON库

使用PIP安装USADDRESS，该工具是用于安装和管理Python软件包的工具（在此处，初学者指南）。

在码头中，

pip install usaddress

解析一些地址！

请注意， parse和tag是不同的方法：

 import usaddress
addr = '123 Main St. Suite 100 Chicago, IL'

# The parse method will split your address string into components, and label each component.
# expected output: [(u'123', 'AddressNumber'), (u'Main', 'StreetName'), (u'St.', 'StreetNamePostType'), (u'Suite', 'OccupancyType'), (u'100', 'OccupancyIdentifier'), (u'Chicago,', 'PlaceName'), (u'IL', 'StateName')]
usaddress . parse ( addr )

# The tag method will try to be a little smarter
# it will merge consecutive components, strip commas, & return an address type
# expected output: (OrderedDict([('AddressNumber', u'123'), ('StreetName', u'Main'), ('StreetNamePostType', u'St.'), ('OccupancyType', u'Suite'), ('OccupancyIdentifier', u'100'), ('PlaceName', u'Chicago'), ('StateName', u'IL')]), 'Street Address')
usaddress . tag ( addr )

如何使用此开发代码（对于书呆子）

USADDRESS使用Parserator，这是一个用于制作和改进概率解析器的库 - 特别是使用Python -Crfsuite实现条件随机字段的解析器。解析器允许您在标记的培训数据上训练USADDRESS解析器的模型（.crfsuite设置文件），并提供用于添加新标记的培训数据的工具。

在此存储库中构建和测试代码

要在计算机上构建USADDRESS的开发版本，请在命令行中运行以下代码：

 git clone https://github.com/datamade/usaddress.git  
cd usaddress  
pip install -r requirements.txt  
python setup.py develop  
parserator train training/labeled.xml usaddress

然后运行测试套件以确认一切正常工作：

 nosetests .

构建代码时遇到困难？打开一个问题，我们很乐意帮助您进行故障排除。

添加新的培训数据

如果USADDRESS在特定的地址模式上始终失败，则可以通过向模型添加新的培训数据来调整解析器的行为。遵循我们的指南在培训目录中，并确保提出拉动请求，以便我们可以将您的贡献纳入下一个版本！

重要链接

Web界面：https：//parserator.datamade.us/usaddress
Python包装分发：https：//pypi.python.org/pypi/usaddress
Python软件包文档：https：//usaddress.readthedocs.io/
API文档：https：//parserator.datamade.us/api-docs
存储库：https：//github.com/datamade/usaddress
问题：https：//github.com/datamade/usaddress/issues
博客文章：http：//datamade.us/blog/parsing-addresses-with-usaddress

团队

森林Gregg，数据船
凯茜·邓（Cathy Deng），数据马德（Datamade）
苏塞克斯大学Miroslav Batchkarov
Jean Cochrane，Datamade

不良的解析 /错误

在问题跟踪器中报告问题

如果地址被错误解析，请告诉我们！您可以打开问题，也可以（如果您冒险）添加新的培训数据以改善解析器的模型。如果可能，请发送一些相似地址模式的现实世界示例，以及有关数据源的一些信息 - 这将有助于我们训练解析器并提高其性能。

如果图书馆中的某些内容没有直观地行为，那是一个错误，应报告。

关于补丁/拉请求的注意

分叉项目。
使您的功能添加或错误修复。
向我们发送拉动请求。主题分支机构的奖励积分！

版权

版权（C）2014年亚特兰大杂志宪法。根据MIT许可发布。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-17
大小 4.25MB
来自于 Github

usaddress

Usaddress

使用USADDRESS构建的工具

解析器API

解析器Google Shays应用程序

如何使用USADDRESS PYTHON库

如何使用此开发代码（对于书呆子）

在此存储库中构建和测试代码

添加新的培训数据

重要链接

团队

不良的解析 /错误

关于补丁/拉请求的注意

版权

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express