テキスタシー:NLP、スペイシーの前後
textacy 、高性能のスペイシーライブラリに基づいて構築された、さまざまな自然言語処理(NLP)タスクを実行するためのPythonライブラリです。基礎---トークン化、一部のスピーチのタグ付け、依存関係解析など---別のライブラリに委任されたtextacy 、主に前に来て後に続くタスクに焦点を当てています。
特徴
- 便利な方法とカスタム拡張機能を介して、1つまたは多くのドキュメントを使用するためのスペイシーのコア機能にアクセスして拡張する
- 議会のスピーチから歴史文学、Redditコメントまで、テキストコンテンツとメタデータの両方を備えた準備されたデータセットをロード
- スペイシーで処理する前に、生のテキストをきれいにし、正常化し、探索します
- n-grams、エンティティ、頭字語、keyterms、svoトリプルなど、処理されたドキュメントから構造化された情報を抽出します
- さまざまな類似性メトリックを使用して文字列とシーケンスを比較します
- ドキュメントをトークン化して補強し、トピックモデルをトレーニング、解釈、視覚化する
- テキストの読みやすさと語彙の多様性統計を計算します。
...そしてもっと!
リンク
- ダウンロード:https://pypi.org/project/textacy
- ドキュメント:https://textacy.readthedocs.io
- ソースコード:https://github.com/chartbeat-labs/textacy
- バグトラッカー:https://github.com/chartbeat-labs/textacy/issues
メンテナー
ハウディ、ええ。