
Pythonでのテキスト分類のためのアクティブ学習。
インストール|クイックスタート|貢献| Changelog |ドキュメント
Small-Textは、テキスト分類のための最先端のアクティブ学習を提供します。いくつかの事前に実装されたクエリ戦略、初期化戦略、および停止基準が提供されます。これは、積極的な学習実験またはアプリケーションを構築するために簡単に混合して一致させることができます。
アクティブな学習を使用すると、ラベル付きデータがほとんどまたはまったくないシナリオで、監視された学習のためのトレーニングデータを効率的にラベル付けできます。
バージョン2.0.0 dev1 (v2.0.0.dev1) - 2024年11月24日
バージョン1.4.1 (v1.4.1) - 2024年8月18日
バージョン1.4.0 (v1.4.0) - 2024年6月9日
EACL 2023で公開された論文?
変更の完全なリストについては、変更ログを参照してください。
小さなテキストは、PIP経由で簡単にインストールできます。
pip install small-textコマンドは、必要な依存関係のみを備えたスリムなインストールをもたらします。 PIPを介した完全なインストールのために、 transformers追加の要件を含める必要があります。
pip install small-text[transformers]ライブラリには、Python 3.8以降が必要です。 GPUを使用するには、CUDA 10.1以降が必要です。インストールに関する詳細については、ドキュメントをご覧ください。
クイックスタートのために、バイナリ分類、Pytorchマルチクラス分類、トランスベースのマルチクラス分類のための提供された例をご覧ください。または、ノートブックをご覧ください。
| # | ノート | |
|---|---|---|
| 1 | イントロ:小さなテキストによるテキスト分類のためのアクティブな学習 | |
| 2 | アクティブ学習のために停止基準を使用します | |
| 3 | SetFitを使用したアクティブ学習 | |
| 4 | Cold Startの初期化のためにSetFitのゼロショット機能を使用します |
ショーケースの完全なリストは、ドキュメントにあります。
?ユースケースを共有しますか?それが論文、実験、実用的なアプリケーション、論文、データセットなどであるかどうかにかかわらず、私たちに知らせてください。
ここで最新のドキュメントを読んでください。注目すべきページには次のものがあります。
| 名前 | 積極的な学習 | |
|---|---|---|
| クエリ戦略 | 停止基準 | |
| Small-Text v1.3.0 | 14 | 5 |
| Small-Text V2.0.0 | 19 | 5 |
数字を使用して、小さなテキストが時間の経過とともに行った途方もない進歩を示すために表示します。これらの数字に反映されていない多くの機能と改善があります。
モーダル、アリピー、リバクト、アルトールボックス
貢献は大歓迎です。詳細については、contributing.mdに記載されています。
このソフトウェアは、Webis Research Networkの一部であるLeipzig UniversityのNLPグループのChristopherSchröder(@Chschroeder)によって作成されました。包帯プロジェクトは、プロジェクト番号100335729の下で、ザクセンの開発銀行(SAB)によって資金提供されました。
小さいテキストは、EACL23システムのデモンストレーションペーパー「小さなテキスト:Pythonでのテキスト分類のためのアクティブ学習」で詳細に紹介されています。これは次のように引用できます。
@inproceedings{schroeder2023small-text,
title = "Small-Text: Active Learning for Text Classification in Python",
author = {Schr{"o}der, Christopher and M{"u}ller, Lydia and Niekler, Andreas and Potthast, Martin},
booktitle = "Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
month = may,
year = "2023",
address = "Dubrovnik, Croatia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.eacl-demo.11",
pages = "84--95"
}
MITライセンス