このプロジェクトは、Yale Digital Humanities Labの以前の段階で開発されました。現在、Yale Libraryの計算方法とデータ部門の一部であるこの研究室は、このプロジェクトをその範囲にもはや含めていません。そのため、それ以上の更新は受けられません。
プレーンテキストまたはXMLドキュメントのコレクション内でテキストの再利用を検出して視覚化します。
インターテキストは、機械学習とインタラクティブな視覚化を使用して、テキストコレクションのテキスト間パターンを識別および表示します。テキスト処理は、MinHashing Vectorized文字列に基づいており、Webビューアはインタラクティブな反応コンポーネントに基づいています。 [デモ]

インターテキストをインストールするには、以下の手順を実行します。
# optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json " --verbose --update_client
# serve output
python -m http.server 8000次に、 http://localhost:8000/outputにWebブラウザーを開くと、エンジンが発見されたインターテキスト性が表示されます。
CUDA加速を有効にするには、モジュールをインストールするときに次の手順を使用することをお勧めします。
# set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zipマッチングテキストの著者とタイトルを示すには、フラグをintertextデータファイルに渡す必要があります。
intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "メタデータファイルは、次の形式のJSONファイルである必要があります。
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml "
}
}テキストドキュメントを別のWebサイトで読むことができる場合は、メタデータJSONファイル内の各ファイルにurl属性を追加できます(上記の例を参照)。
ドキュメントがXMLファイルであり、読み取り環境内の特定のページに深くリンクしたい場合は、 --xml_page_tagフラグを使用して、ページが識別されるタグを指定できます。さらに、メタデータファイル内の指定されたファイルのurl属性に$PAGE_IDを含める必要があります。
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml&page= $PAGE_ID "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml&page= $PAGE_ID "
}
}ページIDが--xml_page_tagタグの属性内で指定されている場合、 --xml_page_attrフラグを使用して関連属性を指定できます。