intertext
0.1.0
該項目是在耶魯數字人文實驗室的前階段開發的。現在是耶魯圖書館的計算方法和數據部門的一部分,該實驗室不再包括該項目的工作範圍。因此,它將不會收到進一步的更新。
在純文本或XML文檔的集合中檢測和可視化文本重複使用。
互文使用機器學習和交互式可視化來識別和顯示文本集合中的互文模式。文本處理基於Minhashing矢量化字符串,Web查看器基於交互式反應組件。 [演示]

要安裝互文,請在下面運行以下步驟:
# optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json " --verbose --update_client
# serve output
python -m http.server 8000然後打開Web瀏覽器http://localhost:8000/output ,您會看到引擎發現的任何互文!
為了啟用CUDA加速度,我們建議在安裝模塊時使用以下步驟:
# set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip要指示匹配文本的作者和標題,應該將標誌傳遞到元數據文件到intertext命令,例如
intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "元數據文件應為JSON文件,具有以下格式:
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml "
}
}如果您的文本文檔可以在另一個網站上讀取,則可以在元數據JSON文件中的每個文件中添加一個url屬性(請參見上面的示例)。
如果您的文檔是XML文件,並且您想在閱讀環境中深入鏈接到特定頁面,則可以使用--xml_page_tag標誌來指定標籤的標籤,其中確定了頁面斷路。此外,您應該在元數據文件中的給定文件的url屬性中包含$PAGE_ID ,例如
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml&page= $PAGE_ID "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml&page= $PAGE_ID "
}
}如果您的頁面ID在--xml_page_tag標籤中的屬性中指定,則可以使用--xml_page_attr標誌指定相關屬性。