Proyek ini dikembangkan di bawah fase sebelumnya dari Yale Digital Humaniora Lab. Sekarang menjadi bagian dari metode komputasi dan departemen data Yale Library, lab tidak lagi memasukkan proyek ini dalam ruang lingkup pekerjaannya. Karena itu, ia tidak akan menerima pembaruan lebih lanjut.
Deteksi dan visualisasikan penggunaan kembali teks dalam koleksi teks biasa atau dokumen XML.
Intertext menggunakan pembelajaran mesin dan visualisasi interaktif untuk mengidentifikasi dan menampilkan pola intertekstual dalam koleksi teks. Pemrosesan teks didasarkan pada string vektor minhashing dan penampil web didasarkan pada komponen reaksi interaktif. [Demo]

Untuk menginstal Intertext, jalankan langkah -langkah di bawah ini:
# optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json " --verbose --update_client
# serve output
python -m http.server 8000 Kemudian buka browser web ke http://localhost:8000/output dan Anda akan melihat intertekstualitas yang ditemukan mesin!
Untuk mengaktifkan akselerasi CUDA, kami sarankan menggunakan langkah -langkah berikut saat menginstal modul:
# set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip Untuk menunjukkan penulis dan judul teks yang cocok, seseorang harus meneruskan bendera ke file metadata ke perintah intertext , misalnya
intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "File metadata harus berupa file JSON dengan format berikut:
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml "
}
} Jika dokumen teks Anda dapat dibaca di situs web lain, Anda dapat menambahkan atribut url ke masing -masing file Anda dalam file Metadata JSON Anda (lihat contoh di atas).
Jika dokumen Anda adalah file XML dan Anda ingin menonaktifkan halaman tertentu dalam lingkungan membaca, Anda dapat menggunakan flag --xml_page_tag untuk menunjuk tag di mana istirahat halaman diidentifikasi. Selain itu, Anda harus menyertakan $PAGE_ID dalam atribut url untuk file yang diberikan dalam file metadata Anda, misalnya
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml&page= $PAGE_ID "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml&page= $PAGE_ID "
}
} Jika ID halaman Anda ditentukan dalam atribut dalam tag --xml_page_tag , Anda dapat menentukan atribut yang relevan menggunakan flag --xml_page_attr .