تم تطوير هذا المشروع في ظل مرحلة سابقة من مختبر Yale Digital Humanities Lab. الآن جزء من الأساليب الحسابية وبيانات مكتبة ييل ، لم يعد المختبر يتضمن هذا المشروع في نطاق عمله. على هذا النحو ، لن يتلقى أي تحديثات أخرى.
اكتشف وتصور إعادة استخدام النص داخل مجموعات من مستندات النص العادي أو مستندات XML.
يستخدم Intertext التعلم الآلي والتصورات التفاعلية لتحديد وعرض الأنماط النصية في مجموعات النص. تعتمد معالجة النص على سلاسل Minhashing المتجانسة ويستند عارض الويب على مكونات React التفاعلية. [العرض التوضيحي]

لتثبيت intertext ، قم بتشغيل الخطوات أدناه:
# optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json " --verbose --update_client
# serve output
python -m http.server 8000 ثم افتح متصفح ويب إلى http://localhost:8000/output وسترى أي نصوص التي اكتشفها المحرك!
لتمكين تسارع CUDA ، نوصي باستخدام الخطوات التالية عند تثبيت الوحدة النمطية:
# set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip للإشارة إلى مؤلف وعنوان مطابقة النصوص ، ينبغي للمرء نقل العلم إلى ملف بيانات التعريف إلى أمر intertext ، على سبيل المثال
intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "يجب أن تكون ملفات البيانات الوصفية ملفات JSON بالتنسيق التالي:
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml "
}
} إذا كان من الممكن قراءة مستنداتك النصية على موقع ويب آخر ، فيمكنك إضافة سمة عنوان url إلى كل ملف من ملفاتك في ملف Metadata JSON (انظر المثال أعلاه).
إذا كانت المستندات الخاصة بك عبارة عن ملفات XML وترغب في DeepLink إلى صفحات محددة داخل بيئة القراءة ، فيمكنك استخدام علامة --xml_page_tag لتعيين العلامة التي يتم من خلالها تحديد فترات فتحات الصفحة. بالإضافة إلى ذلك ، يجب تضمين $PAGE_ID في سمة عنوان url للملف المحدد ضمن ملف البيانات الوصفية ، على سبيل المثال
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml&page= $PAGE_ID "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml&page= $PAGE_ID "
}
} إذا تم تحديد معرفات صفحتك ضمن سمة في علامة --xml_page_tag ، يمكنك تحديد السمة ذات الصلة باستخدام علامة --xml_page_attr .