이 프로젝트는 Yale Digital Humanities Lab의 이전 단계에서 개발되었습니다. 이제 Yale Library의 계산 방법 및 데이터 부서의 일부인이 실험실에는 더 이상이 프로젝트가 작업 범위에 포함되지 않습니다. 따라서 더 이상 업데이트를받지 못할 것입니다.
일반 텍스트 또는 XML 문서 모음에서 텍스트 재사용을 감지하고 시각화합니다.
인터 텍스트는 머신 러닝 및 대화식 시각화를 사용하여 텍스트 컬렉션에서 텍스트 인터 텍스트 패턴을 식별하고 표시합니다. 텍스트 처리는 Minhashing Vectorized String을 기반으로하며 웹 뷰어는 대화식 반응 구성 요소를 기반으로합니다. [데모]

인터 텍스트를 설치하려면 아래 단계를 실행하십시오.
# optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json " --verbose --update_client
# serve output
python -m http.server 8000 그런 다음 http://localhost:8000/output 로 웹 브라우저를 열면 엔진이 발견 한 모든 텍스트 텍스트를 볼 수 있습니다!
CUDA 가속도를 활성화하려면 모듈을 설치할 때 다음 단계를 사용하는 것이 좋습니다.
# set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext
# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy
# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip 일치하는 텍스트의 저자와 제목을 나타내려면 플래그를 메타 intertext 파일로 전달해야합니다.
intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "메타 데이터 파일은 다음 형식의 JSON 파일이어야합니다.
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml "
}
} 텍스트 문서를 다른 웹 사이트에서 읽을 수있는 경우 메타 데이터 JSON 파일 내 각 파일에 url 속성을 추가 할 수 있습니다 (위의 예 참조).
문서가 XML 파일이고 읽기 환경 내에서 특정 페이지로 DeePlink를 원한다면 --xml_page_tag 플래그를 사용하여 페이지 브레이크가 식별되는 태그를 지정할 수 있습니다. 또한 메타 데이터 파일에 주어진 파일에 대한 url 속성에 $PAGE_ID 포함해야합니다 (예 :
{
" a.xml " : {
" author " : " Author A " ,
" title " : " Title A " ,
" year " : 1751,
" url " : " https://google.com?text=a.xml&page= $PAGE_ID "
},
" b.xml " : {
" author " : " Author B " ,
" title " : " Title B " ,
" year " : 1753,
" url " : " https://google.com?text=b.xml&page= $PAGE_ID "
}
} 페이지 ID가 --xml_page_tag 태그의 속성 내에 지정된 경우 --xml_page_attr flag를 사용하여 관련 속성을 지정할 수 있습니다.