ดาวน์โหลด intertext - ดาวน์โหลดซอร์สโค้ด intertext

intertext

ข้อมูลเว็บไซต์

0.1.0

ดาวน์โหลด

หมายเหตุ: ที่เก็บนี้ได้รับการเก็บถาวร

โครงการนี้ได้รับการพัฒนาภายใต้ขั้นตอนก่อนหน้าของห้องปฏิบัติการ Humanities Yale Digital ตอนนี้เป็นส่วนหนึ่งของวิธีการคำนวณและแผนกข้อมูลของ Library Library ห้องปฏิบัติการไม่รวมโครงการนี้ไว้ในขอบเขตการทำงานอีกต่อไป เช่นนี้จะไม่ได้รับการอัปเดตเพิ่มเติม

intertext

ตรวจจับและแสดงภาพการใช้ข้อความซ้ำภายในคอลเลกชันของข้อความธรรมดาหรือเอกสาร XML

Intertext ใช้การเรียนรู้ของเครื่องและการสร้างภาพข้อมูลแบบโต้ตอบเพื่อระบุและแสดงรูปแบบ intertextual ในคอลเลกชันข้อความ การประมวลผลข้อความขึ้นอยู่กับสตริง minhashing vectorized และโปรแกรมดูเว็บจะขึ้นอยู่กับส่วนประกอบปฏิกิริยาแบบโต้ตอบ [สาธิต]

ตัวอย่างแอป

การติดตั้ง

ในการติดตั้ง intertext ให้เรียกใช้ขั้นตอนด้านล่าง:

 # optional: install Anaconda and set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext

# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip

การใช้งาน

 # search for intertextuality in some documents
python intertext/intertext.py --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "  --verbose --update_client

# serve output
python -m http.server 8000

จากนั้นเปิดเว็บเบราว์เซอร์ไปที่ http://localhost:8000/output แล้วคุณจะเห็น intertextualities ใด ๆ ที่เครื่องยนต์ค้นพบ!

การเร่งความเร็วของ Cuda

ในการเปิดใช้งานการเร่งความเร็วของ CUDA เราขอแนะนำให้ใช้ขั้นตอนต่อไปนี้เมื่อติดตั้งโมดูล:

 # set up conda virtual environment
conda create --name intertext python=3.7
conda activate intertext

# set up cuda and cupy
conda install cudatoolkit
conda install -c conda-forge cupy

# install the package
pip uninstall intertext -y
pip install https://github.com/yaledhlab/intertext/archive/master.zip

ให้ข้อมูลเมตา

เพื่อระบุผู้แต่งและชื่อเรื่องของข้อความที่ตรงกันหนึ่งควรส่งธงไปยังไฟล์ข้อมูลเมตาไปยังคำสั่ง intertext เช่น

intertext --infiles " sample_data/texts/*.txt " --metadata " sample_data/metadata.json "

ไฟล์ข้อมูลเมตาควรเป็นไฟล์ JSON ที่มีรูปแบบต่อไปนี้:

{
  " a.xml " : {
    " author " : " Author A " ,
    " title " : " Title A " ,
    " year " : 1751,
    " url " : " https://google.com?text=a.xml "
  },
  " b.xml " : {
    " author " : " Author B " ,
    " title " : " Title B " ,
    " year " : 1753,
    " url " : " https://google.com?text=b.xml "
  }
}

การพุ่ง

หากเอกสารข้อความของคุณสามารถอ่านได้ในเว็บไซต์อื่นคุณสามารถเพิ่มแอตทริบิวต์ url ให้กับแต่ละไฟล์ของคุณภายในไฟล์ข้อมูลเมตาของคุณ (ดูตัวอย่างด้านบน)

หากเอกสารของคุณเป็นไฟล์ XML และคุณต้องการที่จะ deeplink ไปยังหน้าเฉพาะภายในสภาพแวดล้อมการอ่านคุณสามารถใช้ธง --xml_page_tag เพื่อกำหนดแท็กภายในที่ระบุตัวแบ่งหน้า นอกจากนี้คุณควรรวม $PAGE_ID ในแอตทริบิวต์ url สำหรับไฟล์ที่กำหนดภายในไฟล์ข้อมูลเมตาของคุณเช่น

{
  " a.xml " : {
    " author " : " Author A " ,
    " title " : " Title A " ,
    " year " : 1751,
    " url " : " https://google.com?text=a.xml&page= $PAGE_ID "
  },
  " b.xml " : {
    " author " : " Author B " ,
    " title " : " Title B " ,
    " year " : 1753,
    " url " : " https://google.com?text=b.xml&page= $PAGE_ID "
  }
}