libsa4py
v0.4.0
LibSA4Py เป็นไลบรารีการวิเคราะห์แบบคงที่สำหรับ Python ซึ่งแยกคำใบ้และคุณสมบัติสำหรับการฝึกอบรมแบบจำลองการอนุมานประเภท ML
git clone https://github.com/saltudelft/libsa4py.git
cd libsa4py && pip install .
ที่ได้รับ Python ที่เก็บของให้เรียกใช้คำสั่งต่อไปนี้เพื่อประมวลผลไฟล์ซอร์สโค้ดและสร้างเอาต์พุตที่จัดรูปแบบ JSON:
libsa4py process --p $REPOS_PATH --o $OUTPUT_PATH --d $DUPLICATE_PATH --j $WORKERS_COUNT --l $LIMIT --c --no-nlp --pyre
คำอธิบาย:
--p $REPOS_PATH : เส้นทางไปยัง Python Corpus หรือชุดข้อมูล--o $OUTPUT_PATH : PATH to Store Project ที่ประมวลผล--d $DUPLICATE_PATH : พา ธ ไปยังไฟล์ที่ซ้ำกันของชุดข้อมูลที่กำหนด (เช่นไฟล์ jsonl.gz ที่ผลิตโดยเครื่องมือ CD4PY) [ ไม่จำเป็น ]--s : พา ธ ไปยังไฟล์ CSV สำหรับการแยกชุดข้อมูลที่กำหนด [ ไม่จำเป็น ]--j $WORKERS_COUNT : จำนวนคนงานสำหรับการประมวลผลโครงการ [ ไม่บังคับ , ค่าเริ่มต้น = ไม่ CPU Cores ที่มีอยู่]--l $LIMIT : จำนวนโครงการที่จะดำเนินการ [ ไม่จำเป็น ]--c : ไม่ว่าจะเพิกเฉยต่อโครงการที่ประมวลผลหรือไม่ [ ไม่บังคับ , ค่าเริ่มต้น = false]--no-nlp : จะใช้เทคนิค NLP มาตรฐานกับตัวระบุที่สกัดหรือไม่ [ ไม่บังคับ , ค่าเริ่มต้น = true]--pyre : จะเรียกใช้ pyre เพื่ออนุมานประเภทของตัวแปรสำหรับโครงการที่กำหนดหรือไม่ [ ไม่บังคับ , ค่าเริ่มต้น = false]--tc : จะพิมพ์คำอธิบายประกอบประเภทตรวจสอบในโครงการหรือไม่ [ ไม่บังคับ , ค่าเริ่มต้น = false] ในการรวมโครงการที่จัดทำขึ้น JSON ทั้งหมดเข้ากับ dataframe เดียวให้เรียกใช้คำสั่งต่อไปนี้:
libsa4py merge --o $OUTPUT_PATH --l $LIMIT
คำอธิบาย:
--o $OUTPUT_PATH : เส้นทางไปยังโครงการที่ประมวลผลซึ่งใช้ในขั้นตอนการประมวลผลก่อนหน้า--l $LIMIT : จำนวนโครงการที่จะรวมกัน [ ไม่จำเป็น ] หากต้องการใช้ประเภทที่อนุมานของ Pyre ให้เรียกใช้คำสั่งต่อไปนี้:
libsa4py apply --p $REPOS_PATH --o $OUTPUT_PATH
คำอธิบาย:
--p $REPOS_PATH : เส้นทางไปยัง Python Corpus หรือชุดข้อมูล--o $OUTPUT_PATH : เส้นทางไปยังโครงการที่ประมวลผลซึ่งใช้ในขั้นตอนการประมวลผลก่อนหน้าหลังจากประมวลผลแต่ละโครงการจะมีการผลิตไฟล์ที่จัดขึ้น JSON ซึ่งอธิบายไว้ที่นี่