ที่เก็บนี้ไม่ได้รับการดูแลอีกต่อไป
textpipe เป็นแพ็คเกจ Python สำหรับการแปลงข้อความดิบให้เป็นข้อความทำความสะอาดข้อความที่อ่านได้และการแยกข้อมูลเมตาจากข้อความนั้น ฟังก์ชั่นของมันรวมถึงการแปลงข้อความดิบเป็นข้อความที่อ่านได้โดยการลบแท็ก HTML และการแยกข้อมูลเมตาเช่นจำนวนคำและเอนทิตีที่ชื่อจากข้อความ
HTML และโครงสร้างที่ไม่สามารถอ่านได้อื่น ๆขอแนะนำให้คุณติดตั้ง textpipe โดยใช้สภาพแวดล้อมเสมือนจริง
ก่อนอื่นให้สร้างสภาพแวดล้อมเสมือนจริงของคุณโดยใช้ VirtualEnV หรือ VirtualEnVwrapper
การใช้ VENV หากล่ามเริ่มต้นของคุณคือ Python3.6
python3 -m venv .venvvirtualenv venv -p python3.6mkvirtualenv textpipe -p python3.6pip install textpipepip install -r requirements.txtในขณะที่ไฟล์ txt.txt ที่มาพร้อมกับแพ็คเกจเรียกใช้โมเดล EN_CORE_WEB_SM ของ Spacy แต่สามารถเปลี่ยนแปลงได้ขึ้นอยู่กับรุ่นและภาษาที่คุณต้องการสำหรับการใช้งานที่คุณต้องการ ดูหน้าของ Spacy.io ในโมเดลที่แตกต่างกันสำหรับข้อมูลเพิ่มเติม
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 }เพื่อที่จะขยายการดำเนินงานข้อความที่มีอยู่ด้วยการดำเนินงานที่เป็นกรรมสิทธิ์ของคุณเอง
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))ดูการมีส่วนร่วมสำหรับแนวทางสำหรับผู้มีส่วนร่วม
0.12.1
0.12.0
0.11.9
ents โดยพลการ0.11.8
cats ของ Spacy0.11.7
0.11.6
0.11.5
0.11.4
0.11.1
0.11.0
0.9.0
0.8.6
0.8.5
0.8.4
0.8.3
0.8.2
0.8.1
0.8.0
0.7.2
0.7.0
context Kwargregister_operation ใน pipeline