Unduh PyKoSpacing - Unduh Kode Sumber PyKoSpacing

Pykospacing

Paket Python untuk jarak kata Korea otomatis.

R Verson dapat ditemukan di sini.

Perkenalan

Jarak kata adalah salah satu bagian penting dari preprocessing analisis teks Korea. Jarak yang akurat sangat mempengaruhi keakuratan analisis teks selanjutnya. PyKoSpacing memiliki kinerja jarak kata otomatis yang cukup akurat, terutama bagus untuk teks online yang berasal dari SNS atau SMS.

Misalnya.

"아버지가방에들어가신다." dapat ditempatkan keduanya di bawah ini.

"아버지가 방에 들어가신다." berarti "ayahku memasuki ruangan."
"아버지 가방에 들어가신다." berarti "ayahku masuk ke tas."

Akal sehat, yang pertama adalah jawaban yang tepat.

PyKoSpacing didasarkan pada model pembelajaran mendalam yang dilatih dari korpus besar (lebih dari 100 juta artikel berita dari Chan-yub Park).

Pertunjukan

Set tes	Ketepatan
Sejong (gaya sehari -hari) Corpus (1m)	97,1%
OOOO (Gaya Sastra) Corpus (3M)	94,3%

Accuracy = # Karakter berjarak dengan benar/ # karakter dalam data uji.
- Mungkin peningkatan kinerja jika menormalkan kata majemuk.

Memasang

PYPI Instal

Prasyarat:

proper installation of python3
proper installation of pip

pip install tensorflow
pip install keras


Windows-Ubuntu case: On following error.
On error: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version ` GLIBCXX_3.4.22 ' not found
   sudo apt-get install libstdc++6
   sudo add-apt-repository ppa:ubuntu-toolchain-r/test
   sudo apt-get update
   sudo apt-get upgrade
   sudo apt-get dist-upgrade (This takes long time.)

Kasus Darwin (M1): Anda harus menginstal TensorFlow dengan cara yang berbeda. (Gunakan miniforge3)

 # Install Miniforge3 for mac
curl -O https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-MacOSX-arm64.sh
chmod +x Miniforge3-MacOSX-arm64.sh
sh Miniforge3-MacOSX-arm64.sh
# Activate Miniforge3 virtualenv
# You should use Python version 3.10 or less.
source ~ /miniforge3/bin/activate
# Install the Tensorflow dependencies 
conda install -c apple tensorflow-deps 
# Install base tensorflow 
python -m pip install tensorflow-macos 
# Install metal plugin 
python -m pip install tensorflow-metal

Untuk menginstal dari github, gunakan

 pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Contoh

 > >> from pykospacing import Spacing
> >> spacing = Spacing ()
> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." )
"김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다."
> >> # Apply a list of words that must be non-spacing
>> > spacing ( '귀밑에서턱까지잇따라난수염을구레나룻이라고한다.' )
'귀 밑에서 턱까지 잇따라 난 수염을 구레나 룻이라고 한다.'
> >> spacing = Spacing ( rules = [ '구레나룻' ])
> >> spacing ( '귀밑에서턱까지잇따라난수염을구레나룻이라고한다.' )
'귀 밑에서 턱까지 잇따라 난 수염을 구레나룻이라고 한다.'

Mengatur aturan dengan file CSV. (Anda hanya perlu menggunakan metode set_rules_by_csv() .)

$ cat test.csv
인덱스,단어
1,네이버영화
2,언급된단어

 > >> from pykospacing import Spacing
> >> spacing = Spacing ( rules = [ '' ])
> >> spacing . set_rules_by_csv ( './test.csv' , '단어' )
> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." )
"김형호 영화시장 분석가는 '1987'의 네이버영화 정보 네티즌 10점 평에서 언급된단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다."

Jalankan pada baris perintah (terima kasih LQEZ).

$ cat test_in.txt
김형호영화시장분석가는 ' 1987 ' 의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다.
아버지가방에들어가신다.
$ python -m pykospacing.pykos test_in.txt
김형호 영화시장 분석가는 ' 1987 ' 의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다.
아버지가 방에 들어가신다.

Model saat ini memiliki masalah dalam beberapa kasus ketika input termasuk karakter bahasa Inggris.
Pykospacing memberikan parameter ignore dan ignore_pattern untuk menangani masalah itu.

Tentang Parameter ignore (str, opsional)
- ignore='none' : Tidak ada pre/pasca-pemrosesan yang akan diterapkan. Output akan sama dengan output model.
- ignore='pre' : Terapkan pra-pemrosesan mana yang menghapus karakter yang cocok dengan ignore_pattern . Karakter yang dihapus ini akan digabungkan setelah prediksi model. Opsi ini memiliki masalah yang selalu menempatkan ruang setelah karakter yang dihapus, karena tidak tahu apakah karakter yang dihapus akan memiliki ruang di sebelah kiri, kanan, atau keduanya.
- ignore='post' : Terapkan pasca pemrosesan yang mengabaikan output model pada karakter yang cocok dengan ignore_pattern . Opsi ini memiliki masalah bahwa karakter bahasa Inggris dalam input model juga dapat mempengaruhi karakter non-Inggris.
- ignore='pre2' : Terapkan pra-pemrosesan yang menghapus karakter yang cocok dengan ignore_pattern , dan memprediksi pada teks yang diproses sebelumnya dan teks asli . Ini memungkinkannya untuk mengetahui di mana harus meletakkan ruang kiri, kanan, atau kedua karakter yang dihapus. Namun, opsi ini perlu memprediksi dua kali , yang menggandakan waktu perhitungan.
- Default: ignore='none'
Tentang Parameter ignore_pattern (str, opsional)
Anda dapat memasukkan pola regex Anda sendiri untuk ignore_pattern . Pola Regex harus menjadi pola karakter yang ingin Anda abaikan.
- Default: ignore_pattern=r'[^가-힣ㄱ-ㅣ!-@[-`{-~s]+,*( [^가-힣ㄱ-ㅣ!-@[-`{-~s]+,*)*[.,!?]* *'

Contoh Parameter ignore

 > >> from pykospacing import Spacing
> >> spacing = Spacing ()
> >> spacing ( "친구와함께bmw썬바이저를썼다." , ignore = 'none' )
"친구와 함께 bm w 썬바이저를 썼다."
> >> spacing ( "친구와함께bmw썬바이저를썼다." , ignore = 'pre' )
"친구와 함께bmw 썬바이저를 썼다."
> >> spacing ( "친구와함께bmw썬바이저를썼다." , ignore = 'post' )
"친구와 함께 bm w 썬바이저를 썼다."
> >> spacing ( "친구와함께bmw썬바이저를썼다." , ignore = 'pre2' )
"친구와 함께 bmw 썬바이저를 썼다."

> >> spacing ( "chicken박스를열고닭다리를꺼내입에문다.crispy한튀김옷덕에내입주변은glossy해진다." , ignore = 'none' )
"chicken박스를 열고 닭다리를 꺼내 입에 문다. crispy 한튀김 옷 덕에 내 입 주변은 glossy해진다."
> >> spacing ( "chicken박스를열고닭다리를꺼내입에문다.crispy한튀김옷덕에내입주변은glossy해진다." , ignore = 'pre' )
"chicken박스를 열고 닭다리를 꺼내 입에 문다.crispy 한 튀김옷 덕에 내 입 주변은glossy 해진다."
> >> spacing ( "chicken박스를열고닭다리를꺼내입에문다.crispy한튀김옷덕에내입주변은glossy해진다." , ignore = 'post' )
"chicken박스를 열고 닭다리를 꺼내 입에 문다. crispy 한튀김 옷 덕에 내 입 주변은 glossy해진다."
> >> spacing ( "chicken박스를열고닭다리를꺼내입에문다.crispy한튀김옷덕에내입주변은glossy해진다." , ignore = 'pre2' )
"chicken박스를 열고 닭다리를 꺼내 입에 문다. crispy 한 튀김옷 덕에 내 입 주변은 glossy해진다."

> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." , ignore = 'none' )
"김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다."
> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." , ignore = 'pre' )
"김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램R과KoNLP 패키지로 텍스트마이닝하여 분석했다."
> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." , ignore = 'post' )
"김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다."
> >> spacing ( "김형호영화시장분석가는'1987'의네이버영화정보네티즌10점평에서언급된단어들을지난해12월27일부터올해1월10일까지통계프로그램R과KoNLP패키지로텍스트마이닝하여분석했다." , ignore = 'pre2' )
"김형호 영화시장 분석가는 '1987'의 네이버 영화 정보 네티즌 10점 평에서 언급된 단어들을 지난해 12월 27일부터 올해 1월 10일까지 통계 프로그램 R과 KoNLP 패키지로 텍스트마이닝하여 분석했다."

Arsitektur Model

Untuk pelatihan

Kode pelatihan menggunakan arsitektur yang lebih maju daripada pykospacing, tetapi juga berisi logika pembelajaran pykospacing.
- https://github.com/haven-jeon/train_kospacing

Kutipan

 @misc{heewon2018,
author = {Heewon Jeon},
title = {KoSpacing: Automatic Korean word spacing},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/haven-jeon/KoSpacing}}