CTCDecoder 다운로드 CTCDecoder 소스 코드 다운로드

CTCDecoder

AI 소스 코드

1.0.0

다운로드

CTC 디코딩 알고리즘

업데이트 2021 : 설치 가능한 파이썬 패키지

일부 공통 연결주의 시간 분류 (CTC) 디코딩 알고리즘의 파이썬 구현. 최소한의 언어 모델이 제공됩니다.

설치

저장소의 루트 레벨로 이동하십시오
pip install .
tests/ 및 pytest 실행하여 설치가 작동했는지 확인하십시오.

용법

기본 사용

다음은 최소한의 실행 파일 예입니다.

 import numpy as np
from ctc_decoder import best_path , beam_search

mat = np . array ([[ 0.4 , 0 , 0.6 ], [ 0.4 , 0 , 0.6 ]])
chars = 'ab'

print ( f'Best path: " { best_path ( mat , chars ) } "' )
print ( f'Beam search: " { beam_search ( mat , chars ) } "' )

CTC 훈련 신경 네트워크의 출력 mat (Numpy Array, SoftMax 이미 적용)는 TXC 모양을 가질 것으로 예상되며 디코더에 대한 첫 번째 인수로 전달됩니다. t는 시간 단계의 수이고 c 문자 수입니다 (CTC- 블랭크는 마지막 요소입니다). 신경망에서 예측할 수있는 문자는 chars 문자열로 디코더로 전달됩니다. 디코더는 디코딩 된 문자열을 반환합니다.
코드 출력 실행 :

 Best path: ""
Beam search: "a"

디코더 사용 방법에 대한 더 많은 예를 보려면 tests/ 폴더의 스크립트를 살펴보십시오.

언어 모델 및 BK-Tree

빔 검색은 선택적으로 문자 수준 언어 모델을 통합 할 수 있습니다. 텍스트 통계 (Bigrams)는 빔 검색에서 읽기 정확도를 향상시키기 위해 사용됩니다.

 from ctc_decoder import beam_search , LanguageModel

# create language model instance from a (large) text
lm = LanguageModel ( 'this is some text' , chars )

# and use it in the beam search decoder
res = beam_search ( mat , chars , lm = lm )

Lexicon 검색 디코더는 최상의 경로 디코딩으로 첫 번째 근사치를 계산합니다. 그런 다음 BK-Tree를 사용하여 비슷한 단어를 검색하고 점수를 매기고 최상의 스코어링 단어를 반환합니다. BK-Tree는 사전 단어 목록을 제공하여 만들어집니다. 공차 매개 변수는 쿼리 단어에서 반환 된 사전 단어로의 최대 편집 거리를 정의합니다.

 from ctc_decoder import lexicon_search , BKTree

# create BK-tree from a list of words
bk_tree = BKTree ([ 'words' , 'from' , 'a' , 'dictionary' ])

# and use the tree in the lexicon search
res = lexicon_search ( mat , chars , bk_tree , tolerance = 2 )

딥 러닝 프레임 워크를 사용한 사용

몇 가지 메모 :

텐서 플로 또는 파이토치에 대한 어댑터가 제공되지 않습니다
이미 모델에 SoftMax를 적용하십시오
Numpy 배열로 변환하십시오
일반적으로 RNN 층의 출력 rnn_output 은 BATCH DIMENSION과 함께 TXBXC 모양을 갖습니다.
- 디코더는 모양 TXC의 단일 배치 요소에서 작동합니다
- 따라서 모든 배치 요소를 반대하고 디코더를 각각에 별도로 바르십시오.
- 예 : 배치 요소의 추출 행렬 0 mat = rnn_output[:, 0, :]
CTC-Blank는 문자 차원을 따라 마지막 요소가 될 것으로 예상됩니다.
- Tensorflow는 CTC-Blank를 마지막 요소로 사용하므로 여기서는 할 일이 없습니다.
- 그러나 Pytorch는 기본적으로 CTC-blank를 첫 번째 요소로 사용하므로 끝으로 이동하거나 기본 설정을 변경해야합니다.

제공된 디코더 목록

권장 디코더 :

best_path : 모든 알고리즘 중 가장 빠른 가장 빠른 경로 (또는 욕심 많은) 디코더이지만 다른 디코더는 종종 더 잘 작동합니다.
beam_search : 빔 검색 디코더는 exectionally language 모델을 선택적으로 통합하여 빔 폭 너비 매개 변수를 통해 조정할 수 있습니다.
lexicon_search : Lexicon Search Decoder, 사전에서 최고의 점수를 반환합니다.

내 경험에서 나온 다른 디코더는 실제 목적에 실제로 적합하지 않지만 실험이나 연구에 사용될 수 있습니다.