Descargar CTCDecoder - Descargar el código fuente de CTCDecoder

CTCDecoder

Código Fuente de IA

1.0.0

Descargar

Algoritmos de decodificación de CTC

Actualización 2021: Paquete de Python instalable

Implementación de Python de algunos algoritmos de decodificación de clasificación temporal conexionista común (CTC) . Se proporciona un modelo de lenguaje minimalista.

Instalación

Ir al nivel raíz del repositorio
Ejecutar pip install .
Vaya a tests/ y ejecute pytest para verificar si la instalación funcionó

Uso

Uso básico

Aquí hay un ejemplo ejecutable minimalista:

 import numpy as np
from ctc_decoder import best_path , beam_search

mat = np . array ([[ 0.4 , 0 , 0.6 ], [ 0.4 , 0 , 0.6 ]])
chars = 'ab'

print ( f'Best path: " { best_path ( mat , chars ) } "' )
print ( f'Beam search: " { beam_search ( mat , chars ) } "' )

Se espera que la mat de salida (matriz Numpy, Softmax ya aplicada) de la red neuronal entrenada por CTC tenga forma TXC y se pasa como el primer argumento a los decodificadores. T es el número de pasos de tiempo, y C el número de caracteres (el CTC-Wank es el último elemento). Los caracteres que pueden predecir la red neuronal se pasan como la cadena chars al decodificador. Los decodificadores devuelven la cadena decodificada.
Ejecutando las salidas de código:

 Best path: ""
Beam search: "a"

Para ver más ejemplos sobre cómo usar los decodificadores, eche un vistazo a los scripts en las tests/ carpeta.

Modelo de idioma y árbol bk

La búsqueda del haz puede integrar opcionalmente un modelo de idioma a nivel de caracteres. Las estadísticas de texto (BigRams) se utilizan mediante la búsqueda del haz para mejorar la precisión de la lectura.

 from ctc_decoder import beam_search , LanguageModel

# create language model instance from a (large) text
lm = LanguageModel ( 'this is some text' , chars )

# and use it in the beam search decoder
res = beam_search ( mat , chars , lm = lm )

El decodificador de búsqueda de léxico calcula una primera aproximación con la mejor decodificación de ruta. Luego, usa un árbol BK para recuperar palabras similares, las califica y finalmente devuelve la mejor palabra de puntuación. El árbol BK se crea proporcionando una lista de palabras de diccionario. Un parámetro de tolerancia define la distancia de edición máxima de la palabra de consulta a las palabras del diccionario devueltas.

 from ctc_decoder import lexicon_search , BKTree

# create BK-tree from a list of words
bk_tree = BKTree ([ 'words' , 'from' , 'a' , 'dictionary' ])

# and use the tree in the lexicon search
res = lexicon_search ( mat , chars , bk_tree , tolerance = 2 )

Uso con marcos de aprendizaje profundo

Algunas notas:

No se proporciona adaptador para TensorFlow o Pytorch
Aplicar Softmax ya en el modelo
Convertir a una matriz numpy
Por lo general, la salida de una capa RNN rnn_output tiene forma TXBXC, con B la dimensión de lotes
- Los decodificadores trabajan en elementos de lotes individuales de forma TXC
- Por lo tanto, itere sobre todos los elementos por lotes y aplique el decodificador a cada uno de ellos por separado
- Ejemplo: Extraer matriz de elemento por lotes 0 mat = rnn_output[:, 0, :]
Se espera que el CTC-en blanco sea el último elemento a lo largo de la dimensión del personaje
- TensorFlow tiene el CTC-Blank como último elemento, así que nada que hacer aquí
- Pytorch, sin embargo, tiene el CTC-Wank como primer elemento de forma predeterminada, por lo que debe moverlo al final o cambiar la configuración predeterminada

Lista de decodificadores proporcionados

Decodificadores recomendados:

best_path : el mejor decodificador de ruta (o codiciosa), el más rápido de todos los algoritmos, sin embargo, otros decodificadores a menudo funcionan mejor
beam_search : el decodificador de búsqueda del haz, opcionalmente integra un modelo de idioma a nivel de caracteres, se puede ajustar a través del parámetro de ancho del haz
lexicon_search : Decoder de búsqueda de léxico, devuelve la mejor palabra de puntuación de un diccionario

Otros decodificadores, de mi experiencia, no son realmente adecuados para fines prácticos, pero pueden usarse para experimentos o investigaciones:

prefix_search : decodificador de búsqueda de prefijo
token_passing : algoritmo de pase de token
La mejor implementación del decodificador de ruta en OpenCL (ver extras/ carpeta)

Este documento da sugerencias cuándo usar la mejor decodificación de ruta, decodificación de búsqueda de haz y pases de tokens.

Documentación de casos de prueba y datos

Documentación de casos de prueba
Documentación de los datos

Referencias

Graves: etiquetado de secuencia supervisado con redes neuronales recurrentes
HWANG - Reconocimiento de voz incremental a nivel de carácter con redes neuronales recurrentes
Shi: una red neuronal capacitable de extremo a extremo para el reconocimiento de secuencias basado en imágenes y su aplicación para el reconocimiento de texto de la escena
Marti - The Iam -Database: una base de datos de oraciones en inglés para el reconocimiento de escritura a mano fuera de línea
Decodificación de búsqueda de haz en redes neuronales entrenadas por CTC
Una explicación intuitiva de la clasificación temporal conectada
Scheidl - Comparación de algoritmos de decodificación de clasificación temporal de Connectionist
Scheidl - Búsqueda de haz de palabras: un algoritmo de decodificación de clasificación temporal conectada

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-08
tamaño 814.07KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo