Download do CTCDecoder - CTCDecoder Download de código fonte

CTCDecoder

Código-Fonte de IA

1.0.0

Baixar

Algoritmos de decodificação do CTC

Atualização 2021: pacote python instalável

Implementação de Python de alguma classificação temporal de conexão comum (CTC) de decodificação de algoritmos . Um modelo de linguagem minimalista é fornecido.

Instalação

Vá para o nível raiz do repositório
Execute pip install .
Vá para tests/ e execute pytest para verificar se a instalação funcionou

Uso

Uso básico

Aqui está um exemplo executável minimalista:

 import numpy as np
from ctc_decoder import best_path , beam_search

mat = np . array ([[ 0.4 , 0 , 0.6 ], [ 0.4 , 0 , 0.6 ]])
chars = 'ab'

print ( f'Best path: " { best_path ( mat , chars ) } "' )
print ( f'Beam search: " { beam_search ( mat , chars ) } "' )

O mat de saída (matriz Numpy, Softmax já aplicado) da rede neural treinado por CTC deve ter o Shape TXC e é passado como o primeiro argumento para os decodificadores. T é o número de etapas de tempo e C o número de caracteres (a queima de CTC é o último elemento). Os caracteres que podem ser previstos pela rede neural são passados como a sequência chars para o decodificador. Os decodificadores retornam a corda decodificada.
Executando as saídas do código:

 Best path: ""
Beam search: "a"

Para ver mais exemplos sobre como usar os decodificadores, dê uma olhada nos scripts na tests/ pasta.

Modelo de idioma e BK-Tree

A pesquisa de feixe pode opcionalmente integrar um modelo de linguagem no nível do caractere. As estatísticas de texto (bigrams) são usadas pela pesquisa de feixe para melhorar a precisão da leitura.

 from ctc_decoder import beam_search , LanguageModel

# create language model instance from a (large) text
lm = LanguageModel ( 'this is some text' , chars )

# and use it in the beam search decoder
res = beam_search ( mat , chars , lm = lm )

O decodificador de busca do léxico calcula uma primeira aproximação com a melhor decodificação do caminho. Em seguida, ele usa uma árvore BK para recuperar palavras semelhantes, obtê-las e finalmente retorna a melhor palavra de pontuação. O BK-Tree é criado fornecendo uma lista de palavras de dicionário. Um parâmetro de tolerância define a distância máxima de edição da palavra de consulta até as palavras de dicionário retornado.

 from ctc_decoder import lexicon_search , BKTree

# create BK-tree from a list of words
bk_tree = BKTree ([ 'words' , 'from' , 'a' , 'dictionary' ])

# and use the tree in the lexicon search
res = lexicon_search ( mat , chars , bk_tree , tolerance = 2 )

Uso com estruturas de aprendizado profundo

Algumas notas:

Nenhum adaptador para tensorflow ou pytorch é fornecido
Aplique o softmax já no modelo
Converter em matriz Numpy
Geralmente, a saída de uma camada RNN rnn_output possui forma txbxc, com b a dimensão do lote
- Os decodificadores trabalham em elementos de lote único da forma TXC
- Portanto, iterar sobre todos os elementos em lote e aplique o decodificador a cada um deles separadamente
- Exemplo: Extrair matriz do elemento em lote 0 mat = rnn_output[:, 0, :]
Espera-se que o CTC-Blank seja o último elemento ao longo da dimensão do personagem
- Tensorflow tem o CTC-Blank como último elemento, então nada para fazer aqui
- Pytorch, no entanto, tem o CTC-Blank como primeiro elemento por padrão, então você deve movê-lo para o final ou alterar a configuração padrão

Lista de decodificadores fornecidos

Decodificadores recomendados:

best_path : Melhor Path (ou Ganancioso) Decodificador, o mais rápido de todos os algoritmos, no entanto, outros decodificadores geralmente têm melhor desempenho
beam_search : decodificador de pesquisa de feixe, opcionalmente integra um modelo de linguagem no nível do caractere, pode ser ajustado através do parâmetro de largura do feixe
lexicon_search : Decodificador de pesquisa do léxico, retorna a melhor palavra de pontuação de um dicionário

Outros decodificadores, da minha experiência não são realmente adequados para fins práticos, mas podem ser usados para experimentos ou pesquisas:

prefix_search : decodificador de pesquisa prefixo
token_passing : algoritmo de passagem para token
Melhor implementação do decodificador de caminho no OpenCL (consulte extras/ Pasta)

Este artigo fornece sugestões quando usar a melhor decodificação do caminho, decodificação de pesquisa de feixe e passagem de token.

Documentação de casos de teste e dados

Documentação de casos de teste
Documentação dos dados

Referências

Graves - marcação de sequência supervisionada com redes neurais recorrentes
Hwang - reconhecimento incremental de fala no nível do personagem com redes neurais recorrentes
SHI-Uma rede neural treinável de ponta a ponta para reconhecimento de sequência baseado em imagem e sua aplicação ao reconhecimento de texto da cena
Marti - The IAM -Database: um banco de dados de frases em inglês para reconhecimento de manuscrito offline
Decodificação de busca de feixes em redes neurais treinadas por CTC
Uma explicação intuitiva da classificação temporal conexionista
Scheidl - Comparação de algoritmos de decodificação de classificação temporal conexionistas
Scheidl - Pesquisa de feixe de palavras: um algoritmo de decodificação de classificação temporal conexionista

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-08
tamanho 814.07KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos