Download character level language model - character level language model Download do código fonte

character level language model

Código-Fonte de IA

1.0.0

Baixar

Modelo de linguagem de nível de personagem

Um modelo de idioma é aquele em que recebe uma frase de entrada, o modelo gera uma probabilidade de quão correta essa sentença é. Isso é amplamente utilizado no reconhecimento de fala, geração de sentenças e sistemas de tradução de máquina, onde gera as frases que são prováveis.

Etapas para construir um modelo de idioma:

Construa um conjunto de treinamento usando um grande corpus de texto em inglês
Tokenize cada frase para construir um vocabulário
Mapeie cada palavra na frase usando qualquer mecanismo de codificação
Substitua palavras incomuns por, nesse caso, modelam a chance da palavra desconhecida em vez da palavra específica.
Construa um modelo RNN em que a saída é a probabilidade Softmax para cada palavra no dicionário

Treinando um modelo de idioma

Na etapa de T, o RNN está estimando p (y | y <1>, y <2>,…, y <t -1>). O conjunto de treinamento é formado de uma maneira em que x <2> = y <1> e x <3> = y <2> e assim por diante. Em resumo, a frase de saída fica atrás da frase de entrada em uma etapa de tempo. O algoritmo de otimização seguido é sempre descida de gradiente estocástica (uma sequência por vez).

Para obter probabilidade de uma sequência aleatória, quebre a distribuição de probabilidade da junta P (Y1, Y2, Y3, ...) como um produto de condicionais, P (Y1) * P (Y2 | Y1) * P (Y3 | Y1, Y2).

Nota : No modelo de linguagem de baunilha, conforme descrito acima, o Word é um bloco básico de construção. No modelo de linguagem de nível de caractere, a unidade básica/ nível mais baixo é um personagem, o que torna a construção de um dicionário muito fácil (número finito de caracteres)

Gerar novo texto

Depois que o modelo é treinado, podemos provar novos textos (caracteres). O processo de geração é explicado abaixo:

Passos:

Passe na rede a primeira entrada "fictícia" x⟨1⟩ = 0 ⃗ (o vetor de zeros). Esta é a entrada padrão antes de gerarmos algum caractere. Também definimos a⟨0⟩ = 0 ⃗
Use a saída de probabilidades pelo RNN para amostrar aleatoriamente uma palavra escolhida (usando np.random.choice) para esse tempo de tempo como y
Passe esta palavra selecionada para o próximo passo como x <2>

Resultados

Alguns dos nomes gerados:

Macaersaurus
Edahosaurus
Trodonosaurus
Ivusanon
Trocemitetes

Se você observar com cuidado, nosso modelo aprendeu a capturar saurus , don , aura , tor no final de cada nome de dinossauro TODO : Use LSTM no local dos RNNs com a ajuda de Keras