language_model_tf Download - language_model_tf Download de código fonte

language_model_tf

Código-Fonte de IA

1.0.0

Baixar

Modelo de idioma

A modelagem de idiomas é uma tarefa que atribui probabilidades a sequências de palavras ou várias unidades linguísticas (por exemplo, char, subglema, sentença etc.). A modelagem de idiomas é um dos problemas mais importantes do processamento moderno da linguagem natural (PNL) e é usado em muitos aplicativos de PNL (por exemplo, reconhecimento de fala, tradução da máquina, resumo de texto, correção de feitiços, conclusão automática etc.). Nos últimos anos, as abordagens neurais alcançaram melhores resultados do que as abordagens estatísticas tradicionais em muitos benchmarks de modelos de idiomas. Além disso, o trabalho recente mostrou que o pré-treinamento do modelo de idioma pode melhorar muitas tarefas de PNL de maneiras diferentes, incluindo estratégias baseadas em recursos (por exemplo, Elmo, etc.) e estratégias de ajuste fino (por exemplo, OpenAi GPT, Bert, etc.) ou mesmo em configuração de tiro zero (EG Open GPT-2, etc.).

Figura 1: Um exemplo de conclusão automática alimentada pela modelagem de idiomas

Contexto

Python 3.6.6
Tensorflow 1.12
Numpy 1.15.4
NLTK 3.3

Conjunto de dados

A Wikipedia Corpus contém cerca de 2 bilhões de palavras de texto de um depósito de 2014 da Wikipedia (cerca de 4,4 milhões de páginas). Até onde sabemos, nossos dados de texto completo da Wikipedia são a única versão disponível em uma cópia recente da Wikipedia.
BookScorpus: Os livros são uma fonte rica de informações finas, como um personagem, um objeto ou uma cena se parece, além de semântica de alto nível, o que alguém está pensando, sentindo e como esses estados evoluem através de uma história. Este trabalho tem como objetivo alinhar os livros aos lançamentos de filmes, a fim de fornecer explicações descritivas ricas para conteúdo visual que vão semanticamente muito além das legendas disponíveis nos conjuntos de dados atuais.
Um bilhão de benchmark de palavras é direcionado para disponibilizar uma configuração de treinamento e teste padrão para experimentos de modelagem de idiomas. Esse benchmark contém quase um bilhão de palavras de dados de treinamento e pretende ajudar os pesquisadores a avaliar rapidamente suas técnicas de modelagem de idiomas e comparar facilmente as contribuições quando combinadas com outras técnicas avançadas.
A luva é um algoritmo de aprendizado não supervisionado para obter representações vetoriais para palavras. O treinamento é realizado em estatísticas agregadas de co-ocorrência de palavras-palavras de um corpus, e as representações resultantes mostram subestruturas lineares interessantes do espaço vetorial da palavra.

Uso

Dados de pré -processo

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

Experimento de execução

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

Codificar texto

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

Pesquise hiper-parâmetro

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

Visualize o resumo

 # visualize summary via tensorboard
tensorboard --logdir=output

Modelo

Modelo de Linguagem Bidirecional (BILM)

Dada uma sequência, o modelo de linguagem bidirecional calcula a probabilidade da sequência adiante,

Em seguida, ele percorre a sequência em ordem inversa para calcular a probabilidade da sequência,

A sequência passa pela primeira vez por uma camada de incorporação compartilhada e depois é modelada por RNN de várias camadas (por exemplo, LSTM, GRU, etc.) em ambas as direções e, finalmente, a normalização do softmax é aplicada para obter probabilidades,

Figura 2: Arquitetura do modelo de linguagem bidirecional (fonte: modelos de idiomas generalizados)

O modelo é treinado minimizando conjuntamente a probabilidade de log negativa das direções para a frente e para trás,

Referência

Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matthew Gardner, Christopher T Clark, Kenton Lee e Luke S. Zettlemoyer. Representações de palavras contextualizadas profundas [2018]
Alec Radford, Karthik Narasimhan, Tim Salimans e Ilya Sutskever. Melhorando a compreensão da linguagem por pré-treinamento generativo [2018]
Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. Bert: pré-treinamento de transformadores bidirecionais profundos para entendimento de idiomas [2018]
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei e Ilya Sutskever. Modelos de idiomas são aprendizes multitarefa sem supervisão [2019]

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-10
tamanho 512.94KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Cachorro_Fox_Coelho

2022-08-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos