PNL é incomum
Introdução: Este projeto é uma entrevista de notas e materiais de estudo preparada por processamento de linguagem natural (PNL) com base em entrevistas e experiências pessoais. Atualmente, este material contém o acúmulo de perguntas da entrevista em vários campos do processamento de linguagem natural.

> Grupo de Entrevista e Exchange do NLP (Nota: Se você estiver cheio, pode adicionar o editor WX: YZYYKM666 para se juntar ao grupo!)

4. Entrevistas comuns para algoritmos de aprendizagem de PNL
4.1 Entrevistas comuns para extração de informações
4.1.1 Entrevistas comuns para nomear o reconhecimento de entidades
- Algoritmo de Markov Hidden Hmm entrevistas comuns
- 1. Introdução às informações básicas
- 1.1 O que é um modelo de gráfico de probabilidade?
- 1.2 O que é o aeroporto aleatório?
- 2. Introdução ao processo de Markov
- 2.1 Qual é o processo de Markov?
- 2.2 Qual é a idéia principal do processo de Markov?
- Iii. Algoritmo Hidden Markov
- 3.1 Introdução ao algoritmo Hidden Markov
- 3.1.1 Qual é o algoritmo oculto de Markov?
- 3.1.2 Quais são as duas seqüências no algoritmo oculto de Markov?
- 3.1.3 Quais são as três matrizes no algoritmo oculto de Markov?
- 3.1.4 Quais são as duas suposições no algoritmo oculto de Markov?
- 3.1.5 Qual é o fluxo de trabalho no algoritmo Hidden Markov?
- 3.2 Processo de computação do modelo de algoritmo markov oculto
- 3.2.1 Qual é o processo de treinamento do algoritmo de Markov oculto?
- 3.2.2 Qual é o processo de anotação de sequência (decodificação) do algoritmo Hidden Markov?
- 3.2.3 Qual é o processo de probabilidade de sequência do algoritmo Hidden Markov?
- 3.3 Problema de algoritmo markov oculto
Clique para ver a resposta
- Entropia máxima Markov Modelo MEMM EXTIME
- 4. Modelo de entropia máxima Markov (MEMM)
- 4.1 Modelo máximo de entropia Markov (MEMM) Motivação
- 4.1.1 Quais são os problemas com hmm?
- 4.2 Introdução ao modelo máximo de entropia Markov (MEMM)
- 4.2.1 Como é o modelo de entropia máxima (MEMM)?
- 4.2.2 Modelo Máximo de Entropia Markov (MEMM) Como resolver o problema do HMM?
- 4.3 Problema máximo de entropia Markov (MEMM)
Clique para ver a resposta
- Entrevistas comuns do aeroporto aleatório condicional (CRF)
- 5. Campo aleatório condicional (CRF)
- 5.1 Motivo CRF
- 5.1.1 Quais são os problemas com HMM e MEMM?
- 5.2 Introdução ao CRF
- 5.2.1 O que é CRF?
- 5.2.2 Qual é a idéia principal de CRF?
- 5.2.3 Qual é a definição de CRF?
- 5.2.4 Qual é o processo de CRF?
- 5.3 prós e contras da CRF
- 5.3.1 Quais são as vantagens da CRF?
- 5.3.2 Quais são as desvantagens da CRF?
- 5.4 Reprodução de CRF?
- 6. Comparação
- 6.1 Qual é a diferença entre o modelo CRF e o modelo HMM e MEMM?
Clique para ver a resposta
- Entrevistas comuns do DNN-CRF
- 1. Informações básicas
- 1.1 Quais são os indicadores de avaliação para nomear o reconhecimento da entidade?
- 2. Método de reconhecimento de entidade de nomeação tradicional
- 2.1 Qual é o método baseado em regras de nomear reconhecimento de entidades?
- 2.2 Qual é o método de reconhecimento de entidade de nomenclatura baseado na aprendizagem não supervisionada?
- 2.3 Qual é o método de reconhecimento de entidade nomeado baseado no aprendizado supervisionado baseado em recursos?
- 3.
- 3.1 Quais são as vantagens dos métodos de reconhecimento de entidade nomeados baseados em aprendizado profundo em comparação com os métodos de reconhecimento de entidade nomeados baseados no aprendizado de máquina?
- 3.2 Qual é a estrutura do método de reconhecimento de entidade nomeado baseado em aprendizado profundo?
- 3.3 O que é uma camada de entrada distribuída e quais são os métodos?
- 3.4 codificador de texto
- 3.4.1 BILSTM-CRF
- 3.4.1.1 O que é bilstm-CRF?
- 3.4.1.2 Por que usar bilstm?
- 3.4.2 IDCNN-CRF
- 3.4.2.1 O que está dilatado CNN?
- 3.4.2.2 Por que há uma CNN dilatada?
- 3.4.2.3 Quais são as vantagens da CNN dilatada?
- 3.4.2.4 Introdução ao IDCNN-CRF
- 3,5 decodificador de tags
- 3.5.1 Qual é o decodificador de tags?
- 3.5.2 Introdução à camada MLP+Softmax?
- 3.5.3 Introdução à camada de CRF de campo aleatório condicional?
- 3.5.4 Introdução à camada RNN da rede neural recorrente?
- 3.5.3 Introdução à camada de rede de ponteiro?
- 4. Comparação
- 4.1 CNN-CRF vs BILSTM-CRF vs IDCNN-CRF?
- 4.2 Por que o DNN precisa adicionar CRF?
- 4.3 CRF no tensorflow vs CRF no kit de ferramentas discreto?
Clique para ver a resposta
- Entrevistas comuns do NER de campo chinês
- 1. Motivo
- 1.1 Qual é a diferença entre o reconhecimento de entidade nomeado chinês e o reconhecimento de entidade nomeado inglês?
- 2. Aperfeiçoamento de vocabulário
- 2.1 O que é aprimoramento do vocabulário?
- 2.2 Por que o método "aprimoramento do vocabulário" é eficaz para as tarefas do NER chinês?
- 2.3 Quais são os métodos de aprimoramento do vocabulário?
- 2.4 Arquitetura dinâmica
- 2.4.1 O que é arquitetura dinâmica?
- 2.4.2 Quais são os métodos comuns?
- 2.4.3 O que é Lattice LSTM e quais são os problemas?
- 2.4.4 O que é plano e quais são os problemas?
- 2.5 Paradigma de incorporação adaptativa
- 2.5.1 Qual é o paradigma de incorporação adaptável?
- 2.5.2 Quais são os métodos comuns?
- 2.5.3 O que é WC-LSTM e quais são os problemas?
- 3. Melhoramento de informações do tipo de vocabulário/entidade
- 3.1 O que é o aprimoramento de informações do tipo vocabulário/entidade?
- 3.2 Por que o método "Vocabulário/ENTIDADE INFORMAÇÃO DO TIPO DE INFORMAÇÕES" é eficaz para tarefas de NER chinesas?
- 3.3 Quais são os métodos para aprimorar as informações do tipo vocabulário/entidade?
- 3.4 O que é Lex-Bert?
Clique para ver a resposta
- Entrevistas comuns de truque de reconhecimento de entidade nomeadas
- Trick 1: Matching Dicionário de Domínio
- Trick 2: Extração de regras
- Trick 3: Seleção de vetores de palavras: vetor de palavras ou vetor de palavras?
- Trick 4: Como escolher um extrator de recurso?
- Trick 5: Como lidar com um nome distinto?
- Trick 6: Como lidar com dados de rotulagem insuficientes?
- Trick 7: Como lidar com o reconhecimento de entidade nomeado aninhado
- 7.1 O que é o ninho de entidade?
- 7.2 Diferenças das tarefas tradicionais de reconhecimento de entidade nomeadas
- 7.3 Solução:
- 7.3.1 Método 1: Anotação de sequência
- 7.3.2 Método 2: Anotação de Ponteiro
- 7.3.3 Método 3: Anotação de cabeçalho longo
- 7.3.4 Método 4: Arranjo de fragmento
- Trick 8: Por que o método do "aprimoramento do vocabulário" é eficaz para as tarefas do NER chinês?
- Trick 9: O que devo fazer se a extensão da entidade ner é muito longa?
- Trick 10: NER Rotulando Dados Ruído Problema?
- Trick 11: Dadas duas tarefas de reconhecimento de entidade nomeadas, uma tarefa tem dados suficientes e a outra tem muito pouco dados. O que posso fazer?
- Trick 12: O problema do desequilíbrio de dados de rotulagem do NER?
Clique para ver a resposta
4.1.2 Entrevistas comuns para desenho de relacionamento
- Entrevistas comuns de desenho de relacionamento
- 1. Motivo
- 1.1 O que é extração de relacionamento?
- 1.2 Quais são os tipos de técnicas de extração de relacionamento?
- 1.3 Como os processos comuns de extração de relacionamento são feitos?
- 2. Extração de relacionamento clássico
- 2.1 A que o método de correspondência de modelo se refere? Quais são os prós e os contras?
- 2.2 A que se refere a extração de relacionamento com supervisão remota? Quais são seus prós e contras?
- 2.3 O que é sobreposição de relacionamento? Questões complexas de relacionamento?
- 2.4 O que é extração articular? Quais são as dificuldades?
- 2.5 Quais são os métodos gerais de extração articular? Quais são suas deficiências?
- 2.6 Introdução ao método de extração conjunta com base em parâmetros compartilhados?
- 2.7 Introdução à decodificação conjunta com base na decodificação conjunta?
- 2.8 Quais são as tecnologias e desafios de ponta na extração de relacionamento de entidades? Como resolver a extração de relacionamentos de entidade sob baixos recursos e amostras complexas?
- 3. Extração de relacionamento no nível do documento
- 3.1 Qual é a diferença entre a extração de relacionamento no nível do documento e a extração clássica de relacionamento?
- 3.2 Que problemas são enfrentados na extração de relacionamento no nível do documento?
- 3.3 Quais são os métodos para extração de relacionamento no nível do documento?
- 3.3.1 Como a extração do relacionamento de documentos é feita no tipo Bert?
- 3.3.2 Como é feita a extração de relacionamento com documentos gráficos?
- 3.4 Quais são os conjuntos de dados comuns para a extração de relacionamento no nível do documento e seus métodos de avaliação?
Clique para ver a resposta
4.1.3 Extração de eventos Entrevistas comuns
- Desenho de eventos entrevistas comuns
- 1. Princípios
- 1.1 O que é um evento?
- 1.2 O que é extração de eventos?
- 1.3 Quais são os termos e tarefas básicos envolvidos na extração de eventos na avaliação da ACE?
- 1.4 Como a extração de eventos se desenvolve?
- 1.5 Quais são os problemas com a extração de eventos?
- 2. Tarefas básicas
- 2.1 Detecção de palavras de gatilho
- 2.1.1 O que é a detecção de palavras do gatilho?
- 2.1.2 Quais são os métodos para detecção de palavras de gatilho?
- 2.2 Identificação do tipo
- 2.2.1 O que é o reconhecimento de tipo?
- 2.2.2 Quais são os métodos de identificação de tipo?
- 2.3 Reconhecimento de papéis
- 2.3.1 O que é reconhecimento de papéis?
- 2.3.2 Quais são os métodos de reconhecimento de função?
- 2.4 Detecção de argumento
- 2.4.1 O que é detecção de argumentos?
- 2.4.2 Quais são os métodos de detecção de argumentos?
- 3. Métodos comuns
- 3.1 Como usar o método de correspondência de padrões na extração de eventos?
- 3.2 Como os métodos estatísticos de aprendizado de máquina são usados na extração de eventos?
- 3.3 Como os métodos de aprendizado profundo são usados na extração de eventos?
- 4. Conjuntos de dados e indicadores de avaliação
- 4.1 Quais são os conjuntos de dados em inglês comum na extração de eventos?
- 4.2 Quais são os conjuntos de dados chineses comuns na extração de eventos?
- 4.3 Quais são os indicadores de avaliação para extração de eventos? Como calculá -lo?
- 5. Comparação
- 5.1 Quais são as semelhanças e diferenças entre extração de eventos e reconhecimento de entidade nomeado (ou seja, extração de entidades)?
- 5.2 Quais são as semelhanças e diferenças entre extração de eventos e extração de relacionamento?
- 5.3 O que é um mapa prático? Quais são os tipos de relacionamento com eventos? Como construir um mapa racional? Quais são os principais campos técnicos e pontos de desenvolvimento atuais?
- 6. Aplicação
- 7. Expansão
- 7.1 Resumo dos documentos de extração de eventos
- 7.2 FAQ de extração de eventos
4.2 Entrevistas comuns para algoritmos de pré-treinamento de PNL
- 【Sobre tf-idf】 coisas que você não sabe
- 1. Um hot
- 1.1 Por que há um hots?
- 1.2 O que é um hots?
- 1.3 Quais são as características do único?
- 1.4 Quais são os problemas com um hots?
- 2. TF-IDF
- 2.1 O que é TF-IDF?
- 2.2 Como o TF-IDF avalia a importância das palavras?
- 2.3 Qual é a ideia de TF-IDF?
- 2.4 Qual é a fórmula de cálculo para TF-IDF?
- 2.5 Como descrever o TF-IDF?
- 2.6 Quais são as vantagens do TF-IDF?
- 2.7 Quais são as desvantagens do TF-IDF?
- 2.8 Aplicação de TF-IDF?
Clique para ver a resposta
- 【Sobre o Word2vec】 Coisas que você não sabe
- 1. Introdução ao Wordvec
- 1.1 O que significa Wordvec?
- 1.2 O que significa CBOW em Wordvec?
- 1.3 O que significa Skip-Gram no Wordvec?
- 1.4 Qual é o melhor para CBOW vs Skip-Gram?
- 2. Artigo de otimização do Wordvec
- 2.1 Qual é a árvore Hoffman no Word2vec?
- 2.2 Por que você precisa usar a árvore Hoffman no Word2vec?
- 2.3 Quais são os benefícios de usar as árvores Hoffman no Word2vec?
- 2.4 Por que a amostragem negativa é usada no Word2vec?
- 2.5 Como é a amostragem negativa no Word2vec?
- 2.6 Qual é o método de amostragem de amostragem negativa no Word2Vec?
- 3. Comparação do Wordvec
- 3.1 Qual é a diferença entre o Word2Vec e o NNLM? (Word2vec vs nnlm)
- 3.2 Qual é a diferença entre Word2Vec e TF-IDF no cálculo da similaridade?
- 4. Capítulo Prático Word2vec
- 4.1 TRUSTO DE TREINAMENTO DE WORD2VEC, qual o tamanho da configuração da janela?
- 4.1 Truque de treinamento Word2vec, latitude do vetor de palavras, quais são os efeitos de parâmetros grandes e pequenos e outros?
Clique para ver a resposta
- 【Sobre o texto rápido】 Coisas que você não sabe
- 1. Motivação de texto rápido
- 1.1 O que é o modelo no nível da palavra?
- 1.2 Quais são os problemas com o modelo de nível de palavra?
- 1.3 O que é o modelo de nível de caractere?
- 1.4 Vantagens do modelo no nível do caractere?
- 1.5 Existe algum problema com o modelo de nível de caractere?
- 1.6 Solução para o problema do modelo no nível do caractere?
- 2. Introdução às informações de n-gramas em palavras (Informações sobre N-gramas da subglema)
- 2.1 Introdução
- 2.2 O que é o FastText?
- 2.3 Qual é a estrutura do FastText?
- 2.4 Por que o FastText usa informações de n-gramas na palavra (informações sobre o subglema n-gramas)?
- 2.5 Introdução às informações de n-gramas na palavra FastText (Informações sobre N-gramas de subglema)?
- 2.6 O processo de treinamento das informações de N-Gram em Word FastText?
- 2.7 Existe algum problema com as informações de n-gramas na palavra FastText?
- 3. Introdução à regressão hierárquica Softmax (Softmax hierárquica)
- 3.1 Por que usar a regressão hierárquica do softmax?
- 3.2 Qual é a ideia de regressão hierárquica de softmax?
- 3.3 Quais são as etapas para a regressão hierárquica do softmax?
- 4. Há algum problema com o FastText?
Clique para ver a resposta
- 【Sobre Elmo】 Coisas que você não sabe
- 1. Motivação Elmo
- 2. Introdução Elmo
- 2.1 Quais são os recursos do Elmo?
- 2.2 Qual é o pensamento de Elmo?
- 3. Perguntas Elmo
- 3.1 Quais são os problemas com Elmo?
Clique para ver a resposta
4.3 Entrevistas comuns do Bert
- Bert entrevistas comuns
- 1. Motivo
- 1.1 [História da evolução] Há algum problema com um hots?
- 1.2 [História da evolução] Há um problema com o Wordvec?
- 1.3 [História da evolução] Há algum problema com o FastText?
- 1.4 [História da evolução] Há algum problema com Elmo?
- 2. Bert
- 2.1 Introdução Bert
- 2.1.1 【Bert】 O que é Bert?
- 2.1.2 【bert】 bert três pontos -chave?
- 2.2 Caracterização de entrada e saída BERT
- 2.2.1 [BERT] Como é a caracterização de entrada e saída do BERT?
- 2.3 【Bert】 Bert pré-treinamento
- 2.3.1 【Bert】 Bert Tarefas de pré-treinamento Introdução
- 2.3.2 【Bert】 Bert Tarefa pré-treinamento Capítulo LM mascarado
- 2.3.2.2 【Bert】 Por que o BERT precisa de tarefas de pré-treinamento mascaradas LM?
- 2.3.2.2 【Bert】 Como fazer a tarefa de pré-treinamento Bert LM mascarada?
- 2.3.2.3 【Bert】 Há algum problema com a tarefa de pré-treinamento de Bert LM mascarada?
- 2.3.2.4 【Bert】 Solução para a incompatibilidade entre pré-treinamento e ajuste fino?
- 2.3.3 【Bert】 Bert Tarefa de pré-treinamento Próxima previsão da frase
- 2.3.3.1 [Bert] Por que Bert precisa de tarefas de pré-treinamento na próxima previsão de frases?
- 2.3.3.2 【Bert】 Como fazer previsão da próxima frase na tarefa de pré-treinamento de Bert?
- 2.4 【Bert】 Artigo fino?
- 2.4.1 【Bert】 Por que Bert precisa de uma queda?
- 2.4.2 【Bert】 Como fazer uma volta em Bert?
- 2.5 【Bert】 Funções de perda de Bert?
- 2.5.1 [BERT] Qual é a função de perda correspondente às duas tarefas de pré-treinamento de Bert (expressa na forma de fórmula)?
- 3. Comparação?
- 3.1 [Contraste] Qual é o problema da polissinética?
- 3.2 [Comparação] Por que o Word2vec não pode resolver o problema dos polissinônimos?
- 3.3 [Comparação] Qual é a diferença entre GPT e Bert?
- 3.4 [Comparação] Por que Elmo, GPT e Bert podem resolver o problema dos polissinônimos? (Tome Elmo como exemplo)
Clique para ver a resposta
- 【Sobre a análise do código -fonte de Bert I's principal do corpo] coisas que você não sabe
- 【Sobre Bert Código Fonte Análise II Capítulo Pré-Treinamento】 Coisas que você não sabe
- 【Sobre a análise do código fonte de Bert
- [Sobre a análise do código fonte de Bert IV Artigo de geração de vetores de sentença] Coisas que você não sabe
- [Sobre Bert Código Fonte Análise v Texto Capítulo] Coisas que você não sabe
4.3.1 Entrevistas comuns para compactação do modelo Bert
- Entrevista comum de compactação do modelo Bert
- 1. Modelo de Bert Motivação de compressão
- 2. Tabela de comparação de compressão do modelo Bert
- 3. Introdução ao método de compressão do modelo Bert
- 3.1 Fator de baixo rank e compartilhamento de parâmetros de camada cruzada do método de compressão do modelo Bert
- 3.1.1 O que é fatoração de baixa rank?
- 3.1.2 O que é compartilhamento de parâmetros de camada cruzada?
- 3.1.3 O método usado por Albert?
- 3.2 Método de compressão do modelo Bert Destilação
- 3.2.1 O que é destilação?
- 3.2.2 Que documentos existem usando a destilação do modelo? Deixe -me apresentá -lo brevemente?
- 3.3 Quantificação do método de compressão do modelo Bert
- 3.3.1 O que é quantificação?
- 3.3.2 Q-Bert: Quantização de ultra baixa precisão baseada em Hessian de Bert 【Quantificação】
- 3.4 Método de compressão do modelo BERT Pruagem
- 4. Existe algum problema com a compactação do modelo?
Clique para ver a resposta
4.3.2 Entrevistas comuns para Bert Model Series
- Você conhece XLNet? Você pode me dizer? Qual é a diferença entre Bert?
- Você conhece Roberta? Você pode me dizer? Qual é a diferença entre Bert?
- Você conhece Spanbert? Você pode me dizer? Qual é a diferença entre Bert?
- Você conhece a Massa? Você pode me dizer? Qual é a diferença entre Bert?
Clique para ver a resposta
4.4 Entrevistas comuns para classificação de texto
- Entrevistas comuns para classificação de texto
- 1. Proposições abstratas
- 1.1 Quais são as categorias de tarefas de classificação? Quais são suas características?
- 1.2 Quais são as diferenças entre as tarefas de classificação de texto em comparação com as tarefas de classificação em outros campos?
- 1.3 Qual é a diferença entre tarefas de classificação de texto e outras tarefas no campo de texto?
- 1.4 O processo de classificação de texto?
- 2. Pré -processamento de dados
- 2.1 Quais são os métodos de pré -processamento de dados para tarefas de classificação de texto?
- 2.2 Quais métodos e ferramentas de particípio da palavra você usou?
- 2.3 Como participar de textos chineses?
- 2.4 Qual é o princípio do método de segmentação de palavras com base na correspondência de strings?
- 2.5 Como os modelos de linguagem estatística são aplicados ao particípio de palavras? N-gramas de probabilidade máxima?
- 2.6 Qual é o método de segmentação de palavras baseado na anotação de sequência?
- 2.7 Qual é a anotação de parte da fala com base no (bi-) lstm?
- 2.8 Qual é a diferença entre a extração do STEM e a restauração da forma de palavras?
- 3. Extração de recursos
- 3.1 (um específico) Quais características podem ser usadas na tarefa de classificação de texto?
- 3.2 (para textos ocidentais) Qual é a diferença entre usar palavras e usar letras como características?
- 3.3 Você pode apresentar brevemente o modelo de saco de palavras?
- 3.4 n-grama
- 3.4.1 O que é a sintaxe n-metod? Por que usar n grama?
- 3.4.2 Quais são as limitações do algoritmo N-Gram?
- 3.5 Modelagem de tópicos
- 3.5.1 Introdução à tarefa de modelagem de tópicos?
- 3.5.2 Métodos comuns de modelagem de tópicos
- 3.5.3 O que o algoritmo TF-IDF faz? Uma breve introdução ao algoritmo TF-IDF
- 3.5.4 O que significa TF-IDF High?
- 3.5.5 As deficiências do TF-IDF
- 3.6 similaridade de texto
- 3.6.1 Como calcular a distância entre dois parágrafos do texto?
- 3.6.2 O que é a distância de Jaccard?
- 3.6.3 Qual é a diferença entre o coeficiente de dados e o coeficiente de Jaccard?
- 3.6.4 O mesmo é a distância de edição, qual é a diferença entre a distância de Levinstein e a distância de Hamming?
- 3.6.5 Escreva uma pergunta de programação sobre o cálculo da distância de edição (distância de Lewinstein)?
- 4. Modelo
- 4.1 FastText
- 4.1.1 O processo de classificação do FastText?
- 4.1.2 Quais são as vantagens do FastText?
- 4.2 Textcnn
- 4.2.1 O processo de textcnn executando a classificação de texto?
- 4.2.2 Quais parâmetros podem textcnn ajustar?
- 4.2.3 Ao usar a CNN como classificador de texto, que informação os diferentes canais correspondem ao texto?
- 4.2.4 O que representa o comprimento e a largura do kernel da convolução no texto?
- 4.2.5 Qual é a diferença entre operações de agrupamento no TextCNN e as operações de pool em geral da CNN?
- 4.2.6 Limitações do texto?
- 4.3 DPCNN
- 4.3.1 Como resolver a tarefa de classificação de texto longo?
- 4.3.2 Apresente brevemente as melhorias do modelo DPCNN em comparação com o texto?
- 4.4 Textrcnn
- 4.4.1 Apresente brevemente as melhorias do Textrcnn em comparação com o TextCNN?
- 4.5 RNN+ATENÇÃO
- 4.5.1 A idéia de RNN+Atenção para tarefas de classificação de texto e por que o mecanismo de atenção/atenção precisa ser adicionado?
- 4.6 Rede neural de gráfico GNN
- 4.6.1 Como a rede neural do gráfico GNN é aplicada ao campo da classificação de texto?
- 4.7 Transformador
- 4.7.1 Como aplicar modelos pré-treinados com base no transformador no campo da classificação de texto?
- 4.8 Modelo pré-treinado
- 4.8.1 Quais modelos pré-treinados você conhece? Quais são suas características?
- V. Função de perda
- 5.1 Função de ativação sigmóide
- 5.1.1 Introdução à função de ativação Sigmóide usada para problemas de classificação binária?
- 5.1.2 Quais são as desvantagens do Sigmod?
- 5.2 Função de ativação Softmax
- 5.2.1 Qual é a função Softmax?
- 5.2.2 Como encontrar o derivado da função Softmax?
- 5.3 Que outras funções de perda são usadas para problemas de classificação?
- 6. Avaliação do modelo e comparação de algoritmo
- 6.1 Quais são os algoritmos e indicadores de avaliação usados nas tarefas de classificação de texto?
- 6.2 Breve Introdução à Confusão Matrix e Kappa?
Clique para ver a resposta
- Entrevistas comuns de truque de classificação de texto
- 1. Como pré -processar dados de classificação de texto?
- 2. Como escolher um modelo pré-treinado de classificação de texto?
- 3. Como otimizar os parâmetros de classificação de texto?
- 4. Quais são as tarefas difíceis da classificação de texto?
- 5. Construção do sistema de rotulagem de classificação de texto?
- 6. Construção da estratégia de classificação de texto?
Clique para ver a resposta
- Use métodos de pesquisa para fazer entrevistas comuns para classificação de texto
- Por que precisamos usar a pesquisa para classificar o texto?
- Qual é a ideia de classificação de texto com base nos métodos de pesquisa?
- Como construir uma biblioteca de recall para o método recuperado?
- Como fazer o estágio de treinamento do método de pesquisa?
- Como fazer o estágio de previsão do método de pesquisa?
- Quais são os cenários aplicáveis para classificação de texto usando métodos de pesquisa?
Clique para ver a resposta
4.5 entrevistas comuns para correspondência de texto
- Modelo de correspondência de texto entrevistas comuns do ESIM
- Por que você precisa do ESIM?
- Que tal introduzir o modelo ESIM?
Clique para ver a resposta
- Entrevistas comuns para Bert em tarefas de correspondência de similaridade semântica
- 1. Tarefa de classificação de pares de frases: Use CLS
- 2. Similaridade de cosseno
- 3. A diferença entre textos longos e curtos
- 4. Sentença/incorporação de palavras
- 5. Método da rede siamesa
Clique para ver a resposta
4.6 Entrevistas comuns para perguntas e respostas
4.6.1 Entrevistas comuns para perguntas e perguntas e respostas baseadas em busca de perguntas frequentes
- 1. Motivação
- 1.1 Motivação do sistema de perguntas e respostas?
- 1.2 Qual é o sistema de perguntas e respostas?
- 2. Introdução ao sistema de perguntas e respostas baseado em busca de perguntas frequentes
- 2.1 Qual é o sistema de perguntas e respostas baseado em busca de perguntas frequentes?
- 2.2 Qual é o núcleo do controle de qualidade padrão correspondente à consulta?
- 3. Solução de perguntas e respostas baseadas em busca de perguntas frequentes
- 3.1 Quais são as soluções comumente usadas?
- 3.2 Por que a correspondência QQ é mais comumente usada?
- 3.2.1 Quais são as vantagens da correspondência QQ?
- 3.2.2 Qual é o espaço semântico para a correspondência QQ?
- 3.2.3 Qual é a estabilidade do corpus correspondente de QQ?
- 3.2.4 Qual é a dissociação de respostas de negócios correspondentes ao QQ e modelo de algoritmo?
- 3.2.5 Quais são a descoberta e desduplicação de novos problemas de correspondência QQ?
- 3.2.6 Qual é a velocidade de execução on -line da correspondência QQ?
- 3.3 Qual é o processo de processamento geral para correspondência QQ? [Supondo que o banco de problemas padrão tenha sido processado]
- 4. Construção do Banco de Problemas Padrão de Perguntas frequentes
- 4.1 Como encontrar problemas padrão em perguntas frequentes?
- 4.2 Como dividir as perguntas frequentes?
- 4.3 Como mesclar FAQ?
- 4.4 Como atualizar a Biblioteca Padrão de Perguntas frequentes em tempo real?
- 5. FAQ PADRÃO PRONTAGEM BANCO Otimização de respostas
- 5.1 Como otimizar as respostas para o banco de perguntas padrão da FAQ?
Clique para ver a resposta
4.6.2 Ferramentas de perguntas e respostas Entrevistas comuns
- Entrevistas comuns do FAISS
- 1. Motivo
- 1.1 Quais são os problemas com os algoritmos tradicionais de similaridade?
- 2. Introdução
- 2.1 O que é FAISS?
- 2.2 Como usar o FAISS?
- 2.3 Princípio do FAISS e algoritmo Core
- 3. Capítulo Prático Faiss
- 3.1 Como instalar o FAISS?
- 3.2 Quais são os índices de índices do FAISS?
- 3.3 Como usar o índice do FAISS '?
- 3.3.1 Preparação de dados
- 3.3.2 Estética violenta indexflatl2
- 3.3.3 O Flash Indexivflat
- 3.3.4 Indexivfpq do Gerenciador de Memória
- 3.4 FAISS então usar GPU?
- 4. Comparação de Faiss
- 4.1 Qual é o melhor, Sklearn Cosine_similaridade ou Faiss
4.7 Entrevistas comuns para sistema de diálogo
- Entrevistas comuns para sistema de diálogo
- 1. Introdução ao sistema de diálogo
- 1.1 Quais são os sistemas de diálogo?
- 1.2 Quais são as diferenças entre esses sistemas de diálogo?
- 2. Introdução ao sistema de diálogo de várias rodadas
- 2.1 Por que usar um sistema de diálogo com várias rodadas?
- 2.2 Quais são as soluções comuns de sistema de diálogo com várias rodadas?
- 3. Introdução ao sistema de diálogo baseado em tarefas
- 3.1 O que é um sistema de diálogo baseado em tarefas?
- 3.2 Qual é o processo de um sistema de diálogo baseado em tarefas?
- 3.3 Diálogo baseado em tarefas Compreensão do idioma do sistema (SLU)
- 3.3.1 O que é o entendimento da linguagem (SLU)?
- 3.3.2 Quais são a entrada e saída do entendimento da linguagem (SLU)?
- 3.3.3 Quais são as técnicas usadas no entendimento da linguagem (SLU)?
- 3.4 Sistema de diálogo baseado em tarefas DST (rastreamento de status de diálogo)
- 3.4.1 O que é DST (rastreamento de status de diálogo)?
- 3.4.2 Quais são a entrada e a saída do DST (rastreamento de status de diálogo)?
- 3.4.3 O DST (rastreamento de status de diálogo) tem problemas e soluções?
- 3.4.4 Qual é o método de implementação do DST (rastreamento de status de diálogo)?
- 3.5 DPO (Learning Strategy Learning) do sistema de diálogo baseado em tarefas
- 3.5.1 O que é DPO (Learning Strategy de Diálogo)?
- 3.5.2 Quais são a entrada e a saída do DPO (Learning Strategy Learning)?
- 3.5.3 Qual é o método de implementação do DPO (Learning Strategy de Diálogo)?
- 3.6 NLG (geração de linguagem natural) Sistema de diálogo baseado em tarefas
- 3.6.1 O que é NLG (geração de linguagem natural)?
- 3.6.2 Qual é a entrada e saída de NLG (geração de linguagem natural)?
- 3.6.3 A implementação do NLG (geração de linguagem natural) é?
Clique para ver a resposta
4.8 Entrevistas comuns para gráficos de conhecimento
4.8.1 Entrevistas comuns para gráficos de conhecimento
- 1. Introdução ao gráfico de conhecimento
- 1.1 Introdução
- 1.2 O que é um gráfico de conhecimento?
- 1.2.1 O que é gráfico?
- 1.2.2 O que é esquema?
- 1.3 Quais são as categorias de gráficos de conhecimento?
- 1.4 Qual é o valor do gráfico de conhecimento?
- 2. Como construir um gráfico de conhecimento?
- 2.1 De onde vem os dados do gráfico de conhecimento?
- 2.2 Quais são as dificuldades na extração de informações?
- 2.3 As tecnologias envolvidas na construção de um gráfico de conhecimento?
- 2.4. Quais são a tecnologia específica para criar um gráfico de conhecimento?
- 2.4.1 Reconhecimento de entidade nomeado
- 2.4.2 Extração de relação
- 2.4.3 Resolução da entidade
- 2.4.4 refere -se à desambiguação
- 3. Como armazenar gráficos de conhecimento?
- 4. O que o gráfico de conhecimento pode fazer?
Clique para ver a resposta
4.8.2 entrevistas comuns do KBQA
- 1. Métodos baseados no dicionário e regras
- Implementar KBQA com base no dicionário e regras?
- Implementando o processo KBQA com base no dicionário e regras?
- 2. Métodos baseados na extração de informações
- Implementar o processo KBQA com base na extração de informações?
Clique para ver a resposta
4.8.3 Entrevistas comuns neo4j
- 1. Introdução e instalação neo4j
- 1.1 Introdução
- 1.2 Como baixar neo4j?
- 1.3 Como instalar neo4j?
- 1.4 Introdução à interface da web neo4j
- 1.5 Qual é a linguagem de consulta Cypher?
- 2. Adição neo4j, exclusão, pesquisa e modificação
- 2.1 Introdução
- 2.2 Como criar um nó no neo4j?
- 2.3 Como criar um relacionamento no Neo4J?
- 2.4 Como criar um relacionamento no local de nascimento no neo4j?
- 2.5 Como consultar neo4j?
- 2.6 Como excluir e modificar Neo4J?
- 3. Como usar o Python para operar o banco de dados de gráficos NEO4J?
- 3.1 Módulo NEO4J: Qual é a execução da instrução CQL (Cypher)?
- 3.2 Qual é o módulo PY2Neo?
- 4. Banco de dados de diagrama de importação de dados neo4j
Clique para ver a resposta
4.9 Resumo do texto entrevistas comuns
- 1. Motivo
- 1.1 O que é um resumo de texto?
- 1.2 Quais são os tipos de técnicas de resumo do texto?
- 2. Resumo da extração
- 2.1 Como fazer um resumo decisivo?
- 2.1.1 Quais são os algoritmos de avaliação de importância da frase?
- 2.1.2 Quais são os métodos de geração de resumo baseados em restrições?
- 2.1.3 Como o algoritmo TextTeaser extrai o resumo?
- 2.1.4 Como o algoritmo TexTrank extrai o resumo?
- 2.2 Qual é o problema de legibilidade do resumo extraído?
- 3. Resumo comprimido
- 3.1 Como fazer um resumo comprimido?
- 4. Resumo generativo
- 4.1 Como fazer um resumo generativo?
- 4.2 Quais são os problemas com o resumo generativo?
- 4.3 Que problemas resolvem a rede-geradora de ponteiro?
- V. Método de avaliação de qualidade abstrata
- 5.1 Quais são os tipos de métodos de avaliação de qualidade abstrata?
- 5.2 O que é Rouge?
- 5.3 Qual é a diferença entre vários indicadores de Rouge?
- 5.4 Qual é a diferença entre Bleu e Rouge?
Clique para ver a resposta
4.10 Artigo de correção de erro de texto Artigo de entrevista comum
- 1. Introdução
- 1.1 O que é correção de erro de texto?
- 1.2 Tipos de erro de texto comuns?
- 1.3 Métodos comuns para correção de erro de texto?
- 2. Introdução ao método de pipeline
- Como implementar a detecção de erros no pipeline?
- Como implementar o recall de candidatos no pipeline?
- Como implementar a classificação da correção de erros no pipeline?
- Como implementar a otimização do eco ASR no pipeline?
Clique para ver a resposta
4.11 Resumo do texto entrevistas comuns
- 1. Motivo
- 1.1 O que é um resumo de texto?
- 1.2 Quais são os tipos de técnicas de resumo do texto?
- 2. Resumo da extração
- 2.1 Como fazer um resumo decisivo?
- 2.1.1 Quais são os algoritmos de avaliação de importância da frase?
- 2.1.2 Quais são os métodos de geração de resumo baseados em restrições?
- 2.1.3 Como o algoritmo TextTeaser extrai o resumo?
- 2.1.4 Como o algoritmo TexTrank extrai o resumo?
- 2.2 Qual é o problema de legibilidade do resumo extraído?
- 3. Resumo comprimido
- 3.1 Como fazer um resumo comprimido?
- 4. Resumo generativo
- 4.1 Como fazer um resumo generativo?
- 4.2 Quais são os problemas com o resumo generativo?
- 4.3 Que problemas resolvem a rede-geradora de ponteiro?
- V. Método de avaliação de qualidade abstrata
- 5.1 Quais são os tipos de métodos de avaliação de qualidade abstrata?
- 5.2 O que é Rouge?
- 5.3 Qual é a diferença entre vários indicadores de Rouge?
- 5.4 Qual é a diferença entre Bleu e Rouge?
Clique para ver a resposta
4.12 Entrevistas comuns para geração de texto
- Entrevistas comuns para métodos de decodificação para gerar modelos
- O que é um modelo generativo?
- Quais são os métodos de decodificação baseados em busca?
- Quais são os métodos de decodificação baseados em amostragem?
Clique para ver a resposta
3. Entrevista comum de algoritmo de aprendizado profundo
- Entrevistas comuns da CNN
- 1. Motivo
- 2. Camada convolucional da CNN
- 2.1 Qual é a essência de uma camada convolucional?
- 2.2 Qual é a conexão entre a camada convolucional da CNN e a camada totalmente conectada?
- 2.3 O que significa canal?
- 3. Camada de pool da CNN
- 3.1 Qual é a camada de pool para a região?
- 3.2 Quais são os tipos de camadas de agrupamento?
- 3.3 Qual é a função da camada de pool?
- 3.4 Como é a backpropagação na camada de pool?
- 3.5 Como é o conjunto de retropacagação de agrupamento?
- 3.6 Como é a backpropagação da camada de pool?
- 4. CNN em geral
- 4.1 Qual é o processo da CNN?
- 4.2 Quais são as características da CNN?
- 4.3 Por que a rede neural convolucional tem invariância translacional?
- 4.4 Como o IM2COL é implementado na rede neural convolucional?
- 4.5 Quais são as limitações da CNN?
- 5. CNN dilatada iterada
- 5.1 O que está dilatado CNN Void Convolution?
- 5.2 O que é a CNN dilatada iterada?
- 6. Deconvolução
- 6.1 Explique os princípios e usos da desconvolução?
Clique para ver a resposta
- RNN entrevistas comuns
- 1. Rnn
- 1.2 Por que eu preciso de RNN?
- 1.2 Qual é a estrutura RNN?
- 1.3 Fórmula de cálculo avançado RNN?
- 1.4 Quais são os problemas com o RNN?
- 2. Rede de memória de curto prazo de longo prazo (LSTM)
- 2.1 Por que você precisa de LSTM?
- 2.2 Qual é a estrutura do LSTM?
- 2.3 Como o LSTM mitiga os problemas do gradiente RNN que desaparece e a explosão de gradiente?
- 2.3 Qual é o processo de LSTM?
- 2.4 Quais são as diferenças nas funções de ativação no LSTM?
- 2,5 complexidade LSTM?
- 2.6 Que problemas existem LSTM?
- 3. Gru (unidade recorrente fechada)
- 3.1 Por que você precisa de Gru?
- 3.2 Qual é a estrutura de Gru?
- 3.3 Cálculo a termo do GRU?
- 3.4 Qual é a diferença entre GRU e outros modelos da série RNN?
- 4. Modelo da série RNN
- 4.1 Quais são as características do modelo da série RNN?
Clique para ver a resposta
- Atenção entrevistas comuns
- 1. SEQ2SEQ
- 1.1 O que é seq2seq (codificador-decodificador)?
- 1.2 E o codificador no SEQ2SEQ?
- 1.3 E o decodificador no SEQ2SEQ?
- 1.4 Você conhece o SEQ2SEQ de uma perspectiva matemática?
- 1.5 Que problemas o seq2seq tem?
- 2. Atenção
- 2.1 O que é atenção?
- 2.2 Por que o mecanismo de atenção é introduzido?
- 2.3 Qual é a função da atenção?
- 2.4 Qual é o processo de atenção?
- Etapa 1 para executar o codificador (consistente com o seq2seq)
- Etapa 2 Calcule o coeficiente de alinhamento a
- Etapa 3: Calcule o vetor semântico de contexto C
- Etapa 4 Atualize o status do decodificador
- Etapa 5 Calcule as palavras de previsão de saída
- 2.5 Quais são as áreas de aplicação de atenção?
- 3. Variante de atenção
- 3.1 O que é a atenção suave?
- 3.2 O que é dura atenção?
- 3.3 O que é atenção global?
- 3.4 O que é atenção local?
- 3.5 O que é auto-atimento?
Clique para ver a resposta
- Gerando entrevistas comuns de rede adversária
- 1. Motivação
- 2. Introdução
- 2.1 Idéias básicas de gan
- 2.2 Introdução básica ao gan
- 2.2.1 Estrutura básica do GaN
- 2.2.2 Idéias básicas de gan
- 三、训练篇
- 3.1 生成器介绍
- 3.2 判别器介绍
- 3.3 训练过程
- 3.4 训练所涉及相关理论基础
- 四、总结
点击查看答案
3.1 Transformer 常见面试篇
- Transformer 常见面试篇
- 一、动机篇
- 1.1 为什么要有Transformer?
- 1.2 Transformer 作用是什么?
- 二、整体结构篇
- 2.1 Transformer 整体结构是怎么样?
- 2.2 Transformer-encoder 结构怎么样?
- 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
- 3.1 self-attention 模块
- 3.1.1 传统attention 是什么?
- 3.1.2 为什么会有self-attention?
- 3.1.3 self-attention 的核心思想是什么?
- 3.1.4 self-attention 的目的是什么?
- 3.1.5 self-attention 的怎么计算的?
- 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
- 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型?
- 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
- 3.1.9 self-attention 如何解决长距离依赖问题?
- 3.1.10 self-attention 如何并行化?
- 3.2 multi-head attention 模块
- 3.2.1 multi-head attention 的思路是什么样?
- 3.2.2 multi-head attention 的步骤是什么样?
- 3.2.3 Transformer为何使用多头注意力机制?(为什么不使用一个头)
- 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维?
- 3.2.5 multi-head attention 代码介绍
- 3.3 位置编码(Position encoding)模块
- 3.3.1 为什么要加入位置编码(Position encoding) ?
- 3.3.2 位置编码(Position encoding)的思路是什么?
- 3.3.3 位置编码(Position encoding)的作用是什么?
- 3.3.4 位置编码(Position encoding)的步骤是什么?
- 3.3.5 Position encoding为什么选择相加而不是拼接呢?
- 3.3.6 Position encoding和Position embedding的区别?
- 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding?而Bert却采用的是Position Embedding ?
- 3.3.8 位置编码(Position encoding)的代码介绍
- 3.4 残差模块模块
- 3.5 Layer normalization 模块
- 3.5.1 为什么要加入Layer normalization 模块?
- 3.5.2 Layer normalization 模块的是什么?
- 3.5.3 Batch normalization 和Layer normalization 的区别?
- 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
- 3.5.5 Layer normalization 模块代码介绍
- 3.6 Mask 模块
- 3.6.1 什么是Mask?
- 3.6.2 Transformer 中用到几种Mask?
- 3.6.3 能不能介绍一下Transformer 中用到几种Mask?
点击查看答案
- 【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
- 1.1 既然Transformer 怎么牛逼,是否还存在一些问题?
- 二、每个问题的解决方法是什么?
- 2.1 问题一:Transformer 不能很好的处理超长输入问题
- 2.1.1 Transformer 固定了句子长度?
- 2.1.2 Transformer 固定了句子长度的目的是什么?
- 2.1.3 Transformer 针对该问题的处理方法?
- 2.2 问题二:Transformer 方向信息以及相对位置的缺失问题
- 2.3 问题三:缺少Recurrent Inductive Bias
- 问题四:问题四:Transformer是非图灵完备的: 非图灵完备通俗的理解,就是无法解决所有的问题
- 问题五:transformer缺少conditional computation;
- 问题六:transformer 时间复杂度和空间复杂度过大问题;
五、NLP 技巧面
5.1 少样本问题面
5.1.1 数据增强(EDA) 面试篇
- 一、动机篇
- 1.1 什么是数据增强?
- 1.2 为什么需要数据增强?
- 二、常见的数据增强方法篇
- 2.1 词汇替换篇
- 2.1.1 什么是基于词典的替换方法?
- 2.1.2 什么是基于词向量的替换方法?
- 2.1.3 什么是基于MLM 的替换方法?
- 2.1.4 什么是基于TF-IDF 的词替换?
- 2.2 词汇插入篇
- 2.3 词汇交换篇
- 2.4 词汇删除篇
- 2.5 回译篇
- 2.6 交叉增强篇
- 2.7 语法树篇
- 2.8 对抗增强篇
点击查看答案
5.1.2 主动学习面试篇
- 一、动机篇
- 1.1 主动学习是什么?
- 1.2 为什么需要主动学习?
- 二、主动学习篇
- 2.1 主动学习的思路是什么?
- 2.2 主动学习方法的价值点在哪里?
- 三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
- 3.2.1 测试集内选取“信息”量最大的数据标记
- 3.2.2 依赖不确定度的样本选取策略(Uncertainty Sampling, US)
- 3.2.3 基于委员会查询的方法(Query-By-Committee,QBC)
点击查看答案
5.1.3 数据增强之对抗训练面试篇
- 一、介绍篇
- 1.1 什么是对抗训练?
- 1.2 为什么对抗训练能够提高模型效果?
- 1.3 对抗训练有什么特点?
- 1.4 对抗训练的作用?
- 二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
- 三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method(FGM)
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent(PGD)
点击查看答案
5.2 “脏数据”处理面试篇
- 一、动机
- 1.1 何为“脏数据”?
- 1.2 “脏数据” 会带来什么后果?
- 二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢?
- 2.2 置信学习方法篇
- 2.2.1 什么是置信学习方法?
- 2.2.2 置信学习方法优点?
- 2.2.3 置信学习方法怎么做?
- 2.2.4 置信学习方法怎么用?有什么开源框架?
- 2.2.5 置信学习方法的工作原理?
点击查看答案
5.3 batch_size设置面试篇
- 一、训练模型时,batch_size的设置,学习率的设置?
点击查看答案
5.4 早停法EarlyStopping 面试篇
- 一、 为什么要用早停法EarlyStopping?
- 二、 早停法EarlyStopping 是什么?
- 三、早停法torch 版本怎么实现?
点击查看答案
5.5 标签平滑法LabelSmoothing 面试篇
- 一、为什么要有标签平滑法LabelSmoothing?
- 二、 标签平滑法是什么?
- 三、 标签平滑法torch 怎么复现?
点击查看答案
5.6 Bert Trick 面试篇
5.6.1 Bert 未登录词处理面试篇
- 什么是Bert 未登录词?
- Bert 未登录词如何处理?
- Bert 未登录词各种处理方法有哪些优缺点?
点击查看答案
5.6.2 BERT在输入层引入额外特征面试篇
点击查看答案
5.6.3 关于BERT 继续预训练面试篇
- 什么是继续预训练?
- 为什么会存在【数据分布/领域差异】大问题?
- 如何进行继续预训练?
- 还有哪些待解决问题?
- 训练数据问题解决方案?
- 知识缺乏问题解决方案?
- 知识理解缺乏问题解决方案?
点击查看答案
5.6.4 BERT如何处理篇章级长文本面试篇
- 为什么Bert 不能处理长文本?
- BERT 有哪些处理篇章级长文本?
点击查看答案
六、 Prompt Tuning 面试篇
6.1 Prompt 面试篇
- 什么是prompt?
- 如何设计prompt?
- prompt进阶——如何自动学习prompt?
- Prompt 有哪些关键要点?
- Prompt 如何实现?
点击查看答案
6.2 Prompt 文本生成面试篇
- Prompt之文本生成评估手段有哪些?
- Prompt文本生成具体任务有哪些?
点击查看答案
6.3 LoRA 面试篇
- 什么是lora?
- lora 是怎么做的呢?
- lora 为什么可以这样做?
- 用一句话描述lora?
- lora 优点是什么?
- lora 缺点是什么?
- lora 如何实现?
点击查看答案
6.4 PEFT(State-of-the-art Parameter-Efficient Fine-Tuning)面试篇
- 一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ?
- 1.2 微调Fine-tuning 基本思想是什么?
- 二、轻度微调(lightweight Fine-tuning)篇
- 2.1 什么是轻度微调(lightweight Fine-tuning)?
- 三、适配器微调(Adapter-tuning)篇
- 3.1 什么是适配器微调(Adapter-tuning)?
- 3.2 适配器微调(Adapter-tuning)变体有哪些?
- 四、提示学习(Prompting)篇
- 4.1 什么是提示学习(Prompting)?
- 4.2 提示学习(Prompting)的目的是什么?
- 4.3 提示学习(Prompting) 代表方法有哪些?
- 4.3.1 前缀微调(Prefix-tining)篇
- 4.3.1.1 什么是前缀微调(Prefix-tining)?
- 4.3.1.2 前缀微调(Prefix-tining)的核心是什么?
- 4.3.1.3 前缀微调(Prefix-tining)的技术细节有哪些?
- 4.3.1.4 前缀微调(Prefix-tining)的优点是什么?
- 4.3.1.5 前缀微调(Prefix-tining)的缺点是什么?
- 4.3.2 指示微调(Prompt-tuning)篇
- 4.3.2.1 什么是指示微调(Prompt-tuning)?
- 4.3.2.2 指示微调(Prompt-tuning)的核心思想?
- 4.3.2.3 指示微调(Prompt-tuning)的优点/贡献是什么?
- 4.3.2.4 指示微调(Prompt-tuning)的缺点是什么?
- 4.3.2.5 指示微调(Prompt-tuning)与Prefix-tuning 区别是什么?
- 4.3.2.6 指示微调(Prompt-tuning)与fine-tuning 区别是什么?
- 4.3.3 P-tuning 篇
- 4.3.3.1 P-tuning 动机是什么?
- 4.3.3.2 P-tuning 核心思想是什么?
- 4.3.3.3 P-tuning 做了哪些改进?
- 4.3.3.4 P-tuning 有哪些优点/贡献?
- 4.3.3.5 P-tuning 有哪些缺点?
- 4.3.4 P-tuning v2 篇
- 4.3.4.1 为什么需要P-tuning v2?
- 4.3.4.2 P-tuning v2 是什么?
- 4.3.4.3 P-tuning v2 有哪些优点?
- 4.3.4.4 P-tuning v2 有哪些缺点?
- 4.3.5 PPT 篇
- 4.3.5.1 为什么需要PPT ?
- 4.3.5.2 PPT 核心思想是什么?
- 4.3.5.3 PPT 具体做法是怎么样?
- 4.3.5.4 常用的soft prompt初始化方法?
- 4.3.5.5 PPT 的优点是什么?
- 4.3.5.6 PPT 的缺点是什么?
- 4.4 提示学习(Prompting) 优点是什么?
- 4.5 提示学习(Prompting) 本质是什么?
- 五、指令微调(Instruct-tuning)篇
- 5.1 为什么需要指令微调(Instruct-tuning)?
- 5.2 指令微调(Instruct-tuning)是什么?
- 5.3 指令微调(Instruct-tuning)的优点是什么?
- 5.4 指令微调(Instruct-tuning) vs 提升学习(Prompting)?
- 5.5 指令微调(Instruct-tuning) vs 提升学习(Prompting) vs Fine-tuning?
- 六、指令提示微调(Instruct Prompt tuning)篇
- 6.1 为什么需要指令微调(Instruct-tuning)?
- 6.2 指令微调(Instruct-tuning) 是什么?
- 6.3 指令微调(Instruct-tuning) 在不同任务上性能?
- 七、self-instruct篇
- 八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ?
- 8.2 什么是Chain-of-Thought ?
- 8.3 Chain-of-Thought 的思路是怎么样的?
- 8.4 Chain-of-Thought 的优点是什么?
- 8.5 为什么chain-of-thought 会成功?
- 九、LoRA 篇
- 9.1 LoRA 篇
- 9.1.1 LoRA 核心思想是什么?
- 9.1.2 LoRA 具体思路是什么?
- 9.1.3 LoRA 优点是什么?
- 9.1.4 LoRA 缺点是什么?
- 9.2 AdaLoRA 篇
- 9.2.1 AdaLoRA 核心思想是什么?
- 9.2.2 AdaLoRA 实现思路是什么?
- 9.3 DyLoRA 篇
- 9.3.1 AdaLoRA 动机是什么?
- 9.3.2 AdaLoRA 核心思想是什么?
- 9.3.3 AdaLoRA 优点是什么?
- 十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么?
- 10.2 AdaLoRA 优点是什么?
- 10.3 AdaLoRA 缺点是什么?
点击查看答案
七、LLMs 面试篇
7.1 [What are the fine-tuning methods for the LLM model now? Quais são as vantagens e desvantagens de cada um?
- What are the fine-tuning methods for the LLM model now? Quais são as vantagens e desvantagens de cada um?
点击查看答案
7.2 GLM:ChatGLM的基座模型常见面试题
- GLM 的核心是什么?
- GLM 的模型架构是什么?
- GLM 如何进行多任务训练?
- 在进行NLG 时, GLM 如何保证生成长度的未知性?
- GLM 的多任务微调方式有什么差异?
- GLM 的多任务微调方式有什么优点?
点击查看答案
一、基础算法常见面试篇
- 过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么?
- 二、过拟合/高方差(overfiting / high variance)篇
- 2.1 过拟合是什么及检验方法?
- 2.2 导致过拟合的原因是什么?
- 2.3 过拟合的解决方法是什么?
- 三、欠拟合/高偏差(underfiting / high bias)篇
- 3.1 欠拟合是什么及检验方法?
- 3.2 导致欠拟合的原因是什么?
- 3.3 过拟合的解决方法是什么?
点击查看答案
- BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
- 1.1 独立同分布(independent and identically distributed)与白化
- 1.2 ( Internal Covariate Shift,ICS)
- 1.3 ICS问题带来的后果是什么?
- 二、Normalization 篇
- 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
- 3.1 Batch Normalization(纵向规范化)是什么?
- 3.2 Batch Normalization(纵向规范化)存在什么问题?
- 3.3 Batch Normalization(纵向规范化)适用的场景是什么?
- 3.4 BatchNorm 存在什么问题?
- 四、Layer Normalization(横向规范化) 篇
- 4.1 Layer Normalization(横向规范化)是什么?
- 4.2 Layer Normalization(横向规范化)有什么用?
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效?
点击查看答案
激活函数常见面试篇
- 一、动机篇
- 二、激活函数介绍篇
- 2.1 sigmoid 函数篇
- 2.1.1 什么是sigmoid 函数?
- 2.1.2 为什么选sigmoid 函数作为激活函数?
- 2.1.3 sigmoid 函数有什么缺点?
- 2.2 tanh 函数篇
- 2.2.1 什么是tanh 函数?
- 2.2.2 为什么选tanh 函数作为激活函数?
- 2.2.3 tanh 函数有什么缺点?
- 2.3 relu 函数篇
- 2.3.1 什么是relu 函数?
- 2.3.2 为什么选relu 函数作为激活函数?
- 2.3.3 relu 函数有什么缺点?
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0,L1,L2正则化篇
- 1.1 正则化是什么?
- 1.2 什么是L0 正则化?
- 1.3 什么是L1 (稀疏规则算子Lasso regularization)正则化?
- 1.4 什么是L2 正则化(岭回归Ridge Regression 或者权重衰减Weight Decay)正则化?
- 二、对比篇
- 2.1 什么是结构风险最小化?
- 2.2 从结构风险最小化的角度理解L1和L2正则化
- 2.3 L1 vs L2
- 三、dropout 篇
- 3.1 什么是dropout?
- 3.2 dropout 在训练和测试过程中如何操作?
- 3.3 dropout 如何防止过拟合?
点击查看答案
- 优化算法及函数常见面试篇
- 一、动机篇
- 1.1 为什么需要优化函数?
- 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
- 2.1 梯度下降法是什么?
- 2.2 随机梯度下降法是什么?
- 2.3 Momentum 是什么?
- 2.4 SGD with Nesterov Acceleration 是什么?
- 2.5 Adagrad 是什么?
- 2.6 RMSProp/AdaDelta 是什么?
- 2.7 Adam 是什么?
- 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇
点击查看答案
- 归一化常见面试篇
- 一、动机篇
- 二、介绍篇
- 2.1 归一化有哪些方法?
- 2.2 归一化各方法特点?
- 2.3 归一化的意义?
- Iii. Aplicativo
- 3.1 哪些机器学习算法需要做归一化?
- 3.2 哪些机器学习算法不需要做归一化?
点击查看答案
- 判别式(discriminative)模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
- 1.1 什么是判别式模型?
- 1.2 判别式模型是思路是什么?
- 1.3 判别式模型的优点是什么?
- 二、生成式模型篇
- 2.1 什么是生成式模型?
- 2.2 生成式模型是思路是什么?
- 2.3 生成式模型的优点是什么?
- 2.4 生成式模型的缺点是什么?
点击查看答案
二、机器学习算法篇常见面试篇
点击查看答案
- 支持向量机常见面试篇
- 一、原理篇
- 1.1 什么是SVM?
- 1.2 SVM怎么发展的?
- 1.3 SVM存在什么问题?
- 二、算法篇
- 2.1 什么是块算法?
- 2.2 什么是分解算法?
- 2.3 什么是序列最小优化算法?
- 2.4 什么是增量算法?
- 三、其他SVM篇
- 3.1 什么是最小二次支持向量机?
- 3.2 什么是模糊支持向量机?
- 3.3 什么是粒度支持向量机?
- 3.4 什么是多类训练算法?
- 3.5 什么是孪生支持向量机?
- 3.6 什么是排序支持向量机?
- 4. Aplicativo
- 4.1 模式识别
- 4.2 网页分类
- 4.3 系统建模与系统辨识
- 4.4 其他
- 五、对比篇
- 六、拓展篇
点击查看答案
- 集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
- 2.1 Introdução
- 2.1.1 集成学习的基本思想是什么?
- 2.1.2 集成学习为什么有效?
- 三、 Boosting 篇
- 3.1 用一句话概括Boosting?
- 3.2 Boosting 的特点是什么?
- 3.3 Boosting 的基本思想是什么?
- 3.4 Boosting 的特点是什么?
- 3.5 GBDT 是什么?
- 3.6 Xgboost 是什么?
- 四、Bagging 篇
- 4.1 用一句话概括Bagging?
- 4.2 Bagging 的特点是什么?
- 4.3 Bagging 的基本思想是什么?
- 4.4 Bagging 的基分类器如何选择?
- 4.5 Bagging 的优点是什么?
- 4.6 Bagging 的特点是什么?
- 4.7 随机森林是什么?
- 五、 Stacking 篇
- 5.1 用一句话概括Stacking ?
- 5.2 Stacking 的特点是什么?
- 5.3 Stacking 的基本思路是什么?
- 6. Perguntas frequentemente feitas
- 6.1 为什么使用决策树作为基学习器?
- 6.2 为什么不稳定的学习器更适合作为基学习器?
- 6.3 哪些模型适合作为基学习器?
- 6.4 Bagging 方法中能使用线性分类器作为基学习器吗? Boosting 呢?
- 6.5 Boosting/Bagging 与偏差/方差的关系?
- 七、对比篇
点击查看答案
九、【关于Python 】那些你不知道的事
- 【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs?
- 1.1 为什么会有*args 和**kwargs?
- 1.2 *args 和**kwargs 的用途是什么?
- 1.3 *args 是什么?
- 1.4 **kwargs是什么?
- 1.5 *args 与**kwargs 的区别是什么?
- 二、什么是装饰器?
- 三、Python垃圾回收(GC)
- 3.1 垃圾回收算法有哪些?
- 3.2 引用计数(主要)是什么?
- 3.3 标记-清除是什么?
- 3.4 分代回收是什么?
- 四、python的sorted函数对字典按key排序和按value排序
- 4.1 python 的sorted函数是什么?
- 4.2 python 的sorted函数举例说明?
- 五、直接赋值、浅拷贝和深度拷贝
- 5.1 概念介绍
- 5.2 介绍
- 5.3 变量定义流程
- 5.3 赋值
- 5.4 浅拷贝
- 5.5 深度拷贝
- 5.6 核心:不可变对象类型and 可变对象类型
- 5.6.1 不可变对象类型
- 5.6.2 可变对象类型
- 六、进程、线程、协程
- 6.1 进程
- 6.1.1 什么是进程?
- 6.1.2 进程间如何通信?
- 6.2 线程
- 6.2.1 什么是线程?
- 6.2.2 线程间如何通信?
- 6.3 进程vs 线程
- 6.4 协程
- 6.4.1 什么是协程?
- 6.4.2 协程的优点?
- 七、全局解释器锁
- 7.1 什么是全局解释器锁?
- 7.2 GIL有什么作用?
- 7.3 GIL有什么影响?
- 7.4 如何避免GIL带来的影响?
十、【关于Tensorflow 】那些你不知道的事
- 【关于Tensorflow 损失函数】 那些你不知道的事
- 一、动机
- 二、什么是损失函数?
- 三、目标函数、损失函数、代价函数之间的关系与区别?
- 四、损失函数的类别
- 4.1 回归模型的损失函数
- (1)L1正则损失函数(即绝对值损失函数)
- (2)L2正则损失函数(即欧拉损失函数)
- (3)均方误差(MSE, mean squared error)
- (4)Pseudo-Huber 损失函数
- 4.2 分类模型的损失函数
- (1)Hinge损失函数
- (2)两类交叉熵(Cross-entropy)损失函数
- (3)Sigmoid交叉熵损失函数
- (4)加权交叉熵损失函数
- (5)Softmax交叉熵损失函数
- (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Resumo