NLP Interview Notes Download - NLP Interview Notes Download de código fonte

PNL é incomum

> Grupo de Entrevista e Exchange do NLP (Nota: Se você estiver cheio, pode adicionar o editor WX: YZYYKM666 para se juntar ao grupo!)

4. Entrevistas comuns para algoritmos de aprendizagem de PNL

4.1 Entrevistas comuns para extração de informações

4.1.1 Entrevistas comuns para nomear o reconhecimento de entidades

Algoritmo de Markov Hidden Hmm entrevistas comuns
- 1. Introdução às informações básicas
  - 1.1 O que é um modelo de gráfico de probabilidade?
  - 1.2 O que é o aeroporto aleatório?
- 2. Introdução ao processo de Markov
  - 2.1 Qual é o processo de Markov?
  - 2.2 Qual é a idéia principal do processo de Markov?
- Iii. Algoritmo Hidden Markov
  - 3.1 Introdução ao algoritmo Hidden Markov
    - 3.1.1 Qual é o algoritmo oculto de Markov?
    - 3.1.2 Quais são as duas seqüências no algoritmo oculto de Markov?
    - 3.1.3 Quais são as três matrizes no algoritmo oculto de Markov?
    - 3.1.4 Quais são as duas suposições no algoritmo oculto de Markov?
    - 3.1.5 Qual é o fluxo de trabalho no algoritmo Hidden Markov?
  - 3.2 Processo de computação do modelo de algoritmo markov oculto
    - 3.2.1 Qual é o processo de treinamento do algoritmo de Markov oculto?
    - 3.2.2 Qual é o processo de anotação de sequência (decodificação) do algoritmo Hidden Markov?
    - 3.2.3 Qual é o processo de probabilidade de sequência do algoritmo Hidden Markov?
  - 3.3 Problema de algoritmo markov oculto

Entropia máxima Markov Modelo MEMM EXTIME
- 4. Modelo de entropia máxima Markov (MEMM)
  - 4.1 Modelo máximo de entropia Markov (MEMM) Motivação
    - 4.1.1 Quais são os problemas com hmm?
  - 4.2 Introdução ao modelo máximo de entropia Markov (MEMM)
    - 4.2.1 Como é o modelo de entropia máxima (MEMM)?
    - 4.2.2 Modelo Máximo de Entropia Markov (MEMM) Como resolver o problema do HMM?
  - 4.3 Problema máximo de entropia Markov (MEMM)

Entrevistas comuns do aeroporto aleatório condicional (CRF)
- 5. Campo aleatório condicional (CRF)
  - 5.1 Motivo CRF
    - 5.1.1 Quais são os problemas com HMM e MEMM?
  - 5.2 Introdução ao CRF
    - 5.2.1 O que é CRF?
    - 5.2.2 Qual é a idéia principal de CRF?
    - 5.2.3 Qual é a definição de CRF?
    - 5.2.4 Qual é o processo de CRF?
  - 5.3 prós e contras da CRF
    - 5.3.1 Quais são as vantagens da CRF?
    - 5.3.2 Quais são as desvantagens da CRF?
  - 5.4 Reprodução de CRF?
- 6. Comparação
  - 6.1 Qual é a diferença entre o modelo CRF e o modelo HMM e MEMM?

Entrevistas comuns do DNN-CRF
- 1. Informações básicas
  - 1.1 Quais são os indicadores de avaliação para nomear o reconhecimento da entidade?
- 2. Método de reconhecimento de entidade de nomeação tradicional
  - 2.1 Qual é o método baseado em regras de nomear reconhecimento de entidades?
  - 2.2 Qual é o método de reconhecimento de entidade de nomenclatura baseado na aprendizagem não supervisionada?
  - 2.3 Qual é o método de reconhecimento de entidade nomeado baseado no aprendizado supervisionado baseado em recursos?
- 3.
  - 3.1 Quais são as vantagens dos métodos de reconhecimento de entidade nomeados baseados em aprendizado profundo em comparação com os métodos de reconhecimento de entidade nomeados baseados no aprendizado de máquina?
  - 3.2 Qual é a estrutura do método de reconhecimento de entidade nomeado baseado em aprendizado profundo?
  - 3.3 O que é uma camada de entrada distribuída e quais são os métodos?
  - 3.4 codificador de texto
    - 3.4.1 BILSTM-CRF
      - 3.4.1.1 O que é bilstm-CRF?
      - 3.4.1.2 Por que usar bilstm?
    - 3.4.2 IDCNN-CRF
      - 3.4.2.1 O que está dilatado CNN?
      - 3.4.2.2 Por que há uma CNN dilatada?
      - 3.4.2.3 Quais são as vantagens da CNN dilatada?
      - 3.4.2.4 Introdução ao IDCNN-CRF
  - 3,5 decodificador de tags
    - 3.5.1 Qual é o decodificador de tags?
    - 3.5.2 Introdução à camada MLP+Softmax?
    - 3.5.3 Introdução à camada de CRF de campo aleatório condicional?
    - 3.5.4 Introdução à camada RNN da rede neural recorrente?
    - 3.5.3 Introdução à camada de rede de ponteiro?
- 4. Comparação
  - 4.1 CNN-CRF vs BILSTM-CRF vs IDCNN-CRF?
  - 4.2 Por que o DNN precisa adicionar CRF?
  - 4.3 CRF no tensorflow vs CRF no kit de ferramentas discreto?

Entrevistas comuns do NER de campo chinês
- 1. Motivo
  - 1.1 Qual é a diferença entre o reconhecimento de entidade nomeado chinês e o reconhecimento de entidade nomeado inglês?
- 2. Aperfeiçoamento de vocabulário
  - 2.1 O que é aprimoramento do vocabulário?
  - 2.2 Por que o método "aprimoramento do vocabulário" é eficaz para as tarefas do NER chinês?
  - 2.3 Quais são os métodos de aprimoramento do vocabulário?
  - 2.4 Arquitetura dinâmica
    - 2.4.1 O que é arquitetura dinâmica?
    - 2.4.2 Quais são os métodos comuns?
    - 2.4.3 O que é Lattice LSTM e quais são os problemas?
    - 2.4.4 O que é plano e quais são os problemas?
  - 2.5 Paradigma de incorporação adaptativa
    - 2.5.1 Qual é o paradigma de incorporação adaptável?
    - 2.5.2 Quais são os métodos comuns?
    - 2.5.3 O que é WC-LSTM e quais são os problemas?
- 3. Melhoramento de informações do tipo de vocabulário/entidade
  - 3.1 O que é o aprimoramento de informações do tipo vocabulário/entidade?
  - 3.2 Por que o método "Vocabulário/ENTIDADE INFORMAÇÃO DO TIPO DE INFORMAÇÕES" é eficaz para tarefas de NER chinesas?
  - 3.3 Quais são os métodos para aprimorar as informações do tipo vocabulário/entidade?
  - 3.4 O que é Lex-Bert?

Entrevistas comuns de truque de reconhecimento de entidade nomeadas
- Trick 1: Matching Dicionário de Domínio
- Trick 2: Extração de regras
- Trick 3: Seleção de vetores de palavras: vetor de palavras ou vetor de palavras?
- Trick 4: Como escolher um extrator de recurso?
- Trick 5: Como lidar com um nome distinto?
- Trick 6: Como lidar com dados de rotulagem insuficientes?
- Trick 7: Como lidar com o reconhecimento de entidade nomeado aninhado
  - 7.1 O que é o ninho de entidade?
  - 7.2 Diferenças das tarefas tradicionais de reconhecimento de entidade nomeadas
  - 7.3 Solução:
    - 7.3.1 Método 1: Anotação de sequência
    - 7.3.2 Método 2: Anotação de Ponteiro
    - 7.3.3 Método 3: Anotação de cabeçalho longo
    - 7.3.4 Método 4: Arranjo de fragmento
- Trick 8: Por que o método do "aprimoramento do vocabulário" é eficaz para as tarefas do NER chinês?
- Trick 9: O que devo fazer se a extensão da entidade ner é muito longa?
- Trick 10: NER Rotulando Dados Ruído Problema?
- Trick 11: Dadas duas tarefas de reconhecimento de entidade nomeadas, uma tarefa tem dados suficientes e a outra tem muito pouco dados. O que posso fazer?
- Trick 12: O problema do desequilíbrio de dados de rotulagem do NER?

4.1.2 Entrevistas comuns para desenho de relacionamento

Entrevistas comuns de desenho de relacionamento
- 1. Motivo
  - 1.1 O que é extração de relacionamento?
  - 1.2 Quais são os tipos de técnicas de extração de relacionamento?
  - 1.3 Como os processos comuns de extração de relacionamento são feitos?
- 2. Extração de relacionamento clássico
  - 2.1 A que o método de correspondência de modelo se refere? Quais são os prós e os contras?
  - 2.2 A que se refere a extração de relacionamento com supervisão remota? Quais são seus prós e contras?
  - 2.3 O que é sobreposição de relacionamento? Questões complexas de relacionamento?
  - 2.4 O que é extração articular? Quais são as dificuldades?
  - 2.5 Quais são os métodos gerais de extração articular? Quais são suas deficiências?
  - 2.6 Introdução ao método de extração conjunta com base em parâmetros compartilhados?
  - 2.7 Introdução à decodificação conjunta com base na decodificação conjunta?
  - 2.8 Quais são as tecnologias e desafios de ponta na extração de relacionamento de entidades? Como resolver a extração de relacionamentos de entidade sob baixos recursos e amostras complexas?
- 3. Extração de relacionamento no nível do documento
  - 3.1 Qual é a diferença entre a extração de relacionamento no nível do documento e a extração clássica de relacionamento?
  - 3.2 Que problemas são enfrentados na extração de relacionamento no nível do documento?
  - 3.3 Quais são os métodos para extração de relacionamento no nível do documento?
    - 3.3.1 Como a extração do relacionamento de documentos é feita no tipo Bert?
    - 3.3.2 Como é feita a extração de relacionamento com documentos gráficos?
  - 3.4 Quais são os conjuntos de dados comuns para a extração de relacionamento no nível do documento e seus métodos de avaliação?

4.1.3 Extração de eventos Entrevistas comuns

Desenho de eventos entrevistas comuns
- 1. Princípios
  - 1.1 O que é um evento?
  - 1.2 O que é extração de eventos?
  - 1.3 Quais são os termos e tarefas básicos envolvidos na extração de eventos na avaliação da ACE?
  - 1.4 Como a extração de eventos se desenvolve?
  - 1.5 Quais são os problemas com a extração de eventos?
- 2. Tarefas básicas
  - 2.1 Detecção de palavras de gatilho
    - 2.1.1 O que é a detecção de palavras do gatilho?
    - 2.1.2 Quais são os métodos para detecção de palavras de gatilho?
  - 2.2 Identificação do tipo
    - 2.2.1 O que é o reconhecimento de tipo?
    - 2.2.2 Quais são os métodos de identificação de tipo?
  - 2.3 Reconhecimento de papéis
    - 2.3.1 O que é reconhecimento de papéis?
    - 2.3.2 Quais são os métodos de reconhecimento de função?
  - 2.4 Detecção de argumento
    - 2.4.1 O que é detecção de argumentos?
    - 2.4.2 Quais são os métodos de detecção de argumentos?
- 3. Métodos comuns
  - 3.1 Como usar o método de correspondência de padrões na extração de eventos?
  - 3.2 Como os métodos estatísticos de aprendizado de máquina são usados na extração de eventos?
  - 3.3 Como os métodos de aprendizado profundo são usados na extração de eventos?
- 4. Conjuntos de dados e indicadores de avaliação
  - 4.1 Quais são os conjuntos de dados em inglês comum na extração de eventos?
  - 4.2 Quais são os conjuntos de dados chineses comuns na extração de eventos?
  - 4.3 Quais são os indicadores de avaliação para extração de eventos? Como calculá -lo?
- 5. Comparação
  - 5.1 Quais são as semelhanças e diferenças entre extração de eventos e reconhecimento de entidade nomeado (ou seja, extração de entidades)?
  - 5.2 Quais são as semelhanças e diferenças entre extração de eventos e extração de relacionamento?
  - 5.3 O que é um mapa prático? Quais são os tipos de relacionamento com eventos? Como construir um mapa racional? Quais são os principais campos técnicos e pontos de desenvolvimento atuais?
- 6. Aplicação
- 7. Expansão
  - 7.1 Resumo dos documentos de extração de eventos
  - 7.2 FAQ de extração de eventos

4.2 Entrevistas comuns para algoritmos de pré-treinamento de PNL

【Sobre tf-idf】 coisas que você não sabe
- 1. Um hot
  - 1.1 Por que há um hots?
  - 1.2 O que é um hots?
  - 1.3 Quais são as características do único?
  - 1.4 Quais são os problemas com um hots?
- 2. TF-IDF
  - 2.1 O que é TF-IDF?
  - 2.2 Como o TF-IDF avalia a importância das palavras?
  - 2.3 Qual é a ideia de TF-IDF?
  - 2.4 Qual é a fórmula de cálculo para TF-IDF?
  - 2.5 Como descrever o TF-IDF?
  - 2.6 Quais são as vantagens do TF-IDF?
  - 2.7 Quais são as desvantagens do TF-IDF?
  - 2.8 Aplicação de TF-IDF?

【Sobre o Word2vec】 Coisas que você não sabe
- 1. Introdução ao Wordvec
  - 1.1 O que significa Wordvec?
  - 1.2 O que significa CBOW em Wordvec?
  - 1.3 O que significa Skip-Gram no Wordvec?
  - 1.4 Qual é o melhor para CBOW vs Skip-Gram?
- 2. Artigo de otimização do Wordvec
  - 2.1 Qual é a árvore Hoffman no Word2vec?
  - 2.2 Por que você precisa usar a árvore Hoffman no Word2vec?
  - 2.3 Quais são os benefícios de usar as árvores Hoffman no Word2vec?
  - 2.4 Por que a amostragem negativa é usada no Word2vec?
  - 2.5 Como é a amostragem negativa no Word2vec?
  - 2.6 Qual é o método de amostragem de amostragem negativa no Word2Vec?
- 3. Comparação do Wordvec
  - 3.1 Qual é a diferença entre o Word2Vec e o NNLM? (Word2vec vs nnlm)
  - 3.2 Qual é a diferença entre Word2Vec e TF-IDF no cálculo da similaridade?
- 4. Capítulo Prático Word2vec
  - 4.1 TRUSTO DE TREINAMENTO DE WORD2VEC, qual o tamanho da configuração da janela?
  - 4.1 Truque de treinamento Word2vec, latitude do vetor de palavras, quais são os efeitos de parâmetros grandes e pequenos e outros?

【Sobre o texto rápido】 Coisas que você não sabe
- 1. Motivação de texto rápido
  - 1.1 O que é o modelo no nível da palavra?
  - 1.2 Quais são os problemas com o modelo de nível de palavra?
  - 1.3 O que é o modelo de nível de caractere?
  - 1.4 Vantagens do modelo no nível do caractere?
  - 1.5 Existe algum problema com o modelo de nível de caractere?
  - 1.6 Solução para o problema do modelo no nível do caractere?
- 2. Introdução às informações de n-gramas em palavras (Informações sobre N-gramas da subglema)
  - 2.1 Introdução
  - 2.2 O que é o FastText?
  - 2.3 Qual é a estrutura do FastText?
  - 2.4 Por que o FastText usa informações de n-gramas na palavra (informações sobre o subglema n-gramas)?
  - 2.5 Introdução às informações de n-gramas na palavra FastText (Informações sobre N-gramas de subglema)?
  - 2.6 O processo de treinamento das informações de N-Gram em Word FastText?
  - 2.7 Existe algum problema com as informações de n-gramas na palavra FastText?
- 3. Introdução à regressão hierárquica Softmax (Softmax hierárquica)
  - 3.1 Por que usar a regressão hierárquica do softmax?
  - 3.2 Qual é a ideia de regressão hierárquica de softmax?
  - 3.3 Quais são as etapas para a regressão hierárquica do softmax?
- 4. Há algum problema com o FastText?

【Sobre Elmo】 Coisas que você não sabe
- 1. Motivação Elmo
  - 1.1 Por que existe Elmo?
- 2. Introdução Elmo
  - 2.1 Quais são os recursos do Elmo?
  - 2.2 Qual é o pensamento de Elmo?
- 3. Perguntas Elmo
  - 3.1 Quais são os problemas com Elmo?

4.3 Entrevistas comuns do Bert

Bert entrevistas comuns
- 1. Motivo
  - 1.1 [História da evolução] Há algum problema com um hots?
  - 1.2 [História da evolução] Há um problema com o Wordvec?
  - 1.3 [História da evolução] Há algum problema com o FastText?
  - 1.4 [História da evolução] Há algum problema com Elmo?
- 2. Bert
  - 2.1 Introdução Bert
    - 2.1.1 【Bert】 O que é Bert?
    - 2.1.2 【bert】 bert três pontos -chave?
  - 2.2 Caracterização de entrada e saída BERT
    - 2.2.1 [BERT] Como é a caracterização de entrada e saída do BERT?
  - 2.3 【Bert】 Bert pré-treinamento
    - 2.3.1 【Bert】 Bert Tarefas de pré-treinamento Introdução
    - 2.3.2 【Bert】 Bert Tarefa pré-treinamento Capítulo LM mascarado
      - 2.3.2.2 【Bert】 Por que o BERT precisa de tarefas de pré-treinamento mascaradas LM?
      - 2.3.2.2 【Bert】 Como fazer a tarefa de pré-treinamento Bert LM mascarada?
      - 2.3.2.3 【Bert】 Há algum problema com a tarefa de pré-treinamento de Bert LM mascarada?
      - 2.3.2.4 【Bert】 Solução para a incompatibilidade entre pré-treinamento e ajuste fino?
    - 2.3.3 【Bert】 Bert Tarefa de pré-treinamento Próxima previsão da frase
      - 2.3.3.1 [Bert] Por que Bert precisa de tarefas de pré-treinamento na próxima previsão de frases?
      - 2.3.3.2 【Bert】 Como fazer previsão da próxima frase na tarefa de pré-treinamento de Bert?
  - 2.4 【Bert】 Artigo fino?
    - 2.4.1 【Bert】 Por que Bert precisa de uma queda?
    - 2.4.2 【Bert】 Como fazer uma volta em Bert?
  - 2.5 【Bert】 Funções de perda de Bert?
    - 2.5.1 [BERT] Qual é a função de perda correspondente às duas tarefas de pré-treinamento de Bert (expressa na forma de fórmula)?
- 3. Comparação?
  - 3.1 [Contraste] Qual é o problema da polissinética?
  - 3.2 [Comparação] Por que o Word2vec não pode resolver o problema dos polissinônimos?
  - 3.3 [Comparação] Qual é a diferença entre GPT e Bert?
  - 3.4 [Comparação] Por que Elmo, GPT e Bert podem resolver o problema dos polissinônimos? (Tome Elmo como exemplo)

【Sobre a análise do código -fonte de Bert I's principal do corpo] coisas que você não sabe
【Sobre Bert Código Fonte Análise II Capítulo Pré-Treinamento】 Coisas que você não sabe
【Sobre a análise do código fonte de Bert
[Sobre a análise do código fonte de Bert IV Artigo de geração de vetores de sentença] Coisas que você não sabe
[Sobre Bert Código Fonte Análise v Texto Capítulo] Coisas que você não sabe

4.3.1 Entrevistas comuns para compactação do modelo Bert

Entrevista comum de compactação do modelo Bert
- 1. Modelo de Bert Motivação de compressão
- 2. Tabela de comparação de compressão do modelo Bert
- 3. Introdução ao método de compressão do modelo Bert
  - 3.1 Fator de baixo rank e compartilhamento de parâmetros de camada cruzada do método de compressão do modelo Bert
    - 3.1.1 O que é fatoração de baixa rank?
    - 3.1.2 O que é compartilhamento de parâmetros de camada cruzada?
    - 3.1.3 O método usado por Albert?
  - 3.2 Método de compressão do modelo Bert Destilação
    - 3.2.1 O que é destilação?
    - 3.2.2 Que documentos existem usando a destilação do modelo? Deixe -me apresentá -lo brevemente?
  - 3.3 Quantificação do método de compressão do modelo Bert
    - 3.3.1 O que é quantificação?
    - 3.3.2 Q-Bert: Quantização de ultra baixa precisão baseada em Hessian de Bert 【Quantificação】
  - 3.4 Método de compressão do modelo BERT Pruagem
    - 3.4.1 O que é podar?
- 4. Existe algum problema com a compactação do modelo?

4.3.2 Entrevistas comuns para Bert Model Series

Você conhece XLNet? Você pode me dizer? Qual é a diferença entre Bert?
Você conhece Roberta? Você pode me dizer? Qual é a diferença entre Bert?
Você conhece Spanbert? Você pode me dizer? Qual é a diferença entre Bert?
Você conhece a Massa? Você pode me dizer? Qual é a diferença entre Bert?

4.4 Entrevistas comuns para classificação de texto

Entrevistas comuns para classificação de texto
- 1. Proposições abstratas
  - 1.1 Quais são as categorias de tarefas de classificação? Quais são suas características?
  - 1.2 Quais são as diferenças entre as tarefas de classificação de texto em comparação com as tarefas de classificação em outros campos?
  - 1.3 Qual é a diferença entre tarefas de classificação de texto e outras tarefas no campo de texto?
  - 1.4 O processo de classificação de texto?
- 2. Pré -processamento de dados
  - 2.1 Quais são os métodos de pré -processamento de dados para tarefas de classificação de texto?
  - 2.2 Quais métodos e ferramentas de particípio da palavra você usou?
  - 2.3 Como participar de textos chineses?
  - 2.4 Qual é o princípio do método de segmentação de palavras com base na correspondência de strings?
  - 2.5 Como os modelos de linguagem estatística são aplicados ao particípio de palavras? N-gramas de probabilidade máxima?
  - 2.6 Qual é o método de segmentação de palavras baseado na anotação de sequência?
  - 2.7 Qual é a anotação de parte da fala com base no (bi-) lstm?
  - 2.8 Qual é a diferença entre a extração do STEM e a restauração da forma de palavras?
- 3. Extração de recursos
  - 3.1 (um específico) Quais características podem ser usadas na tarefa de classificação de texto?
  - 3.2 (para textos ocidentais) Qual é a diferença entre usar palavras e usar letras como características?
  - 3.3 Você pode apresentar brevemente o modelo de saco de palavras?
  - 3.4 n-grama
    - 3.4.1 O que é a sintaxe n-metod? Por que usar n grama?
    - 3.4.2 Quais são as limitações do algoritmo N-Gram?
  - 3.5 Modelagem de tópicos
    - 3.5.1 Introdução à tarefa de modelagem de tópicos?
    - 3.5.2 Métodos comuns de modelagem de tópicos
    - 3.5.3 O que o algoritmo TF-IDF faz? Uma breve introdução ao algoritmo TF-IDF
    - 3.5.4 O que significa TF-IDF High?
    - 3.5.5 As deficiências do TF-IDF
  - 3.6 similaridade de texto
    - 3.6.1 Como calcular a distância entre dois parágrafos do texto?
    - 3.6.2 O que é a distância de Jaccard?
    - 3.6.3 Qual é a diferença entre o coeficiente de dados e o coeficiente de Jaccard?
    - 3.6.4 O mesmo é a distância de edição, qual é a diferença entre a distância de Levinstein e a distância de Hamming?
    - 3.6.5 Escreva uma pergunta de programação sobre o cálculo da distância de edição (distância de Lewinstein)?
- 4. Modelo
  - 4.1 FastText
    - 4.1.1 O processo de classificação do FastText?
    - 4.1.2 Quais são as vantagens do FastText?
  - 4.2 Textcnn
    - 4.2.1 O processo de textcnn executando a classificação de texto?
    - 4.2.2 Quais parâmetros podem textcnn ajustar?
    - 4.2.3 Ao usar a CNN como classificador de texto, que informação os diferentes canais correspondem ao texto?
    - 4.2.4 O que representa o comprimento e a largura do kernel da convolução no texto?
    - 4.2.5 Qual é a diferença entre operações de agrupamento no TextCNN e as operações de pool em geral da CNN?
    - 4.2.6 Limitações do texto?
  - 4.3 DPCNN
    - 4.3.1 Como resolver a tarefa de classificação de texto longo?
    - 4.3.2 Apresente brevemente as melhorias do modelo DPCNN em comparação com o texto?
  - 4.4 Textrcnn
    - 4.4.1 Apresente brevemente as melhorias do Textrcnn em comparação com o TextCNN?
  - 4.5 RNN+ATENÇÃO
    - 4.5.1 A idéia de RNN+Atenção para tarefas de classificação de texto e por que o mecanismo de atenção/atenção precisa ser adicionado?
  - 4.6 Rede neural de gráfico GNN
    - 4.6.1 Como a rede neural do gráfico GNN é aplicada ao campo da classificação de texto?
  - 4.7 Transformador
    - 4.7.1 Como aplicar modelos pré-treinados com base no transformador no campo da classificação de texto?
  - 4.8 Modelo pré-treinado
    - 4.8.1 Quais modelos pré-treinados você conhece? Quais são suas características?
- V. Função de perda
  - 5.1 Função de ativação sigmóide
    - 5.1.1 Introdução à função de ativação Sigmóide usada para problemas de classificação binária?
    - 5.1.2 Quais são as desvantagens do Sigmod?
  - 5.2 Função de ativação Softmax
    - 5.2.1 Qual é a função Softmax?
    - 5.2.2 Como encontrar o derivado da função Softmax?
  - 5.3 Que outras funções de perda são usadas para problemas de classificação?
- 6. Avaliação do modelo e comparação de algoritmo
  - 6.1 Quais são os algoritmos e indicadores de avaliação usados nas tarefas de classificação de texto?
  - 6.2 Breve Introdução à Confusão Matrix e Kappa?

Entrevistas comuns de truque de classificação de texto
- 1. Como pré -processar dados de classificação de texto?
- 2. Como escolher um modelo pré-treinado de classificação de texto?
- 3. Como otimizar os parâmetros de classificação de texto?
- 4. Quais são as tarefas difíceis da classificação de texto?
- 5. Construção do sistema de rotulagem de classificação de texto?
- 6. Construção da estratégia de classificação de texto?

Use métodos de pesquisa para fazer entrevistas comuns para classificação de texto
- Por que precisamos usar a pesquisa para classificar o texto?
- Qual é a ideia de classificação de texto com base nos métodos de pesquisa?
- Como construir uma biblioteca de recall para o método recuperado?
- Como fazer o estágio de treinamento do método de pesquisa?
- Como fazer o estágio de previsão do método de pesquisa?
- Quais são os cenários aplicáveis para classificação de texto usando métodos de pesquisa?

4.5 entrevistas comuns para correspondência de texto

Modelo de correspondência de texto entrevistas comuns do ESIM
- Por que você precisa do ESIM?
- Que tal introduzir o modelo ESIM?

Entrevistas comuns para Bert em tarefas de correspondência de similaridade semântica
- 1. Tarefa de classificação de pares de frases: Use CLS
- 2. Similaridade de cosseno
- 3. A diferença entre textos longos e curtos
- 4. Sentença/incorporação de palavras
- 5. Método da rede siamesa

4.6 Entrevistas comuns para perguntas e respostas

4.6.1 Entrevistas comuns para perguntas e perguntas e respostas baseadas em busca de perguntas frequentes

1. Motivação
- 1.1 Motivação do sistema de perguntas e respostas?
- 1.2 Qual é o sistema de perguntas e respostas?
2. Introdução ao sistema de perguntas e respostas baseado em busca de perguntas frequentes
- 2.1 Qual é o sistema de perguntas e respostas baseado em busca de perguntas frequentes?
- 2.2 Qual é o núcleo do controle de qualidade padrão correspondente à consulta?
3. Solução de perguntas e respostas baseadas em busca de perguntas frequentes
- 3.1 Quais são as soluções comumente usadas?
- 3.2 Por que a correspondência QQ é mais comumente usada?
  - 3.2.1 Quais são as vantagens da correspondência QQ?
  - 3.2.2 Qual é o espaço semântico para a correspondência QQ?
  - 3.2.3 Qual é a estabilidade do corpus correspondente de QQ?
  - 3.2.4 Qual é a dissociação de respostas de negócios correspondentes ao QQ e modelo de algoritmo?
  - 3.2.5 Quais são a descoberta e desduplicação de novos problemas de correspondência QQ?
  - 3.2.6 Qual é a velocidade de execução on -line da correspondência QQ?
- 3.3 Qual é o processo de processamento geral para correspondência QQ? [Supondo que o banco de problemas padrão tenha sido processado]
4. Construção do Banco de Problemas Padrão de Perguntas frequentes
- 4.1 Como encontrar problemas padrão em perguntas frequentes?
- 4.2 Como dividir as perguntas frequentes?
- 4.3 Como mesclar FAQ?
- 4.4 Como atualizar a Biblioteca Padrão de Perguntas frequentes em tempo real?
5. FAQ PADRÃO PRONTAGEM BANCO Otimização de respostas
- 5.1 Como otimizar as respostas para o banco de perguntas padrão da FAQ?

4.6.2 Ferramentas de perguntas e respostas Entrevistas comuns

Entrevistas comuns do FAISS
- 1. Motivo
  - 1.1 Quais são os problemas com os algoritmos tradicionais de similaridade?
- 2. Introdução
  - 2.1 O que é FAISS?
  - 2.2 Como usar o FAISS?
  - 2.3 Princípio do FAISS e algoritmo Core
- 3. Capítulo Prático Faiss
  - 3.1 Como instalar o FAISS?
  - 3.2 Quais são os índices de índices do FAISS?
  - 3.3 Como usar o índice do FAISS '?
    - 3.3.1 Preparação de dados
    - 3.3.2 Estética violenta indexflatl2
    - 3.3.3 O Flash Indexivflat
    - 3.3.4 Indexivfpq do Gerenciador de Memória
  - 3.4 FAISS então usar GPU?
- 4. Comparação de Faiss
  - 4.1 Qual é o melhor, Sklearn Cosine_similaridade ou Faiss

4.7 Entrevistas comuns para sistema de diálogo

Entrevistas comuns para sistema de diálogo
- 1. Introdução ao sistema de diálogo
  - 1.1 Quais são os sistemas de diálogo?
  - 1.2 Quais são as diferenças entre esses sistemas de diálogo?
- 2. Introdução ao sistema de diálogo de várias rodadas
  - 2.1 Por que usar um sistema de diálogo com várias rodadas?
  - 2.2 Quais são as soluções comuns de sistema de diálogo com várias rodadas?
- 3. Introdução ao sistema de diálogo baseado em tarefas
  - 3.1 O que é um sistema de diálogo baseado em tarefas?
  - 3.2 Qual é o processo de um sistema de diálogo baseado em tarefas?
  - 3.3 Diálogo baseado em tarefas Compreensão do idioma do sistema (SLU)
    - 3.3.1 O que é o entendimento da linguagem (SLU)?
    - 3.3.2 Quais são a entrada e saída do entendimento da linguagem (SLU)?
    - 3.3.3 Quais são as técnicas usadas no entendimento da linguagem (SLU)?
  - 3.4 Sistema de diálogo baseado em tarefas DST (rastreamento de status de diálogo)
    - 3.4.1 O que é DST (rastreamento de status de diálogo)?
    - 3.4.2 Quais são a entrada e a saída do DST (rastreamento de status de diálogo)?
    - 3.4.3 O DST (rastreamento de status de diálogo) tem problemas e soluções?
    - 3.4.4 Qual é o método de implementação do DST (rastreamento de status de diálogo)?
  - 3.5 DPO (Learning Strategy Learning) do sistema de diálogo baseado em tarefas
    - 3.5.1 O que é DPO (Learning Strategy de Diálogo)?
    - 3.5.2 Quais são a entrada e a saída do DPO (Learning Strategy Learning)?
    - 3.5.3 Qual é o método de implementação do DPO (Learning Strategy de Diálogo)?
  - 3.6 NLG (geração de linguagem natural) Sistema de diálogo baseado em tarefas
    - 3.6.1 O que é NLG (geração de linguagem natural)?
    - 3.6.2 Qual é a entrada e saída de NLG (geração de linguagem natural)?
    - 3.6.3 A implementação do NLG (geração de linguagem natural) é?

4.8 Entrevistas comuns para gráficos de conhecimento

4.8.1 Entrevistas comuns para gráficos de conhecimento

1. Introdução ao gráfico de conhecimento
- 1.1 Introdução
- 1.2 O que é um gráfico de conhecimento?
  - 1.2.1 O que é gráfico?
  - 1.2.2 O que é esquema?
- 1.3 Quais são as categorias de gráficos de conhecimento?
- 1.4 Qual é o valor do gráfico de conhecimento?
2. Como construir um gráfico de conhecimento?
- 2.1 De onde vem os dados do gráfico de conhecimento?
- 2.2 Quais são as dificuldades na extração de informações?
- 2.3 As tecnologias envolvidas na construção de um gráfico de conhecimento?
- 2.4. Quais são a tecnologia específica para criar um gráfico de conhecimento?
  - 2.4.1 Reconhecimento de entidade nomeado
  - 2.4.2 Extração de relação
  - 2.4.3 Resolução da entidade
  - 2.4.4 refere -se à desambiguação
3. Como armazenar gráficos de conhecimento?
4. O que o gráfico de conhecimento pode fazer?

4.8.2 entrevistas comuns do KBQA

1. Métodos baseados no dicionário e regras
- Implementar KBQA com base no dicionário e regras?
- Implementando o processo KBQA com base no dicionário e regras?
2. Métodos baseados na extração de informações
- Implementar o processo KBQA com base na extração de informações?

4.8.3 Entrevistas comuns neo4j

1. Introdução e instalação neo4j
- 1.1 Introdução
- 1.2 Como baixar neo4j?
- 1.3 Como instalar neo4j?
- 1.4 Introdução à interface da web neo4j
- 1.5 Qual é a linguagem de consulta Cypher?
2. Adição neo4j, exclusão, pesquisa e modificação
- 2.1 Introdução
- 2.2 Como criar um nó no neo4j?
- 2.3 Como criar um relacionamento no Neo4J?
- 2.4 Como criar um relacionamento no local de nascimento no neo4j?
- 2.5 Como consultar neo4j?
- 2.6 Como excluir e modificar Neo4J?
3. Como usar o Python para operar o banco de dados de gráficos NEO4J?
- 3.1 Módulo NEO4J: Qual é a execução da instrução CQL (Cypher)?
- 3.2 Qual é o módulo PY2Neo?
4. Banco de dados de diagrama de importação de dados neo4j

4.9 Resumo do texto entrevistas comuns

1. Motivo
- 1.1 O que é um resumo de texto?
- 1.2 Quais são os tipos de técnicas de resumo do texto?
2. Resumo da extração
- 2.1 Como fazer um resumo decisivo?
  - 2.1.1 Quais são os algoritmos de avaliação de importância da frase?
  - 2.1.2 Quais são os métodos de geração de resumo baseados em restrições?
  - 2.1.3 Como o algoritmo TextTeaser extrai o resumo?
  - 2.1.4 Como o algoritmo TexTrank extrai o resumo?
- 2.2 Qual é o problema de legibilidade do resumo extraído?
3. Resumo comprimido
- 3.1 Como fazer um resumo comprimido?
4. Resumo generativo
- 4.1 Como fazer um resumo generativo?
- 4.2 Quais são os problemas com o resumo generativo?
- 4.3 Que problemas resolvem a rede-geradora de ponteiro?
V. Método de avaliação de qualidade abstrata
- 5.1 Quais são os tipos de métodos de avaliação de qualidade abstrata?
- 5.2 O que é Rouge?
- 5.3 Qual é a diferença entre vários indicadores de Rouge?
- 5.4 Qual é a diferença entre Bleu e Rouge?

4.10 Artigo de correção de erro de texto Artigo de entrevista comum

1. Introdução
- 1.1 O que é correção de erro de texto?
- 1.2 Tipos de erro de texto comuns?
- 1.3 Métodos comuns para correção de erro de texto?
2. Introdução ao método de pipeline
- Como implementar a detecção de erros no pipeline?
- Como implementar o recall de candidatos no pipeline?
- Como implementar a classificação da correção de erros no pipeline?
- Como implementar a otimização do eco ASR no pipeline?

4.11 Resumo do texto entrevistas comuns

1. Motivo
- 1.1 O que é um resumo de texto?
- 1.2 Quais são os tipos de técnicas de resumo do texto?
2. Resumo da extração
- 2.1 Como fazer um resumo decisivo?
  - 2.1.1 Quais são os algoritmos de avaliação de importância da frase?
  - 2.1.2 Quais são os métodos de geração de resumo baseados em restrições?
  - 2.1.3 Como o algoritmo TextTeaser extrai o resumo?
  - 2.1.4 Como o algoritmo TexTrank extrai o resumo?
- 2.2 Qual é o problema de legibilidade do resumo extraído?
3. Resumo comprimido
- 3.1 Como fazer um resumo comprimido?
4. Resumo generativo
- 4.1 Como fazer um resumo generativo?
- 4.2 Quais são os problemas com o resumo generativo?
- 4.3 Que problemas resolvem a rede-geradora de ponteiro?
V. Método de avaliação de qualidade abstrata
- 5.1 Quais são os tipos de métodos de avaliação de qualidade abstrata?
- 5.2 O que é Rouge?
- 5.3 Qual é a diferença entre vários indicadores de Rouge?
- 5.4 Qual é a diferença entre Bleu e Rouge?

4.12 Entrevistas comuns para geração de texto

Entrevistas comuns para métodos de decodificação para gerar modelos
- O que é um modelo generativo?
- Quais são os métodos de decodificação baseados em busca?
- Quais são os métodos de decodificação baseados em amostragem?

3. Entrevista comum de algoritmo de aprendizado profundo

Entrevistas comuns da CNN
- 1. Motivo
- 2. Camada convolucional da CNN
  - 2.1 Qual é a essência de uma camada convolucional?
  - 2.2 Qual é a conexão entre a camada convolucional da CNN e a camada totalmente conectada?
  - 2.3 O que significa canal?
- 3. Camada de pool da CNN
  - 3.1 Qual é a camada de pool para a região?
  - 3.2 Quais são os tipos de camadas de agrupamento?
  - 3.3 Qual é a função da camada de pool?
  - 3.4 Como é a backpropagação na camada de pool?
  - 3.5 Como é o conjunto de retropacagação de agrupamento?
  - 3.6 Como é a backpropagação da camada de pool?
- 4. CNN em geral
  - 4.1 Qual é o processo da CNN?
  - 4.2 Quais são as características da CNN?
  - 4.3 Por que a rede neural convolucional tem invariância translacional?
  - 4.4 Como o IM2COL é implementado na rede neural convolucional?
  - 4.5 Quais são as limitações da CNN?
- 5. CNN dilatada iterada
  - 5.1 O que está dilatado CNN Void Convolution?
  - 5.2 O que é a CNN dilatada iterada?
- 6. Deconvolução
  - 6.1 Explique os princípios e usos da desconvolução?

RNN entrevistas comuns
- 1. Rnn
  - 1.2 Por que eu preciso de RNN?
  - 1.2 Qual é a estrutura RNN?
  - 1.3 Fórmula de cálculo avançado RNN?
  - 1.4 Quais são os problemas com o RNN?
- 2. Rede de memória de curto prazo de longo prazo (LSTM)
  - 2.1 Por que você precisa de LSTM?
  - 2.2 Qual é a estrutura do LSTM?
  - 2.3 Como o LSTM mitiga os problemas do gradiente RNN que desaparece e a explosão de gradiente?
  - 2.3 Qual é o processo de LSTM?
  - 2.4 Quais são as diferenças nas funções de ativação no LSTM?
  - 2,5 complexidade LSTM?
  - 2.6 Que problemas existem LSTM?
- 3. Gru (unidade recorrente fechada)
  - 3.1 Por que você precisa de Gru?
  - 3.2 Qual é a estrutura de Gru?
  - 3.3 Cálculo a termo do GRU?
  - 3.4 Qual é a diferença entre GRU e outros modelos da série RNN?
- 4. Modelo da série RNN
  - 4.1 Quais são as características do modelo da série RNN?

Atenção entrevistas comuns
- 1. SEQ2SEQ
  - 1.1 O que é seq2seq (codificador-decodificador)?
  - 1.2 E o codificador no SEQ2SEQ?
  - 1.3 E o decodificador no SEQ2SEQ?
  - 1.4 Você conhece o SEQ2SEQ de uma perspectiva matemática?
  - 1.5 Que problemas o seq2seq tem?
- 2. Atenção
  - 2.1 O que é atenção?
  - 2.2 Por que o mecanismo de atenção é introduzido?
  - 2.3 Qual é a função da atenção?
  - 2.4 Qual é o processo de atenção?
    - Etapa 1 para executar o codificador (consistente com o seq2seq)
    - Etapa 2 Calcule o coeficiente de alinhamento a
    - Etapa 3: Calcule o vetor semântico de contexto C
    - Etapa 4 Atualize o status do decodificador
    - Etapa 5 Calcule as palavras de previsão de saída
  - 2.5 Quais são as áreas de aplicação de atenção?
- 3. Variante de atenção
  - 3.1 O que é a atenção suave?
  - 3.2 O que é dura atenção?
  - 3.3 O que é atenção global?
  - 3.4 O que é atenção local?
  - 3.5 O que é auto-atimento?

Gerando entrevistas comuns de rede adversária
- 1. Motivação
- 2. Introdução
  - 2.1 Idéias básicas de gan
  - 2.2 Introdução básica ao gan
    - 2.2.1 Estrutura básica do GaN
    - 2.2.2 Idéias básicas de gan
- 三、训练篇
  - 3.1 生成器介绍
  - 3.2 判别器介绍
  - 3.3 训练过程
  - 3.4 训练所涉及相关理论基础
- 四、总结

3.1 Transformer 常见面试篇

Transformer 常见面试篇
- 一、动机篇
  - 1.1 为什么要有Transformer?
  - 1.2 Transformer 作用是什么？
- 二、整体结构篇
  - 2.1 Transformer 整体结构是怎么样？
  - 2.2 Transformer-encoder 结构怎么样？
  - 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
  - 3.1 self-attention 模块
    - 3.1.1 传统attention 是什么?
    - 3.1.2 为什么会有self-attention?
    - 3.1.3 self-attention 的核心思想是什么?
    - 3.1.4 self-attention 的目的是什么?
    - 3.1.5 self-attention 的怎么计算的?
    - 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
    - 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型？
    - 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
    - 3.1.9 self-attention 如何解决长距离依赖问题？
    - 3.1.10 self-attention 如何并行化？
  - 3.2 multi-head attention 模块
    - 3.2.1 multi-head attention 的思路是什么样?
    - 3.2.2 multi-head attention 的步骤是什么样?
    - 3.2.3 Transformer为何使用多头注意力机制？（为什么不使用一个头）
    - 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维？
    - 3.2.5 multi-head attention 代码介绍
  - 3.3 位置编码（Position encoding）模块
    - 3.3.1 为什么要加入位置编码（Position encoding）？
    - 3.3.2 位置编码（Position encoding）的思路是什么？
    - 3.3.3 位置编码（Position encoding）的作用是什么？
    - 3.3.4 位置编码（Position encoding）的步骤是什么？
    - 3.3.5 Position encoding为什么选择相加而不是拼接呢？
    - 3.3.6 Position encoding和Position embedding的区别？
    - 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding？而Bert却采用的是Position Embedding ？
    - 3.3.8 位置编码（Position encoding）的代码介绍
  - 3.4 残差模块模块
    - 3.4.1 为什么要加入残差模块？
  - 3.5 Layer normalization 模块
    - 3.5.1 为什么要加入Layer normalization 模块？
    - 3.5.2 Layer normalization 模块的是什么？
    - 3.5.3 Batch normalization 和Layer normalization 的区别？
    - 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
    - 3.5.5 Layer normalization 模块代码介绍
  - 3.6 Mask 模块
    - 3.6.1 什么是Mask？
    - 3.6.2 Transformer 中用到几种Mask？
    - 3.6.3 能不能介绍一下Transformer 中用到几种Mask？

【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
  - 1.1 既然Transformer 怎么牛逼，是否还存在一些问题？
- 二、每个问题的解决方法是什么？
  - 2.1 问题一：Transformer 不能很好的处理超长输入问题
    - 2.1.1 Transformer 固定了句子长度？
    - 2.1.2 Transformer 固定了句子长度的目的是什么？
    - 2.1.3 Transformer 针对该问题的处理方法？
  - 2.2 问题二：Transformer 方向信息以及相对位置的缺失问题
  - 2.3 问题三：缺少Recurrent Inductive Bias
  - 问题四：问题四：Transformer是非图灵完备的：非图灵完备通俗的理解，就是无法解决所有的问题
  - 问题五：transformer缺少conditional computation；
  - 问题六：transformer 时间复杂度和空间复杂度过大问题；

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA）面试篇

一、动机篇
- 1.1 什么是数据增强？
- 1.2 为什么需要数据增强？
二、常见的数据增强方法篇
- 2.1 词汇替换篇
  - 2.1.1 什么是基于词典的替换方法？
  - 2.1.2 什么是基于词向量的替换方法？
  - 2.1.3 什么是基于MLM 的替换方法？
  - 2.1.4 什么是基于TF-IDF 的词替换？
- 2.2 词汇插入篇
  - 2.2.1 什么是随机插入法？
- 2.3 词汇交换篇
  - 2.3.1 什么是随机交换法？
- 2.4 词汇删除篇
  - 2.4.1 什么是随机删除法？
- 2.5 回译篇
  - 2.5.1 什么是回译法？
- 2.6 交叉增强篇
  - 2.6.1 什么是交叉增强篇
- 2.7 语法树篇
  - 2.7.1 什么是语法树操作？
- 2.8 对抗增强篇
  - 2.8.1 什么是对抗增强？

5.1.2 主动学习面试篇

一、动机篇
- 1.1 主动学习是什么？
- 1.2 为什么需要主动学习？
二、主动学习篇
- 2.1 主动学习的思路是什么？
- 2.2 主动学习方法的价值点在哪里？
三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
  - 3.2.1 测试集内选取“信息”量最大的数据标记
  - 3.2.2 依赖不确定度的样本选取策略（Uncertainty Sampling, US）
  - 3.2.3 基于委员会查询的方法（Query-By-Committee，QBC）

5.1.3 数据增强之对抗训练面试篇

一、介绍篇
- 1.1 什么是对抗训练？
- 1.2 为什么对抗训练能够提高模型效果？
- 1.3 对抗训练有什么特点？
- 1.4 对抗训练的作用?
二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method（FGM）
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent（PGD）

5.2 “脏数据”处理面试篇

一、动机
- 1.1 何为“脏数据”？
- 1.2 “脏数据” 会带来什么后果？
二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢？
- 2.2 置信学习方法篇
  - 2.2.1 什么是置信学习方法？
  - 2.2.2 置信学习方法优点？
  - 2.2.3 置信学习方法怎么做？
  - 2.2.4 置信学习方法怎么用？有什么开源框架？
  - 2.2.5 置信学习方法的工作原理？

5.3 batch_size设置面试篇

一、训练模型时，batch_size的设置，学习率的设置?

5.4 早停法EarlyStopping 面试篇

一、为什么要用早停法EarlyStopping？
二、早停法EarlyStopping 是什么？
三、早停法torch 版本怎么实现？

5.5 标签平滑法LabelSmoothing 面试篇

一、为什么要有标签平滑法LabelSmoothing？
二、标签平滑法是什么？
三、标签平滑法torch 怎么复现？

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

什么是Bert 未登录词？
Bert 未登录词如何处理？
Bert 未登录词各种处理方法有哪些优缺点？

5.6.2 BERT在输入层引入额外特征面试篇

BERT在输入层如何引入额外特征？

5.6.3 关于BERT 继续预训练面试篇

什么是继续预训练？
为什么会存在【数据分布/领域差异】大问题？
如何进行继续预训练？
还有哪些待解决问题？
训练数据问题解决方案？
知识缺乏问题解决方案？
知识理解缺乏问题解决方案？

5.6.4 BERT如何处理篇章级长文本面试篇

为什么Bert 不能处理长文本？
BERT 有哪些处理篇章级长文本?

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

什么是prompt？
如何设计prompt？
prompt进阶——如何自动学习prompt？
Prompt 有哪些关键要点？
Prompt 如何实现？

6.2 Prompt 文本生成面试篇

Prompt之文本生成评估手段有哪些？
Prompt文本生成具体任务有哪些？

6.3 LoRA 面试篇

什么是lora？
lora 是怎么做的呢？
lora 为什么可以这样做？
用一句话描述lora？
lora 优点是什么？
lora 缺点是什么？
lora 如何实现？

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ？
- 1.2 微调Fine-tuning 基本思想是什么？
二、轻度微调（lightweight Fine-tuning）篇
- 2.1 什么是轻度微调（lightweight Fine-tuning）？
三、适配器微调（Adapter-tuning）篇
- 3.1 什么是适配器微调（Adapter-tuning）？
- 3.2 适配器微调（Adapter-tuning）变体有哪些？
四、提示学习（Prompting）篇
- 4.1 什么是提示学习（Prompting）？
- 4.2 提示学习（Prompting）的目的是什么？
- 4.3 提示学习（Prompting）代表方法有哪些？
  - 4.3.1 前缀微调（Prefix-tining）篇
    - 4.3.1.1 什么是前缀微调（Prefix-tining）？
    - 4.3.1.2 前缀微调（Prefix-tining）的核心是什么？
    - 4.3.1.3 前缀微调（Prefix-tining）的技术细节有哪些？
    - 4.3.1.4 前缀微调（Prefix-tining）的优点是什么？
    - 4.3.1.5 前缀微调（Prefix-tining）的缺点是什么？
  - 4.3.2 指示微调（Prompt-tuning）篇
    - 4.3.2.1 什么是指示微调（Prompt-tuning）？
    - 4.3.2.2 指示微调（Prompt-tuning）的核心思想？
    - 4.3.2.3 指示微调（Prompt-tuning）的优点/贡献是什么？
    - 4.3.2.4 指示微调（Prompt-tuning）的缺点是什么？
    - 4.3.2.5 指示微调（Prompt-tuning）与Prefix-tuning 区别是什么？
    - 4.3.2.6 指示微调（Prompt-tuning）与fine-tuning 区别是什么？
  - 4.3.3 P-tuning 篇
    - 4.3.3.1 P-tuning 动机是什么？
    - 4.3.3.2 P-tuning 核心思想是什么？
    - 4.3.3.3 P-tuning 做了哪些改进？
    - 4.3.3.4 P-tuning 有哪些优点/贡献？
    - 4.3.3.5 P-tuning 有哪些缺点？
  - 4.3.4 P-tuning v2 篇
    - 4.3.4.1 为什么需要P-tuning v2？
    - 4.3.4.2 P-tuning v2 是什么？
    - 4.3.4.3 P-tuning v2 有哪些优点？
    - 4.3.4.4 P-tuning v2 有哪些缺点？
  - 4.3.5 PPT 篇
    - 4.3.5.1 为什么需要PPT ？
    - 4.3.5.2 PPT 核心思想是什么？
    - 4.3.5.3 PPT 具体做法是怎么样？
    - 4.3.5.4 常用的soft prompt初始化方法？
    - 4.3.5.5 PPT 的优点是什么？
    - 4.3.5.6 PPT 的缺点是什么？
- 4.4 提示学习（Prompting）优点是什么？
- 4.5 提示学习（Prompting）本质是什么？
五、指令微调（Instruct-tuning）篇
- 5.1 为什么需要指令微调（Instruct-tuning）？
- 5.2 指令微调（Instruct-tuning）是什么？
- 5.3 指令微调（Instruct-tuning）的优点是什么？
- 5.4 指令微调（Instruct-tuning） vs 提升学习（Prompting）？
- 5.5 指令微调（Instruct-tuning） vs 提升学习（Prompting） vs Fine-tuning？
六、指令提示微调（Instruct Prompt tuning）篇
- 6.1 为什么需要指令微调（Instruct-tuning）？
- 6.2 指令微调（Instruct-tuning）是什么？
- 6.3 指令微调（Instruct-tuning）在不同任务上性能？
七、self-instruct篇
- 7.1 什么是self-instruct？
八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ？
- 8.2 什么是Chain-of-Thought ？
- 8.3 Chain-of-Thought 的思路是怎么样的？
- 8.4 Chain-of-Thought 的优点是什么？
- 8.5 为什么chain-of-thought 会成功？
九、LoRA 篇
- 9.1 LoRA 篇
  - 9.1.1 LoRA 核心思想是什么？
  - 9.1.2 LoRA 具体思路是什么？
  - 9.1.3 LoRA 优点是什么？
  - 9.1.4 LoRA 缺点是什么？
- 9.2 AdaLoRA 篇
  - 9.2.1 AdaLoRA 核心思想是什么？
  - 9.2.2 AdaLoRA 实现思路是什么？
- 9.3 DyLoRA 篇
  - 9.3.1 AdaLoRA 动机是什么？
  - 9.3.2 AdaLoRA 核心思想是什么？
  - 9.3.3 AdaLoRA 优点是什么？
十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么？
- 10.2 AdaLoRA 优点是什么？
- 10.3 AdaLoRA 缺点是什么？

七、LLMs 面试篇

7.1 [What are the fine-tuning methods for the LLM model now? Quais são as vantagens e desvantagens de cada um?

What are the fine-tuning methods for the LLM model now? Quais são as vantagens e desvantagens de cada um?

7.2 GLM：ChatGLM的基座模型常见面试题

GLM 的核心是什么？
GLM 的模型架构是什么？
GLM 如何进行多任务训练？
在进行NLG 时， GLM 如何保证生成长度的未知性？
GLM 的多任务微调方式有什么差异？
GLM 的多任务微调方式有什么优点？

一、基础算法常见面试篇

过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么？
- 二、过拟合/高方差（overfiting / high variance）篇
  - 2.1 过拟合是什么及检验方法？
  - 2.2 导致过拟合的原因是什么？
  - 2.3 过拟合的解决方法是什么？
- 三、欠拟合/高偏差（underfiting / high bias）篇
  - 3.1 欠拟合是什么及检验方法？
  - 3.2 导致欠拟合的原因是什么？
  - 3.3 过拟合的解决方法是什么？

BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
  - 1.1 独立同分布（independent and identically distributed）与白化
  - 1.2 （ Internal Covariate Shift，ICS）
  - 1.3 ICS问题带来的后果是什么？
- 二、Normalization 篇
  - 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
  - 3.1 Batch Normalization（纵向规范化）是什么？
  - 3.2 Batch Normalization（纵向规范化）存在什么问题？
  - 3.3 Batch Normalization（纵向规范化）适用的场景是什么？
  - 3.4 BatchNorm 存在什么问题？
- 四、Layer Normalization（横向规范化）篇
  - 4.1 Layer Normalization（横向规范化）是什么？
  - 4.2 Layer Normalization（横向规范化）有什么用？
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效？

激活函数常见面试篇
- 一、动机篇
  - 1.1 为什么要有激活函数？
- 二、激活函数介绍篇
  - 2.1 sigmoid 函数篇
    - 2.1.1 什么是sigmoid 函数？
    - 2.1.2 为什么选sigmoid 函数作为激活函数？
    - 2.1.3 sigmoid 函数有什么缺点？
  - 2.2 tanh 函数篇
    - 2.2.1 什么是tanh 函数？
    - 2.2.2 为什么选tanh 函数作为激活函数？
    - 2.2.3 tanh 函数有什么缺点？
  - 2.3 relu 函数篇
    - 2.3.1 什么是relu 函数？
    - 2.3.2 为什么选relu 函数作为激活函数？
    - 2.3.3 relu 函数有什么缺点？
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0，L1，L2正则化篇
  - 1.1 正则化是什么？
  - 1.2 什么是L0 正则化？
  - 1.3 什么是L1 （稀疏规则算子Lasso regularization）正则化？
  - 1.4 什么是L2 正则化（岭回归Ridge Regression 或者权重衰减Weight Decay）正则化？
- 二、对比篇
  - 2.1 什么是结构风险最小化？
  - 2.2 从结构风险最小化的角度理解L1和L2正则化
  - 2.3 L1 vs L2
- 三、dropout 篇
  - 3.1 什么是dropout？
  - 3.2 dropout 在训练和测试过程中如何操作？
  - 3.3 dropout 如何防止过拟合?

优化算法及函数常见面试篇
- 一、动机篇
  - 1.1 为什么需要优化函数？
  - 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
  - 2.1 梯度下降法是什么?
  - 2.2 随机梯度下降法是什么?
  - 2.3 Momentum 是什么?
  - 2.4 SGD with Nesterov Acceleration 是什么?
  - 2.5 Adagrad 是什么?
  - 2.6 RMSProp/AdaDelta 是什么？
  - 2.7 Adam 是什么?
  - 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇

归一化常见面试篇
- 一、动机篇
  - 1.1 为什么要归一化？
- 二、介绍篇
  - 2.1 归一化有哪些方法？
  - 2.2 归一化各方法特点？
  - 2.3 归一化的意义？
- Iii. Aplicativo
  - 3.1 哪些机器学习算法需要做归一化？
  - 3.2 哪些机器学习算法不需要做归一化？

判别式（discriminative）模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
  - 1.1 什么是判别式模型？
  - 1.2 判别式模型是思路是什么？
  - 1.3 判别式模型的优点是什么？
- 二、生成式模型篇
  - 2.1 什么是生成式模型？
  - 2.2 生成式模型是思路是什么？
  - 2.3 生成式模型的优点是什么？
  - 2.4 生成式模型的缺点是什么？

二、机器学习算法篇常见面试篇

逻辑回归常见面试篇
- 一、介绍篇
  - 1.1什么是逻辑回归
  - 1.2逻辑回归的优势
- 二、推导篇
  - 2.1逻辑回归推导
  - 2.2求解优化

支持向量机常见面试篇
- 一、原理篇
  - 1.1 什么是SVM？
    - QA
  - 1.2 SVM怎么发展的？
  - 1.3 SVM存在什么问题？
    - QA
- 二、算法篇
  - 2.1 什么是块算法？
  - 2.2 什么是分解算法？
  - 2.3 什么是序列最小优化算法？
  - 2.4 什么是增量算法？
    - QA
- 三、其他SVM篇
  - 3.1 什么是最小二次支持向量机？
  - 3.2 什么是模糊支持向量机？
  - 3.3 什么是粒度支持向量机？
  - 3.4 什么是多类训练算法？
  - 3.5 什么是孪生支持向量机？
  - 3.6 什么是排序支持向量机？
    - QA
- 4. Aplicativo
  - 4.1 模式识别
  - 4.2 网页分类
  - 4.3 系统建模与系统辨识
  - 4.4 其他
- 五、对比篇
- 六、拓展篇

集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
  - 2.1 Introdução
    - 2.1.1 集成学习的基本思想是什么？
    - 2.1.2 集成学习为什么有效？
- 三、 Boosting 篇
  - 3.1 用一句话概括Boosting？
  - 3.2 Boosting 的特点是什么？
  - 3.3 Boosting 的基本思想是什么？
  - 3.4 Boosting 的特点是什么？
  - 3.5 GBDT 是什么？
  - 3.6 Xgboost 是什么？
- 四、Bagging 篇
  - 4.1 用一句话概括Bagging？
  - 4.2 Bagging 的特点是什么？
  - 4.3 Bagging 的基本思想是什么？
  - 4.4 Bagging 的基分类器如何选择？
  - 4.5 Bagging 的优点是什么？
  - 4.6 Bagging 的特点是什么？
  - 4.7 随机森林是什么？
- 五、 Stacking 篇
  - 5.1 用一句话概括Stacking ？
  - 5.2 Stacking 的特点是什么？
  - 5.3 Stacking 的基本思路是什么？
- 6. Perguntas frequentemente feitas
  - 6.1 为什么使用决策树作为基学习器？
  - 6.2 为什么不稳定的学习器更适合作为基学习器？
  - 6.3 哪些模型适合作为基学习器？
  - 6.4 Bagging 方法中能使用线性分类器作为基学习器吗？ Boosting 呢？
  - 6.5 Boosting/Bagging 与偏差/方差的关系？
- 七、对比篇
  - 7.1 LR vs GBDT?

九、【关于Python 】那些你不知道的事

【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs？
  - 1.1 为什么会有*args 和**kwargs？
  - 1.2 *args 和**kwargs 的用途是什么？
  - 1.3 *args 是什么？
  - 1.4 **kwargs是什么？
  - 1.5 *args 与**kwargs 的区别是什么？
- 二、什么是装饰器？
  - 2.1 装饰器是什么？
  - 2.2 装饰器怎么用？
- 三、Python垃圾回收（GC）
  - 3.1 垃圾回收算法有哪些？
  - 3.2 引用计数（主要）是什么？
  - 3.3 标记-清除是什么？
  - 3.4 分代回收是什么？
- 四、python的sorted函数对字典按key排序和按value排序
  - 4.1 python 的sorted函数是什么？
  - 4.2 python 的sorted函数举例说明？
- 五、直接赋值、浅拷贝和深度拷贝
  - 5.1 概念介绍
  - 5.2 介绍
  - 5.3 变量定义流程
  - 5.3 赋值
  - 5.4 浅拷贝
  - 5.5 深度拷贝
  - 5.6 核心：不可变对象类型and 可变对象类型
    - 5.6.1 不可变对象类型
    - 5.6.2 可变对象类型
- 六、进程、线程、协程
  - 6.1 进程
    - 6.1.1 什么是进程？
    - 6.1.2 进程间如何通信？
  - 6.2 线程
    - 6.2.1 什么是线程？
    - 6.2.2 线程间如何通信？
  - 6.3 进程vs 线程
    - 6.3.1 区别
    - 6.3.2 应用场景
  - 6.4 协程
    - 6.4.1 什么是协程？
    - 6.4.2 协程的优点？
- 七、全局解释器锁
  - 7.1 什么是全局解释器锁？
  - 7.2 GIL有什么作用？
  - 7.3 GIL有什么影响？
  - 7.4 如何避免GIL带来的影响？

十、【关于Tensorflow 】那些你不知道的事

【关于Tensorflow 损失函数】那些你不知道的事
- 一、动机
- 二、什么是损失函数？
- 三、目标函数、损失函数、代价函数之间的关系与区别？
- 四、损失函数的类别
  - 4.1 回归模型的损失函数
    - （1）L1正则损失函数（即绝对值损失函数）
    - （2）L2正则损失函数（即欧拉损失函数）
    - （3）均方误差（MSE, mean squared error）
    - （4）Pseudo-Huber 损失函数
  - 4.2 分类模型的损失函数
    - （1）Hinge损失函数
    - （2）两类交叉熵（Cross-entropy）损失函数
    - （3）Sigmoid交叉熵损失函数
    - （4）加权交叉熵损失函数
    - （5）Softmax交叉熵损失函数
    - (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Resumo

Expandir

NLP Interview Notes

PNL é incomum

4. Entrevistas comuns para algoritmos de aprendizagem de PNL

4.1 Entrevistas comuns para extração de informações

4.1.1 Entrevistas comuns para nomear o reconhecimento de entidades

4.1.2 Entrevistas comuns para desenho de relacionamento

4.1.3 Extração de eventos Entrevistas comuns

4.2 Entrevistas comuns para algoritmos de pré-treinamento de PNL

4.3 Entrevistas comuns do Bert

4.3.1 Entrevistas comuns para compactação do modelo Bert

4.3.2 Entrevistas comuns para Bert Model Series

4.4 Entrevistas comuns para classificação de texto

4.5 entrevistas comuns para correspondência de texto

4.6 Entrevistas comuns para perguntas e respostas

4.6.1 Entrevistas comuns para perguntas e perguntas e respostas baseadas em busca de perguntas frequentes

4.6.2 Ferramentas de perguntas e respostas Entrevistas comuns

4.7 Entrevistas comuns para sistema de diálogo

4.8 Entrevistas comuns para gráficos de conhecimento

4.8.1 Entrevistas comuns para gráficos de conhecimento

4.8.2 entrevistas comuns do KBQA

4.8.3 Entrevistas comuns neo4j

4.9 Resumo do texto entrevistas comuns

4.10 Artigo de correção de erro de texto Artigo de entrevista comum

4.11 Resumo do texto entrevistas comuns

4.12 Entrevistas comuns para geração de texto

3. Entrevista comum de algoritmo de aprendizado profundo

3.1 Transformer 常见面试篇

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA） 面试篇

5.1.2 主动学习面试篇

5.1.3 数据增强之对抗训练面试篇

5.2 “脏数据”处理面试篇

5.3 batch_size设置面试篇

5.4 早停法EarlyStopping 面试篇

5.5 标签平滑法LabelSmoothing 面试篇

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

5.6.2 BERT在输入层引入额外特征面试篇

5.6.3 关于BERT 继续预训练面试篇

5.6.4 BERT如何处理篇章级长文本面试篇

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

6.2 Prompt 文本生成面试篇

6.3 LoRA 面试篇

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

七、LLMs 面试篇

7.1 [What are the fine-tuning methods for the LLM model now? Quais são as vantagens e desvantagens de cada um?

7.2 GLM：ChatGLM的基座模型常见面试题

一、基础算法常见面试篇

二、机器学习算法篇常见面试篇

九、【关于Python 】那些你不知道的事

十、【关于Tensorflow 】那些你不知道的事

5.1.1 数据增强（EDA）面试篇