La PNL est rare
INTRODUCTION: Ce projet est un entretien de notes d'étude et de matériel préparé par le traitement du langage naturel (NLP) basé sur des entretiens et des expériences personnels. Ce matériel contient actuellement l'accumulation de questions d'entrevue dans divers domaines du traitement du langage naturel.

> NLP Interview and Exchange Group (Remarque: Si vous êtes plein, vous pouvez ajouter l'éditeur WX: Yzyykm666 pour rejoindre le groupe!)

4. Entretiens courants pour les algorithmes d'apprentissage des PNL
4.1 Entrevues courantes pour l'extraction d'informations
4.1.1 Entretiens communs pour la reconnaissance des entités de dénomination
- Algorithme de Markov caché hmm interviews courantes
- 1. Introduction aux informations de base
- 1.1 Qu'est-ce qu'un modèle de graphique de probabilité?
- 1.2 Qu'est-ce que l'aéroport aléatoire?
- 2. Introduction au processus Markov
- 2.1 Quel est le processus Markov?
- 2.2 Quelle est l'idée principale du processus de Markov?
- Iii. Algorithme de Markov caché
- 3.1 Introduction à l'algorithme Hidden Markov
- 3.1.1 Quel est l'algorithme de Markov caché?
- 3.1.2 Quelles sont les deux séquences de l'algorithme de Markov caché?
- 3.1.3 Quelles sont les trois matrices de l'algorithme de Markov caché?
- 3.1.4 Quelles sont les deux hypothèses dans l'algorithme de Markov caché?
- 3.1.5 Quel est le flux de travail dans l'algorithme de Markov caché?
- 3.2 Processus de calcul du modèle d'algorithme de Markov caché
- 3.2.1 Quel est le processus de formation de l'apprentissage de l'algorithme de Markov caché?
- 3.2.2 Quel est le processus d'annotation de séquence (décodage) de l'algorithme de Markov caché?
- 3.2.3 Quel est le processus de probabilité de séquence de l'algorithme de Markov caché?
- 3.3 Problème d'algorithme de Markov caché
Cliquez pour afficher la réponse
- Entropie maximale Markov Modèle Memm Interviews courantes
- 4. Entropie maximale Modèle Markov (MEMM)
- 4.1 Motivation maximale d'entropie Markov (MEMM)
- 4.1.1 Quels sont les problèmes avec HMM?
- 4.2 Introduction au modèle Markov d'entropie maximale (MEMM)
- 4.2.1 À quoi ressemble le modèle de Markov d'entropie maximal (MEMM)?
- 4.2.2 Entropie maximale Modèle Markov (MEMM) Comment résoudre le problème HMM?
- 4.3 Problème maximal de Markov Entropy Markov (MEMM)
Cliquez pour afficher la réponse
- Entretiens communs de l'aéroport aléatoire conditionnel (CRF)
- 5. Champ aléatoire conditionnel (CRF)
- 5.1 CRF Motif
- 5.1.1 Quels sont les problèmes avec HMM et MEMM?
- 5.2 Introduction du CRF
- 5.2.1 Qu'est-ce que le CRF?
- 5.2.2 Quelle est l'idée principale du CRF?
- 5.2.3 Quelle est la définition du CRF?
- 5.2.4 Quel est le processus de CRF?
- 5.3 Avantages et inconvénients du CRF
- 5.3.1 Quels sont les avantages du CRF?
- 5.3.2 Quels sont les inconvénients du CRF?
- 5.4 Reproduction du CRF?
- 6. Comparaison
- 6.1 Quelle est la différence entre le modèle CRF et le modèle HMM et MEMM?
Cliquez pour afficher la réponse
- DNN-CRF interviews courantes
- 1. Informations de base
- 1.1 Quels sont les indicateurs d'évaluation pour la reconnaissance des entités de dénomination?
- 2. Méthode de reconnaissance d'entité de dénomination traditionnelle
- 2.1 Quelle est la méthode basée sur les règles de dénomination de la reconnaissance des entités?
- 2.2 Quelle est la méthode de reconnaissance des entités de dénomination basée sur l'apprentissage non supervisé?
- 2.3 Quelle est la méthode de reconnaissance des entités nommée basée sur l'apprentissage supervisé basé sur les fonctionnalités?
- 3. Méthode de reconnaissance des entités de dénomination basée sur l'apprentissage en profondeur
- 3.1 Quels sont les avantages des méthodes de reconnaissance des entités nommées basées sur l'apprentissage en profondeur par rapport aux méthodes de reconnaissance des entités nommées basées sur l'apprentissage automatique?
- 3.2 Quelle est la structure de la méthode de reconnaissance des entités nommée basée sur l'apprentissage en profondeur?
- 3.3 Qu'est-ce qu'une couche d'entrée distribuée et quelles sont les méthodes?
- 3.4 Encodeur de texte
- 3.4.1 Bilstm-CRF
- 3.4.1.1 Qu'est-ce que BILSTM-CRF?
- 3.4.1.2 Pourquoi utiliser Bilstm?
- 3.4.2 IDCNN-CRF
- 3.4.2.1 Qu'est-ce que CNN dilaté?
- 3.4.2.2 Pourquoi y a-t-il un CNN dilaté?
- 3.4.2.3 Quels sont les avantages du CNN dilaté?
- 3.4.2.4 Introduction à IDCNN-CRF
- 3.5 Décodeur de balises
- 3.5.1 Quel est le décodeur de balises?
- 3.5.2 Introduction à la couche MLP + Softmax?
- 3.5.3 Introduction à la couche CRF de champ aléatoire conditionnelle?
- 3.5.4 Introduction à la couche RNN du réseau neuronal récurrent?
- 3.5.3 Introduction à la couche de réseau de pointeur?
- 4. Comparaison
- 4.1 CNN-CRF VS BILSTM-CRF VS IDCNN-CRF?
- 4.2 Pourquoi DNN doit-il ajouter du CRF?
- 4.3 CRF dans TensorFlow vs CRF dans la boîte à outils discrète?
Cliquez pour afficher la réponse
- Interviews courantes sur le terrain chinois
- 1. Motif
- 1.1 Quelle est la différence entre la reconnaissance chinoise des entités nommée et l'anglais nommé la reconnaissance des entités?
- 2. Amélioration du vocabulaire
- 2.1 Qu'est-ce que l'amélioration du vocabulaire?
- 2.2 Pourquoi la méthode "amélioration du vocabulaire" est-elle efficace pour les tâches NER chinois?
- 2.3 Quelles sont les méthodes d'amélioration du vocabulaire?
- 2.4 Architecture dynamique
- 2.4.1 Qu'est-ce que l'architecture dynamique?
- 2.4.2 Quelles sont les méthodes courantes?
- 2.4.3 Qu'est-ce que le réseau LSTM et quels sont les problèmes?
- 2.4.4 Qu'est-ce qui est plat et quels sont les problèmes?
- 2.5 Paradigme d'adaptation adaptative
- 2.5.1 Quel est le paradigme d'adaptation adaptatif?
- 2.5.2 Quelles sont les méthodes courantes?
- 2.5.3 Qu'est-ce que WC-LSTM et quels sont les problèmes?
- 3. Amélioration des informations sur le type de vocabulaire / entité
- 3.1 Qu'est-ce que l'amélioration des informations du type de vocabulaire / entité?
- 3.2 Pourquoi la méthode des "Entity Type Information Amélioration" est-elle efficace pour les tâches NER chinois?
- 3.3 Quelles sont les méthodes pour améliorer les informations de type de vocabulaire / entité?
- 3.4 Qu'est-ce que Lex-Bert?
Cliquez pour afficher la réponse
- Trick de reconnaissance entité nommée interviews communes
- Trick 1: correspondance du dictionnaire de domaine
- Trick 2: Extraction des règles
- Trick 3: Sélection du vecteur de mots: vecteur de mots ou vecteur de mot?
- Trick 4: Comment choisir un extracteur de fonctionnalités?
- Trick 5: Comment gérer un nom distingué?
- Trick 6: Comment gérer les données d'étiquetage insuffisantes?
- Trick 7: Comment gérer la reconnaissance des entités nommées imbriquées
- 7.1 Qu'est-ce que la nidification de l'entité?
- 7.2 Différences par rapport aux tâches traditionnelles de reconnaissance des entités nommées
- 7.3 Solution:
- 7.3.1 Méthode 1: Annotation de séquence
- 7.3.2 Méthode 2: Annotation du pointeur
- 7.3.3 Méthode 3: Annotation à longue tête
- 7.3.4 Méthode 4: Arrangement de fragments
- Trick 8: Pourquoi la méthode "amélioration du vocabulaire" est-elle efficace pour les tâches NER chinois?
- Trick 9: Que dois-je faire si la durée de l'entité NER est trop longue?
- Trick 10: Problème de bruit des données d'étiquetage NER?
- Trick 11: Compte tenu de deux tâches de reconnaissance entités nommées, une tâche a suffisamment de données et l'autre a très peu de données. Que puis-je faire?
- Astuce 12: Le problème du déséquilibre des données d'étiquetage du NER est-il?
Cliquez pour afficher la réponse
4.1.2 Entretiens communs pour le dessin relationnel
- Relation dessinant des entretiens communs
- 1. Motif
- 1.1 Qu'est-ce que l'extraction relationnelle?
- 1.2 Quels sont les types de techniques d'extraction relationnelle?
- 1.3 Comment effectuer des processus d'extraction des relations courantes?
- 2. Extraction de relation classique
- 2.1 À quoi se réfère la méthode de correspondance du modèle? Quels sont les avantages et les inconvénients?
- 2.2 À quoi se réfère l'extraction de la relation de supervision à distance? Quels sont ses avantages et ses inconvénients?
- 2.3 Qu'est-ce que la relation se chevauche? Problèmes relationnels complexes?
- 2.4 Qu'est-ce que l'extraction articulaire? Quelles sont les difficultés?
- 2.5 Quelles sont les méthodes globales d'extraction articulaire? Quelles sont leurs lacunes?
- 2.6 Introduction à la méthode d'extraction articulaire basée sur des paramètres partagés?
- 2.7 Introduction au décodage conjoint basé sur le décodage conjoint?
- 2.8 Quelles sont les technologies de pointe et les défis dans l'extraction des relations entités? Comment résoudre l'extraction des relations d'entité sous des ressources faibles et des échantillons complexes?
- 3. Extraction de relation au niveau du document
- 3.1 Quelle est la différence entre l'extraction des relations au niveau du document et l'extraction des relations classiques?
- 3.2 Quels problèmes sont rencontrés dans l'extraction des relations au niveau du document?
- 3.3 Quelles sont les méthodes d'extraction des relations au niveau du document?
- 3.3.1 Comment l'extraction des relations de document est-elle basée sur Bert-like terminée?
- 3.3.2 Comment l'extraction de la relation de document basée sur les graphiques est-elle effectuée?
- 3.4 Quels sont les ensembles de données communs pour l'extraction des relations au niveau du document et leurs méthodes d'évaluation?
Cliquez pour afficher la réponse
4.1.3 Extraction d'événements Interviews courantes
- Événement dessinant des interviews courantes
- 1. Principes
- 1.1 Qu'est-ce qu'un événement?
- 1.2 Qu'est-ce que l'extraction des événements?
- 1.3 Quels sont les termes et tâches de base impliqués dans l'extraction d'événements dans l'évaluation de l'ECA?
- 1.4 Comment se développe l'extraction des événements?
- 1.5 Quels sont les problèmes d'extraction d'événements?
- 2. Tâches de base
- 2.1 Détection des mots déclencheurs
- 2.1.1 Qu'est-ce que la détection des mots de déclenchement?
- 2.1.2 Quelles sont les méthodes de déclenchement de la détection des mots?
- 2.2 Identification de type
- 2.2.1 Qu'est-ce que la reconnaissance du type?
- 2.2.2 Quelles sont les méthodes d'identification des types?
- 2.3 Reconnaissance des rôles
- 2.3.1 Qu'est-ce que la reconnaissance des rôles?
- 2.3.2 Quelles sont les méthodes de reconnaissance des rôles?
- 2.4 Détection d'arguments
- 2.4.1 Qu'est-ce que la détection d'argument?
- 2.4.2 Quelles sont les méthodes de détection d'arguments?
- 3. Méthodes courantes
- 3.1 Comment utiliser la méthode de correspondance de motifs dans l'extraction d'événements?
- 3.2 Comment les méthodes d'apprentissage automatique statistiques sont-elles utilisées dans l'extraction d'événements?
- 3.3 Comment les méthodes d'apprentissage en profondeur sont-elles utilisées dans l'extraction d'événements?
- Iv. Ensembles de données et indicateurs d'évaluation
- 4.1 Quels sont les ensembles de données anglais courants dans l'extraction d'événements?
- 4.2 Quels sont les ensembles de données chinois communs dans l'extraction d'événements?
- 4.3 Quels sont les indicateurs d'évaluation pour l'extraction d'événements? Comment le calculer?
- 5. Comparaison
- 5.1 Quelles sont les similitudes et les différences entre l'extraction d'événements et la reconnaissance des entités nommées (c'est-à-dire l'extraction d'entité)?
- 5.2 Quelles sont les similitudes et les différences entre l'extraction des événements et l'extraction des relations?
- 5.3 Qu'est-ce qu'une carte des facteurs? Quels sont les types de relations d'événement? Comment construire une carte rationnelle? Quels sont les principaux domaines techniques et les points chauds de développement actuels?
- 6. Application
- 7. Expansion
- 7.1 Résumé des documents d'extraction d'événements
- 7.2 FAQ d'extraction d'événements
4.2 Entrevues courantes pour les algorithmes de pré-formation PNL
- 【Sur TF-IDF】 Choses que vous ne savez pas
- 1.
- 1.1 Pourquoi y a-t-il un hot?
- 1.2 Qu'est-ce que un hot?
- 1.3 Quelles sont les caractéristiques d'un hot?
- 1.4 Quels sont les problèmes avec un hot?
- 2. TF-IDF
- 2.1 Qu'est-ce que TF-IDF?
- 2.2 Comment TF-IDF évalue-t-il l'importance des mots?
- 2.3 Quelle est l'idée de TF-IDF?
- 2.4 Quelle est la formule de calcul pour TF-IDF?
- 2.5 Comment décrire TF-IDF?
- 2.6 Quels sont les avantages de TF-IDF?
- 2.7 Quels sont les inconvénients de TF-IDF?
- 2.8 Application de TF-IDF?
Cliquez pour afficher la réponse
- 【Sur word2vec】 choses que vous ne savez pas
- 1. Introduction à Wordvec
- 1.1 Que signifie Wordvec?
- 1.2 Que signifie CBOW dans WordVec?
- 1.3 Que signifie Skip-Gram dans WordVec?
- 1.4 Lequel est le meilleur pour CBOW VS Skip-Gram?
- 2. Article d'optimisation de Wordvec
- 2.1 Qu'est-ce que l'arbre Hoffman dans Word2Vec?
- 2.2 Pourquoi avez-vous besoin d'utiliser Hoffman Tree dans Word2Vec?
- 2.3 Quels sont les avantages de l'utilisation d'arbres Hoffman dans Word2Vec?
- 2.4 Pourquoi l'échantillonnage négatif est-il utilisé dans Word2Vec?
- 2.5 À quoi ressemble l'échantillonnage négatif dans Word2Vec?
- 2.6 Quelle est la méthode d'échantillonnage d'échantillonnage négatif dans Word2Vec?
- 3. Comparaison Wordvec
- 3.1 Quelle est la différence entre Word2Vec et Nnlm? (word2vec vs nnlm)
- 3.2 Quelle est la différence entre Word2VEC et TF-IDF dans le calcul de la similitude?
- 4. CHAPITRE PRATIQUE WORD2VEC
- 4.1 Tricot de formation Word2Vec, quelle est la taille de la fenêtre?
- 4.1 Tricot de formation Word2Vec, Latitude du vecteur de mots, quels sont les effets des grands et des petits et autres paramètres?
Cliquez pour afficher la réponse
- 【À propos de FastText】 Les choses que vous ne savez pas
- 1. Motivation rapide
- 1.1 Qu'est-ce que le modèle de niveau mot?
- 1.2 Quels sont les problèmes avec le modèle de niveau mot?
- 1.3 Qu'est-ce que le modèle au niveau des caractéristiques?
- 1.4 Avantages du modèle au niveau des caractères?
- 1.5 Y a-t-il un problème avec le modèle au niveau des caractères?
- 1.6 Solution au problème du modèle au niveau des caractéristiques?
- 2. Introduction aux informations N-gram en mots (sous-mots n-gram Informations)
- 2.1 Introduction
- 2.2 Qu'est-ce que FastText?
- 2.3 Quelle est la structure de FastText?
- 2.4 Pourquoi FastText utilise-t-il des informations N-gram dans le mot (sous-mots n-gram informations)?
- 2.5 Introduction aux informations N-gram dans le mot rapide (sous-mots n-gram Informations)?
- 2.6 Le processus de formation des informations N-gram dans le mot rapide?
- 2.7 Y a-t-il un problème avec les informations N-gram dans le mot rapide?
- 3. Introduction à la régression hiérarchique Softmax (Hiérarchical Softmax)
- 3.1 Pourquoi utiliser la régression hiérarchique Softmax?
- 3.2 Quelle est l'idée de la régression hiérarchique Softmax?
- 3.3 Quelles sont les étapes de la régression hiérarchique Softmax?
- 4. Y a-t-il un problème avec FastText?
Cliquez pour afficher la réponse
- 【À propos d'Elmo】 Ce que vous ne savez pas
- 1. Motivation Elmo
- 1.1 Pourquoi y a-t-il Elmo?
- 2. Introduction d'Elmo
- 2.1 Quelles sont les caractéristiques d'Elmo?
- 2.2 Quelle est la pensée d'Elmo?
- 3. Questions d'Elmo
- 3.1 Quels sont les problèmes avec Elmo?
Cliquez pour afficher la réponse
4.3 Entretiens communs de Bert
- Bert des entretiens communs
- 1. Motif
- 1.1 [Historique de l'évolution] Y a-t-il un problème avec un hot?
- 1.2 [Historique de l'évolution] Il y a un problème avec WordVec?
- 1.3 [Historique de l'évolution] Y a-t-il un problème avec FastText?
- 1.4 [Historique de l'évolution] Y a-t-il un problème avec Elmo?
- 2. Bert
- 2.1 Introduction de Bert
- 2.1.1 【Bert】 Qu'est-ce que Bert?
- 2.1.2 【Bert】 Bert trois points clés?
- 2.2 Caractérisation de l'entrée et de la sortie de Bert
- 2.2.1 [Bert] À quoi ressemble la caractérisation de l'entrée et de la sortie Bert?
- 2.3 【Bert】 Bert pré-formation
- 2.3.1 【Bert】 Tâches de pré-formation Bert Introduction
- 2.3.2 【Bert】 Chapitre LM tâche de pré-formation Bert】 Bert Bert
- 2.3.2.1 【Bert】 Pourquoi Bert a-t-il besoin de tâches pré-formation masquées LM?
- 2.3.2.2 【Bert】 Comment faire la tâche de pré-formation Bert Masée LM?
- 2.3.2.3 【Bert】 Y a-t-il un problème avec la tâche de pré-formation Bert Masée LM?
- 2.3.2.4 【Bert】 Solution à l'inadéquation entre la pré-formation et le réglage fin?
- 2.3.3 【Bert】 Tâche de pré-formation Bert Prédiction de phrase suivante
- 2.3.3.1 [Bert] Pourquoi Bert a-t-il besoin de tâches de pré-formation suivantes prédiction de la phrase?
- 2.3.3.2 【Bert】 Comment faire la prédiction de phrase suivante dans la tâche de pré-formation Bert?
- 2.4 【Bert】 Article de tournage fin?
- 2.4.1 【Bert】 Pourquoi Bert a-t-il besoin de tournage fin?
- 2.4.2 【Bert】 Comment faire demi-tour à Bert?
- 2,5 【Bert】 Fonctions de perte de Bert?
- 2.5.1 [Bert] Quelle est la fonction de perte correspondant aux deux tâches pré-formation de Bert (exprimées sous forme de formule)?
- 3. Comparaison?
- 3.1 [contraste] Quel est le problème des polynthétiques?
- 3.2 [Comparaison] Pourquoi Word2VEC ne peut-il pas résoudre le problème des polynonymes?
- 3.3 [Comparaison] Quelle est la différence entre GPT et Bert?
- 3.4 [Comparaison] Pourquoi Elmo, GPT et Bert peuvent-ils résoudre le problème des polynonymes? (Prenez Elmo comme exemple)
Cliquez pour afficher la réponse
- 【À propos de l'analyse du code source de Bert
- 【À propos de Bert Source Code Analysis II CHAPITRE PRE-TRAITE
- 【À propos de Bert Source Code Analysis III Chapitre de réglage fin】 Choses que vous ne savez pas
- [À propos de Bert Source Code Analysis IV Striment Vector Generation Article] Choses que vous ne savez pas
- [À propos de Bert Source Code Analysis V Chapitre de similitude de texte] Choses que vous ne savez pas
4.3.1 Entretiens communs pour la compression du modèle Bert
- Entretien commun de la compression du modèle Bert
- 1. Motivation de compression du modèle Bert
- 2. Tableau de comparaison de compression du modèle Bert
- 3. Introduction à la méthode de compression du modèle Bert
- 3.1 Factorisation de faible rang et partage des paramètres de couche transversale de la méthode de compression du modèle Bert
- 3.1.1 Qu'est-ce que la factorisation de faible rang?
- 3.1.2 Qu'est-ce que le partage des paramètres de couche transversale?
- 3.1.3 La méthode utilisée par Albert?
- 3.2 Distillation de la méthode de compression du modèle Bert
- 3.2.1 Qu'est-ce que la distillation?
- 3.2.2 Quels articles y a-t-il en utilisant la distillation du modèle? Permettez-moi de le présenter brièvement?
- 3.3 Quantification de la méthode de compression du modèle Bert
- 3.3.1 Qu'est-ce que la quantification?
- 3,3
- 3.4 élagage de la méthode de compression du modèle Bert
- 3.4.1 Qu'est-ce que l'élagage?
- 4. Y a-t-il un problème avec la compression du modèle?
Cliquez pour afficher la réponse
4.3.2 Interviews courantes pour la série de modèles Bert
- Connaissez-vous xlnet? Pouvez-vous me dire? Quelle est la différence entre Bert?
- Connaissez-vous Roberta? Pouvez-vous me dire? Quelle est la différence entre Bert?
- Connaissez-vous Spanbert? Pouvez-vous me dire? Quelle est la différence entre Bert?
- Connaissez-vous la messe? Pouvez-vous me dire? Quelle est la différence entre Bert?
Cliquez pour afficher la réponse
4.4 Entrevues courantes pour la classification du texte
- Entrevues courantes pour la classification du texte
- 1. Propositions abstraites
- 1.1 Quelles sont les catégories de tâches de classification? Quelles sont leurs caractéristiques?
- 1.2 Quelles sont les différences entre les tâches de classification du texte par rapport aux tâches de classification dans d'autres champs?
- 1.3 Quelle est la différence entre les tâches de classification du texte et les autres tâches dans le champ de texte?
- 1.4 Le processus de classification du texte?
- 2. Prétraitement des données
- 2.1 Quelles sont les méthodes de prétraitement des données pour les tâches de classification du texte?
- 2.2 Quelles méthodes et outils de participe des mots avez-vous utilisés?
- 2.3 Comment participer les textes chinois?
- 2.4 Quel est le principe de la méthode de segmentation des mots basée sur la correspondance des chaînes?
- 2.5 Comment les modèles de langage statistique sont-ils appliqués au participe Word? N-gramme de probabilité maximale participe?
- 2.6 Quelle est la méthode de segmentation des mots basée sur l'annotation de séquence?
- 2.7 Quelle est l'annotation partielle du discours basée sur (bi-) LSTM?
- 2.8 Quelle est la différence entre l'extraction de la tige et la restauration de la forme des mots?
- 3. Extraction de caractéristiques
- 3.1 (un spécifique) Quelles caractéristiques peuvent être utilisées dans la tâche de classification du texte?
- 3.2 (pour les textes occidentaux) Quelle est la différence entre l'utilisation de mots et l'utilisation de lettres comme caractéristiques?
- 3.3 Pouvez-vous introduire brièvement le modèle de sac de mots?
- 3,4 n-gramme
- 3.4.1 Qu'est-ce que la syntaxe N-Method? Pourquoi utiliser n-gram?
- 3.4.2 Quelles sont les limites de l'algorithme N-Gram?
- 3.5 Modélisation du sujet
- 3.5.1 Introduction à la tâche de modélisation du sujet?
- 3.5.2 Méthodes courantes de modélisation de sujets
- 3.5.3 Que fait l'algorithme TF-IDF? Une brève introduction à l'algorithme TF-IDF
- 3.5.4 Que signifie TF-IDF High?
- 3.5.5 Les lacunes de TF-IDF
- 3.6 similitude du texte
- 3.6.1 Comment calculer la distance entre deux paragraphes de texte?
- 3.6.2 Quelle est la distance Jaccard?
- 3.6.3 Quelle est la différence entre le coefficient de dés et le coefficient Jaccard?
- 3.6.4 Il en va de même pour la distance d'édition, quelle est la différence entre la distance de Levinstein et la distance de Hamming?
- 3.6.5 Rédiger une question de programmation sur le calcul de la distance d'édition (distance de Lewinstein)?
- 4. Modèle
- 4.1 FastText
- 4.1.1 Le processus de classification de FastText?
- 4.1.2 Quels sont les avantages de FastText?
- 4.2 textcnn
- 4.2.1 Le processus de TextCNN effectuant une classification de texte?
- 4.2.2 Quels paramètres TextCNN peut-il régler?
- 4.2.3 Lorsque vous utilisez CNN comme classificateur de texte, quelles informations correspondent aux différents canaux au texte?
- 4.2.4 Que représente la longueur et la largeur du noyau de convolution dans textcnn?
- 4.2.5 Quelle est la différence entre la mise en commun des opérations dans TextCNN et les opérations de mise en commun en général CNN?
- 4.2.6 Limites de TextCNN?
- 4.3 DPCNN
- 4.3.1 Comment résoudre la longue tâche de classification du texte?
- 4.3.2 Introduisez brièvement les améliorations du modèle DPCNN par rapport à TextCNN?
- 4.4 Textrcnn
- 4.4.1 Introduire brièvement les améliorations de TextrCNN par rapport à TextCNN?
- 4.5 RNN + attention
- 4.5.1 L'idée de l'attention RNN + pour les tâches de classification du texte, et pourquoi le mécanisme d'attention / d'attention doit-il être ajouté?
- 4.6 Réseau neuronal GNN Graph
- 4.6.1 Comment le réseau neuronal GNN Graph est-il appliqué au domaine de la classification du texte?
- 4.7 Transformateur
- 4.7.1 Comment appliquer des modèles pré-formés en fonction du transformateur dans le domaine de la classification du texte?
- 4.8 Modèle pré-formé
- 4.8.1 Quels modèles pré-formés connaissez-vous? Quelles sont leurs caractéristiques?
- V. Fonction de perte
- 5.1 Fonction d'activation sigmoïde
- 5.1.1 Introduction à la fonction d'activation sigmoïde utilisée pour les problèmes de classification binaire?
- 5.1.2 Quels sont les inconvénients de Sigmod?
- 5.2 Fonction d'activation Softmax
- 5.2.1 Quelle est la fonction Softmax?
- 5.2.2 Comment trouver la dérivée de la fonction Softmax?
- 5.3 Quelles autres fonctions de perte sont utilisées pour les problèmes de classification?
- 6. Évaluation du modèle et comparaison des algorithmes
- 6.1 Quels sont les algorithmes et indicateurs d'évaluation utilisés dans les tâches de classification du texte?
- 6.2 Brève introduction à la matrice de confusion et au kappa?
Cliquez pour afficher la réponse
- Astuce de classification du texte Interviews courantes
- 1. Comment prétraiter les données de classification du texte?
- 2. Comment choisir un modèle pré-formé de classification de texte?
- 3. Comment optimiser les paramètres de classification du texte?
- 4. Quelles sont les tâches difficiles de la classification du texte?
- 5. Construction du système d'étiquetage de classification de texte?
- 6. Construction de la stratégie de classification du texte?
Cliquez pour afficher la réponse
- Utilisez des méthodes de recherche pour effectuer des entretiens courants pour la classification du texte
- Pourquoi devons-nous utiliser la recherche pour classer le texte?
- Quelle est l'idée de la classification du texte basée sur les méthodes de recherche?
- Comment construire une bibliothèque de rappel pour la méthode récupérée?
- Comment faire la phase de formation de la méthode de recherche?
- Comment faire l'étape de prédiction de la méthode de recherche?
- Quels sont les scénarios applicables pour la classification du texte à l'aide de méthodes de recherche?
Cliquez pour afficher la réponse
4.5 Interviews courantes pour correspondance de texte
- Modèle de correspondance de texte Esim Interviews communes
- Pourquoi avez-vous besoin d'Esim?
- Qu'en est-il de l'introduction du modèle ESIM?
Cliquez pour afficher la réponse
- Entrevues courantes pour Bert dans des tâches de correspondance de similitude sémantique
- 1. Tâche de classification de la paire de phrases: utilisez des CL
- 2. Similité du cosinus
- 3. La différence entre les textes longs et courts
- 4. phrase / mot incorporation
- 5. Méthode du réseau siamois
Cliquez pour afficher la réponse
4.6 Entrevues courantes pour le système de questions et réponses
4.6.1 Entrevues courantes pour le système de questions et réponses basé sur la FAQ
- 1. Motivation
- 1.1 Motivation du système de questions et réponses?
- 1.2 Quel est le système de questions et réponses?
- 2. Introduction au système de questions et réponses basé sur la recherche FAQ
- 2.1 Quel est le système de questions-réponses basé sur la recherche FAQ?
- 2.2 Quel est le cœur de la question de la requête en forme de QA standard?
- 3. Solution système de questions-réponses basée sur la recherche FAQ
- 3.1 Quelles sont les solutions couramment utilisées?
- 3.2 Pourquoi QQ correspond-il plus couramment?
- 3.2.1 Quels sont les avantages de la correspondance QQ?
- 3.2.2 Quel est l'espace sémantique pour la correspondance QQ?
- 3.2.3 Quelle est la stabilité du corpus de correspondance QQ?
- 3.2.4 Quel est le découplage des réponses commerciales et du modèle d'algorithme de correspondance de QQ?
- 3.2.5 Quelles sont la découverte et la déduplication de nouveaux problèmes de correspondance QQ?
- 3.2.6 Quelle est la vitesse de fonctionnement en ligne de la correspondance QQ?
- 3.3 Quel est le processus de traitement général de la correspondance QQ? [En supposant que la banque de problèmes standard a été traitée]
- 4. Construction de la FAQ Standard Problem Bank
- 4.1 Comment trouver des problèmes standard en FAQ?
- 4.2 Comment diviser la FAQ?
- 4.3 Comment fusionner la FAQ?
- 4.4 Comment mettre à jour la bibliothèque standard de la FAQ en temps réel?
- 5. Optimisation de réponse de la banque de questions standard de la FAQ
- 5.1 Comment optimiser les réponses à la banque de questions standard de la FAQ?
Cliquez pour afficher la réponse
4.6.2 outils du système de questions-réponses
- Entrevues courantes Fais
- 1. Motif
- 1.1 Quels sont les problèmes avec les algorithmes de similitude traditionnels?
- 2. Introduction
- 2.1 Qu'est-ce que Faiss?
- 2.2 Comment utiliser Faish?
- 2.3 Principe FAISS et algorithme de base
- 3. CHAPITRE PRATIQUE FAIS
- 3.1 Comment installer Faish?
- 3.2 Quelles sont les index d'index de Faish?
- 3.3 Comment utiliser l'index de l'index de Faish?
- 3.3.1 Préparation des données
- 3.3.2 Index de l'esthétique violente
- 3.3.3 Le flash indexivflat
- 3.3.4 Mémoire Manager indexIVFPQ
- 3.4 FAISS Utilisez-vous alors GPU?
- 4. Comparaison Faish
- 4.1 Lequel est le meilleur, Sklearn Cosine_similarity ou Faish
4.7 Entrevues courantes pour le système de dialogue
- Entrevues courantes pour le système de dialogue
- 1. Introduction au système de dialogue
- 1.1 Quels sont les systèmes de dialogue?
- 1.2 Quelles sont les différences entre ces systèmes de dialogue?
- 2. Introduction au système de dialogue multi-ronde
- 2.1 Pourquoi utiliser un système de dialogue multi-ronde?
- 2.2 Quelles sont les solutions du système de dialogue à plusieurs rondes communs?
- 3. Introduction au système de dialogue basé sur les tâches
- 3.1 Qu'est-ce qu'un système de dialogue basé sur les tâches?
- 3.2 Quel est le processus d'un système de dialogue basé sur les tâches?
- 3.3 Compréhension du langage du système de dialogue basé sur les tâches (SLU)
- 3.3.1 Qu'est-ce que la compréhension du langage (SLU)?
- 3.3.2 Quelles sont les entrées et sorties de la compréhension du langage (SLU)?
- 3.3.3 Quelles sont les techniques utilisées dans la compréhension du langage (SLU)?
- 3.4 Système de dialogue basé sur les tâches DST (suivi du statut de dialogue)
- 3.4.1 Qu'est-ce que DST (suivi du statut de dialogue)?
- 3.4.2 Quelles sont l'entrée et la sortie de DST (suivi du statut de dialogue)?
- 3.4.3 DST (suivi du statut de dialogue) ont-ils des problèmes et des solutions?
- 3.4.4 Quelle est la méthode d'implémentation de DST (suivi du statut de dialogue)?
- 3.5 DPO (Dialogue stratégie d'apprentissage) Chapitre du système de dialogue basé sur les tâches
- 3.5.1 Qu'est-ce que le DPO (apprentissage de la stratégie de dialogue)?
- 3.5.2 Quelles sont les entrées et les sorties de DPO (Dialogue Strategy Learning)?
- 3.5.3 Quelle est la méthode de mise en œuvre du DPO (Dialogue Strategy Learning)?
- 3.6 NLG (génération du langage naturel) Système de dialogue basé sur les tâches
- 3.6.1 Qu'est-ce que NLG (génération de langage naturel)?
- 3.6.2 Quelle est l'entrée et la sortie de NLG (génération de langage naturel)?
- 3.6.3 La mise en œuvre de NLG (génération de langage naturel) est-elle?
Cliquez pour afficher la réponse
4.8 Interviews courantes pour les graphiques de connaissances
4.8.1 Entretiens communs pour les graphiques de connaissances
- 1. Introduction au graphique de connaissances
- 1.1 Introduction
- 1.2 Qu'est-ce qu'un graphique de connaissances?
- 1.2.1 Qu'est-ce que le graphique?
- 1.2.2 Qu'est-ce que le schéma?
- 1.3 Quelles sont les catégories de graphiques de connaissances?
- 1.4 Quelle est la valeur du graphique de connaissances?
- 2. Comment construire un graphique de connaissances?
- 2.1 D'où vient les données du graphique de connaissances?
- 2.2 Quelles sont les difficultés dans l'extraction d'informations?
- 2.3 Les technologies impliquées dans la création d'un graphique de connaissances?
- 2.4. Quelle est la technologie spécifique pour construire un graphique de connaissances?
- 2.4.1 Reconnaissance de l'entité nommée
- 2.4.2 Extraction de relation
- 2.4.3 Résolution de l'entité
- 2.4.4 fait référence à la désambiguïsation
- 3. Comment stocker des graphiques de connaissances?
- 4. Que peut faire le graphique de connaissances?
Cliquez pour afficher la réponse
4.8.2 KBQA Entrevues communes
- 1. Méthodes basées sur le dictionnaire et les règles
- Mettre en œuvre KBQA en fonction du dictionnaire et des règles?
- Implémentation du processus KBQA basé sur le dictionnaire et les règles?
- 2. Méthodes basées sur l'extraction d'informations
- Implémentez le processus KBQA en fonction de l'extraction d'informations?
Cliquez pour afficher la réponse
4.8.3 Entrevues communes NEO4J
- 1. Introduction et installation Neo4j
- 1.1 Introduction
- 1.2 Comment télécharger Neo4j?
- 1.3 Comment installer Neo4j?
- 1.4 Introduction à l'interface Web NEO4J
- 1.5 Quel est le langage de requête Cypher?
- 2. Ajout de Neo4j, suppression, recherche et modification
- 2.1 Introduction
- 2.2 Comment créer un nœud dans Neo4j?
- 2.3 Comment créer une relation dans NEO4J?
- 2.4 Comment créer une relation de lieu de naissance dans NEO4J?
- 2.5 Comment interroger NEO4J?
- 2.6 Comment supprimer et modifier NEO4J?
- 3. Comment utiliser Python pour faire fonctionner la base de données de graphiques NEO4J?
- 3.1 Module NEO4J: Quelle est l'exécution de l'instruction CQL (Cypher)?
- 3.2 Quel est le module Py2neo?
- 4. Base de données de diagramme NEO4J d'importation de données
Cliquez pour afficher la réponse
4.9 Résumé du texte Interviews courantes
- 1. Motif
- 1.1 Qu'est-ce qu'un résumé de texte?
- 1.2 Quels sont les types de techniques de résumé de texte?
- 2. Résumé d'extraction
- 2.1 Comment faire un résumé décisif?
- 2.1.1 Quels sont les algorithmes d'évaluation de l'importance de la phrase?
- 2.1.2 Quelles sont les méthodes de génération de résumé basées sur les contraintes?
- 2.1.3 Comment l'algorithme TextTeaser extrait-il le résumé?
- 2.1.4 Comment l'algorithme Textrank extrait-il le résumé?
- 2.2 Quel est le problème de lisibilité du résumé extrait?
- 3. Résumé comprimé
- 3.1 Comment faire un résumé compressé?
- 4. Résumé génératif
- 4.1 Comment faire un résumé génératif?
- 4.2 Quels sont les problèmes de résumé génératif?
- 4.3 Quels problèmes résolvent le réseau du générateur de pointeur?
- V. Méthode d'évaluation de la qualité abstraite
- 5.1 Quels sont les types de méthodes d'évaluation de la qualité abstraites?
- 5.2 Qu'est-ce que Rouge?
- 5.3 Quelle est la différence entre plusieurs indicateurs rouges?
- 5.4 Quelle est la différence entre Bleu et Rouge?
Cliquez pour afficher la réponse
4.10 Article de correction d'erreur de texte Article d'entrevue commune
- 1. Introduction
- 1.1 Qu'est-ce que la correction des erreurs de texte?
- 1.2 Types d'erreur de texte courants?
- 1.3 Méthodes courantes pour la correction d'erreur de texte?
- 2. Introduction à la méthode du pipeline
- Comment implémenter la détection des erreurs dans le pipeline?
- Comment mettre en œuvre un rappel des candidats en pipeline?
- Comment implémenter le tri de correction d'erreurs dans le pipeline?
- Comment implémenter l'optimisation de l'écho ASR dans le pipeline?
Cliquez pour afficher la réponse
4.11 Résumé du texte Interviews courantes
- 1. Motif
- 1.1 Qu'est-ce qu'un résumé de texte?
- 1.2 Quels sont les types de techniques de résumé de texte?
- 2. Résumé d'extraction
- 2.1 Comment faire un résumé décisif?
- 2.1.1 Quels sont les algorithmes d'évaluation de l'importance de la phrase?
- 2.1.2 Quelles sont les méthodes de génération de résumé basées sur les contraintes?
- 2.1.3 Comment l'algorithme TextTeaser extrait-il le résumé?
- 2.1.4 Comment l'algorithme Textrank extrait-il le résumé?
- 2.2 Quel est le problème de lisibilité du résumé extrait?
- 3. Résumé comprimé
- 3.1 Comment faire un résumé compressé?
- 4. Résumé génératif
- 4.1 Comment faire un résumé génératif?
- 4.2 Quels sont les problèmes de résumé génératif?
- 4.3 Quels problèmes résolvent le réseau du générateur de pointeur?
- V. Méthode d'évaluation de la qualité abstraite
- 5.1 Quels sont les types de méthodes d'évaluation de la qualité abstraites?
- 5.2 Qu'est-ce que Rouge?
- 5.3 Quelle est la différence entre plusieurs indicateurs rouges?
- 5.4 Quelle est la différence entre Bleu et Rouge?
Cliquez pour afficher la réponse
4.12 Interviews courantes pour la génération de texte
- Entrevues courantes pour les méthodes de décodage pour générer des modèles
- Qu'est-ce qu'un modèle génératif?
- Quelles sont les méthodes de décodage basées sur la recherche?
- Quelles sont les méthodes de décodage basées sur l'échantillonnage?
Cliquez pour afficher la réponse
3. Algorithme d'apprentissage en profondeur
- Entretiens communs CNN
- 1. Motif
- 2. Couche convolutionnelle CNN
- 2.1 Quelle est l'essence d'une couche convolutionnelle?
- 2.2 Quelle est la connexion entre la couche convolutionnelle CNN et la couche entièrement connectée?
- 2.3 Que signifie le canal?
- 3. Couche de mise en commun CNN
- 3.1 Quelle est la couche de mise en commun de la région?
- 3.2 Quels sont les types de couches de mise en commun?
- 3.3 Quelle est la fonction de la couche de mise en commun?
- 3.4 À quoi ressemble la rétropropagation dans la couche de mise en commun?
- 3.5 Que signifie la mise en commun de la backpropagation?
- 3.6 À quoi ressemble la rétropropagation de la couche de mise en commun?
- 4. CNN dans l'ensemble
- 4.1 Quel est le processus de CNN?
- 4.2 Quelles sont les caractéristiques de CNN?
- 4.3 Pourquoi le réseau neuronal convolutionnel a-t-il une invariance de translation?
- 4.4 Comment IM2COL est-il mis en œuvre dans le réseau neuronal convolutionnel?
- 4.5 Quelles sont les limites de CNN?
- 5. CNN dilaté itéré
- 5.1 Qu'est-ce que Dilaté CNN vide Convolution?
- 5.2 Qu'est-ce que le CNN dilaté itéré?
- 6. déconvolution
- 6.1 Expliquer les principes et les utilisations de la déconvolution?
Cliquez pour afficher la réponse
- Entretiens communs RNN
- 1. RNN
- 1.2 Pourquoi ai-je besoin de RNN?
- 1.2 Quelle est la structure RNN?
- 1.3 Formule RNN Forward Calcul?
- 1.4 Quels sont les problèmes avec RNN?
- 2. Réseau de mémoire à court terme (LSTM)
- 2.1 Pourquoi avez-vous besoin de LSTM?
- 2.2 Quelle est la structure de LSTM?
- 2.3 Comment LSTM atténue-t-il les problèmes de la disparition du gradient RNN et de l'explosion de gradient?
- 2.3 Quel est le processus de LSTM?
- 2.4 Quelles sont les différences de fonctions d'activation dans LSTM?
- 2.5 complexité LSTM?
- 2.6 Quels problèmes existent-ils LSTM?
- 3. GRU (unité récurrente fermée)
- 3.1 Pourquoi avez-vous besoin de GRU?
- 3.2 Quelle est la structure de GRU?
- 3.3 Calcul vers l'avant du GRU?
- 3.4 Quelle est la différence entre GRU et d'autres modèles de la série RNN?
- 4. Modèle de la série RNN
- 4.1 Quelles sont les caractéristiques du modèle de la série RNN?
Cliquez pour afficher la réponse
- Attention aux entretiens communs
- 1. SEQ2SEQ
- 1.1 Qu'est-ce que SEQ2SEQ (Encodeur-décodeur)?
- 1.2 Et l'encodeur dans SEQ2SEQ?
- 1.3 Et le décodeur dans SEQ2SEQ?
- 1.4 Connaissez-vous SEQ2SEQ d'un point de vue mathématique?
- 1.5 Quels sont les problèmes SEQ2SEQ?
- 2. Attention
- 2.1 Qu'est-ce que l'attention?
- 2.2 Pourquoi le mécanisme d'attention est-il introduit?
- 2.3 Quelle est la fonction de l'attention?
- 2.4 Quel est le processus d'attention?
- Étape 1 pour exécuter l'encodeur (cohérent avec SEQ2SEQ)
- Étape 2 Calculer le coefficient d'alignement A
- Étape 3: Calculer le vecteur sémantique contextuel C
- Étape 4 Mettez à jour le statut de décodeur
- Étape 5 Calculez les mots de prédiction de sortie
- 2.5 Quels sont les domaines d'attention d'application?
- 3. Variante d'attention
- 3.1 Qu'est-ce que l'attention douce?
- 3.2 Quelle est la dure attention?
- 3.3 Qu'est-ce que l'attention mondiale?
- 3.4 Qu'est-ce que l'attention locale?
- 3.5 Qu'est-ce que l'attention de soi?
Cliquez pour afficher la réponse
- Génération du réseau contradictoire GAN Entrevues communes
- 1. Motivation
- 2. Introduction
- 2.1 Idées de base de Gan
- 2.2 Introduction de base à Gan
- 2.2.1 GAN 的基本结构
- 2.2.2 GAN 的基本思想
- 三、训练篇
- 3.1 生成器介绍
- 3.2 判别器介绍
- 3.3 训练过程
- 3.4 训练所涉及相关理论基础
- 四、总结
点击查看答案
3.1 Transformer 常见面试篇
- Transformer 常见面试篇
- 一、动机篇
- 1.1 为什么要有Transformer?
- 1.2 Transformer 作用是什么?
- 二、整体结构篇
- 2.1 Transformer 整体结构是怎么样?
- 2.2 Transformer-encoder 结构怎么样?
- 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
- 3.1 self-attention 模块
- 3.1.1 传统attention 是什么?
- 3.1.2 为什么会有self-attention?
- 3.1.3 self-attention 的核心思想是什么?
- 3.1.4 self-attention 的目的是什么?
- 3.1.5 self-attention 的怎么计算的?
- 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
- 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型?
- 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
- 3.1.9 self-attention 如何解决长距离依赖问题?
- 3.1.10 self-attention 如何并行化?
- 3.2 multi-head attention 模块
- 3.2.1 multi-head attention 的思路是什么样?
- 3.2.2 multi-head attention 的步骤是什么样?
- 3.2.3 Transformer为何使用多头注意力机制?(为什么不使用一个头)
- 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维?
- 3.2.5 multi-head attention 代码介绍
- 3.3 位置编码(Position encoding)模块
- 3.3.1 为什么要加入位置编码(Position encoding) ?
- 3.3.2 位置编码(Position encoding)的思路是什么?
- 3.3.3 位置编码(Position encoding)的作用是什么?
- 3.3.4 位置编码(Position encoding)的步骤是什么?
- 3.3.5 Position encoding为什么选择相加而不是拼接呢?
- 3.3.6 Position encoding和Position embedding的区别?
- 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding?而Bert却采用的是Position Embedding ?
- 3.3.8 位置编码(Position encoding)的代码介绍
- 3.4 残差模块模块
- 3.5 Layer normalization 模块
- 3.5.1 为什么要加入Layer normalization 模块?
- 3.5.2 Layer normalization 模块的是什么?
- 3.5.3 Batch normalization 和Layer normalization 的区别?
- 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
- 3.5.5 Layer normalization 模块代码介绍
- 3.6 Mask 模块
- 3.6.1 什么是Mask?
- 3.6.2 Transformer 中用到几种Mask?
- 3.6.3 能不能介绍一下Transformer 中用到几种Mask?
点击查看答案
- 【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
- 1.1 既然Transformer 怎么牛逼,是否还存在一些问题?
- 二、每个问题的解决方法是什么?
- 2.1 问题一:Transformer 不能很好的处理超长输入问题
- 2.1.1 Transformer 固定了句子长度?
- 2.1.2 Transformer 固定了句子长度的目的是什么?
- 2.1.3 Transformer 针对该问题的处理方法?
- 2.2 问题二:Transformer 方向信息以及相对位置的缺失问题
- 2.3 问题三:缺少Recurrent Inductive Bias
- 问题四:问题四:Transformer是非图灵完备的: 非图灵完备通俗的理解,就是无法解决所有的问题
- 问题五:transformer缺少conditional computation;
- 问题六:transformer 时间复杂度和空间复杂度过大问题;
五、NLP 技巧面
5.1 少样本问题面
5.1.1 数据增强(EDA) 面试篇
- 一、动机篇
- 1.1 什么是数据增强?
- 1.2 为什么需要数据增强?
- 二、常见的数据增强方法篇
- 2.1 词汇替换篇
- 2.1.1 什么是基于词典的替换方法?
- 2.1.2 什么是基于词向量的替换方法?
- 2.1.3 什么是基于MLM 的替换方法?
- 2.1.4 什么是基于TF-IDF 的词替换?
- 2.2 词汇插入篇
- 2.3 词汇交换篇
- 2.4 词汇删除篇
- 2.5 回译篇
- 2.6 交叉增强篇
- 2.7 语法树篇
- 2.8 对抗增强篇
点击查看答案
5.1.2 主动学习面试篇
- 一、动机篇
- 1.1 主动学习是什么?
- 1.2 为什么需要主动学习?
- 二、主动学习篇
- 2.1 主动学习的思路是什么?
- 2.2 主动学习方法的价值点在哪里?
- 三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
- 3.2.1 测试集内选取“信息”量最大的数据标记
- 3.2.2 依赖不确定度的样本选取策略(Uncertainty Sampling, US)
- 3.2.3 基于委员会查询的方法(Query-By-Committee,QBC)
点击查看答案
5.1.3 数据增强之对抗训练面试篇
- 1. Introduction
- 1.1 什么是对抗训练?
- 1.2 为什么对抗训练能够提高模型效果?
- 1.3 对抗训练有什么特点?
- 1.4 对抗训练的作用?
- 二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
- 三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method(FGM)
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent(PGD)
点击查看答案
5.2 “脏数据”处理面试篇
- 一、动机
- 1.1 何为“脏数据”?
- 1.2 “脏数据” 会带来什么后果?
- 二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢?
- 2.2 置信学习方法篇
- 2.2.1 什么是置信学习方法?
- 2.2.2 置信学习方法优点?
- 2.2.3 置信学习方法怎么做?
- 2.2.4 置信学习方法怎么用?有什么开源框架?
- 2.2.5 置信学习方法的工作原理?
点击查看答案
5.3 batch_size设置面试篇
- 一、训练模型时,batch_size的设置,学习率的设置?
点击查看答案
5.4 早停法EarlyStopping 面试篇
- 一、 为什么要用早停法EarlyStopping?
- 二、 早停法EarlyStopping 是什么?
- 三、早停法torch 版本怎么实现?
点击查看答案
5.5 标签平滑法LabelSmoothing 面试篇
- 一、为什么要有标签平滑法LabelSmoothing?
- 二、 标签平滑法是什么?
- 三、 标签平滑法torch 怎么复现?
点击查看答案
5.6 Bert Trick 面试篇
5.6.1 Bert 未登录词处理面试篇
- 什么是Bert 未登录词?
- Bert 未登录词如何处理?
- Bert 未登录词各种处理方法有哪些优缺点?
点击查看答案
5.6.2 BERT在输入层引入额外特征面试篇
点击查看答案
5.6.3 关于BERT 继续预训练面试篇
- 什么是继续预训练?
- 为什么会存在【数据分布/领域差异】大问题?
- 如何进行继续预训练?
- 还有哪些待解决问题?
- 训练数据问题解决方案?
- 知识缺乏问题解决方案?
- 知识理解缺乏问题解决方案?
点击查看答案
5.6.4 BERT如何处理篇章级长文本面试篇
- 为什么Bert 不能处理长文本?
- BERT 有哪些处理篇章级长文本?
点击查看答案
六、 Prompt Tuning 面试篇
6.1 Prompt 面试篇
- 什么是prompt?
- 如何设计prompt?
- prompt进阶——如何自动学习prompt?
- Prompt 有哪些关键要点?
- Prompt 如何实现?
点击查看答案
6.2 Prompt 文本生成面试篇
- Prompt之文本生成评估手段有哪些?
- Prompt文本生成具体任务有哪些?
点击查看答案
6.3 LoRA 面试篇
- 什么是lora?
- lora 是怎么做的呢?
- lora 为什么可以这样做?
- 用一句话描述lora?
- lora 优点是什么?
- lora 缺点是什么?
- lora 如何实现?
点击查看答案
6.4 PEFT(State-of-the-art Parameter-Efficient Fine-Tuning)面试篇
- 一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ?
- 1.2 微调Fine-tuning 基本思想是什么?
- 二、轻度微调(lightweight Fine-tuning)篇
- 2.1 什么是轻度微调(lightweight Fine-tuning)?
- 三、适配器微调(Adapter-tuning)篇
- 3.1 什么是适配器微调(Adapter-tuning)?
- 3.2 适配器微调(Adapter-tuning)变体有哪些?
- 四、提示学习(Prompting)篇
- 4.1 什么是提示学习(Prompting)?
- 4.2 提示学习(Prompting)的目的是什么?
- 4.3 提示学习(Prompting) 代表方法有哪些?
- 4.3.1 前缀微调(Prefix-tining)篇
- 4.3.1.1 什么是前缀微调(Prefix-tining)?
- 4.3.1.2 前缀微调(Prefix-tining)的核心是什么?
- 4.3.1.3 前缀微调(Prefix-tining)的技术细节有哪些?
- 4.3.1.4 前缀微调(Prefix-tining)的优点是什么?
- 4.3.1.5 前缀微调(Prefix-tining)的缺点是什么?
- 4.3.2 指示微调(Prompt-tuning)篇
- 4.3.2.1 什么是指示微调(Prompt-tuning)?
- 4.3.2.2 指示微调(Prompt-tuning)的核心思想?
- 4.3.2.3 指示微调(Prompt-tuning)的优点/贡献是什么?
- 4.3.2.4 指示微调(Prompt-tuning)的缺点是什么?
- 4.3.2.5 指示微调(Prompt-tuning)与Prefix-tuning 区别是什么?
- 4.3.2.6 指示微调(Prompt-tuning)与fine-tuning 区别是什么?
- 4.3.3 P-tuning 篇
- 4.3.3.1 P-tuning 动机是什么?
- 4.3.3.2 P-tuning 核心思想是什么?
- 4.3.3.3 P-tuning 做了哪些改进?
- 4.3.3.4 P-tuning 有哪些优点/贡献?
- 4.3.3.5 P-tuning 有哪些缺点?
- 4.3.4 P-tuning v2 篇
- 4.3.4.1 为什么需要P-tuning v2?
- 4.3.4.2 P-tuning v2 是什么?
- 4.3.4.3 P-tuning v2 有哪些优点?
- 4.3.4.4 P-tuning v2 有哪些缺点?
- 4.3.5 PPT 篇
- 4.3.5.1 为什么需要PPT ?
- 4.3.5.2 PPT 核心思想是什么?
- 4.3.5.3 PPT 具体做法是怎么样?
- 4.3.5.4 常用的soft prompt初始化方法?
- 4.3.5.5 PPT 的优点是什么?
- 4.3.5.6 PPT 的缺点是什么?
- 4.4 提示学习(Prompting) 优点是什么?
- 4.5 提示学习(Prompting) 本质是什么?
- 五、指令微调(Instruct-tuning)篇
- 5.1 为什么需要指令微调(Instruct-tuning)?
- 5.2 指令微调(Instruct-tuning)是什么?
- 5.3 指令微调(Instruct-tuning)的优点是什么?
- 5.4 指令微调(Instruct-tuning) vs 提升学习(Prompting)?
- 5.5 指令微调(Instruct-tuning) vs 提升学习(Prompting) vs Fine-tuning?
- 六、指令提示微调(Instruct Prompt tuning)篇
- 6.1 为什么需要指令微调(Instruct-tuning)?
- 6.2 指令微调(Instruct-tuning) 是什么?
- 6.3 指令微调(Instruct-tuning) 在不同任务上性能?
- 七、self-instruct篇
- 八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ?
- 8.2 什么是Chain-of-Thought ?
- 8.3 Chain-of-Thought 的思路是怎么样的?
- 8.4 Chain-of-Thought 的优点是什么?
- 8.5 为什么chain-of-thought 会成功?
- 九、LoRA 篇
- 9.1 LoRA 篇
- 9.1.1 LoRA 核心思想是什么?
- 9.1.2 LoRA 具体思路是什么?
- 9.1.3 LoRA 优点是什么?
- 9.1.4 LoRA 缺点是什么?
- 9.2 AdaLoRA 篇
- 9.2.1 AdaLoRA 核心思想是什么?
- 9.2.2 AdaLoRA 实现思路是什么?
- 9.3 DyLoRA 篇
- 9.3.1 AdaLoRA 动机是什么?
- 9.3.2 AdaLoRA 核心思想是什么?
- 9.3.3 AdaLoRA 优点是什么?
- 十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么?
- 10.2 AdaLoRA 优点是什么?
- 10.3 AdaLoRA 缺点是什么?
点击查看答案
七、LLMs 面试篇
7.1 【现在达模型LLM,微调方式有哪些?各有什么优缺点?
- 现在达模型LLM,微调方式有哪些?各有什么优缺点?
点击查看答案
7.2 GLM:ChatGLM的基座模型常见面试题
- GLM 的核心是什么?
- GLM 的模型架构是什么?
- GLM 如何进行多任务训练?
- 在进行NLG 时, GLM 如何保证生成长度的未知性?
- GLM 的多任务微调方式有什么差异?
- GLM 的多任务微调方式有什么优点?
点击查看答案
一、基础算法常见面试篇
- 过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么?
- 二、过拟合/高方差(overfiting / high variance)篇
- 2.1 过拟合是什么及检验方法?
- 2.2 导致过拟合的原因是什么?
- 2.3 过拟合的解决方法是什么?
- 三、欠拟合/高偏差(underfiting / high bias)篇
- 3.1 欠拟合是什么及检验方法?
- 3.2 导致欠拟合的原因是什么?
- 3.3 过拟合的解决方法是什么?
点击查看答案
- BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
- 1.1 独立同分布(independent and identically distributed)与白化
- 1.2 ( Internal Covariate Shift,ICS)
- 1.3 ICS问题带来的后果是什么?
- 二、Normalization 篇
- 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
- 3.1 Batch Normalization(纵向规范化)是什么?
- 3.2 Batch Normalization(纵向规范化)存在什么问题?
- 3.3 Batch Normalization(纵向规范化)适用的场景是什么?
- 3.4 BatchNorm 存在什么问题?
- 四、Layer Normalization(横向规范化) 篇
- 4.1 Layer Normalization(横向规范化)是什么?
- 4.2 Layer Normalization(横向规范化)有什么用?
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效?
点击查看答案
激活函数常见面试篇
- 一、动机篇
- 二、激活函数介绍篇
- 2.1 sigmoid 函数篇
- 2.1.1 什么是sigmoid 函数?
- 2.1.2 为什么选sigmoid 函数作为激活函数?
- 2.1.3 sigmoid 函数有什么缺点?
- 2.2 tanh 函数篇
- 2.2.1 什么是tanh 函数?
- 2.2.2 为什么选tanh 函数作为激活函数?
- 2.2.3 tanh 函数有什么缺点?
- 2.3 relu 函数篇
- 2.3.1 什么是relu 函数?
- 2.3.2 为什么选relu 函数作为激活函数?
- 2.3.3 relu 函数有什么缺点?
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0,L1,L2正则化篇
- 1.1 正则化是什么?
- 1.2 什么是L0 正则化?
- 1.3 什么是L1 (稀疏规则算子Lasso regularization)正则化?
- 1.4 什么是L2 正则化(岭回归Ridge Regression 或者权重衰减Weight Decay)正则化?
- 二、对比篇
- 2.1 什么是结构风险最小化?
- 2.2 从结构风险最小化的角度理解L1和L2正则化
- 2.3 L1 vs L2
- 三、dropout 篇
- 3.1 什么是dropout?
- 3.2 dropout 在训练和测试过程中如何操作?
- 3.3 dropout 如何防止过拟合?
点击查看答案
- 优化算法及函数常见面试篇
- 一、动机篇
- 1.1 为什么需要优化函数?
- 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
- 2.1 梯度下降法是什么?
- 2.2 随机梯度下降法是什么?
- 2.3 Momentum 是什么?
- 2.4 SGD with Nesterov Acceleration 是什么?
- 2.5 Adagrad 是什么?
- 2.6 RMSProp/AdaDelta 是什么?
- 2.7 Adam 是什么?
- 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇
点击查看答案
- 归一化常见面试篇
- 一、动机篇
- 二、介绍篇
- 2.1 归一化有哪些方法?
- 2.2 归一化各方法特点?
- 2.3 归一化的意义?
- III. Application
- 3.1 哪些机器学习算法需要做归一化?
- 3.2 哪些机器学习算法不需要做归一化?
点击查看答案
- 判别式(discriminative)模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
- 1.1 什么是判别式模型?
- 1.2 判别式模型是思路是什么?
- 1.3 判别式模型的优点是什么?
- 二、生成式模型篇
- 2.1 什么是生成式模型?
- 2.2 生成式模型是思路是什么?
- 2.3 生成式模型的优点是什么?
- 2.4 生成式模型的缺点是什么?
点击查看答案
二、机器学习算法篇常见面试篇
点击查看答案
- 支持向量机常见面试篇
- 一、原理篇
- 1.1 什么是SVM?
- 1.2 SVM怎么发展的?
- 1.3 SVM存在什么问题?
- 二、算法篇
- 2.1 什么是块算法?
- 2.2 什么是分解算法?
- 2.3 什么是序列最小优化算法?
- 2.4 什么是增量算法?
- 三、其他SVM篇
- 3.1 什么是最小二次支持向量机?
- 3.2 什么是模糊支持向量机?
- 3.3 什么是粒度支持向量机?
- 3.4 什么是多类训练算法?
- 3.5 什么是孪生支持向量机?
- 3.6 什么是排序支持向量机?
- Iv. Application
- 4.1 模式识别
- 4.2 网页分类
- 4.3 系统建模与系统辨识
- 4.4 其他
- 五、对比篇
- 六、拓展篇
点击查看答案
- 集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
- 2.1 介绍篇
- 2.1.1 集成学习的基本思想是什么?
- 2.1.2 集成学习为什么有效?
- 三、 Boosting 篇
- 3.1 用一句话概括Boosting?
- 3.2 Boosting 的特点是什么?
- 3.3 Boosting 的基本思想是什么?
- 3.4 Boosting 的特点是什么?
- 3.5 GBDT 是什么?
- 3.6 Xgboost 是什么?
- 四、Bagging 篇
- 4.1 用一句话概括Bagging?
- 4.2 Bagging 的特点是什么?
- 4.3 Bagging 的基本思想是什么?
- 4.4 Bagging 的基分类器如何选择?
- 4.5 Bagging 的优点是什么?
- 4.6 Bagging 的特点是什么?
- 4.7 随机森林是什么?
- 五、 Stacking 篇
- 5.1 用一句话概括Stacking ?
- 5.2 Stacking 的特点是什么?
- 5.3 Stacking 的基本思路是什么?
- 六、常见问题篇
- 6.1 为什么使用决策树作为基学习器?
- 6.2 为什么不稳定的学习器更适合作为基学习器?
- 6.3 哪些模型适合作为基学习器?
- 6.4 Bagging 方法中能使用线性分类器作为基学习器吗? Boosting 呢?
- 6.5 Boosting/Bagging 与偏差/方差的关系?
- 七、对比篇
点击查看答案
九、【关于Python 】那些你不知道的事
- 【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs?
- 1.1 为什么会有*args 和**kwargs?
- 1.2 *args 和**kwargs 的用途是什么?
- 1.3 *args 是什么?
- 1.4 **kwargs是什么?
- 1.5 *args 与**kwargs 的区别是什么?
- 二、什么是装饰器?
- 三、Python垃圾回收(GC)
- 3.1 垃圾回收算法有哪些?
- 3.2 引用计数(主要)是什么?
- 3.3 标记-清除是什么?
- 3.4 分代回收是什么?
- 四、python的sorted函数对字典按key排序和按value排序
- 4.1 python 的sorted函数是什么?
- 4.2 python 的sorted函数举例说明?
- 五、直接赋值、浅拷贝和深度拷贝
- 5.1 概念介绍
- 5.2 介绍
- 5.3 变量定义流程
- 5.3 赋值
- 5.4 浅拷贝
- 5.5 深度拷贝
- 5.6 核心:不可变对象类型and 可变对象类型
- 5.6.1 不可变对象类型
- 5.6.2 可变对象类型
- 六、进程、线程、协程
- 6.1 进程
- 6.1.1 什么是进程?
- 6.1.2 进程间如何通信?
- 6.2 线程
- 6.2.1 什么是线程?
- 6.2.2 线程间如何通信?
- 6.3 进程vs 线程
- 6.4 协程
- 6.4.1 什么是协程?
- 6.4.2 协程的优点?
- 七、全局解释器锁
- 7.1 什么是全局解释器锁?
- 7.2 GIL有什么作用?
- 7.3 GIL有什么影响?
- 7.4 如何避免GIL带来的影响?
十、【关于Tensorflow 】那些你不知道的事
- 【关于Tensorflow 损失函数】 那些你不知道的事
- 一、动机
- 二、什么是损失函数?
- 三、目标函数、损失函数、代价函数之间的关系与区别?
- 四、损失函数的类别
- 4.1 回归模型的损失函数
- (1)L1正则损失函数(即绝对值损失函数)
- (2)L2正则损失函数(即欧拉损失函数)
- (3)均方误差(MSE, mean squared error)
- (4)Pseudo-Huber 损失函数
- 4.2 分类模型的损失函数
- (1)Hinge损失函数
- (2)两类交叉熵(Cross-entropy)损失函数
- (3)Sigmoid交叉熵损失函数
- (4)加权交叉熵损失函数
- (5)Softmax交叉熵损失函数
- (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Résumé