NLP Interview Notes herunterladen - NLP Interview Notes Quellcode Download

NLP ist ungewöhnlich

> NLP -Interview und Exchange Group (Hinweis: Wenn Sie voll sind, können Sie den Editor WX: Yyykm666 hinzufügen, um der Gruppe beizutreten!)

4. Gemeinsame Interviews für NLP -Lernalgorithmen

4.1 Gemeinsame Interviews zur Informationsextraktion

4.1.1 Gemeinsame Interviews zur Benennung von Unternehmenserkennung

Versteckter Markov -Algorithmus HMM Common Interviews
- 1. Einführung in grundlegende Informationen
  - 1.1 Was ist ein Wahrscheinlichkeitsgraphenmodell?
  - 1.2 Was ist der zufällige Flughafen?
- 2. Einführung in den Markov -Prozess
  - 2.1 Was ist der Markov -Prozess?
  - 2.2 Was ist die Kernidee des Markov -Prozesses?
- III. Versteckter Markov -Algorithmus
  - 3.1 Einführung in den versteckten Markov -Algorithmus
    - 3.1.1 Was ist der versteckte Markov -Algorithmus?
    - 3.1.2 Was sind die beiden Sequenzen im versteckten Markov -Algorithmus?
    - 3.1.3 Was sind die drei Matrizen im versteckten Markov -Algorithmus?
    - 3.1.4 Was sind die beiden Annahmen im versteckten Markov -Algorithmus?
    - 3.1.5 Was ist der Workflow im versteckten Markov -Algorithmus?
  - 3.2 Berechnungsprozess des versteckten Markov -Algorithmusmodells
    - 3.2.1 Was ist der Schulungsprozess des versteckten Markov -Algorithmuslernens?
    - 3.2.2 Was ist der Dekodierungsprozess des Sequenzanschlags (Decoding) des versteckten Markov -Algorithmus?
    - 3.2.3 Was ist der Sequenzwahrscheinlichkeitsprozess des versteckten Markov -Algorithmus?
  - 3.3 Problem des versteckten Markov -Algorithmus

Maximale Entropie Markov Model Memm Common Interviews
- 4. Maximale Entropie Markov -Modell (MEMM)
  - 4.1 Motivation der maximalen Entropie Markov Model (MEMM)
    - 4.1.1 Was sind die Probleme mit HMM?
  - 4.2 Einführung in das maximale Entropie -Markov -Modell (MEMM)
    - 4.2.1 Wie sieht das maximale Entropie -Markov -Modell (MEMM) aus?
    - 4.2.2 Maximal Entropy Markov Model (MEMM) Wie löst ich das HMM -Problem?
  - 4.3 Problem mit maximalem Entropy Markov Model (MEMM)

Bedingte zufällige Flughafen (CRF) Common Interviews
- 5. Konditionales Zufallsfeld (CRF)
  - 5.1 CRF -Motiv
    - 5.1.1 Was sind die Probleme mit HMM und MEMM?
  - 5.2 CRF Einführung
    - 5.2.1 Was ist CRF?
    - 5.2.2 Was ist die Hauptidee von CRF?
    - 5.2.3 Was ist die Definition von CRF?
    - 5.2.4 Was ist der Prozess von CRF?
  - 5.3 CRF -Vor- und -Kons
    - 5.3.1 Was sind die Vorteile von CRF?
    - 5.3.2 Was sind die Nachteile von CRF?
  - 5.4 CRF -Reproduktion?
- 6. Vergleich
  - 6.1 Was ist der Unterschied zwischen CRF -Modell und HMM- und MEMM -Modell?

DNN-CRF Common Interviews
- 1. Grundinformationen
  - 1.1 Was sind die Bewertungsindikatoren für die Benennung der Entitätserkennung?
- 2. Traditionelle Erkennungsmethode für Namensgeborene
  - 2.1 Was ist die regelbasierte Methode zur Benennung von Entitätserkennung?
  - 2.2 Was basiert die Namenserkennungsmethode für die Namensentität auf unbeaufsichtigtem Lernen?
  - 2.3 Wie basiert die benannte Entitätserkennungsmethode auf featurzenbasiertem überwachtem Lernen?
- 3.. Benennung der Entitätserkennungsmethode basierend auf Deep Learning
  - 3.1 Was sind die Vorteile benannter Entitätserkennungsmethoden, die auf Deep Learning im Vergleich zu benannten Entitätserkennungsmethoden basieren, die auf maschinellem Lernen basieren?
  - 3.2 Wie basiert die Struktur der benannten Entitätserkennungsmethode auf Deep Learning?
  - 3.3 Was ist eine verteilte Eingangsschicht und was sind die Methoden?
  - 3.4 Text Encoder
    - 3.4.1 BILSTM-CRF
      - 3.4.1.1 Was ist Bilstm-CRF?
      - 3.4.1.2 Warum Bilstm verwenden?
    - 3.4.2 IDCNN-CRF
      - 3.4.2.1 Was ist ein erweiterter CNN?
      - 3.4.2.2 Warum gibt es einen erweiterten CNN?
      - 3.4.2.3 Was sind die Vorteile von erweitertem CNN?
      - 3.4.2.4 Einführung in IDCNN-CRF
  - 3.5 Tag Decoder
    - 3.5.1 Was ist der Tag -Decoder?
    - 3.5.2 Einführung in die MLP+Softmax -Schicht?
    - 3.5.3 Einführung in die bedingte Zufallsfeld -CRF -Schicht?
    - 3.5.4 Einführung in die RNN -Schicht des wiederkehrenden neuronalen Netzwerks?
    - 3.5.3 Einführung in die Zeiger -Netzwerkschicht?
- 4. Vergleich
  - 4.1 CNN-CRF gegen BILSTM-CRF gegen IDCNN-CRF?
  - 4.2 Warum muss DNN CRF hinzufügen?
  - 4.3 CRF in TensorFlow vs CRF im diskreten Toolkit?

Chinesische Feld -NER -Common -Interviews
- 1. Motiv
  - 1.1 Was ist der Unterschied zwischen der chinesisch genannten Entitätserkennung und der englisch benannten Entitätserkennung?
- 2. Vokabularverstärkung
  - 2.1 Was ist Vokabularverstärkung?
  - 2.2 Warum ist die Methode "Vokabularverstärkung" für chinesische NER -Aufgaben wirksam?
  - 2.3 Was sind die Methoden zur Verbesserung des Wortschatzes?
  - 2.4 Dynamische Architektur
    - 2.4.1 Was ist dynamische Architektur?
    - 2.4.2 Was sind die üblichen Methoden?
    - 2.4.3 Was ist Gitter -LSTM und was sind die Probleme?
    - 2.4.4 Was ist flach und was sind die Probleme?
  - 2,5 adaptives Einbettungsparadigma
    - 2.5.1 Was ist das adaptive Einbettungsparadigma?
    - 2.5.2 Was sind die üblichen Methoden?
    - 2.5.3 Was ist WC-LSTM und was sind die Probleme?
- 3..
  - 3.1 Was ist Informationsverstärkung des Wortschatzes/Entität?
  - 3.2 Warum ist die Methode "Vokabular-/Entitätstypinformationen" für chinesische NER -Aufgaben wirksam?
  - 3.3 Was sind die Methoden zur Verbesserung des Vokabular-/Entitätstypinformationen?
  - 3.4 Was ist Lex-Bert?

Genannte Entitätserkennungstrick gemeinsame Interviews
- Trick 1: Domain -Wörterbuch -Matching
- Trick 2: Regelextraktion
- Trick 3: Wortvektorauswahl: Wortvektor oder Wortvektor?
- Trick 4: Wie wähle ich einen Feature -Extraktor aus?
- Trick 5: Wie kann man mit einem angesehenen Namen umgehen?
- Trick 6: Wie geht es mit unzureichenden Kennzeichnungsdaten um?
- Trick 7: Wie man mit verschachtelter genannter Entitätserkennung umgeht
  - 7.1 Was ist Entitätsvernetzung?
  - 7.2 Unterschiede zu traditionellen Aufgaben der genannten Entitätserkennungserkennung
  - 7.3 Lösung:
    - 7.3.1 Methode 1: Sequenzanschlag
    - 7.3.2 Methode 2: Zeigeranmerkungen
    - 7.3.3 Methode 3: Annotation mit langer Header
    - 7.3.4 Methode 4: Fragmentanordnung
- Trick 8: Warum ist die Methode "Vokabularverstärkung" für chinesische NER -Aufgaben wirksam?
- Trick 9: Was soll ich tun, wenn die NER -Entitätsspanne zu lang ist?
- Trick 10: NER -Kennzeichnungsdatenrauschenproblem?
- Trick 11: Bei zwei genannten Entitätserkennungsaufgaben enthält eine Aufgabe genügend Daten und die andere nur sehr wenig Daten. Was kann ich tun?
- Trick 12: Ist das Problem des NER -Kennzeichnungsdaten -Ungleichgewichts?

4.1.2 Gemeinsame Interviews zur Beziehungszeichnung

Gemeinsame Interviews mit Beziehungsbeschaffung
- 1. Motiv
  - 1.1 Was ist die Beziehungsextraktion?
  - 1.2 Was sind die Arten von Beziehungstechniken für Beziehung?
  - 1.3 Wie werden gemeinsame Beziehungsextraktionsprozesse durchgeführt?
- 2. klassische Beziehungsextraktion
  - 2.1 Worauf bezieht sich die Methode für Vorlagenübereinstimmung? Was sind die Vor- und Nachteile?
  - 2.2 Was bezieht sich die Extraktion der Remote -Überwachungsbeziehung? Was sind seine Vor- und Nachteile?
  - 2.3 Was ist eine Beziehung überlappt? Komplexe Beziehungsprobleme?
  - 2.4 Was ist die Gelenkförderung? Was sind die Schwierigkeiten?
  - 2.5 Was sind die Gesamtmethoden der Gelenkförderung? Was sind ihre Mängel?
  - 2.6 Einführung in die gemeinsame Extraktionsmethode basierend auf gemeinsam genutzten Parametern?
  - 2.7 Einführung in die gemeinsame Dekodierung basierend auf gemeinsamer Dekodierung?
  - 2.8 Was sind die hochmodernen Technologien und Herausforderungen in der Entitätsbeziehungsextraktion? Wie kann man die Extraktion von Entitätsbeziehungen unter niedrigen Ressourcen und komplexen Stichproben lösen?
- 3..
  - 3.1 Was ist der Unterschied zwischen der Beziehung zwischen Dokumentenebene und der klassischen Beziehungsextraktion?
  - 3.2 Welche Probleme stehen in der Beziehung zwischen Dokumentenebene aus?
  - 3.3 Was sind die Methoden zur Beziehung zwischen Dokumentenebene auf Dokumentenebene?
    - 3.3.1 Wie basiert die Extraktion der Dokumentbeziehung auf Bert-ähnlich?
    - 3.3.2 Wie erfolgt die Extraktion der draphbasierten Dokumentenbeziehung?
  - 3.4 Was sind die gängigen Datensätze für die Beziehung zwischen Dokumentenebene und deren Bewertungsmethoden für die Beziehung zwischen Dokumentenebene und deren Bewertungsmethoden?

4.1.3 Event -Extraktion Common Interviews

Event -Zeichnen gemeinsame Interviews
- 1. Prinzipien
  - 1.1 Was ist eine Veranstaltung?
  - 1.2 Was ist Event -Extraktion?
  - 1.3 Was sind die grundlegenden Begriffe und Aufgaben an der Ereignisentnahme in der ACE -Bewertung?
  - 1.4 Wie entwickelt sich die Event -Extraktion?
  - 1.5 Was sind die Probleme mit der Ereignisentnahme?
- 2. Grundlegende Aufgaben
  - 2.1 Word -Erkennung auslösen
    - 2.1.1 Was ist Trigger -Worterkennung?
    - 2.1.2 Was sind die Methoden zur Erkennung von Trigger -Wort?
  - 2.2 Typidentifikation
    - 2.2.1 Was ist Typerkennung?
    - 2.2.2 Was sind die Methoden der Typidentifikation?
  - 2.3 Rollenerkennung
    - 2.3.1 Was ist Rollenerkennung?
    - 2.3.2 Was sind die Methoden zur Rollenerkennung?
  - 2.4 Argumenterkennung
    - 2.4.1 Was ist Argumenterkennung?
    - 2.4.2 Was sind die Methoden der Argumenterkennung?
- 3.. Gemeinsame Methoden
  - 3.1 Wie verwende ich die Musteranpassungsmethode in der Ereignisextraktion?
  - 3.2 Wie werden statistische Methoden für maschinelles Lernen bei der Ereignisextraktion verwendet?
  - 3.3 Wie werden Deep -Learning -Methoden bei der Ereignisextraktion verwendet?
- Iv. Datensätze und Bewertungsindikatoren
  - 4.1 Was sind die gängigen englischen Datensätze in der Ereignisförderung?
  - 4.2 Was sind die gängigen chinesischen Datensätze bei der Ereignisfunktion?
  - 4.3 Was sind die Bewertungsindikatoren für die Ereignisentnahme? Wie berechnet man es?
- 5. Vergleich
  - 5.1 Was sind die Ähnlichkeiten und Unterschiede zwischen der Ereignisextraktion und der genannten Entitätserkennung (d. H. Entitätsextraktion)?
  - 5.2 Was sind die Ähnlichkeiten und Unterschiede zwischen Ereignisextraktion und Beziehungsextraktion?
  - 5.3 Was ist eine sachliche Karte? Was sind die Event -Beziehungstypen? Wie baue ich eine rationale Karte? Was sind die wichtigsten technischen Felder und aktuellen Hotspots?
- 6. Anwendung
- 7. Expansion
  - 7.1 Zusammenfassung der Event -Extraktionspapiere
  - 7.2 Ereignisextraktion FAQ

4.2 Gemeinsame Interviews für NLP-Vor-Training-Algorithmen

【Über tf-idf】 Dinge, die Sie nicht kennen
- 1. One-Hot
  - 1.1 Warum gibt es in einem Hot?
  - 1.2 Was ist One-Hot?
  - 1.3 Was sind die Eigenschaften von One-HOT?
  - 1.4 Was sind die Probleme mit einem HOT?
- 2. TF-IDF
  - 2.1 Was ist TF-IDF?
  - 2.2 Wie bewertet TF-IDF die Bedeutung von Wörtern?
  - 2.3 Was ist die Idee von TF-IDF?
  - 2.4 Wie lautet die Berechnungsformel für TF-IDF?
  - 2.5 Wie kann man TF-IDF beschreiben?
  - 2.6 Was sind die Vorteile von TF-IDF?
  - 2.7 Was sind die Nachteile von TF-IDF?
  - 2.8 Anwendung von TF-IDF?

【Über Word2Vec】 Dinge, die Sie nicht wissen
- 1. Einführung in WordVec
  - 1.1 Was bedeutet WordVec?
  - 1.2 Was bedeutet CBOW in WordVEC?
  - 1.3 Was bedeutet Skip-Gram in WordVec?
  - 1.4 Welches ist besser für CBOW gegen Skip-Gramm?
- 2. Artikel für WordVec -Optimierung
  - 2.1 Was ist der Hoffman -Baum in Word2Vec?
  - 2.2 Warum müssen Sie Hoffman Tree in Word2VEC verwenden?
  - 2.3 Was sind die Vorteile der Verwendung von Hoffman -Bäumen in Word2VEC?
  - 2.4 Warum wird in Word2VEC eine negative Abtastung verwendet?
  - 2.5 Wie ist eine negative Abtastung in Word2VEC?
  - 2.6 Wie lautet die Stichprobenmethode der negativen Abtastung in Word2VEC?
- 3.. WordVec -Vergleich
  - 3.1 Was ist der Unterschied zwischen Word2VEC und NNLM? (Word2Vec vs nnlm)
  - 3.2 Was ist der Unterschied zwischen Word2VEC und TF-IDF in der Ähnlichkeitsberechnung?
- 4. Word2VEC Praktisches Kapitel
  - 4.1 Word2VEC -Trainingstrick, wie groß ist die Fenstereinstellung?
  - 4.1 Word2VEC Trainingstrick, Wortvektorbreite, was haben die Auswirkungen von großer und kleiner und anderer Parameter?

【Über FastText】 Dinge, die Sie nicht wissen
- 1. FastText -Motivation
  - 1.1 Was ist ein Modell auf Wortebene?
  - 1.2 Was sind die Probleme mit dem Modell auf Wortebene?
  - 1.3 Was ist ein Modell auf Zeichenebene?
  - 1.4 Modellvorteile auf Zeichenebene?
  - 1.5 Gibt es ein Problem mit dem Modell auf Zeichenebene?
  - 1.6 Lösung zum Modellproblem auf Charakterebene?
- 2. Einführung in N-Gram-Informationen in Wörtern (Subword-n-Gramm-Informationen)
  - 2.1 Einführung
  - 2.2 Was ist FastText?
  - 2.3 Was ist die Struktur des FastText?
  - 2.4 Warum verwendet FastText n-Gram-Informationen im Wort (Subword-N-Gram-Informationen)?
  - 2.5 Einführung in die n-Gramm-Informationen im FastText-Wort (Subword-N-Gram-Informationen)?
  - 2.6 Der Trainingsprozess von N-Gram-Informationen in FastText Word?
  - 2.7 Gibt es Probleme mit den N-Gramm-Informationen im FastText-Wort?
- 3. Einführung in die hierarchische Softmax -Regression (hierarchische Softmax)
  - 3.1 Warum hierarchische Softmax -Regression verwenden?
  - 3.2 Was ist die Idee der hierarchischen Softmax -Regression?
  - 3.3 Was sind die Schritte zur hierarchischen Softmax -Regression?
- 4. Gibt es ein Problem mit FastText?

【Über Elmo】 Dinge, die Sie nicht wissen
- 1. Elmo Motivation
  - 1.1 Warum gibt es Elmo?
- 2. ELMO EINLEITUNG
  - 2.1 Was sind die Merkmale von Elmo?
  - 2.2 Was denkt Elmos Gedanken?
- 3. Elmo Fragen
  - 3.1 Was sind die Probleme mit Elmo?

4.3 Bert Common Interviews

Bert Common Interviews
- 1. Motiv
  - 1.1 [Evolutionsgeschichte] Gibt es ein Problem mit One-HOT?
  - 1.2 [Evolutionsgeschichte] Es gibt ein Problem mit WordVec?
  - 1.3 [Evolutionsgeschichte] Gibt es ein Problem mit FastText?
  - 1.4 [Evolutionsgeschichte] Gibt es ein Problem mit Elmo?
- 2. Bert
  - 2.1 Bert Einführung
    - 2.1.1 【Bert】 Was ist Bert?
    - 2.1.2 【Bert】 Bert drei wichtige Punkte?
  - 2.2 Bert -Eingangs- und Ausgangscharakterisierung
    - 2.2.1 [Bert] Wie sieht die Bert -Eingangs- und Ausgangscharakterisierung aus?
  - 2,3 【Bert】 Bert vor der Training
    - 2.3.1 【Bert】 Bert Pre-Training-Aufgaben Einführung
    - 2.3.2 【Bert】 Bert Pre-Training-Aufgabe maskiertes LM-Kapitel
      - 2.3.2.1 【Bert】 Warum benötigt Bert Voraussetzungen maskiert LM?
      - 2.3.2.2 【Bert】 Wie erledigt die Bert Pre-Training-Aufgabe LM?
      - 2.3.2.3.
      - 2.3.2.4 【Bert】 Lösung für die Nichtübereinstimmung zwischen der Voraussetzung und der Feinabstimmung?
    - 2.3.3 【Bert】 Bert Pre-Training-Aufgabe Nächster Satzvorhersage
      - 2.3.3.1 [Bert] Warum benötigt Bert Voraussetzungen für die nächste Satzvorhersage?
      - 2.3.3.2 【Bert】 Wie mache ich die nächste Satzvorhersage bei Bert vor der Trainingsaufgabe?
  - 2.4 【Bert】 Feinkominütiger Artikel?
    - 2.4.1 【Bert】 Warum braucht Bert eine Feinumdrehung?
    - 2.4.2 【Bert】 Wie kann man in Bert eine Feindehnung drehen?
  - 2,5 【Bert】 Bert -Verlustfunktionen?
    - 2.5.1 [Bert] Was entspricht die Verlustfunktion, die den beiden Bert-Aufgaben vor dem Training entspricht (exprimiert in Formelform)?
- 3. Vergleich?
  - 3.1 [Kontrast] Was ist das Problem der Polysynthetika?
  - 3.2 [Vergleich] Warum kann Word2Vec das Problem der Polysynonyme nicht lösen?
  - 3.3 [Vergleich] Was ist der Unterschied zwischen GPT und Bert?
  - 3.4 [Vergleich] Warum können ELMO, GPT und Bert das Problem der Polysynonyme lösen? (Nehmen Sie Elmo als Beispiel)

【Über die Bert -Quellcode -Analyse Is Hauptkörper] Dinge, die Sie nicht wissen
【Über die Bert-Quellcode-Analyse II vor dem Training Kapitel】 Dinge, die Sie nicht wissen
【Über Bert Source Code Analysis III Feinabstimmung Kapitel】 Dinge, die Sie nicht wissen
[Über den Artikel über Bert -Quellcode -Analyse IV -Satz Vektorgenerierung] Dinge, die Sie nicht wissen
[Über Kapitel der Bert -Quellcode -Analyse gegen Text Ähnlichkeit] Dinge, die Sie nicht kennen

4.3.1 Gemeinsame Interviews zur Komprimierung von Bert -Modell

Bert -Modellkomprimierung Common Interview
- 1. Motivation zur Kompressionsmotivation von Bert -Modell
- 2. Vergleichstabelle für Bert -Modellkompressionsvergleich
- 3. Einführung in die Bert -Modellkomprimierungsmethode
  - 3.1 Niedrigrangfaktorisierungs- und Verschiebungs-Parameter-Teilen der Bert-Modellkomprimierungsmethode
    - 3.1.1 Was ist eine niedrige Faktorisierung?
    - 3.1.2 Was ist die Freigabe von Cross-Layer-Parametern?
    - 3.1.3 Die von Albert verwendete Methode?
  - 3.2 Destillation der Bert -Modellkompressionsmethode
    - 3.2.1 Was ist Destillation?
    - 3.2.2 Welche Papiere verwenden die Modelldestillation? Lassen Sie es mich kurz vorstellen?
  - 3.3 Quantifizierung der Bert -Modellkomprimierungsmethode
    - 3.3.1 Was ist Quantifizierung?
    - 3.3.2 Q-Bert: Hessische ultra niedrige Präzisionsquantisierung von Bert 【Quantifizierung】
  - 3.4 Bert -Modellkomprimierungsmethode Beschneidung
    - 3.4.1 Was ist Schnitt?
- 4. Gibt es ein Problem mit der Modellkomprimierung?

4.3.2 Gemeinsame Interviews für Bert Model Series

Kennen Sie XLNET? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
Kennst du Roberta? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
Kennst du Spanbert? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
Kennst du die Messe? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?

4.4 Gemeinsame Interviews für die Textklassifizierung

Gemeinsame Interviews für die Textklassifizierung
- 1.. Abstrakte Aussagen
  - 1.1 Wie sind die Kategorien von Klassifizierungsaufgaben? Was sind ihre Eigenschaften?
  - 1.2 Was sind die Unterschiede zwischen Textklassifizierungsaufgaben im Vergleich zu Klassifizierungsaufgaben in anderen Bereichen?
  - 1.3 Was ist der Unterschied zwischen Textklassifizierungsaufgaben und anderen Aufgaben im Textfeld?
  - 1.4 Der Prozess der Textklassifizierung?
- 2. Datenvorverarbeitung
  - 2.1 Was sind die Datenvorverarbeitungsmethoden für Textklassifizierungsaufgaben?
  - 2.2 Welches Wort Partizip -Methoden und -Tools haben Sie verwendet?
  - 2.3 Wie man chinesische Texte Partizipetiker entfaltet?
  - 2.4 Was ist das Prinzip der Wortsegmentierungsmethode basierend auf String Matching?
  - 2.5 Wie werden statistische Sprachmodelle auf Wortpartizip angewendet? N-Gram Maximalwahrscheinlichkeit Partizip?
  - 2.6 Was basiert die Wortsegmentierungsmethode auf der Annotation der Sequenz?
  - 2.7 Was basiert die Annotation für die Speech-Annotation auf (bi-) lstm?
  - 2.8 Was ist der Unterschied zwischen der Stammextraktion und der Wiederherstellung der Wortform?
- 3. Merkmalextraktion
  - 3.1 (eine bestimmte) Welche Eigenschaften können in der Textklassifizierungsaufgabe verwendet werden?
  - 3.2 (für westliche Texte) Was ist der Unterschied zwischen der Verwendung von Wörtern und Buchstaben als Eigenschaften?
  - 3.3 Können Sie kurz das Modell mit Wörtern vorstellen?
  - 3.4 n-Gramm
    - 3.4.1 Was ist N-Methoden-Syntax? Warum N-Gramm verwenden?
    - 3.4.2 Was sind die Grenzen des N-Gramm-Algorithmus?
  - 3.5 Themenmodellierung
    - 3.5.1 Einführung in die Themenmodellierungsaufgabe?
    - 3.5.2 Häufige Methoden zur Themenmodellierung
    - 3.5.3 Was macht der TF-IDF-Algorithmus? Eine kurze Einführung in den TF-IDF-Algorithmus
    - 3.5.4 Was bedeutet TF-IDF hoch?
    - 3.5.5 Die Mängel von TF-IDF
  - 3.6 Textähnlichkeit
    - 3.6.1 Wie berechnet ich den Abstand zwischen zwei Textabsätzen?
    - 3.6.2 Was ist Jaccard -Distanz?
    - 3.6.3 Was ist der Unterschied zwischen Würfelkoeffizienten und Jaccard -Koeffizienten?
    - 3.6.4 Das Gleiche gilt der Bearbeitungsabstand, was ist der Unterschied zwischen Levinstein -Entfernung und Hamming -Abstand?
    - 3.6.5 Schreiben Sie eine Programmierfrage zur Berechnung der Bearbeitungsentfernung (Lewinstein -Entfernung)?
- 4. Modell
  - 4.1 FastText
    - 4.1.1 Der Klassifizierungsprozess von FastText?
    - 4.1.2 Was sind die Vorteile von FastText?
  - 4.2 textcnn
    - 4.2.1 Der Prozess der Textklassifizierung von Textcnn?
    - 4.2.2 Welche Parameter können Textcnn anpassen?
    - 4.2.3 Bei Verwendung von CNN als Textklassifikator entsprechen verschiedene Informationen dem Text?
    - 4.2.4 Was repräsentiert die Länge und Breite des Faltungskerns in TextCnn?
    - 4.2.5 Was ist der Unterschied zwischen den Pooling -Operationen in TextCNN und dem Pooling -Operationen im Allgemeinen CNN?
    - 4.2.6 Einschränkungen von textcnn?
  - 4,3 dpcnn
    - 4.3.1 Wie kann ich die Long Text -Klassifizierungsaufgabe lösen?
    - 4.3.2 Einführen kurz die Verbesserungen des DPCNN -Modells im Vergleich zu TextCNN?
  - 4.4 Textrcnn
    - 4.4.1 Einführen kurz die Verbesserungen von Textrcnn im Vergleich zu TextCNN?
  - 4,5 RNN+Aufmerksamkeit
    - 4.5.1 Die Idee der RNN+Aufmerksamkeit für Textklassifizierungsaufgaben, und warum muss der Aufmerksamkeits-/Aufmerksamkeitsmechanismus hinzugefügt werden?
  - 4.6 GNN Graph Neural Network
    - 4.6.1 Wie wird das neuronale Netzwerk von GNN -Graph auf das Feld der Textklassifizierung angewendet?
  - 4.7 Transformator
    - 4.7.1 Wie kann ich vorgebrachte Modelle anwenden, die auf dem Transformator auf das Feld der Textklassifizierung basieren?
  - 4.8 Vorausgebildeter Modell
    - 4.8.1 Welche vorgeborenen Modelle kennen Sie? Was sind ihre Eigenschaften?
- V. Verlustfunktion
  - 5.1 Aktivierungsfunktion Sigmoid
    - 5.1.1 Einführung in die Aktivierungsfunktion Sigmoid für binäre Klassifizierungsprobleme?
    - 5.1.2 Was sind die Nachteile von Sigmod?
  - 5.2 Aktivierungsfunktion Softmax
    - 5.2.1 Was ist die Softmax -Funktion?
    - 5.2.2 Wie findet man die Ableitung der Softmax -Funktion?
  - 5.3 Welche anderen Verlustfunktionen werden für Klassifizierungsprobleme verwendet?
- 6. Modellbewertung und Algorithmusvergleich
  - 6.1 Was werden die Bewertungsalgorithmen und Indikatoren in Textklassifizierungsaufgaben verwendet?
  - 6.2 kurze Einführung in die Verwirrungsmatrix und Kappa?

Textklassifizierungstrick gemeinsame Interviews
- 1. Wie kann man Textklassifizierungsdaten vorbereiten?
- 2. Wie wählen Sie ein vorgebildetes Modell der Textklassifizierung?
- 3.. Wie optimieren Sie die Textklassifizierungsparameter?
- 4. Was sind die schwierigen Aufgaben der Textklassifizierung?
- 5. Konstruktion des Kennzeichnungssystems der Textklassifizierung?
- 6. Konstruktion der Textklassifizierungsstrategie?

Verwenden Sie Suchmethoden, um gemeinsame Interviews für die Textklassifizierung durchzuführen
- Warum müssen wir die Suche verwenden, um Text zu klassifizieren?
- Was ist die Idee der Textklassifizierung basierend auf Suchmethoden?
- Wie erstelle ich eine Rückrufbibliothek für die abgerufene Methode?
- Wie mache ich die Trainingsphase der Suchmethode?
- Wie mache ich die Vorhersagestufe der Suchmethode?
- Was sind die zutreffenden Szenarien für die Textklassifizierung mithilfe von Suchmethoden?

4.5 Gemeinsame Interviews für die Textübereinstimmung

Textübereinstimmungsmodell ESIM Common Interviews
- Warum brauchst du ESIM?
- Was ist mit der Einführung des ESIM -Modells?

Gemeinsame Interviews für Bert in semantischen Ähnlichkeitsaufgaben
- 1. Satzpaarklassifizierungsaufgabe: Verwenden Sie CLS
- 2. Ähnlichkeit Cosinus
- 3. Der Unterschied zwischen langen und kurzen Texten
- 4. Satz/Worteinbettung
- 5. Siamese -Netzwerkmethode

4.6 Gemeinsame Interviews für Q & A -Systeme

4.6.1 Gemeinsame Interviews für FAQ-Such- und Antwortensysteme für FAQ

1. Motivation
- 1.1 Motivation des Q & A -Systems?
- 1.2 Was ist das Q & A -System?
2. Einführung in FAQ Suchbasierte Q & A-Systeme
- 2.1 Was ist das FAQ-suchbasierte Fragen-und-Antwort-System?
- 2.2 Was ist der Kern der Query -Matching -Standard -QA?
3. FAQ Suchbasierte Q & A-Systemlösung
- 3.1 Was sind die häufig verwendeten Lösungen?
- 3.2 Warum wird QQ häufiger verwendet?
  - 3.2.1 Was sind die Vorteile der QQ -Übereinstimmung?
  - 3.2.2 Was ist der semantische Raum für QQ -Matching?
  - 3.2.3 Wie ist die Stabilität des QQ -Matching Corpus?
  - 3.2.4 Was ist die Entkopplung von QQ -Matching Business Answers und Algorithmus -Modell?
  - 3.2.5 Was sind die Entdeckung und Deduplizierung neuer QQ -Matching -Probleme?
  - 3.2.6 Wie hoch ist die Online -Laufgeschwindigkeit des QQ -Matchings?
- 3.3 Was ist der allgemeine Verarbeitungsprozess für die QQ -Übereinstimmung? [Angenommen, die Standardproblembank wurde verarbeitet]
4. Bau der FAQ -Standardproblembank
- 4.1 Wie findet ich Standardprobleme in FAQ?
- 4.2 Wie kann ich FAQ teilen?
- 4.3 Wie fusioniere ich FAQ?
- 4.4 Wie aktualisiere ich die FAQ -Standardbibliothek in Echtzeit?
5. FAQ Standard Frage Bank -Antwortoptimierung
- 5.1 Wie optimieren Sie die Antworten auf die FAQ -Standardfragebank?

4.6.2 Q & A -Systeme Tools Common Interviews

Faiss Common Interviews
- 1. Motiv
  - 1.1 Was sind die Probleme mit herkömmlichen Ähnlichkeitsalgorithmen?
- 2. Einführung
  - 2.1 Was ist Faiss?
  - 2.2 Wie man Faiss benutzt?
  - 2.3 FAISS -Prinzip und Kernalgorithmus
- 3.. Faiss Praktisches Kapitel
  - 3.1 Wie installiere ich Faiss?
  - 3.2 Was sind die Indexindizes von Faiss?
  - 3.3 Wie verwendet ich den Faiss 'Indexindex?
    - 3.3.1 Datenvorbereitung
    - 3.3.2 gewalttätiger Ästhetik Indexflatl2
    - 3.3.3 Der Flash Indexivflat
    - 3.3.4 Speichermanager indexivfpq
  - 3.4 FAISS dann verwenden Sie GPU?
- 4. FAISS -Vergleich
  - 4.1 Welches ist besser, sklearn Cosinus_similarität oder Faiss

4.7 Gemeinsame Interviews für Dialogsysteme

Gemeinsame Interviews für Dialogsysteme
- 1. Einführung in das Dialogsystem
  - 1.1 Was sind die Dialogsysteme?
  - 1.2 Was sind die Unterschiede zwischen diesen Dialogsystemen?
- 2. Einführung in das Mehrrund-Dialogsystem
  - 2.1 Warum ein Mehrrund-Dialogsystem verwenden?
  - 2.2 Was sind die gemeinsamen Multi-Runden-Dialogsystemlösungen?
- 3. Einführung in das aufgabenbasierte Dialogsystem
  - 3.1 Was ist ein aufgabenbasiertes Dialogsystem?
  - 3.2 Was ist der Prozess eines aufgabenbasierten Dialogsystems?
  - 3.3 Aufgabenbasierter Dialogsystem Sprachverständnis (SLU)
    - 3.3.1 Was ist Sprachverständnis (SLU)?
    - 3.3.2 Was sind die Eingabe und Ausgabe des Sprachverständnisses (SLU)?
    - 3.3.3 Welche Techniken werden im Sprachverständnis (SLU) verwendet?
  - 3.4 aufgabenbasiertes Dialogsystem DST (Dialogstatus-Tracking)
    - 3.4.1 Was ist DST (Dialogstatus -Tracking)?
    - 3.4.2 Was sind die Eingabe und Ausgabe von DST (Dialogstatus -Tracking)?
    - 3.4.3 Haben DST (Dialogstatus -Tracking) Probleme und Lösungen?
    - 3.4.4 Wie lautet die Implementierungsmethode von DST (Dialogstatus -Tracking)?
  - 3.5 DPO-Kapitel des aufgabenbasierten Dialogsystems (Dialogstrategie-Lernen)
    - 3.5.1 Was ist DPO (Dialogstrategie -Lernen)?
    - 3.5.2 Was sind die Eingabe und Ausgabe von DPO (Dialogstrategielernen)?
    - 3.5.3 Wie lautet die Implementierungsmethode von DPO (Dialogstrategielernen)?
  - 3.6 NLG (Natural Language Generation) Aufgabenbasierter Dialogsystem
    - 3.6.1 Was ist NLG (natürliche Sprachgenerierung)?
    - 3.6.2 Was sind die Eingabe und Ausgabe von NLG (natürliche Sprachgenerierung)?
    - 3.6.3 Ist die Implementierung von NLG (Natural Language Generation)?

4.8 Gemeinsame Interviews für Wissensgrafiken

4.8.1 Gemeinsame Interviews für Wissensgrafiken

1. Einführung in das Wissensgraphen
- 1.1 Einführung
- 1.2 Was ist ein Wissensgraphen?
  - 1.2.1 Was ist Grafik?
  - 1.2.2 Was ist Schema?
- 1.3 Was sind die Kategorien von Wissensgraphen?
- 1.4 Wie hoch ist der Wert des Wissensgraphen?
2. Wie erstellt man ein Wissensgraphen?
- 2.1 Woher stammen die Daten aus dem Wissensgraphen?
- 2.2 Was sind die Schwierigkeiten bei der Informationsextraktion?
- 2.3 Die Technologien, die am Erstellen eines Wissensgrafiks beteiligt sind?
- 2.4. Was ist die spezifische Technologie zum Erstellen eines Wissensgrafiks?
  - 2.4.1 Erkennung der Entität genannt
  - 2.4.2 Beziehungsextraktion
  - 2.4.3 Entitätslösung
  - 2.4.4 bezieht sich auf die Disambiguierung
3. Wie kann man Wissensgraphen speichern?
4. Was kann das Wissensgraphen tun?

4.8.2 KBQA Common Interviews

1. Methoden, die auf Wörterbuch und Regeln basieren
- KBQA basierend auf Wörterbuch und Regeln implementieren?
- Implementierung des KBQA -Prozesses basierend auf Wörterbuch und Regeln?
2. Methoden basierend auf der Informationsextraktion
- Implementieren Sie den KBQA -Prozess basierend auf der Informationsextraktion?

4.8.3 NEO4J Common Interviews

1. Neo4j Einführung und Installation
- 1.1 Einführung
- 1.2 Wie lade ich Neo4j herunter?
- 1.3 Wie installiere ich Neo4j?
- 1.4 Einführung in die NEO4J -Weboberfläche
- 1.5 Was ist die Cypher -Abfragesprache?
2. NEO4J Addition, Löschung, Suche und Änderung
- 2.1 Einführung
- 2.2 Wie erstelle ich einen Knoten in NEO4J?
- 2.3 Wie erstellt man eine Beziehung in NEO4J?
- 2.4 Wie erstellt man eine Geburtsbeziehung in NEO4J?
- 2.5 Wie kann ich Neo4j abfragen?
- 2.6 Wie lösche und modifiziere ich Neo4j?
3. Wie kann man Python verwenden, um die NEO4J -Diagrammdatenbank zu bedienen?
- 3.1 NEO4J -Modul: Wie führt die Ausführung der CQL (CYPHER) -Schürtung?
- 3.2 Was ist das PY2NEO -Modul?
4. Datenbank für die NEO4J -Diagrammdatenbank importieren

4.9 Textzusammenfassung Common Interviews

1. Motiv
- 1.1 Was ist eine Textzusammenfassung?
- 1.2 Was sind die Arten von Textübersichtstechniken?
2. Zusammenfassung der Extraktion
- 2.1 Wie kann man eine entscheidende Zusammenfassung machen?
  - 2.1.1 Was sind die Urteilswichtigkeitsbewertungsalgorithmen?
  - 2.1.2 Was sind die einschränkungsbasierten Zusammenfassungsgenerierungsmethoden?
  - 2.1.3 Wie extrahiert der Textteaser -Algorithmus die Zusammenfassung?
  - 2.1.4 Wie extrahiert Textrank -Algorithmus die Zusammenfassung?
- 2.2 Was ist das Lesbarkeitsproblem der extrahierten Zusammenfassung?
3.. Komprimierte Zusammenfassung
- 3.1 Wie kann man eine komprimierte Zusammenfassung machen?
4. Generative Zusammenfassung
- 4.1 Wie kann man eine generative Zusammenfassung machen?
- 4.2 Was sind die Probleme mit der generativen Zusammenfassung?
- 4.3 Welche Probleme löst das Zeigergenerator-Netzwerk?
V. Zusammenfassung Qualitätsbewertungsmethode
- 5.1 Was sind die Arten von abstrakten Qualitätsbewertungsmethoden?
- 5.2 Was ist Rouge?
- 5.3 Was ist der Unterschied zwischen mehreren Rouge -Indikatoren?
- 5.4 Was ist der Unterschied zwischen Bleu und Rouge?

4.10 Artikel für Textfehlerkorrektur Artikel Common Interview Artikel

1. Einführung
- 1.1 Was ist Textfehlerkorrektur?
- 1.2 gemeinsame Textfehlertypen?
- 1.3 Häufige Methoden zur Korrektur von Textfehler?
2. Einführung in die Pipeline -Methode
- Wie implementieren Sie die Fehlererkennung in Pipeline?
- Wie kann man den Kandidatenrückruf in Pipeline implementieren?
- Wie implementieren Sie die Sortierung der Fehlerkorrektur in der Pipeline?
- Wie implementieren Sie die ASR -Echo -Optimierung in Pipeline?

4.11 Textzusammenfassung Common Interviews

1. Motiv
- 1.1 Was ist eine Textzusammenfassung?
- 1.2 Was sind die Arten von Textübersichtstechniken?
2. Zusammenfassung der Extraktion
- 2.1 Wie kann man eine entscheidende Zusammenfassung machen?
  - 2.1.1 Was sind die Urteilswichtigkeitsbewertungsalgorithmen?
  - 2.1.2 Was sind die einschränkungsbasierten Zusammenfassungsgenerierungsmethoden?
  - 2.1.3 Wie extrahiert der Textteaser -Algorithmus die Zusammenfassung?
  - 2.1.4 Wie extrahiert Textrank -Algorithmus die Zusammenfassung?
- 2.2 Was ist das Lesbarkeitsproblem der extrahierten Zusammenfassung?
3.. Komprimierte Zusammenfassung
- 3.1 Wie kann man eine komprimierte Zusammenfassung machen?
4. Generative Zusammenfassung
- 4.1 Wie kann man eine generative Zusammenfassung machen?
- 4.2 Was sind die Probleme mit der generativen Zusammenfassung?
- 4.3 Welche Probleme löst das Zeigergenerator-Netzwerk?
V. Zusammenfassung Qualitätsbewertungsmethode
- 5.1 Was sind die Arten von abstrakten Qualitätsbewertungsmethoden?
- 5.2 Was ist Rouge?
- 5.3 Was ist der Unterschied zwischen mehreren Rouge -Indikatoren?
- 5.4 Was ist der Unterschied zwischen Bleu und Rouge?

4.12 Gemeinsame Interviews für die Textgenerierung

Gemeinsame Interviews für Dekodierungsmethoden zum Generieren von Modellen
- Was ist ein generatives Modell?
- Was sind die suchbasierten Dekodierungsmethoden?
- Was sind die auf Stichproben basierenden Dekodierungsmethoden?

3.. Deep Learning Algorithmus Common Interview

CNN Common Interviews
- 1. Motiv
- 2. CNN Faltungsschicht
  - 2.1 Was ist die Essenz einer Faltungsschicht?
  - 2.2 Was ist die Verbindung zwischen CNN -Faltungsschicht und vollständig verbundener Schicht?
  - 2.3 Was bedeutet Kanal?
- 3. CNN Pooling -Schicht
  - 3.1 Was ist die Pooling -Schicht für die Region?
  - 3.2 Was sind die Arten von Poolschichten?
  - 3.3 Was ist die Funktion der Pooling -Schicht?
  - 3.4 Wie ist die Backpropagation in der Pooling -Schicht?
  - 3.5 Wie ist meine Backpropagation gemeint?
  - 3.6 Wie ist die Backpropagation der Pooling -Schicht?
- 4. CNN insgesamt
  - 4.1 Was ist der Prozess von CNN?
  - 4.2 Was sind die Eigenschaften von CNN?
  - 4.3 Warum hat das neuronale Netzwerk von Faltungen translationale Invarianz?
  - 4.4 Wie wird IM2Col im neuronalen Faltungsnetzwerk implementiert?
  - 4.5 Was sind die Grenzen von CNN?
- 5. Iterated Dilatatated CNN
  - 5.1 Was ist eine erweiterte CNN -Hohlraumverarbeitung?
  - 5.2 Was wird iteratiertes CNN iteriert?
- 6. Dekorvolution
  - 6.1 Erklären Sie die Prinzipien und Verwendungen der Entfaltung?

RNN Common Interviews
- 1. Rnn
  - 1.2 Warum brauche ich RNN?
  - 1.2 Was ist die RNN -Struktur?
  - 1,3 RNN Vorwärtsberechnung Formel?
  - 1.4 Was sind die Probleme mit RNN?
- 2. Langes kurzfristiges Speichernetz (LSTM)
  - 2.1 Warum brauchst du LSTM?
  - 2.2 Was ist die Struktur von LSTM?
  - 2.3 Wie mindert LSTM die Probleme des RNN -Gradientenverschwindens und der Gradientenexplosion?
  - 2.3 Was ist der Prozess von LSTM?
  - 2.4 Was sind die Unterschiede in den Aktivierungsfunktionen in LSTM?
  - 2,5 LSTM -Komplexität?
  - 2.6 Welche Probleme gibt es LSTM?
- 3.. Gru (wiederholte wiederkehrende Einheit)
  - 3.1 Warum brauchst du Gru?
  - 3.2 Was ist die Struktur von Gru?
  - 3.3 Berechnung von GRU?
  - 3.4 Was ist der Unterschied zwischen Gru- und anderen RNN -Serienmodellen?
- 4. Modell RNN -Serienmodell
  - 4.1 Was sind die Eigenschaften des RNN -Serienmodells?

Aufmerksamkeit gemeinsame Interviews
- 1. SEQ2SEQ
  - 1.1 Was ist SEQ2SEQ (Encoder-Decoder)?
  - 1.2 Wie wäre es mit Encoder in SEQ2SEQ?
  - 1.3 Wie wäre es mit Decoder in SEQ2SEQ?
  - 1.4 Kennen Sie SEQ2SEQ aus mathematischer Sicht?
  - 1.5 Welche Probleme haben SEQ2SEQ?
- 2. Aufmerksamkeit
  - 2.1 Was ist Aufmerksamkeit?
  - 2.2 Warum wird der Aufmerksamkeitsmechanismus eingeführt?
  - 2.3 Was ist die Funktion der Aufmerksamkeit?
  - 2.4 Was ist der Aufmerksamkeitsprozess?
    - Schritt 1 zum Ausführen von Encoder (im Einklang mit SEQ2SEQ)
    - Schritt 2 Berechnen Sie den Ausrichtungskoeffizienten a
    - Schritt 3: Berechnen Sie den Kontext semantischen Vektor C.
    - Schritt 4 Aktualisieren Sie den Decoder -Status
    - Schritt 5 Berechnen Sie die Ausgangsvorhersagewörter
  - 2.5 Was sind die Aufmerksamkeitsbereiche?
- 3. Aufmerksamkeitsvariante
  - 3.1 Was ist weiche Aufmerksamkeit?
  - 3.2 Was ist schwierige Aufmerksamkeit?
  - 3.3 Was ist globale Aufmerksamkeit?
  - 3.4 Was ist lokale Aufmerksamkeit?
  - 3.5 Was ist Selbstbeziehung?

Generieren von kontroversem Netzwerk Gan Common Interviews
- 1. Motivation
- 2. Einführung
  - 2.1 Grundideen von Gan
  - 2.2 Grundeinführung in Gan
    - 2.2.1 Grundstruktur von Gan
    - 2.2.2 GAN 的基本思想
- 三、训练篇
  - 3.1 生成器介绍
  - 3.2 判别器介绍
  - 3.3 训练过程
  - 3.4 训练所涉及相关理论基础
- 4. Zusammenfassung

3.1 Transformer 常见面试篇

Transformer 常见面试篇
- 一、动机篇
  - 1.1 为什么要有Transformer?
  - 1.2 Transformer 作用是什么？
- 二、整体结构篇
  - 2.1 Transformer 整体结构是怎么样？
  - 2.2 Transformer-encoder 结构怎么样？
  - 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
  - 3.1 self-attention 模块
    - 3.1.1 传统attention 是什么?
    - 3.1.2 为什么会有self-attention?
    - 3.1.3 self-attention 的核心思想是什么?
    - 3.1.4 self-attention 的目的是什么?
    - 3.1.5 self-attention 的怎么计算的?
    - 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
    - 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型？
    - 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
    - 3.1.9 self-attention 如何解决长距离依赖问题？
    - 3.1.10 self-attention 如何并行化？
  - 3.2 multi-head attention 模块
    - 3.2.1 multi-head attention 的思路是什么样?
    - 3.2.2 multi-head attention 的步骤是什么样?
    - 3.2.3 Transformer为何使用多头注意力机制？（为什么不使用一个头）
    - 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维？
    - 3.2.5 multi-head attention 代码介绍
  - 3.3 位置编码（Position encoding）模块
    - 3.3.1 为什么要加入位置编码（Position encoding）？
    - 3.3.2 位置编码（Position encoding）的思路是什么？
    - 3.3.3 位置编码（Position encoding）的作用是什么？
    - 3.3.4 位置编码（Position encoding）的步骤是什么？
    - 3.3.5 Position encoding为什么选择相加而不是拼接呢？
    - 3.3.6 Position encoding和Position embedding的区别？
    - 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding？而Bert却采用的是Position Embedding ？
    - 3.3.8 位置编码（Position encoding）的代码介绍
  - 3.4 残差模块模块
    - 3.4.1 为什么要加入残差模块？
  - 3.5 Layer normalization 模块
    - 3.5.1 为什么要加入Layer normalization 模块？
    - 3.5.2 Layer normalization 模块的是什么？
    - 3.5.3 Batch normalization 和Layer normalization 的区别？
    - 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
    - 3.5.5 Layer normalization 模块代码介绍
  - 3.6 Mask 模块
    - 3.6.1 什么是Mask？
    - 3.6.2 Transformer 中用到几种Mask？
    - 3.6.3 能不能介绍一下Transformer 中用到几种Mask？

【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
  - 1.1 既然Transformer 怎么牛逼，是否还存在一些问题？
- 二、每个问题的解决方法是什么？
  - 2.1 问题一：Transformer 不能很好的处理超长输入问题
    - 2.1.1 Transformer 固定了句子长度？
    - 2.1.2 Transformer 固定了句子长度的目的是什么？
    - 2.1.3 Transformer 针对该问题的处理方法？
  - 2.2 问题二：Transformer 方向信息以及相对位置的缺失问题
  - 2.3 问题三：缺少Recurrent Inductive Bias
  - 问题四：问题四：Transformer是非图灵完备的：非图灵完备通俗的理解，就是无法解决所有的问题
  - 问题五：transformer缺少conditional computation；
  - 问题六：transformer 时间复杂度和空间复杂度过大问题；

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA）面试篇

一、动机篇
- 1.1 什么是数据增强？
- 1.2 为什么需要数据增强？
二、常见的数据增强方法篇
- 2.1 词汇替换篇
  - 2.1.1 什么是基于词典的替换方法？
  - 2.1.2 什么是基于词向量的替换方法？
  - 2.1.3 什么是基于MLM 的替换方法？
  - 2.1.4 什么是基于TF-IDF 的词替换？
- 2.2 词汇插入篇
  - 2.2.1 什么是随机插入法？
- 2.3 词汇交换篇
  - 2.3.1 什么是随机交换法？
- 2.4 词汇删除篇
  - 2.4.1 什么是随机删除法？
- 2.5 回译篇
  - 2.5.1 什么是回译法？
- 2.6 交叉增强篇
  - 2.6.1 什么是交叉增强篇
- 2.7 语法树篇
  - 2.7.1 什么是语法树操作？
- 2.8 对抗增强篇
  - 2.8.1 什么是对抗增强？

5.1.2 主动学习面试篇

一、动机篇
- 1.1 主动学习是什么？
- 1.2 为什么需要主动学习？
二、主动学习篇
- 2.1 主动学习的思路是什么？
- 2.2 主动学习方法的价值点在哪里？
三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
  - 3.2.1 测试集内选取“信息”量最大的数据标记
  - 3.2.2 依赖不确定度的样本选取策略（Uncertainty Sampling, US）
  - 3.2.3 基于委员会查询的方法（Query-By-Committee，QBC）

5.1.3 数据增强之对抗训练面试篇

1. Einführung
- 1.1 什么是对抗训练？
- 1.2 为什么对抗训练能够提高模型效果？
- 1.3 对抗训练有什么特点？
- 1.4 对抗训练的作用?
二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method（FGM）
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent（PGD）

5.2 “脏数据”处理面试篇

一、动机
- 1.1 何为“脏数据”？
- 1.2 “脏数据” 会带来什么后果？
二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢？
- 2.2 置信学习方法篇
  - 2.2.1 什么是置信学习方法？
  - 2.2.2 置信学习方法优点？
  - 2.2.3 置信学习方法怎么做？
  - 2.2.4 置信学习方法怎么用？有什么开源框架？
  - 2.2.5 置信学习方法的工作原理？

5.3 batch_size设置面试篇

一、训练模型时，batch_size的设置，学习率的设置?

5.4 早停法EarlyStopping 面试篇

一、为什么要用早停法EarlyStopping？
二、早停法EarlyStopping 是什么？
三、早停法torch 版本怎么实现？

5.5 标签平滑法LabelSmoothing 面试篇

一、为什么要有标签平滑法LabelSmoothing？
二、标签平滑法是什么？
三、标签平滑法torch 怎么复现？

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

什么是Bert 未登录词？
Bert 未登录词如何处理？
Bert 未登录词各种处理方法有哪些优缺点？

5.6.2 BERT在输入层引入额外特征面试篇

BERT在输入层如何引入额外特征？

5.6.3 关于BERT 继续预训练面试篇

什么是继续预训练？
为什么会存在【数据分布/领域差异】大问题？
如何进行继续预训练？
还有哪些待解决问题？
训练数据问题解决方案？
知识缺乏问题解决方案？
知识理解缺乏问题解决方案？

5.6.4 BERT如何处理篇章级长文本面试篇

为什么Bert 不能处理长文本？
BERT 有哪些处理篇章级长文本?

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

什么是prompt？
如何设计prompt？
prompt进阶——如何自动学习prompt？
Prompt 有哪些关键要点？
Prompt 如何实现？

6.2 Prompt 文本生成面试篇

Prompt之文本生成评估手段有哪些？
Prompt文本生成具体任务有哪些？

6.3 LoRA 面试篇

什么是lora？
lora 是怎么做的呢？
lora 为什么可以这样做？
用一句话描述lora？
lora 优点是什么？
lora 缺点是什么？
lora 如何实现？

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ？
- 1.2 微调Fine-tuning 基本思想是什么？
二、轻度微调（lightweight Fine-tuning）篇
- 2.1 什么是轻度微调（lightweight Fine-tuning）？
三、适配器微调（Adapter-tuning）篇
- 3.1 什么是适配器微调（Adapter-tuning）？
- 3.2 适配器微调（Adapter-tuning）变体有哪些？
四、提示学习（Prompting）篇
- 4.1 什么是提示学习（Prompting）？
- 4.2 提示学习（Prompting）的目的是什么？
- 4.3 提示学习（Prompting）代表方法有哪些？
  - 4.3.1 前缀微调（Prefix-tining）篇
    - 4.3.1.1 什么是前缀微调（Prefix-tining）？
    - 4.3.1.2 前缀微调（Prefix-tining）的核心是什么？
    - 4.3.1.3 前缀微调（Prefix-tining）的技术细节有哪些？
    - 4.3.1.4 前缀微调（Prefix-tining）的优点是什么？
    - 4.3.1.5 前缀微调（Prefix-tining）的缺点是什么？
  - 4.3.2 指示微调（Prompt-tuning）篇
    - 4.3.2.1 什么是指示微调（Prompt-tuning）？
    - 4.3.2.2 指示微调（Prompt-tuning）的核心思想？
    - 4.3.2.3 指示微调（Prompt-tuning）的优点/贡献是什么？
    - 4.3.2.4 指示微调（Prompt-tuning）的缺点是什么？
    - 4.3.2.5 指示微调（Prompt-tuning）与Prefix-tuning 区别是什么？
    - 4.3.2.6 指示微调（Prompt-tuning）与fine-tuning 区别是什么？
  - 4.3.3 P-tuning 篇
    - 4.3.3.1 P-tuning 动机是什么？
    - 4.3.3.2 P-tuning 核心思想是什么？
    - 4.3.3.3 P-tuning 做了哪些改进？
    - 4.3.3.4 P-tuning 有哪些优点/贡献？
    - 4.3.3.5 P-tuning 有哪些缺点？
  - 4.3.4 P-tuning v2 篇
    - 4.3.4.1 为什么需要P-tuning v2？
    - 4.3.4.2 P-tuning v2 是什么？
    - 4.3.4.3 P-tuning v2 有哪些优点？
    - 4.3.4.4 P-tuning v2 有哪些缺点？
  - 4.3.5 PPT 篇
    - 4.3.5.1 为什么需要PPT ？
    - 4.3.5.2 PPT 核心思想是什么？
    - 4.3.5.3 PPT 具体做法是怎么样？
    - 4.3.5.4 常用的soft prompt初始化方法？
    - 4.3.5.5 PPT 的优点是什么？
    - 4.3.5.6 PPT 的缺点是什么？
- 4.4 提示学习（Prompting）优点是什么？
- 4.5 提示学习（Prompting）本质是什么？
五、指令微调（Instruct-tuning）篇
- 5.1 为什么需要指令微调（Instruct-tuning）？
- 5.2 指令微调（Instruct-tuning）是什么？
- 5.3 指令微调（Instruct-tuning）的优点是什么？
- 5.4 指令微调（Instruct-tuning） vs 提升学习（Prompting）？
- 5.5 指令微调（Instruct-tuning） vs 提升学习（Prompting） vs Fine-tuning？
六、指令提示微调（Instruct Prompt tuning）篇
- 6.1 为什么需要指令微调（Instruct-tuning）？
- 6.2 指令微调（Instruct-tuning）是什么？
- 6.3 指令微调（Instruct-tuning）在不同任务上性能？
七、self-instruct篇
- 7.1 什么是self-instruct？
八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ？
- 8.2 什么是Chain-of-Thought ？
- 8.3 Chain-of-Thought 的思路是怎么样的？
- 8.4 Chain-of-Thought 的优点是什么？
- 8.5 为什么chain-of-thought 会成功？
九、LoRA 篇
- 9.1 LoRA 篇
  - 9.1.1 LoRA 核心思想是什么？
  - 9.1.2 LoRA 具体思路是什么？
  - 9.1.3 LoRA 优点是什么？
  - 9.1.4 LoRA 缺点是什么？
- 9.2 AdaLoRA 篇
  - 9.2.1 AdaLoRA 核心思想是什么？
  - 9.2.2 AdaLoRA 实现思路是什么？
- 9.3 DyLoRA 篇
  - 9.3.1 AdaLoRA 动机是什么？
  - 9.3.2 AdaLoRA 核心思想是什么？
  - 9.3.3 AdaLoRA 优点是什么？
十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么？
- 10.2 AdaLoRA 优点是什么？
- 10.3 AdaLoRA 缺点是什么？

七、LLMs 面试篇

7.1 [What are the fine-tuning methods for the LLM model now? Was sind die Vor- und Nachteile von jedem?

What are the fine-tuning methods for the LLM model now? Was sind die Vor- und Nachteile von jedem?

7.2 GLM：ChatGLM的基座模型常见面试题

GLM 的核心是什么？
GLM 的模型架构是什么？
GLM 如何进行多任务训练？
在进行NLG 时， GLM 如何保证生成长度的未知性？
GLM 的多任务微调方式有什么差异？
GLM 的多任务微调方式有什么优点？

一、基础算法常见面试篇

过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么？
- 二、过拟合/高方差（overfiting / high variance）篇
  - 2.1 过拟合是什么及检验方法？
  - 2.2 导致过拟合的原因是什么？
  - 2.3 过拟合的解决方法是什么？
- 三、欠拟合/高偏差（underfiting / high bias）篇
  - 3.1 欠拟合是什么及检验方法？
  - 3.2 导致欠拟合的原因是什么？
  - 3.3 过拟合的解决方法是什么？

BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
  - 1.1 独立同分布（independent and identically distributed）与白化
  - 1.2 （ Internal Covariate Shift，ICS）
  - 1.3 ICS问题带来的后果是什么？
- 二、Normalization 篇
  - 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
  - 3.1 Batch Normalization（纵向规范化）是什么？
  - 3.2 Batch Normalization（纵向规范化）存在什么问题？
  - 3.3 Batch Normalization（纵向规范化）适用的场景是什么？
  - 3.4 BatchNorm 存在什么问题？
- 四、Layer Normalization（横向规范化）篇
  - 4.1 Layer Normalization（横向规范化）是什么？
  - 4.2 Layer Normalization（横向规范化）有什么用？
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效？

激活函数常见面试篇
- 一、动机篇
  - 1.1 为什么要有激活函数？
- 二、激活函数介绍篇
  - 2.1 sigmoid 函数篇
    - 2.1.1 什么是sigmoid 函数？
    - 2.1.2 为什么选sigmoid 函数作为激活函数？
    - 2.1.3 sigmoid 函数有什么缺点？
  - 2.2 tanh 函数篇
    - 2.2.1 什么是tanh 函数？
    - 2.2.2 为什么选tanh 函数作为激活函数？
    - 2.2.3 tanh 函数有什么缺点？
  - 2.3 relu 函数篇
    - 2.3.1 什么是relu 函数？
    - 2.3.2 为什么选relu 函数作为激活函数？
    - 2.3.3 relu 函数有什么缺点？
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0，L1，L2正则化篇
  - 1.1 正则化是什么？
  - 1.2 什么是L0 正则化？
  - 1.3 什么是L1 （稀疏规则算子Lasso regularization）正则化？
  - 1.4 什么是L2 正则化（岭回归Ridge Regression 或者权重衰减Weight Decay）正则化？
- 二、对比篇
  - 2.1 什么是结构风险最小化？
  - 2.2 从结构风险最小化的角度理解L1和L2正则化
  - 2.3 L1 vs L2
- 三、dropout 篇
  - 3.1 什么是dropout？
  - 3.2 dropout 在训练和测试过程中如何操作？
  - 3.3 dropout 如何防止过拟合?

优化算法及函数常见面试篇
- 一、动机篇
  - 1.1 为什么需要优化函数？
  - 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
  - 2.1 梯度下降法是什么?
  - 2.2 随机梯度下降法是什么?
  - 2.3 Momentum 是什么?
  - 2.4 SGD with Nesterov Acceleration 是什么?
  - 2.5 Adagrad 是什么?
  - 2.6 RMSProp/AdaDelta 是什么？
  - 2.7 Adam 是什么?
  - 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇

归一化常见面试篇
- 一、动机篇
  - 1.1 为什么要归一化？
- 二、介绍篇
  - 2.1 归一化有哪些方法？
  - 2.2 归一化各方法特点？
  - 2.3 归一化的意义？
- III. Anwendung
  - 3.1 哪些机器学习算法需要做归一化？
  - 3.2 哪些机器学习算法不需要做归一化？

判别式（discriminative）模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
  - 1.1 什么是判别式模型？
  - 1.2 判别式模型是思路是什么？
  - 1.3 判别式模型的优点是什么？
- 二、生成式模型篇
  - 2.1 什么是生成式模型？
  - 2.2 生成式模型是思路是什么？
  - 2.3 生成式模型的优点是什么？
  - 2.4 生成式模型的缺点是什么？

二、机器学习算法篇常见面试篇

逻辑回归常见面试篇
- 1. Einführung
  - 1.1什么是逻辑回归
  - 1.2逻辑回归的优势
- 二、推导篇
  - 2.1逻辑回归推导
  - 2.2求解优化

支持向量机常见面试篇
- 一、原理篇
  - 1.1 什么是SVM？
    - QA
  - 1.2 SVM怎么发展的？
  - 1.3 SVM存在什么问题？
    - QA
- 二、算法篇
  - 2.1 什么是块算法？
  - 2.2 什么是分解算法？
  - 2.3 什么是序列最小优化算法？
  - 2.4 什么是增量算法？
    - QA
- 三、其他SVM篇
  - 3.1 什么是最小二次支持向量机？
  - 3.2 什么是模糊支持向量机？
  - 3.3 什么是粒度支持向量机？
  - 3.4 什么是多类训练算法？
  - 3.5 什么是孪生支持向量机？
  - 3.6 什么是排序支持向量机？
    - QA
- Iv. Anwendung
  - 4.1 模式识别
  - 4.2 网页分类
  - 4.3 系统建模与系统辨识
  - 4.4 其他
- 五、对比篇
- 六、拓展篇

集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
  - 2.1 Einführung
    - 2.1.1 集成学习的基本思想是什么？
    - 2.1.2 集成学习为什么有效？
- 三、 Boosting 篇
  - 3.1 用一句话概括Boosting？
  - 3.2 Boosting 的特点是什么？
  - 3.3 Boosting 的基本思想是什么？
  - 3.4 Boosting 的特点是什么？
  - 3.5 GBDT 是什么？
  - 3.6 Xgboost 是什么？
- 四、Bagging 篇
  - 4.1 用一句话概括Bagging？
  - 4.2 Bagging 的特点是什么？
  - 4.3 Bagging 的基本思想是什么？
  - 4.4 Bagging 的基分类器如何选择？
  - 4.5 Bagging 的优点是什么？
  - 4.6 Bagging 的特点是什么？
  - 4.7 随机森林是什么？
- 五、 Stacking 篇
  - 5.1 用一句话概括Stacking ？
  - 5.2 Stacking 的特点是什么？
  - 5.3 Stacking 的基本思路是什么？
- 六、常见问题篇
  - 6.1 为什么使用决策树作为基学习器？
  - 6.2 为什么不稳定的学习器更适合作为基学习器？
  - 6.3 哪些模型适合作为基学习器？
  - 6.4 Bagging 方法中能使用线性分类器作为基学习器吗？ Boosting 呢？
  - 6.5 Boosting/Bagging 与偏差/方差的关系？
- 七、对比篇
  - 7.1 LR vs GBDT?

九、【关于Python 】那些你不知道的事

【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs？
  - 1.1 为什么会有*args 和**kwargs？
  - 1.2 *args 和**kwargs 的用途是什么？
  - 1.3 *args 是什么？
  - 1.4 **kwargs是什么？
  - 1.5 *args 与**kwargs 的区别是什么？
- 二、什么是装饰器？
  - 2.1 装饰器是什么？
  - 2.2 装饰器怎么用？
- 三、Python垃圾回收（GC）
  - 3.1 垃圾回收算法有哪些？
  - 3.2 引用计数（主要）是什么？
  - 3.3 标记-清除是什么？
  - 3.4 分代回收是什么？
- 四、python的sorted函数对字典按key排序和按value排序
  - 4.1 python 的sorted函数是什么？
  - 4.2 python 的sorted函数举例说明？
- 五、直接赋值、浅拷贝和深度拷贝
  - 5.1 概念介绍
  - 5.2 介绍
  - 5.3 变量定义流程
  - 5.3 赋值
  - 5.4 浅拷贝
  - 5.5 深度拷贝
  - 5.6 核心：不可变对象类型and 可变对象类型
    - 5.6.1 不可变对象类型
    - 5.6.2 可变对象类型
- 六、进程、线程、协程
  - 6.1 进程
    - 6.1.1 什么是进程？
    - 6.1.2 进程间如何通信？
  - 6.2 线程
    - 6.2.1 什么是线程？
    - 6.2.2 线程间如何通信？
  - 6.3 进程vs 线程
    - 6.3.1 区别
    - 6.3.2 应用场景
  - 6.4 协程
    - 6.4.1 什么是协程？
    - 6.4.2 协程的优点？
- 七、全局解释器锁
  - 7.1 什么是全局解释器锁？
  - 7.2 GIL有什么作用？
  - 7.3 GIL有什么影响？
  - 7.4 如何避免GIL带来的影响？

十、【关于Tensorflow 】那些你不知道的事

【关于Tensorflow 损失函数】那些你不知道的事
- 一、动机
- 二、什么是损失函数？
- 三、目标函数、损失函数、代价函数之间的关系与区别？
- 四、损失函数的类别
  - 4.1 回归模型的损失函数
    - （1）L1正则损失函数（即绝对值损失函数）
    - （2）L2正则损失函数（即欧拉损失函数）
    - （3）均方误差（MSE, mean squared error）
    - （4）Pseudo-Huber 损失函数
  - 4.2 分类模型的损失函数
    - （1）Hinge损失函数
    - （2）两类交叉熵（Cross-entropy）损失函数
    - （3）Sigmoid交叉熵损失函数
    - （4）加权交叉熵损失函数
    - （5）Softmax交叉熵损失函数
    - (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Zusammenfassung

Expandieren

NLP Interview Notes

NLP ist ungewöhnlich

4. Gemeinsame Interviews für NLP -Lernalgorithmen

4.1 Gemeinsame Interviews zur Informationsextraktion

4.1.1 Gemeinsame Interviews zur Benennung von Unternehmenserkennung

4.1.2 Gemeinsame Interviews zur Beziehungszeichnung

4.1.3 Event -Extraktion Common Interviews

4.2 Gemeinsame Interviews für NLP-Vor-Training-Algorithmen

4.3 Bert Common Interviews

4.3.1 Gemeinsame Interviews zur Komprimierung von Bert -Modell

4.3.2 Gemeinsame Interviews für Bert Model Series

4.4 Gemeinsame Interviews für die Textklassifizierung

4.5 Gemeinsame Interviews für die Textübereinstimmung

4.6 Gemeinsame Interviews für Q & A -Systeme

4.6.1 Gemeinsame Interviews für FAQ-Such- und Antwortensysteme für FAQ

4.6.2 Q & A -Systeme Tools Common Interviews

4.7 Gemeinsame Interviews für Dialogsysteme

4.8 Gemeinsame Interviews für Wissensgrafiken

4.8.1 Gemeinsame Interviews für Wissensgrafiken

4.8.2 KBQA Common Interviews

4.8.3 NEO4J Common Interviews

4.9 Textzusammenfassung Common Interviews

4.10 Artikel für Textfehlerkorrektur Artikel Common Interview Artikel

4.11 Textzusammenfassung Common Interviews

4.12 Gemeinsame Interviews für die Textgenerierung

3.. Deep Learning Algorithmus Common Interview

3.1 Transformer 常见面试篇

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA） 面试篇

5.1.2 主动学习面试篇

5.1.3 数据增强之对抗训练面试篇

5.2 “脏数据”处理面试篇

5.3 batch_size设置面试篇

5.4 早停法EarlyStopping 面试篇

5.5 标签平滑法LabelSmoothing 面试篇

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

5.6.2 BERT在输入层引入额外特征面试篇

5.6.3 关于BERT 继续预训练面试篇

5.6.4 BERT如何处理篇章级长文本面试篇

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

6.2 Prompt 文本生成面试篇

6.3 LoRA 面试篇

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

七、LLMs 面试篇

7.1 [What are the fine-tuning methods for the LLM model now? Was sind die Vor- und Nachteile von jedem?

7.2 GLM：ChatGLM的基座模型常见面试题

一、基础算法常见面试篇

二、机器学习算法篇常见面试篇

九、【关于Python 】那些你不知道的事

十、【关于Tensorflow 】那些你不知道的事

5.1.1 数据增强（EDA）面试篇