NLP ist ungewöhnlich
EINLEITUNG: Dieses Projekt ist ein von NLP -Interview (Natural Language Processing) erstellter Studieninformationen und Materialien, die auf persönlichen Interviews und Erfahrungen basieren. Dieses Material enthält derzeit die Akkumulation von Interviewfragen in verschiedenen Bereichen der Verarbeitung natürlicher Sprache.

> NLP -Interview und Exchange Group (Hinweis: Wenn Sie voll sind, können Sie den Editor WX: Yyykm666 hinzufügen, um der Gruppe beizutreten!)

4. Gemeinsame Interviews für NLP -Lernalgorithmen
4.1 Gemeinsame Interviews zur Informationsextraktion
4.1.1 Gemeinsame Interviews zur Benennung von Unternehmenserkennung
- Versteckter Markov -Algorithmus HMM Common Interviews
- 1. Einführung in grundlegende Informationen
- 1.1 Was ist ein Wahrscheinlichkeitsgraphenmodell?
- 1.2 Was ist der zufällige Flughafen?
- 2. Einführung in den Markov -Prozess
- 2.1 Was ist der Markov -Prozess?
- 2.2 Was ist die Kernidee des Markov -Prozesses?
- III. Versteckter Markov -Algorithmus
- 3.1 Einführung in den versteckten Markov -Algorithmus
- 3.1.1 Was ist der versteckte Markov -Algorithmus?
- 3.1.2 Was sind die beiden Sequenzen im versteckten Markov -Algorithmus?
- 3.1.3 Was sind die drei Matrizen im versteckten Markov -Algorithmus?
- 3.1.4 Was sind die beiden Annahmen im versteckten Markov -Algorithmus?
- 3.1.5 Was ist der Workflow im versteckten Markov -Algorithmus?
- 3.2 Berechnungsprozess des versteckten Markov -Algorithmusmodells
- 3.2.1 Was ist der Schulungsprozess des versteckten Markov -Algorithmuslernens?
- 3.2.2 Was ist der Dekodierungsprozess des Sequenzanschlags (Decoding) des versteckten Markov -Algorithmus?
- 3.2.3 Was ist der Sequenzwahrscheinlichkeitsprozess des versteckten Markov -Algorithmus?
- 3.3 Problem des versteckten Markov -Algorithmus
Klicken Sie hier, um die Antwort anzuzeigen
- Maximale Entropie Markov Model Memm Common Interviews
- 4. Maximale Entropie Markov -Modell (MEMM)
- 4.1 Motivation der maximalen Entropie Markov Model (MEMM)
- 4.1.1 Was sind die Probleme mit HMM?
- 4.2 Einführung in das maximale Entropie -Markov -Modell (MEMM)
- 4.2.1 Wie sieht das maximale Entropie -Markov -Modell (MEMM) aus?
- 4.2.2 Maximal Entropy Markov Model (MEMM) Wie löst ich das HMM -Problem?
- 4.3 Problem mit maximalem Entropy Markov Model (MEMM)
Klicken Sie hier, um die Antwort anzuzeigen
- Bedingte zufällige Flughafen (CRF) Common Interviews
- 5. Konditionales Zufallsfeld (CRF)
- 5.1 CRF -Motiv
- 5.1.1 Was sind die Probleme mit HMM und MEMM?
- 5.2 CRF Einführung
- 5.2.1 Was ist CRF?
- 5.2.2 Was ist die Hauptidee von CRF?
- 5.2.3 Was ist die Definition von CRF?
- 5.2.4 Was ist der Prozess von CRF?
- 5.3 CRF -Vor- und -Kons
- 5.3.1 Was sind die Vorteile von CRF?
- 5.3.2 Was sind die Nachteile von CRF?
- 5.4 CRF -Reproduktion?
- 6. Vergleich
- 6.1 Was ist der Unterschied zwischen CRF -Modell und HMM- und MEMM -Modell?
Klicken Sie hier, um die Antwort anzuzeigen
- DNN-CRF Common Interviews
- 1. Grundinformationen
- 1.1 Was sind die Bewertungsindikatoren für die Benennung der Entitätserkennung?
- 2. Traditionelle Erkennungsmethode für Namensgeborene
- 2.1 Was ist die regelbasierte Methode zur Benennung von Entitätserkennung?
- 2.2 Was basiert die Namenserkennungsmethode für die Namensentität auf unbeaufsichtigtem Lernen?
- 2.3 Wie basiert die benannte Entitätserkennungsmethode auf featurzenbasiertem überwachtem Lernen?
- 3.. Benennung der Entitätserkennungsmethode basierend auf Deep Learning
- 3.1 Was sind die Vorteile benannter Entitätserkennungsmethoden, die auf Deep Learning im Vergleich zu benannten Entitätserkennungsmethoden basieren, die auf maschinellem Lernen basieren?
- 3.2 Wie basiert die Struktur der benannten Entitätserkennungsmethode auf Deep Learning?
- 3.3 Was ist eine verteilte Eingangsschicht und was sind die Methoden?
- 3.4 Text Encoder
- 3.4.1 BILSTM-CRF
- 3.4.1.1 Was ist Bilstm-CRF?
- 3.4.1.2 Warum Bilstm verwenden?
- 3.4.2 IDCNN-CRF
- 3.4.2.1 Was ist ein erweiterter CNN?
- 3.4.2.2 Warum gibt es einen erweiterten CNN?
- 3.4.2.3 Was sind die Vorteile von erweitertem CNN?
- 3.4.2.4 Einführung in IDCNN-CRF
- 3.5 Tag Decoder
- 3.5.1 Was ist der Tag -Decoder?
- 3.5.2 Einführung in die MLP+Softmax -Schicht?
- 3.5.3 Einführung in die bedingte Zufallsfeld -CRF -Schicht?
- 3.5.4 Einführung in die RNN -Schicht des wiederkehrenden neuronalen Netzwerks?
- 3.5.3 Einführung in die Zeiger -Netzwerkschicht?
- 4. Vergleich
- 4.1 CNN-CRF gegen BILSTM-CRF gegen IDCNN-CRF?
- 4.2 Warum muss DNN CRF hinzufügen?
- 4.3 CRF in TensorFlow vs CRF im diskreten Toolkit?
Klicken Sie hier, um die Antwort anzuzeigen
- Chinesische Feld -NER -Common -Interviews
- 1. Motiv
- 1.1 Was ist der Unterschied zwischen der chinesisch genannten Entitätserkennung und der englisch benannten Entitätserkennung?
- 2. Vokabularverstärkung
- 2.1 Was ist Vokabularverstärkung?
- 2.2 Warum ist die Methode "Vokabularverstärkung" für chinesische NER -Aufgaben wirksam?
- 2.3 Was sind die Methoden zur Verbesserung des Wortschatzes?
- 2.4 Dynamische Architektur
- 2.4.1 Was ist dynamische Architektur?
- 2.4.2 Was sind die üblichen Methoden?
- 2.4.3 Was ist Gitter -LSTM und was sind die Probleme?
- 2.4.4 Was ist flach und was sind die Probleme?
- 2,5 adaptives Einbettungsparadigma
- 2.5.1 Was ist das adaptive Einbettungsparadigma?
- 2.5.2 Was sind die üblichen Methoden?
- 2.5.3 Was ist WC-LSTM und was sind die Probleme?
- 3..
- 3.1 Was ist Informationsverstärkung des Wortschatzes/Entität?
- 3.2 Warum ist die Methode "Vokabular-/Entitätstypinformationen" für chinesische NER -Aufgaben wirksam?
- 3.3 Was sind die Methoden zur Verbesserung des Vokabular-/Entitätstypinformationen?
- 3.4 Was ist Lex-Bert?
Klicken Sie hier, um die Antwort anzuzeigen
- Genannte Entitätserkennungstrick gemeinsame Interviews
- Trick 1: Domain -Wörterbuch -Matching
- Trick 2: Regelextraktion
- Trick 3: Wortvektorauswahl: Wortvektor oder Wortvektor?
- Trick 4: Wie wähle ich einen Feature -Extraktor aus?
- Trick 5: Wie kann man mit einem angesehenen Namen umgehen?
- Trick 6: Wie geht es mit unzureichenden Kennzeichnungsdaten um?
- Trick 7: Wie man mit verschachtelter genannter Entitätserkennung umgeht
- 7.1 Was ist Entitätsvernetzung?
- 7.2 Unterschiede zu traditionellen Aufgaben der genannten Entitätserkennungserkennung
- 7.3 Lösung:
- 7.3.1 Methode 1: Sequenzanschlag
- 7.3.2 Methode 2: Zeigeranmerkungen
- 7.3.3 Methode 3: Annotation mit langer Header
- 7.3.4 Methode 4: Fragmentanordnung
- Trick 8: Warum ist die Methode "Vokabularverstärkung" für chinesische NER -Aufgaben wirksam?
- Trick 9: Was soll ich tun, wenn die NER -Entitätsspanne zu lang ist?
- Trick 10: NER -Kennzeichnungsdatenrauschenproblem?
- Trick 11: Bei zwei genannten Entitätserkennungsaufgaben enthält eine Aufgabe genügend Daten und die andere nur sehr wenig Daten. Was kann ich tun?
- Trick 12: Ist das Problem des NER -Kennzeichnungsdaten -Ungleichgewichts?
Klicken Sie hier, um die Antwort anzuzeigen
4.1.2 Gemeinsame Interviews zur Beziehungszeichnung
- Gemeinsame Interviews mit Beziehungsbeschaffung
- 1. Motiv
- 1.1 Was ist die Beziehungsextraktion?
- 1.2 Was sind die Arten von Beziehungstechniken für Beziehung?
- 1.3 Wie werden gemeinsame Beziehungsextraktionsprozesse durchgeführt?
- 2. klassische Beziehungsextraktion
- 2.1 Worauf bezieht sich die Methode für Vorlagenübereinstimmung? Was sind die Vor- und Nachteile?
- 2.2 Was bezieht sich die Extraktion der Remote -Überwachungsbeziehung? Was sind seine Vor- und Nachteile?
- 2.3 Was ist eine Beziehung überlappt? Komplexe Beziehungsprobleme?
- 2.4 Was ist die Gelenkförderung? Was sind die Schwierigkeiten?
- 2.5 Was sind die Gesamtmethoden der Gelenkförderung? Was sind ihre Mängel?
- 2.6 Einführung in die gemeinsame Extraktionsmethode basierend auf gemeinsam genutzten Parametern?
- 2.7 Einführung in die gemeinsame Dekodierung basierend auf gemeinsamer Dekodierung?
- 2.8 Was sind die hochmodernen Technologien und Herausforderungen in der Entitätsbeziehungsextraktion? Wie kann man die Extraktion von Entitätsbeziehungen unter niedrigen Ressourcen und komplexen Stichproben lösen?
- 3..
- 3.1 Was ist der Unterschied zwischen der Beziehung zwischen Dokumentenebene und der klassischen Beziehungsextraktion?
- 3.2 Welche Probleme stehen in der Beziehung zwischen Dokumentenebene aus?
- 3.3 Was sind die Methoden zur Beziehung zwischen Dokumentenebene auf Dokumentenebene?
- 3.3.1 Wie basiert die Extraktion der Dokumentbeziehung auf Bert-ähnlich?
- 3.3.2 Wie erfolgt die Extraktion der draphbasierten Dokumentenbeziehung?
- 3.4 Was sind die gängigen Datensätze für die Beziehung zwischen Dokumentenebene und deren Bewertungsmethoden für die Beziehung zwischen Dokumentenebene und deren Bewertungsmethoden?
Klicken Sie hier, um die Antwort anzuzeigen
4.1.3 Event -Extraktion Common Interviews
- Event -Zeichnen gemeinsame Interviews
- 1. Prinzipien
- 1.1 Was ist eine Veranstaltung?
- 1.2 Was ist Event -Extraktion?
- 1.3 Was sind die grundlegenden Begriffe und Aufgaben an der Ereignisentnahme in der ACE -Bewertung?
- 1.4 Wie entwickelt sich die Event -Extraktion?
- 1.5 Was sind die Probleme mit der Ereignisentnahme?
- 2. Grundlegende Aufgaben
- 2.1 Word -Erkennung auslösen
- 2.1.1 Was ist Trigger -Worterkennung?
- 2.1.2 Was sind die Methoden zur Erkennung von Trigger -Wort?
- 2.2 Typidentifikation
- 2.2.1 Was ist Typerkennung?
- 2.2.2 Was sind die Methoden der Typidentifikation?
- 2.3 Rollenerkennung
- 2.3.1 Was ist Rollenerkennung?
- 2.3.2 Was sind die Methoden zur Rollenerkennung?
- 2.4 Argumenterkennung
- 2.4.1 Was ist Argumenterkennung?
- 2.4.2 Was sind die Methoden der Argumenterkennung?
- 3.. Gemeinsame Methoden
- 3.1 Wie verwende ich die Musteranpassungsmethode in der Ereignisextraktion?
- 3.2 Wie werden statistische Methoden für maschinelles Lernen bei der Ereignisextraktion verwendet?
- 3.3 Wie werden Deep -Learning -Methoden bei der Ereignisextraktion verwendet?
- Iv. Datensätze und Bewertungsindikatoren
- 4.1 Was sind die gängigen englischen Datensätze in der Ereignisförderung?
- 4.2 Was sind die gängigen chinesischen Datensätze bei der Ereignisfunktion?
- 4.3 Was sind die Bewertungsindikatoren für die Ereignisentnahme? Wie berechnet man es?
- 5. Vergleich
- 5.1 Was sind die Ähnlichkeiten und Unterschiede zwischen der Ereignisextraktion und der genannten Entitätserkennung (d. H. Entitätsextraktion)?
- 5.2 Was sind die Ähnlichkeiten und Unterschiede zwischen Ereignisextraktion und Beziehungsextraktion?
- 5.3 Was ist eine sachliche Karte? Was sind die Event -Beziehungstypen? Wie baue ich eine rationale Karte? Was sind die wichtigsten technischen Felder und aktuellen Hotspots?
- 6. Anwendung
- 7. Expansion
- 7.1 Zusammenfassung der Event -Extraktionspapiere
- 7.2 Ereignisextraktion FAQ
4.2 Gemeinsame Interviews für NLP-Vor-Training-Algorithmen
- 【Über tf-idf】 Dinge, die Sie nicht kennen
- 1. One-Hot
- 1.1 Warum gibt es in einem Hot?
- 1.2 Was ist One-Hot?
- 1.3 Was sind die Eigenschaften von One-HOT?
- 1.4 Was sind die Probleme mit einem HOT?
- 2. TF-IDF
- 2.1 Was ist TF-IDF?
- 2.2 Wie bewertet TF-IDF die Bedeutung von Wörtern?
- 2.3 Was ist die Idee von TF-IDF?
- 2.4 Wie lautet die Berechnungsformel für TF-IDF?
- 2.5 Wie kann man TF-IDF beschreiben?
- 2.6 Was sind die Vorteile von TF-IDF?
- 2.7 Was sind die Nachteile von TF-IDF?
- 2.8 Anwendung von TF-IDF?
Klicken Sie hier, um die Antwort anzuzeigen
- 【Über Word2Vec】 Dinge, die Sie nicht wissen
- 1. Einführung in WordVec
- 1.1 Was bedeutet WordVec?
- 1.2 Was bedeutet CBOW in WordVEC?
- 1.3 Was bedeutet Skip-Gram in WordVec?
- 1.4 Welches ist besser für CBOW gegen Skip-Gramm?
- 2. Artikel für WordVec -Optimierung
- 2.1 Was ist der Hoffman -Baum in Word2Vec?
- 2.2 Warum müssen Sie Hoffman Tree in Word2VEC verwenden?
- 2.3 Was sind die Vorteile der Verwendung von Hoffman -Bäumen in Word2VEC?
- 2.4 Warum wird in Word2VEC eine negative Abtastung verwendet?
- 2.5 Wie ist eine negative Abtastung in Word2VEC?
- 2.6 Wie lautet die Stichprobenmethode der negativen Abtastung in Word2VEC?
- 3.. WordVec -Vergleich
- 3.1 Was ist der Unterschied zwischen Word2VEC und NNLM? (Word2Vec vs nnlm)
- 3.2 Was ist der Unterschied zwischen Word2VEC und TF-IDF in der Ähnlichkeitsberechnung?
- 4. Word2VEC Praktisches Kapitel
- 4.1 Word2VEC -Trainingstrick, wie groß ist die Fenstereinstellung?
- 4.1 Word2VEC Trainingstrick, Wortvektorbreite, was haben die Auswirkungen von großer und kleiner und anderer Parameter?
Klicken Sie hier, um die Antwort anzuzeigen
- 【Über FastText】 Dinge, die Sie nicht wissen
- 1. FastText -Motivation
- 1.1 Was ist ein Modell auf Wortebene?
- 1.2 Was sind die Probleme mit dem Modell auf Wortebene?
- 1.3 Was ist ein Modell auf Zeichenebene?
- 1.4 Modellvorteile auf Zeichenebene?
- 1.5 Gibt es ein Problem mit dem Modell auf Zeichenebene?
- 1.6 Lösung zum Modellproblem auf Charakterebene?
- 2. Einführung in N-Gram-Informationen in Wörtern (Subword-n-Gramm-Informationen)
- 2.1 Einführung
- 2.2 Was ist FastText?
- 2.3 Was ist die Struktur des FastText?
- 2.4 Warum verwendet FastText n-Gram-Informationen im Wort (Subword-N-Gram-Informationen)?
- 2.5 Einführung in die n-Gramm-Informationen im FastText-Wort (Subword-N-Gram-Informationen)?
- 2.6 Der Trainingsprozess von N-Gram-Informationen in FastText Word?
- 2.7 Gibt es Probleme mit den N-Gramm-Informationen im FastText-Wort?
- 3. Einführung in die hierarchische Softmax -Regression (hierarchische Softmax)
- 3.1 Warum hierarchische Softmax -Regression verwenden?
- 3.2 Was ist die Idee der hierarchischen Softmax -Regression?
- 3.3 Was sind die Schritte zur hierarchischen Softmax -Regression?
- 4. Gibt es ein Problem mit FastText?
Klicken Sie hier, um die Antwort anzuzeigen
- 【Über Elmo】 Dinge, die Sie nicht wissen
- 1. Elmo Motivation
- 2. ELMO EINLEITUNG
- 2.1 Was sind die Merkmale von Elmo?
- 2.2 Was denkt Elmos Gedanken?
- 3. Elmo Fragen
- 3.1 Was sind die Probleme mit Elmo?
Klicken Sie hier, um die Antwort anzuzeigen
4.3 Bert Common Interviews
- Bert Common Interviews
- 1. Motiv
- 1.1 [Evolutionsgeschichte] Gibt es ein Problem mit One-HOT?
- 1.2 [Evolutionsgeschichte] Es gibt ein Problem mit WordVec?
- 1.3 [Evolutionsgeschichte] Gibt es ein Problem mit FastText?
- 1.4 [Evolutionsgeschichte] Gibt es ein Problem mit Elmo?
- 2. Bert
- 2.1 Bert Einführung
- 2.1.1 【Bert】 Was ist Bert?
- 2.1.2 【Bert】 Bert drei wichtige Punkte?
- 2.2 Bert -Eingangs- und Ausgangscharakterisierung
- 2.2.1 [Bert] Wie sieht die Bert -Eingangs- und Ausgangscharakterisierung aus?
- 2,3 【Bert】 Bert vor der Training
- 2.3.1 【Bert】 Bert Pre-Training-Aufgaben Einführung
- 2.3.2 【Bert】 Bert Pre-Training-Aufgabe maskiertes LM-Kapitel
- 2.3.2.1 【Bert】 Warum benötigt Bert Voraussetzungen maskiert LM?
- 2.3.2.2 【Bert】 Wie erledigt die Bert Pre-Training-Aufgabe LM?
- 2.3.2.3.
- 2.3.2.4 【Bert】 Lösung für die Nichtübereinstimmung zwischen der Voraussetzung und der Feinabstimmung?
- 2.3.3 【Bert】 Bert Pre-Training-Aufgabe Nächster Satzvorhersage
- 2.3.3.1 [Bert] Warum benötigt Bert Voraussetzungen für die nächste Satzvorhersage?
- 2.3.3.2 【Bert】 Wie mache ich die nächste Satzvorhersage bei Bert vor der Trainingsaufgabe?
- 2.4 【Bert】 Feinkominütiger Artikel?
- 2.4.1 【Bert】 Warum braucht Bert eine Feinumdrehung?
- 2.4.2 【Bert】 Wie kann man in Bert eine Feindehnung drehen?
- 2,5 【Bert】 Bert -Verlustfunktionen?
- 2.5.1 [Bert] Was entspricht die Verlustfunktion, die den beiden Bert-Aufgaben vor dem Training entspricht (exprimiert in Formelform)?
- 3. Vergleich?
- 3.1 [Kontrast] Was ist das Problem der Polysynthetika?
- 3.2 [Vergleich] Warum kann Word2Vec das Problem der Polysynonyme nicht lösen?
- 3.3 [Vergleich] Was ist der Unterschied zwischen GPT und Bert?
- 3.4 [Vergleich] Warum können ELMO, GPT und Bert das Problem der Polysynonyme lösen? (Nehmen Sie Elmo als Beispiel)
Klicken Sie hier, um die Antwort anzuzeigen
- 【Über die Bert -Quellcode -Analyse Is Hauptkörper] Dinge, die Sie nicht wissen
- 【Über die Bert-Quellcode-Analyse II vor dem Training Kapitel】 Dinge, die Sie nicht wissen
- 【Über Bert Source Code Analysis III Feinabstimmung Kapitel】 Dinge, die Sie nicht wissen
- [Über den Artikel über Bert -Quellcode -Analyse IV -Satz Vektorgenerierung] Dinge, die Sie nicht wissen
- [Über Kapitel der Bert -Quellcode -Analyse gegen Text Ähnlichkeit] Dinge, die Sie nicht kennen
4.3.1 Gemeinsame Interviews zur Komprimierung von Bert -Modell
- Bert -Modellkomprimierung Common Interview
- 1. Motivation zur Kompressionsmotivation von Bert -Modell
- 2. Vergleichstabelle für Bert -Modellkompressionsvergleich
- 3. Einführung in die Bert -Modellkomprimierungsmethode
- 3.1 Niedrigrangfaktorisierungs- und Verschiebungs-Parameter-Teilen der Bert-Modellkomprimierungsmethode
- 3.1.1 Was ist eine niedrige Faktorisierung?
- 3.1.2 Was ist die Freigabe von Cross-Layer-Parametern?
- 3.1.3 Die von Albert verwendete Methode?
- 3.2 Destillation der Bert -Modellkompressionsmethode
- 3.2.1 Was ist Destillation?
- 3.2.2 Welche Papiere verwenden die Modelldestillation? Lassen Sie es mich kurz vorstellen?
- 3.3 Quantifizierung der Bert -Modellkomprimierungsmethode
- 3.3.1 Was ist Quantifizierung?
- 3.3.2 Q-Bert: Hessische ultra niedrige Präzisionsquantisierung von Bert 【Quantifizierung】
- 3.4 Bert -Modellkomprimierungsmethode Beschneidung
- 4. Gibt es ein Problem mit der Modellkomprimierung?
Klicken Sie hier, um die Antwort anzuzeigen
4.3.2 Gemeinsame Interviews für Bert Model Series
- Kennen Sie XLNET? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
- Kennst du Roberta? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
- Kennst du Spanbert? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
- Kennst du die Messe? Können Sie mir sagen? Was ist der Unterschied zwischen Bert?
Klicken Sie hier, um die Antwort anzuzeigen
4.4 Gemeinsame Interviews für die Textklassifizierung
- Gemeinsame Interviews für die Textklassifizierung
- 1.. Abstrakte Aussagen
- 1.1 Wie sind die Kategorien von Klassifizierungsaufgaben? Was sind ihre Eigenschaften?
- 1.2 Was sind die Unterschiede zwischen Textklassifizierungsaufgaben im Vergleich zu Klassifizierungsaufgaben in anderen Bereichen?
- 1.3 Was ist der Unterschied zwischen Textklassifizierungsaufgaben und anderen Aufgaben im Textfeld?
- 1.4 Der Prozess der Textklassifizierung?
- 2. Datenvorverarbeitung
- 2.1 Was sind die Datenvorverarbeitungsmethoden für Textklassifizierungsaufgaben?
- 2.2 Welches Wort Partizip -Methoden und -Tools haben Sie verwendet?
- 2.3 Wie man chinesische Texte Partizipetiker entfaltet?
- 2.4 Was ist das Prinzip der Wortsegmentierungsmethode basierend auf String Matching?
- 2.5 Wie werden statistische Sprachmodelle auf Wortpartizip angewendet? N-Gram Maximalwahrscheinlichkeit Partizip?
- 2.6 Was basiert die Wortsegmentierungsmethode auf der Annotation der Sequenz?
- 2.7 Was basiert die Annotation für die Speech-Annotation auf (bi-) lstm?
- 2.8 Was ist der Unterschied zwischen der Stammextraktion und der Wiederherstellung der Wortform?
- 3. Merkmalextraktion
- 3.1 (eine bestimmte) Welche Eigenschaften können in der Textklassifizierungsaufgabe verwendet werden?
- 3.2 (für westliche Texte) Was ist der Unterschied zwischen der Verwendung von Wörtern und Buchstaben als Eigenschaften?
- 3.3 Können Sie kurz das Modell mit Wörtern vorstellen?
- 3.4 n-Gramm
- 3.4.1 Was ist N-Methoden-Syntax? Warum N-Gramm verwenden?
- 3.4.2 Was sind die Grenzen des N-Gramm-Algorithmus?
- 3.5 Themenmodellierung
- 3.5.1 Einführung in die Themenmodellierungsaufgabe?
- 3.5.2 Häufige Methoden zur Themenmodellierung
- 3.5.3 Was macht der TF-IDF-Algorithmus? Eine kurze Einführung in den TF-IDF-Algorithmus
- 3.5.4 Was bedeutet TF-IDF hoch?
- 3.5.5 Die Mängel von TF-IDF
- 3.6 Textähnlichkeit
- 3.6.1 Wie berechnet ich den Abstand zwischen zwei Textabsätzen?
- 3.6.2 Was ist Jaccard -Distanz?
- 3.6.3 Was ist der Unterschied zwischen Würfelkoeffizienten und Jaccard -Koeffizienten?
- 3.6.4 Das Gleiche gilt der Bearbeitungsabstand, was ist der Unterschied zwischen Levinstein -Entfernung und Hamming -Abstand?
- 3.6.5 Schreiben Sie eine Programmierfrage zur Berechnung der Bearbeitungsentfernung (Lewinstein -Entfernung)?
- 4. Modell
- 4.1 FastText
- 4.1.1 Der Klassifizierungsprozess von FastText?
- 4.1.2 Was sind die Vorteile von FastText?
- 4.2 textcnn
- 4.2.1 Der Prozess der Textklassifizierung von Textcnn?
- 4.2.2 Welche Parameter können Textcnn anpassen?
- 4.2.3 Bei Verwendung von CNN als Textklassifikator entsprechen verschiedene Informationen dem Text?
- 4.2.4 Was repräsentiert die Länge und Breite des Faltungskerns in TextCnn?
- 4.2.5 Was ist der Unterschied zwischen den Pooling -Operationen in TextCNN und dem Pooling -Operationen im Allgemeinen CNN?
- 4.2.6 Einschränkungen von textcnn?
- 4,3 dpcnn
- 4.3.1 Wie kann ich die Long Text -Klassifizierungsaufgabe lösen?
- 4.3.2 Einführen kurz die Verbesserungen des DPCNN -Modells im Vergleich zu TextCNN?
- 4.4 Textrcnn
- 4.4.1 Einführen kurz die Verbesserungen von Textrcnn im Vergleich zu TextCNN?
- 4,5 RNN+Aufmerksamkeit
- 4.5.1 Die Idee der RNN+Aufmerksamkeit für Textklassifizierungsaufgaben, und warum muss der Aufmerksamkeits-/Aufmerksamkeitsmechanismus hinzugefügt werden?
- 4.6 GNN Graph Neural Network
- 4.6.1 Wie wird das neuronale Netzwerk von GNN -Graph auf das Feld der Textklassifizierung angewendet?
- 4.7 Transformator
- 4.7.1 Wie kann ich vorgebrachte Modelle anwenden, die auf dem Transformator auf das Feld der Textklassifizierung basieren?
- 4.8 Vorausgebildeter Modell
- 4.8.1 Welche vorgeborenen Modelle kennen Sie? Was sind ihre Eigenschaften?
- V. Verlustfunktion
- 5.1 Aktivierungsfunktion Sigmoid
- 5.1.1 Einführung in die Aktivierungsfunktion Sigmoid für binäre Klassifizierungsprobleme?
- 5.1.2 Was sind die Nachteile von Sigmod?
- 5.2 Aktivierungsfunktion Softmax
- 5.2.1 Was ist die Softmax -Funktion?
- 5.2.2 Wie findet man die Ableitung der Softmax -Funktion?
- 5.3 Welche anderen Verlustfunktionen werden für Klassifizierungsprobleme verwendet?
- 6. Modellbewertung und Algorithmusvergleich
- 6.1 Was werden die Bewertungsalgorithmen und Indikatoren in Textklassifizierungsaufgaben verwendet?
- 6.2 kurze Einführung in die Verwirrungsmatrix und Kappa?
Klicken Sie hier, um die Antwort anzuzeigen
- Textklassifizierungstrick gemeinsame Interviews
- 1. Wie kann man Textklassifizierungsdaten vorbereiten?
- 2. Wie wählen Sie ein vorgebildetes Modell der Textklassifizierung?
- 3.. Wie optimieren Sie die Textklassifizierungsparameter?
- 4. Was sind die schwierigen Aufgaben der Textklassifizierung?
- 5. Konstruktion des Kennzeichnungssystems der Textklassifizierung?
- 6. Konstruktion der Textklassifizierungsstrategie?
Klicken Sie hier, um die Antwort anzuzeigen
- Verwenden Sie Suchmethoden, um gemeinsame Interviews für die Textklassifizierung durchzuführen
- Warum müssen wir die Suche verwenden, um Text zu klassifizieren?
- Was ist die Idee der Textklassifizierung basierend auf Suchmethoden?
- Wie erstelle ich eine Rückrufbibliothek für die abgerufene Methode?
- Wie mache ich die Trainingsphase der Suchmethode?
- Wie mache ich die Vorhersagestufe der Suchmethode?
- Was sind die zutreffenden Szenarien für die Textklassifizierung mithilfe von Suchmethoden?
Klicken Sie hier, um die Antwort anzuzeigen
4.5 Gemeinsame Interviews für die Textübereinstimmung
- Textübereinstimmungsmodell ESIM Common Interviews
- Warum brauchst du ESIM?
- Was ist mit der Einführung des ESIM -Modells?
Klicken Sie hier, um die Antwort anzuzeigen
- Gemeinsame Interviews für Bert in semantischen Ähnlichkeitsaufgaben
- 1. Satzpaarklassifizierungsaufgabe: Verwenden Sie CLS
- 2. Ähnlichkeit Cosinus
- 3. Der Unterschied zwischen langen und kurzen Texten
- 4. Satz/Worteinbettung
- 5. Siamese -Netzwerkmethode
Klicken Sie hier, um die Antwort anzuzeigen
4.6 Gemeinsame Interviews für Q & A -Systeme
4.6.1 Gemeinsame Interviews für FAQ-Such- und Antwortensysteme für FAQ
- 1. Motivation
- 1.1 Motivation des Q & A -Systems?
- 1.2 Was ist das Q & A -System?
- 2. Einführung in FAQ Suchbasierte Q & A-Systeme
- 2.1 Was ist das FAQ-suchbasierte Fragen-und-Antwort-System?
- 2.2 Was ist der Kern der Query -Matching -Standard -QA?
- 3. FAQ Suchbasierte Q & A-Systemlösung
- 3.1 Was sind die häufig verwendeten Lösungen?
- 3.2 Warum wird QQ häufiger verwendet?
- 3.2.1 Was sind die Vorteile der QQ -Übereinstimmung?
- 3.2.2 Was ist der semantische Raum für QQ -Matching?
- 3.2.3 Wie ist die Stabilität des QQ -Matching Corpus?
- 3.2.4 Was ist die Entkopplung von QQ -Matching Business Answers und Algorithmus -Modell?
- 3.2.5 Was sind die Entdeckung und Deduplizierung neuer QQ -Matching -Probleme?
- 3.2.6 Wie hoch ist die Online -Laufgeschwindigkeit des QQ -Matchings?
- 3.3 Was ist der allgemeine Verarbeitungsprozess für die QQ -Übereinstimmung? [Angenommen, die Standardproblembank wurde verarbeitet]
- 4. Bau der FAQ -Standardproblembank
- 4.1 Wie findet ich Standardprobleme in FAQ?
- 4.2 Wie kann ich FAQ teilen?
- 4.3 Wie fusioniere ich FAQ?
- 4.4 Wie aktualisiere ich die FAQ -Standardbibliothek in Echtzeit?
- 5. FAQ Standard Frage Bank -Antwortoptimierung
- 5.1 Wie optimieren Sie die Antworten auf die FAQ -Standardfragebank?
Klicken Sie hier, um die Antwort anzuzeigen
4.6.2 Q & A -Systeme Tools Common Interviews
- Faiss Common Interviews
- 1. Motiv
- 1.1 Was sind die Probleme mit herkömmlichen Ähnlichkeitsalgorithmen?
- 2. Einführung
- 2.1 Was ist Faiss?
- 2.2 Wie man Faiss benutzt?
- 2.3 FAISS -Prinzip und Kernalgorithmus
- 3.. Faiss Praktisches Kapitel
- 3.1 Wie installiere ich Faiss?
- 3.2 Was sind die Indexindizes von Faiss?
- 3.3 Wie verwendet ich den Faiss 'Indexindex?
- 3.3.1 Datenvorbereitung
- 3.3.2 gewalttätiger Ästhetik Indexflatl2
- 3.3.3 Der Flash Indexivflat
- 3.3.4 Speichermanager indexivfpq
- 3.4 FAISS dann verwenden Sie GPU?
- 4. FAISS -Vergleich
- 4.1 Welches ist besser, sklearn Cosinus_similarität oder Faiss
4.7 Gemeinsame Interviews für Dialogsysteme
- Gemeinsame Interviews für Dialogsysteme
- 1. Einführung in das Dialogsystem
- 1.1 Was sind die Dialogsysteme?
- 1.2 Was sind die Unterschiede zwischen diesen Dialogsystemen?
- 2. Einführung in das Mehrrund-Dialogsystem
- 2.1 Warum ein Mehrrund-Dialogsystem verwenden?
- 2.2 Was sind die gemeinsamen Multi-Runden-Dialogsystemlösungen?
- 3. Einführung in das aufgabenbasierte Dialogsystem
- 3.1 Was ist ein aufgabenbasiertes Dialogsystem?
- 3.2 Was ist der Prozess eines aufgabenbasierten Dialogsystems?
- 3.3 Aufgabenbasierter Dialogsystem Sprachverständnis (SLU)
- 3.3.1 Was ist Sprachverständnis (SLU)?
- 3.3.2 Was sind die Eingabe und Ausgabe des Sprachverständnisses (SLU)?
- 3.3.3 Welche Techniken werden im Sprachverständnis (SLU) verwendet?
- 3.4 aufgabenbasiertes Dialogsystem DST (Dialogstatus-Tracking)
- 3.4.1 Was ist DST (Dialogstatus -Tracking)?
- 3.4.2 Was sind die Eingabe und Ausgabe von DST (Dialogstatus -Tracking)?
- 3.4.3 Haben DST (Dialogstatus -Tracking) Probleme und Lösungen?
- 3.4.4 Wie lautet die Implementierungsmethode von DST (Dialogstatus -Tracking)?
- 3.5 DPO-Kapitel des aufgabenbasierten Dialogsystems (Dialogstrategie-Lernen)
- 3.5.1 Was ist DPO (Dialogstrategie -Lernen)?
- 3.5.2 Was sind die Eingabe und Ausgabe von DPO (Dialogstrategielernen)?
- 3.5.3 Wie lautet die Implementierungsmethode von DPO (Dialogstrategielernen)?
- 3.6 NLG (Natural Language Generation) Aufgabenbasierter Dialogsystem
- 3.6.1 Was ist NLG (natürliche Sprachgenerierung)?
- 3.6.2 Was sind die Eingabe und Ausgabe von NLG (natürliche Sprachgenerierung)?
- 3.6.3 Ist die Implementierung von NLG (Natural Language Generation)?
Klicken Sie hier, um die Antwort anzuzeigen
4.8 Gemeinsame Interviews für Wissensgrafiken
4.8.1 Gemeinsame Interviews für Wissensgrafiken
- 1. Einführung in das Wissensgraphen
- 1.1 Einführung
- 1.2 Was ist ein Wissensgraphen?
- 1.2.1 Was ist Grafik?
- 1.2.2 Was ist Schema?
- 1.3 Was sind die Kategorien von Wissensgraphen?
- 1.4 Wie hoch ist der Wert des Wissensgraphen?
- 2. Wie erstellt man ein Wissensgraphen?
- 2.1 Woher stammen die Daten aus dem Wissensgraphen?
- 2.2 Was sind die Schwierigkeiten bei der Informationsextraktion?
- 2.3 Die Technologien, die am Erstellen eines Wissensgrafiks beteiligt sind?
- 2.4. Was ist die spezifische Technologie zum Erstellen eines Wissensgrafiks?
- 2.4.1 Erkennung der Entität genannt
- 2.4.2 Beziehungsextraktion
- 2.4.3 Entitätslösung
- 2.4.4 bezieht sich auf die Disambiguierung
- 3. Wie kann man Wissensgraphen speichern?
- 4. Was kann das Wissensgraphen tun?
Klicken Sie hier, um die Antwort anzuzeigen
4.8.2 KBQA Common Interviews
- 1. Methoden, die auf Wörterbuch und Regeln basieren
- KBQA basierend auf Wörterbuch und Regeln implementieren?
- Implementierung des KBQA -Prozesses basierend auf Wörterbuch und Regeln?
- 2. Methoden basierend auf der Informationsextraktion
- Implementieren Sie den KBQA -Prozess basierend auf der Informationsextraktion?
Klicken Sie hier, um die Antwort anzuzeigen
4.8.3 NEO4J Common Interviews
- 1. Neo4j Einführung und Installation
- 1.1 Einführung
- 1.2 Wie lade ich Neo4j herunter?
- 1.3 Wie installiere ich Neo4j?
- 1.4 Einführung in die NEO4J -Weboberfläche
- 1.5 Was ist die Cypher -Abfragesprache?
- 2. NEO4J Addition, Löschung, Suche und Änderung
- 2.1 Einführung
- 2.2 Wie erstelle ich einen Knoten in NEO4J?
- 2.3 Wie erstellt man eine Beziehung in NEO4J?
- 2.4 Wie erstellt man eine Geburtsbeziehung in NEO4J?
- 2.5 Wie kann ich Neo4j abfragen?
- 2.6 Wie lösche und modifiziere ich Neo4j?
- 3. Wie kann man Python verwenden, um die NEO4J -Diagrammdatenbank zu bedienen?
- 3.1 NEO4J -Modul: Wie führt die Ausführung der CQL (CYPHER) -Schürtung?
- 3.2 Was ist das PY2NEO -Modul?
- 4. Datenbank für die NEO4J -Diagrammdatenbank importieren
Klicken Sie hier, um die Antwort anzuzeigen
4.9 Textzusammenfassung Common Interviews
- 1. Motiv
- 1.1 Was ist eine Textzusammenfassung?
- 1.2 Was sind die Arten von Textübersichtstechniken?
- 2. Zusammenfassung der Extraktion
- 2.1 Wie kann man eine entscheidende Zusammenfassung machen?
- 2.1.1 Was sind die Urteilswichtigkeitsbewertungsalgorithmen?
- 2.1.2 Was sind die einschränkungsbasierten Zusammenfassungsgenerierungsmethoden?
- 2.1.3 Wie extrahiert der Textteaser -Algorithmus die Zusammenfassung?
- 2.1.4 Wie extrahiert Textrank -Algorithmus die Zusammenfassung?
- 2.2 Was ist das Lesbarkeitsproblem der extrahierten Zusammenfassung?
- 3.. Komprimierte Zusammenfassung
- 3.1 Wie kann man eine komprimierte Zusammenfassung machen?
- 4. Generative Zusammenfassung
- 4.1 Wie kann man eine generative Zusammenfassung machen?
- 4.2 Was sind die Probleme mit der generativen Zusammenfassung?
- 4.3 Welche Probleme löst das Zeigergenerator-Netzwerk?
- V. Zusammenfassung Qualitätsbewertungsmethode
- 5.1 Was sind die Arten von abstrakten Qualitätsbewertungsmethoden?
- 5.2 Was ist Rouge?
- 5.3 Was ist der Unterschied zwischen mehreren Rouge -Indikatoren?
- 5.4 Was ist der Unterschied zwischen Bleu und Rouge?
Klicken Sie hier, um die Antwort anzuzeigen
4.10 Artikel für Textfehlerkorrektur Artikel Common Interview Artikel
- 1. Einführung
- 1.1 Was ist Textfehlerkorrektur?
- 1.2 gemeinsame Textfehlertypen?
- 1.3 Häufige Methoden zur Korrektur von Textfehler?
- 2. Einführung in die Pipeline -Methode
- Wie implementieren Sie die Fehlererkennung in Pipeline?
- Wie kann man den Kandidatenrückruf in Pipeline implementieren?
- Wie implementieren Sie die Sortierung der Fehlerkorrektur in der Pipeline?
- Wie implementieren Sie die ASR -Echo -Optimierung in Pipeline?
Klicken Sie hier, um die Antwort anzuzeigen
4.11 Textzusammenfassung Common Interviews
- 1. Motiv
- 1.1 Was ist eine Textzusammenfassung?
- 1.2 Was sind die Arten von Textübersichtstechniken?
- 2. Zusammenfassung der Extraktion
- 2.1 Wie kann man eine entscheidende Zusammenfassung machen?
- 2.1.1 Was sind die Urteilswichtigkeitsbewertungsalgorithmen?
- 2.1.2 Was sind die einschränkungsbasierten Zusammenfassungsgenerierungsmethoden?
- 2.1.3 Wie extrahiert der Textteaser -Algorithmus die Zusammenfassung?
- 2.1.4 Wie extrahiert Textrank -Algorithmus die Zusammenfassung?
- 2.2 Was ist das Lesbarkeitsproblem der extrahierten Zusammenfassung?
- 3.. Komprimierte Zusammenfassung
- 3.1 Wie kann man eine komprimierte Zusammenfassung machen?
- 4. Generative Zusammenfassung
- 4.1 Wie kann man eine generative Zusammenfassung machen?
- 4.2 Was sind die Probleme mit der generativen Zusammenfassung?
- 4.3 Welche Probleme löst das Zeigergenerator-Netzwerk?
- V. Zusammenfassung Qualitätsbewertungsmethode
- 5.1 Was sind die Arten von abstrakten Qualitätsbewertungsmethoden?
- 5.2 Was ist Rouge?
- 5.3 Was ist der Unterschied zwischen mehreren Rouge -Indikatoren?
- 5.4 Was ist der Unterschied zwischen Bleu und Rouge?
Klicken Sie hier, um die Antwort anzuzeigen
4.12 Gemeinsame Interviews für die Textgenerierung
- Gemeinsame Interviews für Dekodierungsmethoden zum Generieren von Modellen
- Was ist ein generatives Modell?
- Was sind die suchbasierten Dekodierungsmethoden?
- Was sind die auf Stichproben basierenden Dekodierungsmethoden?
Klicken Sie hier, um die Antwort anzuzeigen
3.. Deep Learning Algorithmus Common Interview
- CNN Common Interviews
- 1. Motiv
- 2. CNN Faltungsschicht
- 2.1 Was ist die Essenz einer Faltungsschicht?
- 2.2 Was ist die Verbindung zwischen CNN -Faltungsschicht und vollständig verbundener Schicht?
- 2.3 Was bedeutet Kanal?
- 3. CNN Pooling -Schicht
- 3.1 Was ist die Pooling -Schicht für die Region?
- 3.2 Was sind die Arten von Poolschichten?
- 3.3 Was ist die Funktion der Pooling -Schicht?
- 3.4 Wie ist die Backpropagation in der Pooling -Schicht?
- 3.5 Wie ist meine Backpropagation gemeint?
- 3.6 Wie ist die Backpropagation der Pooling -Schicht?
- 4. CNN insgesamt
- 4.1 Was ist der Prozess von CNN?
- 4.2 Was sind die Eigenschaften von CNN?
- 4.3 Warum hat das neuronale Netzwerk von Faltungen translationale Invarianz?
- 4.4 Wie wird IM2Col im neuronalen Faltungsnetzwerk implementiert?
- 4.5 Was sind die Grenzen von CNN?
- 5. Iterated Dilatatated CNN
- 5.1 Was ist eine erweiterte CNN -Hohlraumverarbeitung?
- 5.2 Was wird iteratiertes CNN iteriert?
- 6. Dekorvolution
- 6.1 Erklären Sie die Prinzipien und Verwendungen der Entfaltung?
Klicken Sie hier, um die Antwort anzuzeigen
- RNN Common Interviews
- 1. Rnn
- 1.2 Warum brauche ich RNN?
- 1.2 Was ist die RNN -Struktur?
- 1,3 RNN Vorwärtsberechnung Formel?
- 1.4 Was sind die Probleme mit RNN?
- 2. Langes kurzfristiges Speichernetz (LSTM)
- 2.1 Warum brauchst du LSTM?
- 2.2 Was ist die Struktur von LSTM?
- 2.3 Wie mindert LSTM die Probleme des RNN -Gradientenverschwindens und der Gradientenexplosion?
- 2.3 Was ist der Prozess von LSTM?
- 2.4 Was sind die Unterschiede in den Aktivierungsfunktionen in LSTM?
- 2,5 LSTM -Komplexität?
- 2.6 Welche Probleme gibt es LSTM?
- 3.. Gru (wiederholte wiederkehrende Einheit)
- 3.1 Warum brauchst du Gru?
- 3.2 Was ist die Struktur von Gru?
- 3.3 Berechnung von GRU?
- 3.4 Was ist der Unterschied zwischen Gru- und anderen RNN -Serienmodellen?
- 4. Modell RNN -Serienmodell
- 4.1 Was sind die Eigenschaften des RNN -Serienmodells?
Klicken Sie hier, um die Antwort anzuzeigen
- Aufmerksamkeit gemeinsame Interviews
- 1. SEQ2SEQ
- 1.1 Was ist SEQ2SEQ (Encoder-Decoder)?
- 1.2 Wie wäre es mit Encoder in SEQ2SEQ?
- 1.3 Wie wäre es mit Decoder in SEQ2SEQ?
- 1.4 Kennen Sie SEQ2SEQ aus mathematischer Sicht?
- 1.5 Welche Probleme haben SEQ2SEQ?
- 2. Aufmerksamkeit
- 2.1 Was ist Aufmerksamkeit?
- 2.2 Warum wird der Aufmerksamkeitsmechanismus eingeführt?
- 2.3 Was ist die Funktion der Aufmerksamkeit?
- 2.4 Was ist der Aufmerksamkeitsprozess?
- Schritt 1 zum Ausführen von Encoder (im Einklang mit SEQ2SEQ)
- Schritt 2 Berechnen Sie den Ausrichtungskoeffizienten a
- Schritt 3: Berechnen Sie den Kontext semantischen Vektor C.
- Schritt 4 Aktualisieren Sie den Decoder -Status
- Schritt 5 Berechnen Sie die Ausgangsvorhersagewörter
- 2.5 Was sind die Aufmerksamkeitsbereiche?
- 3. Aufmerksamkeitsvariante
- 3.1 Was ist weiche Aufmerksamkeit?
- 3.2 Was ist schwierige Aufmerksamkeit?
- 3.3 Was ist globale Aufmerksamkeit?
- 3.4 Was ist lokale Aufmerksamkeit?
- 3.5 Was ist Selbstbeziehung?
Klicken Sie hier, um die Antwort anzuzeigen
- Generieren von kontroversem Netzwerk Gan Common Interviews
- 1. Motivation
- 2. Einführung
- 2.1 Grundideen von Gan
- 2.2 Grundeinführung in Gan
- 2.2.1 Grundstruktur von Gan
- 2.2.2 GAN 的基本思想
- 三、训练篇
- 3.1 生成器介绍
- 3.2 判别器介绍
- 3.3 训练过程
- 3.4 训练所涉及相关理论基础
- 4. Zusammenfassung
点击查看答案
3.1 Transformer 常见面试篇
- Transformer 常见面试篇
- 一、动机篇
- 1.1 为什么要有Transformer?
- 1.2 Transformer 作用是什么?
- 二、整体结构篇
- 2.1 Transformer 整体结构是怎么样?
- 2.2 Transformer-encoder 结构怎么样?
- 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
- 3.1 self-attention 模块
- 3.1.1 传统attention 是什么?
- 3.1.2 为什么会有self-attention?
- 3.1.3 self-attention 的核心思想是什么?
- 3.1.4 self-attention 的目的是什么?
- 3.1.5 self-attention 的怎么计算的?
- 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
- 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型?
- 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
- 3.1.9 self-attention 如何解决长距离依赖问题?
- 3.1.10 self-attention 如何并行化?
- 3.2 multi-head attention 模块
- 3.2.1 multi-head attention 的思路是什么样?
- 3.2.2 multi-head attention 的步骤是什么样?
- 3.2.3 Transformer为何使用多头注意力机制?(为什么不使用一个头)
- 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维?
- 3.2.5 multi-head attention 代码介绍
- 3.3 位置编码(Position encoding)模块
- 3.3.1 为什么要加入位置编码(Position encoding) ?
- 3.3.2 位置编码(Position encoding)的思路是什么?
- 3.3.3 位置编码(Position encoding)的作用是什么?
- 3.3.4 位置编码(Position encoding)的步骤是什么?
- 3.3.5 Position encoding为什么选择相加而不是拼接呢?
- 3.3.6 Position encoding和Position embedding的区别?
- 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding?而Bert却采用的是Position Embedding ?
- 3.3.8 位置编码(Position encoding)的代码介绍
- 3.4 残差模块模块
- 3.5 Layer normalization 模块
- 3.5.1 为什么要加入Layer normalization 模块?
- 3.5.2 Layer normalization 模块的是什么?
- 3.5.3 Batch normalization 和Layer normalization 的区别?
- 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
- 3.5.5 Layer normalization 模块代码介绍
- 3.6 Mask 模块
- 3.6.1 什么是Mask?
- 3.6.2 Transformer 中用到几种Mask?
- 3.6.3 能不能介绍一下Transformer 中用到几种Mask?
点击查看答案
- 【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
- 1.1 既然Transformer 怎么牛逼,是否还存在一些问题?
- 二、每个问题的解决方法是什么?
- 2.1 问题一:Transformer 不能很好的处理超长输入问题
- 2.1.1 Transformer 固定了句子长度?
- 2.1.2 Transformer 固定了句子长度的目的是什么?
- 2.1.3 Transformer 针对该问题的处理方法?
- 2.2 问题二:Transformer 方向信息以及相对位置的缺失问题
- 2.3 问题三:缺少Recurrent Inductive Bias
- 问题四:问题四:Transformer是非图灵完备的: 非图灵完备通俗的理解,就是无法解决所有的问题
- 问题五:transformer缺少conditional computation;
- 问题六:transformer 时间复杂度和空间复杂度过大问题;
五、NLP 技巧面
5.1 少样本问题面
5.1.1 数据增强(EDA) 面试篇
- 一、动机篇
- 1.1 什么是数据增强?
- 1.2 为什么需要数据增强?
- 二、常见的数据增强方法篇
- 2.1 词汇替换篇
- 2.1.1 什么是基于词典的替换方法?
- 2.1.2 什么是基于词向量的替换方法?
- 2.1.3 什么是基于MLM 的替换方法?
- 2.1.4 什么是基于TF-IDF 的词替换?
- 2.2 词汇插入篇
- 2.3 词汇交换篇
- 2.4 词汇删除篇
- 2.5 回译篇
- 2.6 交叉增强篇
- 2.7 语法树篇
- 2.8 对抗增强篇
点击查看答案
5.1.2 主动学习面试篇
- 一、动机篇
- 1.1 主动学习是什么?
- 1.2 为什么需要主动学习?
- 二、主动学习篇
- 2.1 主动学习的思路是什么?
- 2.2 主动学习方法的价值点在哪里?
- 三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
- 3.2.1 测试集内选取“信息”量最大的数据标记
- 3.2.2 依赖不确定度的样本选取策略(Uncertainty Sampling, US)
- 3.2.3 基于委员会查询的方法(Query-By-Committee,QBC)
点击查看答案
5.1.3 数据增强之对抗训练面试篇
- 1. Einführung
- 1.1 什么是对抗训练?
- 1.2 为什么对抗训练能够提高模型效果?
- 1.3 对抗训练有什么特点?
- 1.4 对抗训练的作用?
- 二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
- 三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method(FGM)
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent(PGD)
点击查看答案
5.2 “脏数据”处理面试篇
- 一、动机
- 1.1 何为“脏数据”?
- 1.2 “脏数据” 会带来什么后果?
- 二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢?
- 2.2 置信学习方法篇
- 2.2.1 什么是置信学习方法?
- 2.2.2 置信学习方法优点?
- 2.2.3 置信学习方法怎么做?
- 2.2.4 置信学习方法怎么用?有什么开源框架?
- 2.2.5 置信学习方法的工作原理?
点击查看答案
5.3 batch_size设置面试篇
- 一、训练模型时,batch_size的设置,学习率的设置?
点击查看答案
5.4 早停法EarlyStopping 面试篇
- 一、 为什么要用早停法EarlyStopping?
- 二、 早停法EarlyStopping 是什么?
- 三、早停法torch 版本怎么实现?
点击查看答案
5.5 标签平滑法LabelSmoothing 面试篇
- 一、为什么要有标签平滑法LabelSmoothing?
- 二、 标签平滑法是什么?
- 三、 标签平滑法torch 怎么复现?
点击查看答案
5.6 Bert Trick 面试篇
5.6.1 Bert 未登录词处理面试篇
- 什么是Bert 未登录词?
- Bert 未登录词如何处理?
- Bert 未登录词各种处理方法有哪些优缺点?
点击查看答案
5.6.2 BERT在输入层引入额外特征面试篇
点击查看答案
5.6.3 关于BERT 继续预训练面试篇
- 什么是继续预训练?
- 为什么会存在【数据分布/领域差异】大问题?
- 如何进行继续预训练?
- 还有哪些待解决问题?
- 训练数据问题解决方案?
- 知识缺乏问题解决方案?
- 知识理解缺乏问题解决方案?
点击查看答案
5.6.4 BERT如何处理篇章级长文本面试篇
- 为什么Bert 不能处理长文本?
- BERT 有哪些处理篇章级长文本?
点击查看答案
六、 Prompt Tuning 面试篇
6.1 Prompt 面试篇
- 什么是prompt?
- 如何设计prompt?
- prompt进阶——如何自动学习prompt?
- Prompt 有哪些关键要点?
- Prompt 如何实现?
点击查看答案
6.2 Prompt 文本生成面试篇
- Prompt之文本生成评估手段有哪些?
- Prompt文本生成具体任务有哪些?
点击查看答案
6.3 LoRA 面试篇
- 什么是lora?
- lora 是怎么做的呢?
- lora 为什么可以这样做?
- 用一句话描述lora?
- lora 优点是什么?
- lora 缺点是什么?
- lora 如何实现?
点击查看答案
6.4 PEFT(State-of-the-art Parameter-Efficient Fine-Tuning)面试篇
- 一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ?
- 1.2 微调Fine-tuning 基本思想是什么?
- 二、轻度微调(lightweight Fine-tuning)篇
- 2.1 什么是轻度微调(lightweight Fine-tuning)?
- 三、适配器微调(Adapter-tuning)篇
- 3.1 什么是适配器微调(Adapter-tuning)?
- 3.2 适配器微调(Adapter-tuning)变体有哪些?
- 四、提示学习(Prompting)篇
- 4.1 什么是提示学习(Prompting)?
- 4.2 提示学习(Prompting)的目的是什么?
- 4.3 提示学习(Prompting) 代表方法有哪些?
- 4.3.1 前缀微调(Prefix-tining)篇
- 4.3.1.1 什么是前缀微调(Prefix-tining)?
- 4.3.1.2 前缀微调(Prefix-tining)的核心是什么?
- 4.3.1.3 前缀微调(Prefix-tining)的技术细节有哪些?
- 4.3.1.4 前缀微调(Prefix-tining)的优点是什么?
- 4.3.1.5 前缀微调(Prefix-tining)的缺点是什么?
- 4.3.2 指示微调(Prompt-tuning)篇
- 4.3.2.1 什么是指示微调(Prompt-tuning)?
- 4.3.2.2 指示微调(Prompt-tuning)的核心思想?
- 4.3.2.3 指示微调(Prompt-tuning)的优点/贡献是什么?
- 4.3.2.4 指示微调(Prompt-tuning)的缺点是什么?
- 4.3.2.5 指示微调(Prompt-tuning)与Prefix-tuning 区别是什么?
- 4.3.2.6 指示微调(Prompt-tuning)与fine-tuning 区别是什么?
- 4.3.3 P-tuning 篇
- 4.3.3.1 P-tuning 动机是什么?
- 4.3.3.2 P-tuning 核心思想是什么?
- 4.3.3.3 P-tuning 做了哪些改进?
- 4.3.3.4 P-tuning 有哪些优点/贡献?
- 4.3.3.5 P-tuning 有哪些缺点?
- 4.3.4 P-tuning v2 篇
- 4.3.4.1 为什么需要P-tuning v2?
- 4.3.4.2 P-tuning v2 是什么?
- 4.3.4.3 P-tuning v2 有哪些优点?
- 4.3.4.4 P-tuning v2 有哪些缺点?
- 4.3.5 PPT 篇
- 4.3.5.1 为什么需要PPT ?
- 4.3.5.2 PPT 核心思想是什么?
- 4.3.5.3 PPT 具体做法是怎么样?
- 4.3.5.4 常用的soft prompt初始化方法?
- 4.3.5.5 PPT 的优点是什么?
- 4.3.5.6 PPT 的缺点是什么?
- 4.4 提示学习(Prompting) 优点是什么?
- 4.5 提示学习(Prompting) 本质是什么?
- 五、指令微调(Instruct-tuning)篇
- 5.1 为什么需要指令微调(Instruct-tuning)?
- 5.2 指令微调(Instruct-tuning)是什么?
- 5.3 指令微调(Instruct-tuning)的优点是什么?
- 5.4 指令微调(Instruct-tuning) vs 提升学习(Prompting)?
- 5.5 指令微调(Instruct-tuning) vs 提升学习(Prompting) vs Fine-tuning?
- 六、指令提示微调(Instruct Prompt tuning)篇
- 6.1 为什么需要指令微调(Instruct-tuning)?
- 6.2 指令微调(Instruct-tuning) 是什么?
- 6.3 指令微调(Instruct-tuning) 在不同任务上性能?
- 七、self-instruct篇
- 八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ?
- 8.2 什么是Chain-of-Thought ?
- 8.3 Chain-of-Thought 的思路是怎么样的?
- 8.4 Chain-of-Thought 的优点是什么?
- 8.5 为什么chain-of-thought 会成功?
- 九、LoRA 篇
- 9.1 LoRA 篇
- 9.1.1 LoRA 核心思想是什么?
- 9.1.2 LoRA 具体思路是什么?
- 9.1.3 LoRA 优点是什么?
- 9.1.4 LoRA 缺点是什么?
- 9.2 AdaLoRA 篇
- 9.2.1 AdaLoRA 核心思想是什么?
- 9.2.2 AdaLoRA 实现思路是什么?
- 9.3 DyLoRA 篇
- 9.3.1 AdaLoRA 动机是什么?
- 9.3.2 AdaLoRA 核心思想是什么?
- 9.3.3 AdaLoRA 优点是什么?
- 十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么?
- 10.2 AdaLoRA 优点是什么?
- 10.3 AdaLoRA 缺点是什么?
点击查看答案
七、LLMs 面试篇
7.1 [What are the fine-tuning methods for the LLM model now? Was sind die Vor- und Nachteile von jedem?
- What are the fine-tuning methods for the LLM model now? Was sind die Vor- und Nachteile von jedem?
点击查看答案
7.2 GLM:ChatGLM的基座模型常见面试题
- GLM 的核心是什么?
- GLM 的模型架构是什么?
- GLM 如何进行多任务训练?
- 在进行NLG 时, GLM 如何保证生成长度的未知性?
- GLM 的多任务微调方式有什么差异?
- GLM 的多任务微调方式有什么优点?
点击查看答案
一、基础算法常见面试篇
- 过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么?
- 二、过拟合/高方差(overfiting / high variance)篇
- 2.1 过拟合是什么及检验方法?
- 2.2 导致过拟合的原因是什么?
- 2.3 过拟合的解决方法是什么?
- 三、欠拟合/高偏差(underfiting / high bias)篇
- 3.1 欠拟合是什么及检验方法?
- 3.2 导致欠拟合的原因是什么?
- 3.3 过拟合的解决方法是什么?
点击查看答案
- BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
- 1.1 独立同分布(independent and identically distributed)与白化
- 1.2 ( Internal Covariate Shift,ICS)
- 1.3 ICS问题带来的后果是什么?
- 二、Normalization 篇
- 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
- 3.1 Batch Normalization(纵向规范化)是什么?
- 3.2 Batch Normalization(纵向规范化)存在什么问题?
- 3.3 Batch Normalization(纵向规范化)适用的场景是什么?
- 3.4 BatchNorm 存在什么问题?
- 四、Layer Normalization(横向规范化) 篇
- 4.1 Layer Normalization(横向规范化)是什么?
- 4.2 Layer Normalization(横向规范化)有什么用?
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效?
点击查看答案
激活函数常见面试篇
- 一、动机篇
- 二、激活函数介绍篇
- 2.1 sigmoid 函数篇
- 2.1.1 什么是sigmoid 函数?
- 2.1.2 为什么选sigmoid 函数作为激活函数?
- 2.1.3 sigmoid 函数有什么缺点?
- 2.2 tanh 函数篇
- 2.2.1 什么是tanh 函数?
- 2.2.2 为什么选tanh 函数作为激活函数?
- 2.2.3 tanh 函数有什么缺点?
- 2.3 relu 函数篇
- 2.3.1 什么是relu 函数?
- 2.3.2 为什么选relu 函数作为激活函数?
- 2.3.3 relu 函数有什么缺点?
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0,L1,L2正则化篇
- 1.1 正则化是什么?
- 1.2 什么是L0 正则化?
- 1.3 什么是L1 (稀疏规则算子Lasso regularization)正则化?
- 1.4 什么是L2 正则化(岭回归Ridge Regression 或者权重衰减Weight Decay)正则化?
- 二、对比篇
- 2.1 什么是结构风险最小化?
- 2.2 从结构风险最小化的角度理解L1和L2正则化
- 2.3 L1 vs L2
- 三、dropout 篇
- 3.1 什么是dropout?
- 3.2 dropout 在训练和测试过程中如何操作?
- 3.3 dropout 如何防止过拟合?
点击查看答案
- 优化算法及函数常见面试篇
- 一、动机篇
- 1.1 为什么需要优化函数?
- 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
- 2.1 梯度下降法是什么?
- 2.2 随机梯度下降法是什么?
- 2.3 Momentum 是什么?
- 2.4 SGD with Nesterov Acceleration 是什么?
- 2.5 Adagrad 是什么?
- 2.6 RMSProp/AdaDelta 是什么?
- 2.7 Adam 是什么?
- 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇
点击查看答案
- 归一化常见面试篇
- 一、动机篇
- 二、介绍篇
- 2.1 归一化有哪些方法?
- 2.2 归一化各方法特点?
- 2.3 归一化的意义?
- III. Anwendung
- 3.1 哪些机器学习算法需要做归一化?
- 3.2 哪些机器学习算法不需要做归一化?
点击查看答案
- 判别式(discriminative)模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
- 1.1 什么是判别式模型?
- 1.2 判别式模型是思路是什么?
- 1.3 判别式模型的优点是什么?
- 二、生成式模型篇
- 2.1 什么是生成式模型?
- 2.2 生成式模型是思路是什么?
- 2.3 生成式模型的优点是什么?
- 2.4 生成式模型的缺点是什么?
点击查看答案
二、机器学习算法篇常见面试篇
点击查看答案
- 支持向量机常见面试篇
- 一、原理篇
- 1.1 什么是SVM?
- 1.2 SVM怎么发展的?
- 1.3 SVM存在什么问题?
- 二、算法篇
- 2.1 什么是块算法?
- 2.2 什么是分解算法?
- 2.3 什么是序列最小优化算法?
- 2.4 什么是增量算法?
- 三、其他SVM篇
- 3.1 什么是最小二次支持向量机?
- 3.2 什么是模糊支持向量机?
- 3.3 什么是粒度支持向量机?
- 3.4 什么是多类训练算法?
- 3.5 什么是孪生支持向量机?
- 3.6 什么是排序支持向量机?
- Iv. Anwendung
- 4.1 模式识别
- 4.2 网页分类
- 4.3 系统建模与系统辨识
- 4.4 其他
- 五、对比篇
- 六、拓展篇
点击查看答案
- 集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
- 2.1 Einführung
- 2.1.1 集成学习的基本思想是什么?
- 2.1.2 集成学习为什么有效?
- 三、 Boosting 篇
- 3.1 用一句话概括Boosting?
- 3.2 Boosting 的特点是什么?
- 3.3 Boosting 的基本思想是什么?
- 3.4 Boosting 的特点是什么?
- 3.5 GBDT 是什么?
- 3.6 Xgboost 是什么?
- 四、Bagging 篇
- 4.1 用一句话概括Bagging?
- 4.2 Bagging 的特点是什么?
- 4.3 Bagging 的基本思想是什么?
- 4.4 Bagging 的基分类器如何选择?
- 4.5 Bagging 的优点是什么?
- 4.6 Bagging 的特点是什么?
- 4.7 随机森林是什么?
- 五、 Stacking 篇
- 5.1 用一句话概括Stacking ?
- 5.2 Stacking 的特点是什么?
- 5.3 Stacking 的基本思路是什么?
- 六、常见问题篇
- 6.1 为什么使用决策树作为基学习器?
- 6.2 为什么不稳定的学习器更适合作为基学习器?
- 6.3 哪些模型适合作为基学习器?
- 6.4 Bagging 方法中能使用线性分类器作为基学习器吗? Boosting 呢?
- 6.5 Boosting/Bagging 与偏差/方差的关系?
- 七、对比篇
点击查看答案
九、【关于Python 】那些你不知道的事
- 【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs?
- 1.1 为什么会有*args 和**kwargs?
- 1.2 *args 和**kwargs 的用途是什么?
- 1.3 *args 是什么?
- 1.4 **kwargs是什么?
- 1.5 *args 与**kwargs 的区别是什么?
- 二、什么是装饰器?
- 三、Python垃圾回收(GC)
- 3.1 垃圾回收算法有哪些?
- 3.2 引用计数(主要)是什么?
- 3.3 标记-清除是什么?
- 3.4 分代回收是什么?
- 四、python的sorted函数对字典按key排序和按value排序
- 4.1 python 的sorted函数是什么?
- 4.2 python 的sorted函数举例说明?
- 五、直接赋值、浅拷贝和深度拷贝
- 5.1 概念介绍
- 5.2 介绍
- 5.3 变量定义流程
- 5.3 赋值
- 5.4 浅拷贝
- 5.5 深度拷贝
- 5.6 核心:不可变对象类型and 可变对象类型
- 5.6.1 不可变对象类型
- 5.6.2 可变对象类型
- 六、进程、线程、协程
- 6.1 进程
- 6.1.1 什么是进程?
- 6.1.2 进程间如何通信?
- 6.2 线程
- 6.2.1 什么是线程?
- 6.2.2 线程间如何通信?
- 6.3 进程vs 线程
- 6.4 协程
- 6.4.1 什么是协程?
- 6.4.2 协程的优点?
- 七、全局解释器锁
- 7.1 什么是全局解释器锁?
- 7.2 GIL有什么作用?
- 7.3 GIL有什么影响?
- 7.4 如何避免GIL带来的影响?
十、【关于Tensorflow 】那些你不知道的事
- 【关于Tensorflow 损失函数】 那些你不知道的事
- 一、动机
- 二、什么是损失函数?
- 三、目标函数、损失函数、代价函数之间的关系与区别?
- 四、损失函数的类别
- 4.1 回归模型的损失函数
- (1)L1正则损失函数(即绝对值损失函数)
- (2)L2正则损失函数(即欧拉损失函数)
- (3)均方误差(MSE, mean squared error)
- (4)Pseudo-Huber 损失函数
- 4.2 分类模型的损失函数
- (1)Hinge损失函数
- (2)两类交叉熵(Cross-entropy)损失函数
- (3)Sigmoid交叉熵损失函数
- (4)加权交叉熵损失函数
- (5)Softmax交叉熵损失函数
- (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Zusammenfassung