Pytorch -Implementierung von Google AIs 2018 Bert mit einfacher Annotation
Bert 2018 Bert: Vorausbildung von tiefen bidirektionalen Transformatoren für Sprachverständnis Papier URL: https://arxiv.org/abs/1810.04805
Das Bert -Papier von Google AI zeigt das erstaunliche Ergebnis in verschiedenen NLP -Aufgaben (neue NLP -Aufgaben SOTA), einschließlich der Outperformance des Human F1 -Werts bei der QA -Aufgabe der Kader V1.1. Dieses Papier hat bewiesen, dass der transformator (Selbstbekämpfung) basierte Encoder als Alternative für früheres Sprachmodell mit der richtigen Sprachmodelltrainingsmethode verwendet werden kann. Und was noch wichtiger ist, sie haben uns gezeigt, dass dieses vorgebreitete Sprachmodell in jede NLP-Aufgabe übertragen werden kann, ohne aufgabenspezifische Modellarchitektur zu machen.
Dieses erstaunliche Ergebnis wäre in der NLP -Geschichte aufgenommen, und ich erwarte, dass viele weitere Artikel über Bert sehr bald veröffentlicht werden.
Dieses Repo ist die Implementierung von Bert. Code ist sehr einfach und leicht zu verstehen. Einige dieser Codes basieren auf dem kommentierten Transformator
Derzeit arbeitet dieses Projekt an den Fortschritten. Und der Code wird noch nicht verifiziert.
pip install bert-pytorch
Hinweis: Ihr Korpus sollte mit zwei Sätzen in einer Zeile mit Tab ( t) Separator vorbereitet werden
Welcome to the t the junglen
I can stay t here all nightn
oder tokenisierter Korpus (Tokenisierung ist nicht im Paket)
Wel_ _come _to _the t _the _junglen
_I _can _stay t _here _all _nightn
bert-vocab -c data/corpus.small -o data/vocab.smallbert -c data/corpus.small -v data/vocab.small -o output/bert.modelIn der Arbeit zeigen die Autoren die neuen Sprachmodell -Trainingsmethoden, die "maskiertes Sprachmodell" sind und "den nächsten Satz vorhersagen".
Originalpapier: 3.3.1 Aufgabe Nr. 1: Masked LM
Input Sequence : The man went to [MASK] store with [MASK] dog
Target Sequence : the his
Zufällig werden 15% des Eingangs-Tokens in etwas umgeändert, basierend auf Unterwäldern
[MASK] Token sein[RANDOM] Token sein (ein anderes Wort)Originalpapier: 3.3.2 Aufgabe 2: Nächster Satzvorhersage
Input : [CLS] the man went to the store [SEP] he bought a gallon of milk [SEP]
Label : Is Next
Input = [CLS] the man heading to the store [SEP] penguin [MASK] are flight ##less birds [SEP]
Label = NotNext
"Ist dieser Satz kontinuierlich verbunden?"
Verständnis der Beziehung zwischen zwei Textsätzen, die nicht direkt durch Sprachmodellierung erfasst werden
Junseong kim, Scatter Lab ([email protected] / [email protected])
Dieses Projekt folgt Apache 2.0 Lizenz wie in Lizenzdatei geschrieben
Copyright 2018 Junseong Kim, Scatter Lab, jeweilige Bert -Mitwirkende
Copyright (C) 2018 Alexander Rush: Der kommentierte Trackformer