Download siamese triplet - Download siamese triplet -Quellcode

siamese triplet

Python

1.0.0

Herunterladen

Siamese und Triplet -Lernen mit Online -Paar-/Triplet -Bergbau

Pytorch -Implementierung von siamesischen und Triplet -Netzwerken zum Lernen von Einbettungen.

Siamese- und Triplet -Netzwerke sind nützlich, um Zuordnungen von Bild zu einem kompakten euklidischen Raum zu lernen, in dem Entfernungen einem Maß für die Ähnlichkeit entsprechen [2]. Einbettungsdings, die so geschult wurden, können als Merkmale Vektoren für die Klassifizierung oder nur wenige Lernaufgaben verwendet werden.

Installation

Benötigt Pytorch 0,4 mit Torchvision 0.2.1

Für Pytorch 0.3 Kompatibilitätskasse Tag Torch-0.3.1

Codestruktur

Datasets.py
- Siamesemnist Class - Wrapper für einen mNIST -ähnlichen Datensatz, der zufällige positive und negative Paare zurückgibt
- TripletMnist Class - Wrapper für einen mNIST -ähnlichen Datensatz, der zufällige Tripletts zurückgibt (Anker, positiv und negativ)
- BalancedBatchSampler -Klasse - BatchSampler für Datenloader, wählt zufällig n_classes und n_samples aus jeder Klasse basierend auf Beschriftungen aus
networks.py
- Einbettung - Basisnetzwerk für die Codierung von Bildern in den Einbettungsvektor
- ClassificationNet - Wrapper für ein Einbettungsnetzwerk, fügt eine vollständig verbundene Ebene hinzu und log Softmax für die Klassifizierung an
- Siamesenet - Wrapper für ein Einbettungsnetzwerk, Prozessepaare von Eingängen
- TripletNet - Wrapper für ein Einbettungsnetzwerk, verarbeitet Tripletts von Eingängen
Verluste.py
- Contrastiveloss - Kontrastiver Verlust für Paare von Einbettungen und Paarzielen (gleich/unterschiedlich)
- Tripletloss - Triplettverlust für Triplets von Einbettungen
- OnlineContrastivososs - Kontrastiver Verlust für eine Mini -Ein -Einbettungsdings. Verwendet ein Pairselector -Objekt, um positive und negative Paare in einem Mini-Batch zu finden, das die Labels der Bodenverwaltungsklasse verwendet, und berechnet den kontrastiven Verlust für diese Paare
- Onlinetripletloss - Triplettverlust für eine Mini -Einbettungsdings. Verwendet ein TripletSelector -Objekt, um Tripletts in einem Mini-Batch mit Labels der Bodenverwaltungsklasse zu finden, und berechnet den Triplett-Verlust
Trainer.py
- FIT - Einheitliche Funktion für das Training eines Netzwerks mit unterschiedlicher Anzahl von Eingaben und unterschiedlichen Arten von Verlustfunktionen
messcrics.py
- Beispielmetriken, die mit der Passfunktion von Trainer.py verwendet werden können
utils.py
- PairSelector - Abstract -Klasse Definieren von Objekten, die Paare erstellen, die auf Einbettungen und Bodentruhe Class -Etiketten basieren. Kann mit OnlineContrastivesoSS -Verwendung verwendet werden.
  - Allpositive PairSelector, HardnegativePairSelector - Pairselector Implementierungen
- TripletSelector - Abstract -Klasse Definieren von Objekten, die Tripletts basierend auf Einbettungen und Labels für die Bodenverwaltung erstellen. Kann mit Onlinetripletloss verwendet werden.
  - AlltripletSelector , härternegativTipletSelector , RandomNegativTipretSelector , SemihardnegativTivetSelector - TripletSelector -Implementierungen

Beispiele - MNIST

Wir schulen Einbettung auf dem MNIST -Datensatz. Experimente wurden im Jupyter -Notizbuch durchgeführt.

Wir werden mit unterschiedlichen Verlustfunktionen im MNIST -Datensatz mit unterschiedlichen Verlustfunktionen mithilfe von Lernfeature -Feature -Einbettungen ausgeglichen. Dies dient nur zu Visualisierungszwecken. Daher werden wir zweidimensionale Einbettungen verwenden, was nicht die beste Wahl in der Praxis ist.

Für jedes Experiment wird dasselbe Einbettungsnetzwerk verwendet (32 conv 5x5 -> prelu -> maxpool 2x2 -> 64 conv 5x5 -> prelu -> maxpool 2x2 -> Dense 256 -> Prelu -> Dense 256 -> Prelu -> Dense 2) und wir führen keine Hyperparameter -Suche durch.

Grundlinie - Klassifizierung mit Softmax

Mit der Anzahl der Klassen fügen wir eine vollständig vernetzte Schicht hinzu und trainieren das Netzwerk zur Klassifizierung mit Softmax und Kreuzentropie. Das Netzwerk trainiert auf eine Genauigkeit von ~ 99%. Wir extrahieren 2 dimensionale Einbettungen aus der vorletzten Schicht:

Zugset:

Testsatz:

Während die Einbettungen trennbar aussehen (wofür wir sie trainiert haben), haben sie keine guten metrischen Eigenschaften. Sie sind möglicherweise nicht die beste Wahl als Deskriptor für neue Klassen.

Siamese -Netzwerk

Jetzt trainieren wir ein siamesisches Netzwerk, das ein Paar Bilder aufnimmt und die Einbettungen trainiert, damit die Entfernung zwischen ihnen minimiert wird, wenn sie aus derselben Klasse sind und größer als ein Margin -Wert sind, wenn sie unterschiedliche Klassen darstellen. Wir werden eine kontrastive Verlustfunktion minimieren [1]:

Die Siamesemnist -Klasse milzt zufällige positive und negative Paare, die dann an das siamesische Netzwerk gefüttert werden.

Nach 20 Epochen des Trainings sind hier die Einbettungen, die wir für das Trainingssatz erhalten:

Testsatz:

Die gelernten Einbettungen sind innerhalb des Unterrichts viel besser zusammengefasst.

Triplet -Netzwerk

Wir schulen ein Triplet -Netzwerk, das einen Anker, einen positiven (derselben Klasse wie einen Anker) und negativen (unterschiedlichen Klasse als ein Anker) nimmt. Ziel ist es, Einbettungen so zu lernen, dass der Anker näher am positiven Beispiel ist als das negative Beispiel mit einem Margenwert.

alt text Quelle: Schroff, Florian, Dmitry Kalenichenko und James Philbin. FACENET: Eine einheitliche Einbettung für Gesichtserkennung und Clustering. CVPR 2015.

Triplettverlust :

TripletMnist Class Beispiele für jeden möglichen Anker ein positives und negatives Beispiel.

Nach 20 Epochen des Trainings sind hier die Einbettungen, die wir für das Trainingssatz erhalten:

Testsatz:

Die erlernten Einbettungen sind innerhalb der Klasse nicht so nahe beieinander wie im Fall von Siamesische Netzwerk, aber dafür haben wir sie nicht optimiert. Wir wollten, dass die Einbettungen näher an anderen Einbettungen aus derselben Klasse sind als an den anderen Klassen, und wir können sehen, dass das Training dorthin geht.

Online -Paar-/Triplet -Auswahl - negativer Bergbau

Es gibt ein paar Probleme mit siamesischen und Triplet -Netzwerken:

Die Anzahl der möglichen Paare/Tripletts wächst mit der Anzahl der Beispiele quadratisch/kubisch . Es ist nicht realisierbar, sie alle zu verarbeiten, und das Training konvergiert langsam.
Wir generieren zufällig Paare/Tripletts. Im Laufe des Trainings sind immer mehr Paare/Tripletts leicht zu handhaben (ihr Verlustwert ist sehr klein oder sogar 0), wodurch das Netzwerk das Training verhindert . Wir müssen dem Netzwerk schwierige Beispiele zur Verfügung stellen.
Jedes Bild, das dem Netzwerk gespeist wird, wird nur zur Berechnung des kontrastiven/Triplett -Verlustes für nur ein Paar/Triplett verwendet. Die Berechnung ist etwas verschwendet; Sobald die Einbettung berechnet wurde, könnte sie für viele Paare/Tripletts wiederverwendet werden.

Um diese Probleme effizient zu bewältigen, füttern wir ein Netzwerk mit Standard-Minibatches wie für die Klassifizierung. Die Verlustfunktion ist für die Auswahl der harten Paare und Drillinge innerhalb von Mini-Batch verantwortlich. Wenn wir das Netzwerk mit 16 Bildern pro 10 Klassen füttern, können wir bis zu 159*160/2 = 12720 Paare und 10*16*15/2*(9*16) = 172800 Tripletts verarbeiten, verglichen mit 80 Paaren und 53 Tripletts in der vorherigen Implementierung.

Normalerweise ist es nicht die beste Idee, alle möglichen Paare oder Drillinge in einem Mini-Batch zu verarbeiten. Wir finden einige Strategien zur Auswahl von Tripletts in [2] und [3].

Online -Paarauswahl

Wir werden ein Netzwerk mit Mini-Stapeln füttern, wie wir es für das Klassifizierungsnetzwerk getan haben. Dieses Mal verwenden wir einen speziellen Batchsampler, der in jeder Klasse N_classes und N_samples probiert, was zu Mini -Stapeln der Größe n_classes*n_samples führt.

Für jede Mini -Batch -Stapel werden positive und negative Paare unter Verwendung der bereitgestellten Etiketten ausgewählt.

MNIST ist ein ziemlich einfacher Datensatz und die Einbettungen aus den zufällig ausgewählten Paaren waren bereits ziemlich gut, wir sehen hier nicht viel Verbesserung.

Zugeinbettungen:

Testeinbettungen:

Online -Triplettauswahl

Wir füttern ein Netzwerk mit Mini-Batazen genau wie bei der Online-Paarauswahl. Es gibt ein paar Strategien, die wir für die Triplett -Auswahl anwenden können, die beschriftet und prognostizierte Einbettungen:

Alle möglichen Drillinge (könnten zu viele sein)
Am härtesten negativ für jedes positive Paar (führt für jeden Anker zu dem gleichen Negativ)
Zufälliger hartes negatives für jedes positive Paar (betrachten Sie nur Tripletts mit einem positiven Triplettverlustwert)
Semi-Hard-negativ für jedes positive Paar (ähnlich wie [2])

Die Strategie für die Triplettauswahl muss sorgfältig ausgewählt werden. Eine schlechte Strategie könnte zu ineffizientem Training oder, noch schlimmer, zu modellieren (alle Einbettungen haben die gleichen Werte).

Folgendes haben wir mit zufälligen harten Negativen für jedes positive Paar bekommen.

Trainingset:

Testsatz:

FashionMnist

Ähnliche Experimente wurden für FashionMnist -Datensatz durchgeführt, bei denen die Vorteile des Online -negativen Bergbaus etwas sichtbarer sind. Die genaue Netzwerkarchitektur mit nur zweidimensionalen Einbettungen wurde verwendet, was wahrscheinlich nicht komplex genug ist, um gute Einbettungen zu lernen. Komplexere Datensätze mit höheren Zahlenklassen sollten noch mehr vom Online -Mining profitieren.

Grundlinie - Klassifizierung

Siamese gegen Online -Kontraststoffe mit negativem Bergbau

Siamese -Netzwerk mit zufällig ausgewählten Paaren

Online -kontrastiven Verlust mit negativem Bergbau

Triplet gegen Online -Triplet -Verlust mit negativem Bergbau

Triplet -Netzwerk mit zufälligen Tripletts

Online -Triplettverlust mit negativem Bergbau

Todo

Optimieren Sie die Triplettauswahl
Bewerten Sie mit einer Metrik, die zwischen den Ansätzen vergleichbar ist
Bewerten Sie in einer Schusseinstellung, wenn Klassen aus dem Testsatz nicht im Zugsatz sind
Zeigen Sie das Online -Triplet -Auswahlbeispiel auf schwierigeren Datensätzen