300 Tage __generativeai
Dieses Repository, 300 Tage_generativeAI, ist 300 Tagen kontinuierliches Lernen gewidmet, das sich auf generative KI konzentriert und täglich verschiedene Bücher und Forschungsarbeiten studiert. Ich werde vergangene Erkenntnisse noch einmal besuchen, mein Verständnis aktualisieren und tiefer in die Feinheiten der generativen KI eintauchen.
| NEIN | Buch | Status |
|---|
| 1 | Mastering Pytorch: Erstellen und Bereitstellen von Deep -Learning -Modellen von CNNs zu multimodalen Modellen, LLMs und darüber hinaus (Ashish Ranjan JHA) | Laufend |
| 2 | Übertragungslernen für die Verarbeitung natürlicher Sprache (Paul Azunre) | |
| 3 | Erstellen Sie ein großes Sprachmodell (von Grund auf neu) (Meap) (Sebastian Raschka) | Laufend |
| 4 | Lernen Sie generative KI mit Pytorch (Mark Liu) | |
| 5 | Generative AI in Aktion (MEAP v02) (Amit Bahree) | |
| 6 | Langchain verstehen: Ein umfassender Leitfaden für die Erstellung futuristischer Sprachmodellanwendungen (Jeffery Owens) | |
| 7 | Das Spielbuch des Entwicklers für die Sicherheit von großer Sprache (Steve Wilson) | |
| NEIN. | Forschungspapier | Thema | Status |
|---|
| 1 | Ein neuartiges Deep Lenet-5-Faltungsmodell für neuronale Netzwerke für die Bilderkennung | Lenet-5 | ✅ abgeschlossen |
| 2 | Tiefer mit den Konvolutionen gehen | Googlenet | ✅ abgeschlossen |
Tag 1 von 300 Daysofgenerativeai
- In der heutigen Sitzung zum Mastering Pytorch habe ich mich auf die grundlegenden Aspekte des Deep -Lernens konzentriert, insbesondere durch das Tutorial "Deep Learning With Pytorch: A 60 Minuten Blitz". Ich lernte über neuronale Netzwerkarchitekturen, einschließlich vollständig vernetzter, faltender und wiederkehrender Schichten, und erkundete die wichtigsten Module von Pytorch wie Torch.autograd für automatische Differenzierung und Fackel.nn für Gebäudenetzwerke. Ich praktizierte Vorwärts- und Rückwärtsausbreitung, Verlustberechnung und Gradientenabstieg, wobei ich in der Konstruktion eines einfachen neuronalen Netzwerks für Futtermittel gipfelte. Zu den kommenden Sessions beinhaltet meine Agenda einen tiefen Eintauchen in die Kraft von Faltungsnetzwerken (CNNs), ihre architektonische Entwicklung und die praktische Entwicklung von Modellen wie Lenet, Alexnet, VGG, GoogleLenet, Inception V3, Resnet, Densenet und Effizienznetze, Diskussionen ihres Signifikanzs und zukünftigen Lernens.
- Zusätzliche Ressource:
- Deep Learning mit Pytorch: ein 60 -minütiger Blitz
Tag 2 von 300 DaysofgenerATiveai
- In der heutigen Sitzung zum Mastering Pytorch habe ich eine kurze, aber produktive Sitzung in tiefe CNN -Architekturen ein. Ich habe untersucht, warum CNNs für Aufgaben wie Bildklassifizierung und Objekterkennung so effektiv sind und deren Parameter -Effizienz, automatische Merkmalextraktion und hierarchisches Lernen hervorgehoben werden. Ich überprüfte verschiedene architektonische Innovationen wie räumliche, Tiefe, Breite und Multi-Pad-basierte CNNs. Ich habe auch eine Implementierung von AlexNet in Pytorch untersucht, wobei ich mich auf seine Ebenenstruktur konzentrierte und wie sie Ausfall- und Aktivierungsfunktionen nutzt. Darüber hinaus stellte ich die Verfügbarkeit verschiedener vordefinierter CNN-Modelle in Pytorchs Torchvision-Paket fest, darunter Alexnet, VGG, Resnet und andere.
Tag 3 von 300 DaysofgenerATiveai
- In der heutigen Sitzung zum Mastering Pytorch habe ich einen Datensatz für eine Bildklassifizierungsaufgabe erstellt, einen Feinabstimmungsprozess für ein vorgebildetes Alexnet-Modell implementiert und ein deterministisches Verhaltensproblem angesprochen, das während des Trainings entstanden ist. Ich habe Datenlader erstellt, definierte Helferfunktionen für die Visualisierung und die Feinabstimmung der Modellierung und modifizierte die endgültige Ebene des vorgebreiteten Modells so, dass sie mit der Anzahl der Klassen in meinem Datensatz übereinstimmt. Während des Feinabstimmungsprozesses habe ich eine Warnung in Bezug auf die Verwendung der Operation
adaptive_avg_pool2d_backward_cuda begegnet, die keine deterministische Implementierung hat. Um dies anzugehen, habe ich verschiedene Ansätze warn_only=True , um ein deterministisches Verhalten in Pytorch zu ermöglichen, z.
Tag 4 von 300 DaysofgenerativeAII
- In der heutigen Sitzung zum Mastering Pytorch habe ich gelernt, dass Googlenet, auch als Inception V1 bekannt, eine bahnbrechende Fischnetzwerk-Architektur ist, die das Inception-Modul einführte, das parallele Faltungsschichten mit unterschiedlichen Kernelgrößen (1x1, 3x3, 5x5) einführt, um Merkmale mit mehreren Maßstäben zu erfassen. Ich habe festgestellt, dass 1x1 -Konvolutionen für die Reduzierung der Dimensionalität von entscheidender Bedeutung sind, sodass das Modell die Effizienz aufrechterhalten kann, indem die Tiefe der Merkmalskarten verringert wird, ohne die räumlichen Abmessungen zu verändern. Darüber hinaus habe ich gelernt, dass Googlenet vor der Ausgangsschicht globales Durchschnittsbad verwendet, um die Parameter zu minimieren und die Robustheit gegen Überanpassung zu verbessern. Meine Erkundung von Inception V3 hat mir gezeigt, wie es auf dem ursprünglichen Design mit komplexeren Modulen und zusätzlichen Schichten aufbaut, was zu einer verbesserten Leistung führt. Insgesamt habe ich nun ein tieferes Verständnis der innovativen Techniken in Googlenet und Inception V3, einschließlich Inception -Modulen, 1x1 -Konvolutionen und globalem Durchschnittsbad, die das Gebiet des Computer Vision erheblich vorangebracht haben.
Tag 5 von 300 DaysofgenerativeAII
- In der heutigen Sitzung zum Mastering Pytorch habe ich an der Implementierung der Googlenet -Architektur gearbeitet und mich auf die Konstruktion und Integration mehrerer Inception -Module innerhalb des Netzwerks konzentriert. Ich habe die Parameter jedes Inception -Moduls verfeinert, um die beabsichtigte Konfiguration korrekt widerzuspiegeln, die die Anpassung der Faltungs- und Poolingschichten so umfasste, dass sie Merkmale auf verschiedenen Skalen effizient extrahieren. Zusätzlich habe ich die anfängliche Faltungsschicht mit der Stapelnormalisierung und der Relu -Aktivierung eingebaut, gefolgt von maximalen Poolschichten für den Downsampling. Während ich an dem Modell arbeitete, habe ich auch die Bedeutung von Hilfsklassifizierern in Betracht gezogen, die in der typischen Aufgabe der Googlenet -Architektur enthalten sind, um das Problem der Fluchtgradienten durch Bereitstellung von Zwischenaufsicht zu mildern. Diese Klassifikatoren sind kleinere Versionen des Hauptklassifizierers, die an frühere Schichten verbunden sind, und verbessern die Fähigkeit des Netzwerks, im Training sinnvolle Funktionen zu lernen.
Tag 6 von 300 DaysofgenerATiveai
- In der heutigen Sitzung las ich "ein Roman Deep Lenet-5 Faltungsnetzwerkmodell für die Bilderkennung", das eine verbesserte Version der traditionellen Lenet-5-Architektur vorschlägt, die auf die Verbesserung der Bilderkennungsfunktionen abzielt. Die Autoren befassen sich mit Einschränkungen des herkömmlichen maschinellen Lernens und früheren CNN -Modellen wie hohen Hardwareanforderungen und langsamen Konvergenzgeschwindigkeiten. Ihr neuartiger Ansatz vereinfacht die Netzwerkstruktur und verbessert die Trainingsgeschwindigkeit und verändert die Aktivierungsfunktion zu einer logarithmischen, behelfenden linearen Einheit (L Relu). Experimentelle Ergebnisse im MNIST-Datensatz zeigen, dass das verbesserte Modell eine Erkennungsrate von mehr als 98%erreicht und andere Algorithmen auf dem neuesten Stand der Technik erheblich übertrifft, wodurch eine wertvolle Referenz für Fortschritte in der Bilderkennungstechnologie liefert.
Tag 7 von 300 DaysofgenerativeAII
- In der heutigen Sitzung zu "Build a Language Model (von Grund auf)" von Sebastian Raschka habe ich mich mit den Grundlagen von großsprachigen Modellen (LLMs) und ihrer Konstruktion befasst. Ich habe die Transformatorarchitektur untersucht, die sowohl Encoder als auch Decoder umfasst und den Selbstbekämpfungsmechanismus betont, der es den Modellen ermöglicht, sich auf verschiedene Teile des Eingabetxtes zu konzentrieren. Ich untersuchte die beiden wichtigsten Phasen in der Erstellung von LLMs: Vorbereitung auf große, rohe Textkorpora für die Vorhersage des nächsten Wortes und Finetuning auf kleineren, gekennzeichneten Datensätzen für bestimmte Aufgaben. Darüber hinaus habe ich über die generativen Fähigkeiten von Modellen wie GPT und ihren aufkommenden Verhaltensweisen gelernt, die es ihnen ermöglichen, eine Vielzahl von Aufgaben wie Übersetzung und Klassifizierung auszuführen, auch ohne explizites Training für diese Aufgaben.