300days__generativeai
Этот репозиторий, 300Days_Generativeai, посвящен 300 дням непрерывного обучения, ориентированного на генеративный ИИ, ежедневно изучая различные книги и исследовательские работы. Я возвращаюсь к прошлым знаниям, обновлю свое понимание и углубляюсь в тонкости генеративных ИИ.
| Нет | Книга | Статус |
|---|
| 1 | Освоение Pytorch: создать и развернуть модели глубокого обучения от CNNS до мультимодальных моделей, LLMS и за его пределами (Ashish Ranjan Jha) | Непрерывный |
| 2 | Перенос обучения для обработки естественного языка (Пол Адзунр) | |
| 3 | Создайте большую языковую модель (с нуля) (MEAP) (Себастьян Рашка) | Непрерывный |
| 4 | Узнайте генеративный ИИ с Pytorch (Mark Liu) | |
| 5 | Генеративный ИИ в действии (MEAP V02) (Amit Bahree) | |
| 6 | Понимание Langchain: всеобъемлющее руководство по созданию футуристических языковых приложений (Jeffery Owens) | |
| 7 | Пьеса разработчика для большой языковой модели безопасности (Стив Уилсон) | |
| Нет. | Исследовательская работа | Тема | Статус |
|---|
| 1 | Новая модель Deep Lenet-5 сверточной нейронной сети для распознавания изображений | Lenet-5 | ✅ завершен |
| 2 | Подойдя глубже с свержениями | Googlenet | ✅ завершен |
День 1 из 300daysofgenerativeai
- На сегодняшней сессии по освоению Pytorch я сосредоточился на основополагающих аспектах глубокого обучения, особенно благодаря учебнику «глубокое обучение с Pytorch: 60 -минутным блиц». Я узнал об архитектурах нейронных сети, включая полностью связанные, сверточные и рецидивирующие слои, и изучал ключевые модули Pytorch, такие как Torch.Autograd для автоматической дифференциации и Torch.nn для создания сетей. Я практиковал вперед и обратное распространение, расчет потерь и градиент, кульминацией которого стало строительство простой нейронной сети. На предстоящих сессиях моя повестка дня включает в себя глубокое погружение в силу сверточных нейронных сетей (CNNS), их архитектурную эволюцию и практическое развитие таких моделей, как Lenet, Alexnet, VGG, Googlenet, Pescept V3, Resnet, Densenet и эффективные, обсуждая их значение и будущее в глубоком обучении.
- Дополнительный ресурс:
- Глубокое обучение с Pytorch: 60 -минутный блиц
День 2 300DaysOfGenerativeai
- На сегодняшней сессии по освоению Pytorch у меня есть краткая, но продуктивная сессия, погружаясь в глубокие архитектуры CNN. Я исследовал, почему CNN настолько эффективны для таких задач, как классификация изображений и обнаружение объектов, подчеркивая эффективность их параметров, автоматическое извлечение признаков и иерархическое обучение. Я рассмотрел различные архитектурные инновации, такие как пространственные, глубину, ширину и CNN на основе мульти-трассы. Я также изучил реализацию Alexnet в Pytorch, сосредоточившись на его структуре слоев и на том, как она использует функции отсечения и активации. Кроме того, я отметил доступность различных заранее определенных моделей CNN в пакете Torchvision от Pytorch, включая Alexnet, VGG, Resnet и другие.
День 3 из 300daysofgenerativeai
- В сегодняшнем сеансе по освоению Pytorch я подготовил набор данных для задачи классификации изображений, внедрил процесс тонкой настройки для предварительно обученной модели Alexnet и рассмотрел проблему детерминированного поведения, возникшая во время обучения. Я создал загрузчики данных, определенные вспомогательные функции для визуализации и точной настройки модели и изменил окончательный уровень предварительно обученной модели, чтобы соответствовать количеству классов в моем наборе данных. В процессе тонкой настройки я столкнулся с предупреждением, связанным с использованием операции
adaptive_avg_pool2d_backward_cuda , которая не имеет детерминированной реализации. Чтобы решить эту проблему, я узнал о различных подходах для обеспечения детерминированного поведения в Pytorch, таких как выборочное отключение детерминизма для проблемной работы или использование варианта warn_only=True при включении детерминированных алгоритмов. Этот практический опыт дал мне более глубокое понимание практических соображений при применении методов глубокого обучения к проблемам классификации изображения.
День 4 из 300daysofgenerativeai
- На сегодняшней сессии по освоению Pytorch я узнал, что Googlenet, также известный как начальный V1, представляет собой революционную архитектуру свертки нейронной сети, которая ввела модуль «Начальный модуль», которая включает в себя параллельные сверточные слои с различными размерами ядра (1x1, 3x3, 5x5) для захвата многомасштабных функций. Я обнаружил, что 1x1 сознания имеют решающее значение для уменьшения размерности, что позволяет модели поддерживать эффективность за счет снижения глубины карт признаков без изменения пространственных измерений. Кроме того, я узнал, что Googlenet использует средний глобальный бассейн до выходного уровня, чтобы минимизировать параметры и повысить устойчивость к переоснащению. Мое исследование начала V3 показало мне, как он основан на оригинальном дизайне с более сложными модулями и дополнительными слоями, что приводит к повышению производительности. В целом, теперь у меня есть более глубокое понимание инновационных методов в Googlenet и Inception v3, включая модули начала, 1x1 -контумиссии и средний глобальный объединение, которые значительно продвинули область компьютерного зрения.
День 5 из 300daysofgenerativeai
- На сегодняшней сессии по освоению Pytorch я работал над реализацией архитектуры Googlenet, сосредоточив внимание на строительстве и интеграции модулей с несколькими основаниями в сети. Я усовершенствовал параметры каждого модуля основания для правильного отражения предполагаемой конфигурации, которая включала настройку сверточных и объединяющих слоев для эффективного извлечения функций в различных масштабах. Кроме того, я включил первоначальный сверточный слой с нормализацией пакетов и активацией RELU, за которым последовали максимальные слои пулевика для понижения. Работая над моделью, я также рассмотрел важность вспомогательных классификаторов, которые обычно включаются в архитектуру Googlenet, чтобы помочь смягчить проблему градиента исчезновения, обеспечивая промежуточный надзор. Эти классификаторы являются меньшими версиями основного классификатора, прикрепленными к более ранним слоям, и они улучшают способность сети изучать значимые функции во время обучения.
День 6 из 300daysofgenerativeai
- На сегодняшней сессии я прочитал «новую модель Deep Lenet-5 сверточной нейронной сети для распознавания изображений», которая предлагает улучшенную версию традиционной архитектуры Lenet-5, направленной на улучшение возможностей распознавания изображений. Авторы решают ограничения традиционного машинного обучения и более ранних моделей CNN, таких как высокие требования к аппаратному обеспечению и медленная скорость конвергенции. Их новый подход упрощает структуру сети, одновременно повышая скорость обучения и изменяет функцию активации на логарифмическую выпрямленную линейную единицу (L RELU). Экспериментальные результаты на наборе данных MNIST демонстрируют, что улучшенная модель достигает уровня распознавания, превышающего 98%, что значительно превосходит другие современные алгоритмы, что обеспечивает ценную ссылку на достижение технологии распознавания изображений.
День 7 из 300daysofgenerativeai
- На сегодняшней сессии «Построить большую языковую модель (с нуля)» Себастьяна Рашки, я углубился в основы крупных языковых моделей (LLMS) и их строительства. Я исследовал архитектуру трансформатора, которая включает в себя как кодеры, так и декодеры, подчеркивая механизм самосознания, который позволяет моделям сосредоточиться на разных частях входного текста. Я изучил два ключевых этапа в строительстве LLMS: предварительная подготовка в крупных, необработанных текстовых корпусах для прогнозирования следующего слова и создания на небольших, помеченных наборах данных для определенных задач. Кроме того, я узнал о генеративных возможностях моделей, таких как GPT и их возникающее поведение, которые позволяют им выполнять различные задачи, такие как перевод и классификация, даже без явного обучения для этих задач.