Привет, привет, друзья! Я автор Kuiperinfer. В качестве курса с открытым исходным кодом, Kuiperinfer до сих пор выиграл 2,5 тыс. Звезд на GitHub. Сейчас, основываясь на оригинальном курсе, мы запустили «Ручную структуру для вывода макета». Новый курс поддерживает серию моделей LLAMA (включая последнюю серию моделей Llama3.2 и QWEN2.5, а также поддерживает ускорение CUDA и квантование Int8 , которое широко восхвалялось с момента его запуска.
https://l0kzvikuq0w.feishu.cn/docx/zf2hd0xfaoaxqaxcpn2c5ohanbc
Если вы заинтересованы в рассуждениях о больших моделях, хотите иметь глубокое понимание и магистерские технологии, и хотите выделиться в школьных интервью по подбору персонала и осенней подбора персонала, то этот курс «Ручной рамки вывода с крупной модели» не следует пропустить. Приходите и присоединяйтесь к нам и начните свое учебное путешествие вместе! Заинтересованные студенты могут сканировать QR -код ниже курса или добавить WeChat Lyrry1997, чтобы принять участие в курсе

Пригласите вас создать глубокую структуру для обучения своими руками. Следуйте за моим B -станцией, чтобы получить последние обновления видео.
Следуйте по этому проекту и начните со своей собственной основы для глубокого обучения с нуля, вы получите следующее:
Ссылка на видео: https://space.bilibili.com/1822828582
Второй курс - это версия первого курса сброса, а содержание более полезно и идеально. Смотрите главу ниже для первого курса.
| Количество курсов | расписание | Ссылка курса |
|---|---|---|
| Превью проекта 1 лекция 1 и конфигурация среды | Заканчивать | https://www.bilibili.com/video/bv118411f7ym |
| Лекция 2 Проектирование и внедрение тензоров | Заканчивать | https://www.bilibili.com/video/bv1hn411k7q7 |
| Лекция 3 Определение вычислительного графика | Заканчивать | https://www.bilibili.com/video/bv1vc411m7yp |
| Лекция 4: Построение в отношениях и порядок выполнения вычислительных графиков | Заканчивать | https://www.bilibili.com/video/bv19s4y1r7az |
| Лекция 5: Операторы и зарегистрированные работники в Kuiperinfer | Заканчивать | https://www.bilibili.com/video/bv1gx4y1o7pj |
| Лекция 6: Внедрение операторов свертки и объединения | Заканчивать | https://www.bilibili.com/video/bv1hx4y197ds |
| Лекция 7: Лексический анализ и грамматический анализ и реализация оператора в уровне экспрессии | Заканчивать | https://www.bilibili.com/video/bv1j8411o7ao |
| Лекция 8: Домашняя структура рассуждений поддерживает рассуждения сети Resnet | Заканчивать | https://www.bilibili.com/video/bv1o84y1o7ni |
| Лекция 9: Домашняя структура рассуждений поддерживает рассуждения сети Yolov5 | Заканчивать | https://www.bilibili.com/video/bv1qk4y1a7xl |
? Kuiperinfer в настоящее время поддерживает вывод Unet Network и использует карвану перед тренировками
Воспроизведение рассуждений может относиться к демонстрации, управляющему Kuiper в конце статьи
Демо-версия непосредственно использует предварительно обученные веса (набор данных COCO) Yolov5-S и использует Kuiperinfer для разума

У меня есть учебный курс по билибили, и в настоящее время это первые 13 курсов на курсе. Схема курса заключается в следующем: домашняя страница: https://space.bilibili.com/1822828582. Все могут следовать и поддержать. Способ ввода учебной группы, как показано в QR -коде на рисунке выше.
| Количество курсов | Основной контент | расписание | Ссылка курса |
|---|---|---|---|
| Первый класс | Общая конфигурация среды интерпретации и разработки | Заканчивать | https://www.bilibili.com/video/bv1hv4y1a7h8/ |
| Второй урок | Анализ класса тензора тензора и расположение памяти входных данных | Заканчивать | https://www.bilibili.com/video/bv1ed4y1v7gb/ |
| Третий урок | Инициализировать экземпляр тензора тензора из файла CSV | Заканчивать | https://www.bilibili.com/video/bv1pg411j7v5/ |
| Урок 4 | Рукописный первый оператор Relu и завершить класс регистрации оператора | Заканчивать | https://www.bilibili.com/video/bv1bg4y1j7sq/ |
| Урок 5 | Принцип IM2COL и реализация оператора свертки | Заканчивать | https://www.bilibili.com/video/bv1f841137ct |
| Урок 6 | Заполните оператора MaxPooling, нарисовав кошку и нарисовав тигр | Заканчивать | https://www.bilibili.com/video/bv1m3411s7yy |
| Урок 7 | График структуры (PNNX) Объяснение и предварительный график расчета | Заканчивать | https://www.bilibili.com/video/bv1vw4y1v7vp |
| Урок 8 | Прочитайте Pnnx и создайте свою собственную схему расчета | Заканчивать | https://www.bilibili.com/video/bv1hy4y1z7s3 |
| Урок 9 | Реализация оператора свертки и принцип ускоренного расчета IM2COL | Заканчивать | https://www.bilibili.com/video/bv1f841137ct |
| Урок 10 | Снова исследуйте класс тензора, построите графическое соотношение графика расчета и предварительно выделять вход и вывод оператора | Заканчивать | https://www.bilibili.com/video/bv1m54y1k7ag |
| Урок 11 | Процесс выполнения оператора | Заканчивать | https://www.bilibili.com/video/bv1wy411c7kv |
| Урок 12 | Используйте нашу домашнюю структуру рассуждения, чтобы завершить вывод и классификацию изображений Resnet Networks | Заканчивать | https://www.bilibili.com/video/bv1jd4y1m772 |
| Урок 13 | Поддержите рассуждения модели Yolov5 с помощью домашней основы рассуждения | Заканчивать | https://www.bilibili.com/video/bv1xs4y1j7t2 |
Спасибо следующим студентам за их усилия Kuiperinfer
Этот проект эквивалентен вверх по течению или предварительно исследований курса
Каждая функция здесь может стать точкой знания в видеоуровне, независимо от того, развивается ли он мной или улучшается другими студентами.
Советы:
$DEVELOPMENT или указать -DDEVELOPMENT=ON в файле cmake. apt install cmake, libopenblas-dev, liblapack-dev, libarpack-dev, libsuperlu-devСоветы:
Пожалуйста, скопируйте абсолютный или относительный адрес изображения test.png в папке tmp/unet/demo после компиляции, а затем запустите программу вывода в следующем формате в build/demos
./unet_test test.png unet_demo.pnnx.param unet_demo.pnnx.binАдрес загрузки модели PNNX: https://cowtransfer.com/s/09c7f337bab443
Если рассуждения успешно, вы увидите результат разделения исходного изображения в папке Unet_Output.jpg.
Пожалуйста, измените следующий код в папке yolo_test.cpp в папке Demos
const std::string& image_path = " imgs/car.jpg " ;
const std::string& param_path = " tmp/yolo/demo/yolov5s_batch8.pnnx.param " ;
const std::string& bin_path = " tmp/yolo/demo/yolov5s_batch8.pnnx.bin " ; image_path указывает каталог изображений, param_path - это файл параметров модели, а bin_path - это весовой файл модели. Пожалуйста, замените его на местный путь.
Определение модели и адрес загрузки веса следующие: https://cowtransfer.com/s/9bc43e0905cb40
После завершения компиляции звоните ./build/demos/yolo_test в каталоге проекта
Общая концепция: постепенно оптимизировать существующих операторов; Разработайте невыполненные операторы, когда это необходимо
Источник является источником каталога
Тест является модульным справочником, в основном реализующим права на проверку модуля публичного метода
Benchmark - это эталон Google, который содержит тесты производительности для MobilenETV3, RESNET18 и YOLOV5S.
15 Core AMD EPYC 7543 (Xiaolong) 32-ядерный процессор (Docker Container, хост имеет в общей сложности 32 ядра)
GCC (Ubuntu 9.4.0-1Ubuntu1 ~ 20.04.1) 9.4.0
Труто-потребляющий и управлять пятью временами подряд и рассчитывается в среднем
| входной размер | Название модели | Вычислительное оборудование | кропотливый |
|---|---|---|---|
| 224 × 224 партия = 8 | Mobilenetv3small | ЦП (Armadillo + Openblas) | 6,76 мс/изображение |
| 224 × 224 партия = 8 | Resnet18 | ЦП (Armadillo + Openblas) | 23,53 мс/изображение |
| 224 × 224 партия = 16 | Resnet18 | ЦП (Armadillo + Openblas) | 13,52 мс/изображение |
| 640 × 640 партия = 8 | Yolov5nano | ЦП (Armadillo + Openblas) | 78,37 мс/изображение |
| 640 × 640 партия = 8 | Yolov5s | ЦП (Armadillo + Openblas) | 177,54 мс/изображение |
| 640 × 640 партия = 16 | Yolov5s | ЦП (Armadillo + Openblas) | 134,57 мс/изображение |
Структура рассуждений NCNN сохранила протокол BSD NCNN в коде, упомянутый https://github.com/tencent/ncnn
Отличная математическая библиотека Openblas: https://github.com/xianyi/openblas
Отличная математическая библиотека Armadillo: https://arma.sourceforge.net/docs.html
Caffe Framework, которая меня вдохновляет: https://github.com/bvlc/caffe
Fmath Framework: https://github.com/herumi/fmath/