
Программно создавать и управлять данными обучения
Команда Snorkel в настоящее время сосредотачивает свои усилия на потоке Snorkel, сквозной платформе разработки приложений AI, основанной на основных идеях, лежащих в основе Snorkel-вы можете проверить ее здесь или присоединиться к нам в создании!
Проект Snorkel начался в Стэнфорде в 2015 году с простой технической ставкой: что это будет все больше данных обучения , а не модели, алгоритмы или инфраструктура, которые решили, успешно ли проект машинного обучения. Учитывая эту предпосылку, мы решили изучить радикальную идею, что вы можете принести математическую и системную структуру в грязный и часто полностью ручной процесс создания и управления учебными данными, начиная с того, чтобы позволить пользователям программно маркировать, создавать и управлять данными обучения.
Сказать, что проект снорклинга преуспел и расширился за пределы того, что мы когда -либо ожидали, было бы преуменьшением. Основными целями исследовательского репо, как Snorkel, являются минимальная жизнеспособная основа для тестирования и проверки гипотез. Четыре года спустя нам повезло сделать не только это, но и разрабатывать и развернуть ранние версии снорклинга в партнерстве с некоторыми ведущими мировыми организациями, такими как Google, Intel, Stanford Medicine и многие другие; Автор более шестидесяти рецензируемых публикаций о наших выводах, касающихся снорклинга и связанных с ними инноваций в области слабого моделирования надзора, увеличения данных, многозадачного обучения и многого другого; быть включенным в курсы в университетах высшего уровня; Поддержка развертывания производства в системах, которые вы, вероятно, использовали за последние несколько часов; и работать с удивительным сообществом исследователей и практиков из промышленности, медицины, правительства, академических кругов и за ее пределами.
Тем не менее, мы осознавали все более от бесед с пользователями в еженедельные рабочие часы, семинары, онлайн -дискуссии и отраслевые партнеры - что проект Snorkel был лишь первым шагом. Идеи, лежащие в основе сноркелей, меняют не только то, как вы маркируете данные о обучении, но и многие из всего жизненного цикла и трубопровода построения, развертывания и управления ML: как пользователи вводят свои знания; Как модели строятся, обучаются, осматриваются, версируются и контролируются; как все трубопроводы развиваются итеративно; и то, как полный набор заинтересованных сторон в любом развертывании ML, от экспертов по вопросам до инженеров ML, включен в процесс.
За прошедший год мы создаем платформу для поддержки этого более широкого видения: снорклинга, сквозной платформы машинного обучения для разработки и развертывания приложений ИИ. Поток сноркелей включает в себя многие концепции проекта Snorkel с целым рядом новых методов, связанных с слабым моделированием надзора, увеличением данных, многозадачным обучением, нарезанием и структурированием данных, мониторинге и анализу, и многое больше, чем сумма его частей - и то, что мы считаем, что делает ML по -настоящему быстрее, более гибким и более практичным, чем когда -либо прежде.
Двигаясь вперед, мы сосредоточимся на наших усилиях на потоке снорклинга. Мы чрезвычайно благодарны за всех вас, которые внесли свой вклад в проект Snorkel, и рады, что вы сможете проверить нашу следующую главу здесь.
Самый быстрый способ ознакомиться с библиотекой сноркелей-это пройти страницу «Начало работы» на веб-сайте Snorkel, а затем полнометражные учебные пособия в репозитории Snorkel. Эти учебники демонстрируют различные задачи, домены, методы маркировки и интеграции, которые могут служить шаблонами при применении сноркелей к своим собственным приложениям.
Сноркелин требует Python 3.11 или позже. Чтобы установить сноркелин, мы рекомендуем использовать pip :
pip install snorkel или conda :
conda install snorkel -c conda-forgeДля получения информации об установке из источника и участия в снорклере см. В наших рекомендациях.
Следующие примеры команды дают больше цвета при установке с conda . Эти команды предполагают, что вашей установкой conda является Python 3.11, и что вы хотите использовать виртуальную среду, называемую snorkel-env .
# [OPTIONAL] Activate a virtual environment called "snorkel"
conda create --yes -n snorkel-env python=3.11
conda activate snorkel-env
# We specify PyTorch here to ensure compatibility, but it may not be necessary.
conda install pytorch==1.1.0 -c pytorch
conda install snorkel==0.9.0 -c conda-forgeЕсли вы используете Windows, мы настоятельно рекомендуем использовать Docker (вы можете найти пример в наших учебных пособиях) или подсистемы Linux. Мы провели ограниченное тестирование в Windows, поэтому, если вы хотите внести инструкции или улучшения, не стесняйтесь открывать PR!
Мы используем проблемы GitHub для публикации ошибок и запросов функций-все, что связано с кодом. Просто убедитесь, что вы сначала ищите связанные проблемы и используйте наши шаблоны проблем. Мы можем попросить взносов, если бы быстрое исправление не вписывается в непосредственную дорожную карту основной команды разработчиков.
Мы приветствуем вклад сообщества Snorkel! Это, вероятно, самый быстрый способ получить изменения, которые вы хотели бы увидеть в библиотеке.
Небольшие взносы могут быть сделаны непосредственно в запросе на притяжение (PR). Если вы хотите внести свой вклад в большую функцию, мы рекомендуем сначала создать проблему с предложенным дизайном для обсуждения. Для идей о том, над чем работать, мы назвали конкретные проблемы по help wanted .
Чтобы создать среду разработки для внесения ответа на сноркелин, см. Наши рекомендации. Все PR должны пройти тесты непрерывной интеграции и получить одобрение от члена команды разработчиков снорклинга, прежде чем они будут объединены.
Для более широких вопросов и ответов, обсуждений об использовании сноркелей, учебных запросов и т. Д. Используйте форум сообщества Snorkel Community, организованный в Spectrum. Мы надеемся, что это будет место для вас, чтобы взаимодействовать с другими пользователями снорккелей - пожалуйста, не стесняйтесь публиковать!
Чтобы быть в курсе объявлений, связанных с снорклингом (например, выпуски версий, предстоящие семинары), подпишитесь на список рассылки Snorkel. Мы обещаем уважать ваши почтовые ящики - общение будет редким!
Следуйте за нами в Twitter @snorkelai.