
Мы собираем (по общему признанию) список ресурсов и прогресса, достигнутых в области ИИ, ориентированного на данные, с захватывающими направлениями прошлого, настоящего и будущего. В этом блоге рассказывается о нашем путешествии к ИИ, ориентированному на данные, и мы сформулируем, почему мы рады данным как точку зрения для ИИ в этом блоге.
Хотя ИИ был довольно сосредоточен на моделях, реальный опыт тех, кто вкладывает модели в производство, заключается в том, что данные часто имеют большее значение. Цель этого хранилища состоит в том, чтобы консолидировать этот опыт в одном месте, к которому можно получить доступ к любому, кто хочет понять и внести свой вклад в эту область.
Мы только в начале, и вы можете помочь, внести свой вклад в этот GitHub! Спасибо всем, кто внес свой вклад.
Если вы заинтересованы в этой области и хотите услышать больше, присоединяйтесь к нашему списку рассылки! Мы также будем признателен, если бы вы могли заполнить эту короткую форму, чтобы помочь нам лучше понять, какими могут быть ваши интересы.
Мы создаем класс в Стэнфорде о искусственном интеллекте, ориентированном на данные, и нам понравится ваш отзыв. Если вы заинтересованы в изучении большего, пожалуйста, заполните эту форму.
Если у вас есть идеи о том, как мы можем сделать этот репозиторий лучше, не стесняйтесь представить проблему с предложениями.
Мы хотим, чтобы этот ресурс рос с вкладами читателей и любителей данных. Если вы хотите внести свой вклад в этот репозиторий GitHub, пожалуйста, прочитайте наши рекомендации.
Фон
Эта область - заглушка, вы можете помочь, улучшив ее.
Существует много волнений по поводу понимания того, как поставить машинное обучение для работы над реальными вариантами использования. ИИ, ориентированные на данные, содержит особую точку зрения на то, как может произойти этот прогресс: сосредоточив внимание на том, чтобы упростить упрощение практикующих, программировать и итерацию на наборах данных, вместо того, чтобы тратить время на модели.
Страница области программирования данных и слабого надзора
Многие современные системы машинного обучения требуют, чтобы крупные маркированные наборы данных были успешными, но производство таких наборов данных требует много времени и дорого. Вместо этого, более слабые источники надзора, такие как краудсорсинг, отдаленный надзор и эвристика экспертов по доменам, такие как шаблоны Херста, использовались с 90 -х годов.
Тем не менее, они в значительной степени рассматривались людьми ИИ и ИИ/мл как специальные или изолированные методы. Усилия по объединению и объединению их в точку зрения, ориентированную на данные, начались всерьез с программированием данных, известной как программное маркирование, воплощенное в сноркеле, в настоящее время проект с открытым исходным кодом и процветающая компания. В подходе ИИ, ориентированного на данные, пользователи, пользователи указывают несколько функций маркировки, которые каждая представляет шумную оценку метки с землей-правкой. Поскольку эти функции маркировки различаются по точности и охвату набора данных и могут даже коррелировать, они объединяются и обезболиваются с помощью графической модели скрытой переменной. Таким образом, техническая задача состоит в том, чтобы изучить точность и параметры корреляции в этой модели и использовать их для вывода истинной метки, которая будет использоваться для нижестоящих задач.
Программирование данных основывается на длинной работе по оценке параметров в графических моделях скрытых переменных. Конкретно изучена генеративная модель для совместного распределения функций маркировки и ненаблюдаемой (скрытой) истинной метки. Эта модель метки позволяет агрегировать различные источники сигнала, позволяя им иметь различную точность и потенциальную корреляцию.
В этом сообщении в блоге снокеров содержится обзор слабого надзора, в том числе то, как он сравнивается с другими подходами, чтобы получить более маркированные данные и проблемы технического моделирования. Эти лекционные заметки Стэнфорда CS229 предоставляют теоретическую резюме того, как графические модели используются для слабого надзора.
Страница области увеличения данных
Ключевой проблемой, когда модели учебного машинного обучения является сбор большого, разнообразного набора данных, который в достаточной степени отражает изменчивость, наблюдаемую в реальном мире. Из -за стоимости сбора и маркировки наборов данных увеличение данных стало дешевой, многообещающей альтернативой.
Центральная идея в увеличении данных состоит в том, чтобы преобразовать примеры в существующем наборе данных для создания дополнительных дополненных примеров, которые затем можно добавить в набор данных. Эти дополнительные примеры обычно увеличивают разнообразие данных, наблюдаемые моделью, и обеспечивают дополнительный надзор за моделью. Основы увеличения данных возникают в тангентном распространении, которые ввели методы, чтобы сделать изученную модель инвариантной в отношении некоторого преобразования данных.
Ранние успехи в увеличении, такие как Алекснет, сосредоточился на инварианте инвариантности в классификаторе изображения, путем создания примеров, которые поощряют трансляционную или вращательную инвариантность. Эти успехи сделали увеличение де-факто частью трубопроводов для широкого круга задач, таких как изображение, речевая и текстовая классификация, машинный перевод и т. Д.
Выбор преобразований, используемых при увеличении, является важным фактором, поскольку он диктует инвариантные, изученные моделью, и ее поведение при столкновении с разнообразием испытательных примеров. Хотя эвристические увеличения оставались популярными, важно иметь возможность более тщательно контролировать и программировать трубопровод для увеличения. Танда инициировала исследование проблемы трубопроводов увеличения программирования путем составления выбора преобразований данных. С тех пор эта область наблюдалась как с более глубоким теоретическим пониманием, так и с практическими реализациями, такими как автоаугация. Зарождающаяся линия работ использовала условные генеративные модели для изучения-Rather, чем указывают-эти преобразования, дополнительно расширяя эту парадигму программирования.
Страница зоны самоотверждения
Необходимость в крупных помеченных наборах данных имеет мотивированные методы для предварительного обучения скрытых представления входного пространства с использованием немеченых данных и используют результирующие репрезентации, богатые знаниями, в нижестоящих задачах. Поскольку представления позволяют передавать знания в нижестоящие задачи, эти задачи требуют менее помеченных данных. Эта парадигма, называемая «самоотверженностью», произвела революцию в том, как мы тренируем (и предварительную) модели. Эти модели, которые недавно называются «моделями фундамента» в результате Стэнфордской инициативы о понимании самоотверженных экосистем, сместили фокус от меченных вручную данных к пониманию того, какие данные подают на эти модели.
Поскольку самоотверженные данные часто курируются из крупных публичных источников данных (например, Википедия), они могут содержать предвзятость популярности, где длинный хвост редких вещей не очень хорошо представлен в учебных данных. Как orr et. ал. Покажите, некоторые популярные модели (например, BERT) полагаются на контекстное запоминание и изо всех сил пытаются разрешить этот длинный хвост, поскольку они не способны увидеть достаточно редкой вещи, достаточно раз, чтобы запомнить разнообразный набор закономерностей, связанных с ним. Проблема с длинным хвостом даже распространяется на нижестоящие задачи, такие как задачи поиска из янтаря. Одним из захватывающих будущих направлений, которое лежит на пересечении ИИ и многолетних исследований сообщества управления данными для решения длинного хвоста, является интеграцией структурированных знаний в модель. Структурированные знания являются основной идеей успеха хвоста Bootleg, системы для устранения неоднозначности именных объектов.
Конец страницы области моделита
Исторически моментом «Малыш в кондитерской» для исследователей ML создает и настраивает модели, используя такие инструменты, как Pytorch или Jax. Новые модели выходили каждый день, и эти настраивают модельные архитектуры и мелко настроенные параметры, которые обыграли самые современные результаты. Это увлечение моделититом, однако, подходит к концу.
Недавно исследователи реализовали две вещи: (1) Больше выгод поступает из -за глубокого понимания данных, а не модельной настройки (см. Весь захватывающая работа по увеличению данных), и (2) пользовательские модели трудно поддерживать и расширять в производстве среда. Это привело к тому, что модельные платформы построения, такие как Людвиг и Овертон, которые принудили коммодитизированные архитектуры, и двинулись к системам ML, которые могут быть созданы декларативно Molino и Ré 2021. И они показали, что эти модели Commodiy были даже лучше, чем их настроенные предшественники! Этот результат был дополнительно подтвержден Kaplan et al., Которые показали, что архитектура имеет значение меньше, чем данные.
Эта тенденция, которую мы называем окончанием моделита, движется к ориентированному на данные представление о построении модели. Вопрос переходит от «Как построить лучшую модель» к «Как вы кормите модель».
Страница зоны оценки
Оценка модели является важной частью процесса разработки модели в машинном обучении. Цель оценки состоит в том, чтобы понять качество модели и ожидать, будет ли она хорошо работать в будущем.
В то время как оценка является классической проблемой в машинном обучении, подходы ИИ-ориентированных данных катализировали сдвиг в направлении мелкозернистой оценки : выходя за рамки стандартных показателей средней производительности, таких как точность и оценки F1, к измерению эффективности в конкретных интересующих населениях. Это дает более детальное понимание производительности модели и дает пользователям более четкое представление о возможностях модели. Этот сдвиг дополняет растущий интерес к пониманию модельной надежности, поскольку доступ к мелкозернистой оценке позволяет повысить способность создавать более надежные модели.
Подходы к мелкозернистой оценке включают измерение производительности на подмножествах критических данных, называемых срезов, инвариантность или чувствительность к преобразованию данных и сопротивление состязательным возмущениям. В то время как большая часть оценки определена пользователем, важная линия работы обнаружила, что модели часто недооценны в скрытых стратах , которые пропускаются модельными строителями при оценке, которые могут иметь глубокие последствия для нашей способности развертывать и использовать модели. Это мотивирует будущую работу по автоматическому обнаружению этих скрытых слоев, или в более общем смысле, обнаруживая все возможные режимы сбоя модели путем систематического анализа наборов данных и моделей.
Другим важным аспектом мелкозернистой оценки являются мониторинг данных и модели, чтобы предвидеть, измерить и смягчить деградации в производительности из-за сдвига распределения. Это включает в себя идентификацию и изоляцию точек данных, которые можно считать выбросами, оценивая производительность на немеченых данных, которые транслируются на развернутую модель, и генерируя богатые резюме того, как распределение данных может смещаться с течением времени.
Страница области надежности
Одним из стандартных предположений для успешного развертывания моделей машинного обучения является то, что распределения времени теста аналогичны тем, которые встречаются и хорошо представлены во время обучения. В действительности, однако, это предположение редко содержится: редко мы ожидаем развертывания моделей в условиях, которые точно соответствуют их распределениям обучения. Обучающие модели, устойчивые к сдвигам распределения, являются еще одной основной проблемой для улучшения машинного обучения в дикой природе, которую, по нашему мнению, можно решить в рамках парадигмы, ориентированной на данные.
Здесь мы широко классифицируем попытки повысить устойчивость к сдвигам распределения как те, которые рассматривают (1) сдвиг подпапуляции или скрытую стратификацию, (2) сдвиг домена и (3) смещение от состязательных возмущений.
При смене субпопуляции распределения обучения и времени теста различаются по тому, насколько хорошо представлена каждая субпопуляция или «группа данных». Если в учебных данных недопредставлены определенные субпопуляции, то даже если эти распределения встречаются во время обучения, стандартная эмпирическая минимизация риска (ERM) и «обучение статистическим средним значениям» может привести к моделям, которые хорошо работают на чрезмерных представленных субпопуляциях.
Как группа DRO, так и Джордж ввели подходы для обработки сдвига субпопуляции в рамках реальных экземпляров. Эти методы вдохновили на дополнительную работу, связанную с оценкой групп UPSAMPLING (LFF, JTT) и использованием контрастного обучения для изучения групповых инвариантных представлений (CNC - Скоро появится).
Помимо сдвига субпопуляции, надежность также включает в себя сдвиг домена и состязательные возмущения. При смене домена мы моделируем данные о времени теста как поступающие из совершенно другой области из учебных данных. При смене распределения с помощью состязательных возмущений данные времени теста могут демонстрировать повреждения или незаметные различия в пространстве входных объектов, которые предотвращают обученные модели ERM от строго обобщения до распределений времени теста. Эти важные разделы все еще являются заглушками. Пожалуйста, добавьте свой вклад!
Страница области очистки данных
Другим способом улучшения качества данных для приложений ML/AI является очистка данных. В этой линии существует множество интересных работ, чтобы совместно понять очистку данных и машинное обучение.
Млопс
Центральная роль данных делает разработку и развертывание приложений ML/AI процессом человека в петле. Это сложный процесс, в котором люди инженеров могут делать ошибки, требовать руководства или предупреждать, когда происходит что -то неожиданное. Цель MLOP - обеспечить принципиальные способы управления, мониторинга и проверки жизненного цикла.
Исследователи начали решать эти проблемы, разрабатывая новые методы и строительные системы, такие как TFX, ext.ml или Overton, разработанный для справки всего жизненного цикла модели машинного обучения как во время разработки, так и в производстве. Эти системы обычно состоят из различных компонентов, отвечающих за обработку конкретных этапов (например, до или после тренировки) или аспектов (например, мониторинг или отладки) MLOP.
Страница области выбора данных
Массовые объемы данных позволили многим успехам глубокого обучения, но эти большие данные приносят свои собственные проблемы. Работа с массовыми наборами данных является громоздкой и дорогой с точки зрения как вычислительных ресурсов, так и маркировки. Методы выбора данных, такие как активное обучение и выбор основных наборов, могут смягчить боли больших данных, выбрав наиболее ценные примеры для маркировки или обучения.
В то время как выбор данных был давней областью в AI/мл, масштаб и перекос современных наборов данных промышленных данных подтолкнули поле к более точно оценению данных и улучшают масштабируемость методов отбора. Недавние работы, такие как (Sener & Savarese и Ghorbani et al.), Принимают более ориентированный на данные подход к количественной оценке вклада каждого примера обучения, сосредоточив внимание на разнообразии и репрезентативности, а не на то, чтобы полагаться исключительно на неопределенность модели. Чтобы помочь этим методам масштабировать, подходы, такие как SVP и уплотнения, представляют простые способы снижения вычислительных затрат на три порядка, что позволяет более широко выбирать активное обучение и выбор данных.
Эти достижения в области метки и вычислительной эффективности делают выбор данных применимым к современным наборам данных, что позволяет AI/мл принять более ориентированное на данные представление, ориентированное на качество, а не количество.
Страница области конфиденциальности данных
Это описание - заглушка, вы можете помочь, улучшив его.
Страница области потока данных
Эта область - заглушка, вы можете помочь, улучшив ее.
Страница области многодоменной области обучения
Эта область - заглушка, вы можете помочь, улучшив ее.
Страница области появления тенденций
ИИ, ориентированные на данные, все еще растет, и мы хотим запечатлеть возникающие тенденции по мере их возникновения. Некоторые новые области, которые, по нашему мнению, формируются, включают интерактивное машинное обучение, модели масштаба Massice и наблюдательный ML. Посмотрите на страницу области.
Страница области приложений
Подходы, ориентированные на данные, оказали широкое влияние, где используется и развернуто машинное обучение, будь то в научных кругах, промышленности или других организациях. Влияние модальностей, таких как структурированные данные, текст, изображения, видео, графики и другие, в то время как области включают в себя обработку текста и изображений, медицинская визуализация, вычислительная биология, автономное вождение и т. Д.