aka.ms/generalai
Найм
Мы нанимаем на всех уровнях (включая исследователей FTE и стажеров)! Если вы заинтересованы в работе с нами над моделями Foundation (AKA крупномасштабных предварительно обученных моделей) и General AI, NLP, MT, речи, документов AI и мультимодального AI, отправьте свое резюме по адресу [email protected].
Фонд архитектура
Torchscale - библиотека фундаментальных архитектур (репо)
Фундаментальные исследования для разработки новых архитектур для моделей фундамента и искусственного интеллекта, сосредоточенного на моделировании общности и возможностей, а также на стабильность и эффективность обучения.
Стабильность - DeepNet : масштабирование трансформаторов до 1000 слоев и за его пределами
Общность - Трансформеры Фонда (Магнето) : На пути к истинному моделированию общего назначения по задачам и модальностям (включая язык, зрение, речь и мультимодальные)
Возможности - экстраполатируемый трансформатор длиной
Эффективность и передача- X-ME : масштабируемая и созданная разреженная смесь экспертов (MOE)
Революция модельной архитектуры
Bitnet : 1-битные трансформаторы для больших языковых моделей
RETNET : Удерживающая сеть: преемник трансформатора для крупных языковых моделей
Longnet : масштабирование трансформаторов до 1 000 000 000 токенов
Фонд -модели
Эволюция (M) LLM (мультимодальный LLM)
Космос-2,5 : мультимодальная грамотная модель
Kosmos-2 : обоснование мультимодальных крупных языковых моделей в мир
Космос-1 : мультимодальная большая языковая модель (MLLM)
Metalm : Языковые модели-это интерфейсы общего назначения
Большая конвергенция -крупномасштабная самоотверженная предварительная тренировка по tasks (прогнозирующие и генеративные), languages (100+ языков) и modalities (язык, изображение, аудио, макет/формат + язык, видение + язык, аудио + язык и т. Д.)
Язык и многоязычный
Unilm : единое предварительное обучение для понимания языка и поколения
Infoxlm/XLM-E : многоязычные/кросс-лингальные предварительно обученные модели для 100+ языков
Deltalm/MT6 : предварительное обучение Encoder-Decoder для генерации языка и перевода для 100+ языков
Minilm : небольшие и быстрые предварительно обученные модели для понимания языка и генерации
Адалм : домен, язык и адаптация задач предварительно обученных моделей
Эдгельм ( NEW ): небольшие предварительно обученные модели на краях/клиентских устройствах
SIMLM ( NEW ): крупномасштабное предварительное обучение для сопоставления сходства
E5 ( NEW ): текстовые встраивания
Minillm ( NEW ): перегонка знаний крупных языковых моделей
Зрение
BEIT / BEIT-2 : Генеративное самоотверженное предварительное обучение для предварительного обучения вида / BERT преобразования изображений
DIT : самоотверженное предварительное обучение для трансформаторов изображений документов
TextDiffuser / TextDiffuser-2 ( NEW ): диффузионные модели как текстовые художники
Речь
Wavlm : предварительное обучение речи для полного стека задач
Vall-E : модель языка нейронного кодека для TTS
Мультимодальный (x + язык)
Layoutlm / layoutlmv2 / layoutlmv3 : мультимодальный (текст + макет / формат + изображение) Модель фонда документа для документа AI (например, сканированные документы, PDF и т. Д.)
LayOutxlm : мультимодальный (текст + макет/формат + изображение) Модель фонда документа для многоязычного документа AI
Markuplm : Markup Language Model перед тренировкой для визуально богатого понимания документов
Xdoc : единое предварительное обучение для понимания перекрестного документа
Unispeech : единое предварительное обучение для самоотверженного обучения и контролируемого обучения для ASR
Unispeech-Sat : Universal Speech Presention Learning с предварительным тренировком с оратором.
SpeechT5 : предварительная тренировка энкодера-декодера для обработки разговорного языка
Speechlm : Усовершенствованное предварительное обучение речи с помощью непарных текстовых данных
VLMO : Unified Visual Language Pre Training
VL-Beit ( NEW ): предварительное обучение на языке зрения-эволюция BEIT в мультимодальный
BEIT-3 ( NEW ): модель мультимодального фонда общего назначения и основная веха большой сближения крупномасштабной предварительной тренировки по задачам, языкам и методам.
Наборы инструментов
S2S-FT : инструментарий с тонкой настройкой последовательности к последовательности
Агрессивное декодирование ( NEW ): алгоритм декодирования последовательности без потерь.
Приложения
TROCR : OCR на основе трансформаторов с предварительно обученными моделями
Layoutreader : предварительное обучение текста и макета для обнаружения заказа
XLM-T : многоязычный NMT с предварительно проведенными перекрестными энкодерами
Ссылки
Llmops (репо)
Общая технология для обеспечения возможностей ИИ с LLMS и MLLMS.
Redstone (репо)
Курация общих данных, кода, математики и QA для больших языковых моделей.
Новости
- Декабрь 2024 года: Редстоун был выпущен!
- Декабрь 2023 года: выпущены Longnet и Longvit
- [Выпуск модели] Dec, 2023: TextDiffuser-2 , код и демонстрация.
- Сентябрь, 2023: Космос-2,5 -мультимодальная грамодальная модель для машинного чтения текстовых изображений.
- [Выпуск модели] May, 2023: модели TextDiffuser и код.
- [Выпуск модели] март, 2023 год: модели и код и код BEIT-3 .
- Март 2023 года: Kosmos-1 -мультимодальная большая языковая модель (MLLM), которая может воспринимать общие методы, изучать в контексте (то есть, несколько выстрелов) и следующие инструкции (то есть, нулевой выстрел).
- Январь 2023 года: Vall-E Подход к языковому моделированию для текста к синтезу речи (TTS), который достигает современной производительности с нулевым выстрелом. Смотрите https://aka.ms/valle для демонстраций нашей работы.
- [Выпуск модели] январь 2023: E5 -текстовые встраиваемые встроены с слабоубежденными контрастными предварительными тренировками.
- Ноябрь 2022 года. Торхл 0,1,1 был выпущен!
- Ноябрь 2022 года. Трак был принят AAAI 2023.
- [Выпуск модели] Ноябрь, 2022 год: базовые модели XDOC для понимания перекрестного документа.
- [Выпуск модели] Сентябрь 2022 года. База TROCR и большие модели для распознавания текста сцены (STR).
- [Выпуск модели] Сентябрь 2022 года: код BEIT V2 и предварительные модели.
- Август 2022 года: BEIT-3 -модель мультимодального фундамента общего назначения, которая достигает современных результатов передачи как по визуальным, так и по заданиям на языке зрения
- Июль 2022 года: SIMLM -крупномасштабное самоотверженное предварительное обучение для сопоставления сходства
- Июнь 2022 года: DIT и Layoutlmv3 были приняты ACM Multimedia 2022.
- Июнь 2022 года: Metalm - Языковые модели являются общими интерфейсами для моделей фундамента (язык/многоязычный, зрение, речь и мультимодальная)
- Июнь 2022 года. VL-Beit -двунаправленный мультимодальный трансформатор, изученный с нуля с одной единой задачей предварительного подготовки, одной общей основой и одноэтапной тренировкой, поддерживающей как видение, так и задачи на языке зрения.
- [Выпуск модели] июнь, 2022 год: Layoutlmv3 Китайская - китайская версия Layoutlmv3
- [Выпуск кода] май, 2022 год: агрессивное декодирование - без потерь ускорение для поколения SEQ2SEQ
- Апрель, 2022 год: трансформаторы в Scale = deepNet + x-moe
- [Выпуск модели] апрель, 2022 г.
- [Выпуск модели] март 2022: EdgeMermer -Параметр-эффективный трансформатор для генерации SEQ2SEQ на устройстве
- [Выпуск модели] март, 2022 год: DIT - Самоподобный трансформатор изображения документа. Демо: Анализ макета документа, классификация изображений документа
- Январь 2022 года: ICLR 2022 года был принят в качестве устной презентации (54 из 3391).
- [Выпуск модели] 16 декабря 2021 года: небольшие модели TROCR для рукописных и печатных текстов с 3 -кратным выводом.
- 24 ноября 2021 года: VLMO в качестве новой SOTA на VQA Challenge
- Ноябрь, 2021 год: многоязычный перевод в масштабе: 10000 языковых пар и за его пределами
- [Выпуск модели] ноябрь, 2021 год: Markuplm - предварительное обучение на языке текста и разметки (например, HTML/XML)
- [Выпуск модели] Ноябрь, 2021 год: VLMO -Предварительное обучение на языке зрительного языка с Beit
- Октябрь 2021 года: Wavlm Laigh достигает современного выступления на превосходном эталонном этаже
- [Выпуск модели] Октябрь, 2021 год: Wavlm -крупномасштабные самоотверженные предварительно обученные модели для речи.
- [Выпуск модели] октябрь 2021 года: TROCR на HuggingFace
- 28 сентября 2021 года: T-ulrv5 (aka xlm-e/infoxlm) в качестве SOTA в таблице лидеров Xtreme. // блог
- [Выпуск модели ] сентябрь 2021 года.
- [Выпуск модели] Сентябрь 2021 года: TROCR -OCR на основе трансформатора с моделями BEIT и ROBERTA.
- Август 2021: Layoutlmv2 и Layoutxlm на Huggingface
- [Выпуск модели] август, 2021 год: Layoutreader - построенный с Layoutlm для улучшения общего обнаружения заказа на чтение.
- [Выпуск модели] август, 2021 год: Deltalm -Encoder-Decoder Pre Training для генерации и перевода языка.
- Август 2021: Бейт на haggingface
- [Выпуск модели] июль 2021 года: Бейт - к моменту Берта для резюме
- [Выпуск модели] Июнь, 2021 год: Layoutlmv2 , Layoutxlm , Minilmv2 и Adalm .
- Май 2021: Layoutlmv2, Infoxlmv2, Minilmv2, Unilmv3 и Adalm были приняты ACL 2021.
- Апрель 2021 года: Layoutxlm приходит, расширяя Layoutlm на многоязычную поддержку! Также введен многоязычный эталонный эталон Xfund, который включает в себя формы с партами с ключевыми значениями человека на 7 языках (китайский, японский, испанский, французский, итальянский, немецкий, португальский).
- Март 2021 года: Infoxlm был принят NAACL 2021.
- 29 декабря 2020 года: Layoutlmv2 поступает с новой SOTA по широкому разнообразию задач AI документа, включая Docvqa и Sroie Sobder.
- 8 октября 2020 года: T-ulrv2 (он же Infoxlm) в качестве SOTA в таблице лидеров Xtreme. // блог
- Сентябрь 2020 года: Minilm был принят Neurips 2020.
- 16 июля 2020 года: Infoxlm (многоязычный Unilm) arxiv
- Июнь 2020 года: Unilmv2 был принят ICML 2020; Layoutlm был принят KDD 2020.
- 5 апреля 2020 года: выпущена многоязычная мини -сайте !
- Сентябрь 2019 года: Unilmv1 был принят Neurips 2019.
Лицензия
Этот проект лицензирован по лицензии, найденной в файле лицензии в корневом каталоге этого дерева источника. Части исходного кода основаны на проекте Transformers.
Microsoft с открытым исходным кодом поведения
Контактная информация
Для получения помощи или проблем с использованием предварительно обученных моделей, пожалуйста, отправьте проблему GitHub.
Для других сообщений, пожалуйста, свяжитесь с Furu Wei ( [email protected] ).