aka.ms/generalai
Contratación
¡Estamos contratando en todos los niveles (incluidos investigadores y pasantes de FTE)! Si está interesado en trabajar con nosotros en modelos de base (también conocido como modelos previamente capacitados a gran escala) y general de IA, NLP, MT, discurso, IA de documentos y IA multimodal, envíe su currículum a [email protected].
Arquitectura de la base
Torchscale - Una biblioteca de arquitecturas de fundación (repositorio)
Investigación fundamental para desarrollar nuevas arquitecturas para modelos de fundaciones e IA, centrándose en modelar la generalidad y la capacidad, así como la estabilidad y la eficiencia del entrenamiento.
Estabilidad - Deepnet : escala de transformadores a 1,000 capas y más allá
Generalidad - Fundación Transformers (Magneto) : hacia el verdadero modelado de uso general en tareas y modalidades (incluidos el lenguaje, la visión, el habla y la multimodal)
Capacidad: un transformador de longitud -extrapolático
Eficiencia y transferibilidad- X-MOE : mezcla escasa escalable y mejorable (MOE)
La revolución de la arquitectura modelo
Bitnet : transformadores de 1 bits para modelos de idiomas grandes
RETNET : Red de retentiva: un sucesor al transformador para modelos de idiomas grandes
Longnet : escalando transformadores a 1,000,000,000 de tokens
Modelos de base
La evolución de (M) LLM (LLM multimodal)
Kosmos-2.5 : un modelo alfabetizado multimodal
Kosmos-2 : modelos de lenguaje grande multimodal para el mundo
Kosmos-1 : un modelo de lenguaje grande multimodal (MLLM)
Metalm : los modelos de idiomas son interfaces de uso general
La gran convergencia : pretruamiento de auto-supervisado a gran escala en tasks (predictivas y generativas), languages (más de 100 idiomas) y modalities (lenguaje, imagen, audio, diseño/formato + lenguaje, visión + idioma, audio + idioma, etc.)
Idioma y multilingüe
UNILM : pretruento unificado para la comprensión del lenguaje y la generación
Infoxlm/XLM-E : modelos previos multilingües/interlingües para más de 100 idiomas
Deltalm/MT6 : Presadrina del codificador codificador para la generación y traducción del idioma para más de 100 idiomas
Minilm : modelos pequeños y pre-capacitados para la comprensión del lenguaje y la generación
ADALM : Dominio, lenguaje y adaptación de tareas de modelos previamente capacitados
Edgelm ( NEW ): pequeños modelos previamente capacitados en dispositivos de borde/cliente
SIMLM ( NEW ): pretruento a gran escala para la coincidencia de similitud
E5 ( NEW ): incrustaciones de texto
Minillm ( NEW ): Destilación del conocimiento de modelos de idiomas grandes
Visión
BEIT / BEIT-2 : Pre-subraining generativo de autodespervado para la visión / Bert Prerrevenimiento de transformadores de imágenes
DIT : pre-supervisado de pre-entrenamiento para transformadores de imágenes de documentos
TextDiffuser / TextDiffuser-2 ( NEW ): modelos de difusión como pintores de texto
Discurso
WAVLM : Pretración previa al discurso para tareas de pila completa
Vall-E : un modelo de lenguaje de códec neural para TTS
Multimodal (lenguaje x +)
Layoutlm / Layoutlmv2 / Layoutlmv3 : Modelo de base de documentos multimodal (texto + diseño / formato + imagen) para documentos AI (por ejemplo, documentos escaneados, PDF, etc.)
LayoutXLM : Modelo de base multimodal (texto + diseño/formato + imagen) para documentos multilingüe AI AI
MarkUPLM : Modelo de marcado de lenguaje previa para la comprensión de documentos visualmente rico
XDOC : pre-entrenamiento unificado para la comprensión del documento cruzado
UniseCech : pretruento unificado para el aprendizaje auto-supervisado y el aprendizaje supervisado para ASR
UNISPEECH-SAT : aprendizaje universal de representación del discurso con pre-entrenamiento consciente de los hablantes
SpecheT5 : Presadrina del codificador del codificador para el procesamiento del lenguaje hablado
SpeechLm : Pretración de voz mejorada con datos textuales no apareados
VLMO : pre-entrenamiento de lenguaje de visión unificado
VL-BEIT ( NEW ): Pretración previa del lenguaje de visión generativo-Evolución de Beit a Multimodal
BEIT-3 ( NEW ): un modelo de base multimodal de uso general, y un hito importante de la gran convergencia de pretraben a gran escala en tareas, idiomas y modalidades.
Kilets de herramientas
S2S-FT : kit de herramientas de ajuste de secuencia a secuencia
Decodificación agresiva ( NEW ): algoritmo de decodificación de secuencia a secuencia sin pérdidas
Aplicaciones
TroCR : OCR basado en transformador con modelos previamente capacitados
LicoUtreader : pre-entrenamiento de texto y diseño para la detección de pedidos de lectura
XLM-T : NMT multilingüe con codificadores cruzados previos a la aparición
Campo de golf
LLMOPS (Repo)
Tecnología general para habilitar las capacidades de IA con LLMS y MLLMS.
Redstone (Repo)
Curación de datos generales, de código, matemáticas y QA para modelos de idiomas grandes.
Noticias
- Diciembre de 2024: ¡Redstone fue lanzado!
- Diciembre de 2023: Longnet y Longvit lanzado
- [Release del modelo] Dic, 2023: TextDiffuser-2 Models, Code and Demo.
- Sep, 2023: Kosmos-2.5 -Un modelo de alfabetización multimodal para la lectura de la máquina de imágenes intensivas en texto.
- [Release del modelo] May, 2023: TextDiffuser Models and Code.
- [Modelo de lanzamiento] Marzo, 2023: modelos y código de petróleo Beit-3 .
- Marzo de 2023: Kosmos-1 : un modelo de lenguaje grande multimodal (MLLM) que puede percibir modalidades generales, aprender en contexto (es decir, pocos disparos) y seguir las instrucciones (es decir, shot cero).
- Enero de 2023: Vall-E Un enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS), que logra el rendimiento de TTS de disparo cero de última generación. Ver https://aka.ms/valle para demos de nuestro trabajo.
- [Lanzamiento del modelo] Enero, 2023: E5 -Incrustos de texto por pre-entrenamiento contrastante débilmente supervisado.
- Noviembre de 2022: ¡se lanzó Torchscale 0.1.1 !
- Noviembre de 2022: Trocr fue aceptado por AAAI 2023.
- [Lanzamiento del modelo] Noviembre, 2022: modelos base XDOC para comprensión de documentos cruzados.
- [Modelo de lanzamiento] Septiembre, 2022: Base Troc y grandes modelos para el reconocimiento de texto de la escena (STR).
- [Modelo de lanzamiento] Septiembre, 2022: Código Beit V2 y modelos previos a la aparición.
- Agosto de 2022: Beit-3 : un modelo de fundación multimodal de uso general, que logra el rendimiento de transferencia de última generación en tareas de visión y lenguaje de visión
- Julio de 2022: SIMLM -Pre-subrainamiento auto-supervisado a gran escala para la coincidencia de similitud
- Junio de 2022: DIT y LayoutLMV3 fueron aceptados por ACM Multimedia 2022.
- Junio de 2022: Metalm : los modelos de idiomas son interfaces de uso general para modelos de base (lenguaje/multilingüe, visión, habla y multimodal)
- Junio de 2022: VL-Beit -Transformador multimodal bidireccional aprendido desde cero con una tarea de prisión unificada, una columna vertebral compartida y capacitación en una etapa, que respalda tanto las tareas de visión como en el idioma de la visión.
- [Lanzamiento del modelo] Junio, 2022: LayoutLMV3 Chino - Versión china de LayoutLMV3
- [Liberación de código] de mayo, 2022: Decodificación agresiva : aceleración sin pérdidas para la generación SEQ2SEQ
- Abril de 2022: Transformers a escala = Deepnet + X-Moe
- [Modelo de lanzamiento] Abril, 2022: LayoutLMV3 - Pretración previa para el documento AI con texto unificado y enmascaramiento de imágenes
- [Versión del modelo] Marzo, 2022: EdgeFormer -Transformador de eficiencia de parámetro para la generación SEQ2SEQ en el dispositivo
- [Modelo de lanzamiento] Marzo, 2022: DIT - Transformador de imagen de documento auto -supervisado. Demostraciones: análisis de diseño de documentos, clasificación de imágenes de documentos
- Enero de 2022: Beit fue aceptado por ICLR 2022 como presentación oral (54 de 3391).
- [Lanzamiento del modelo] 16 de diciembre de 2021: Trocr Small Models para textos escritos a mano e impresos, con aceleración de inferencia 3x.
- 24 de noviembre de 2021: VLMO como el nuevo Sota en el VQA Challenge
- Noviembre de 2021: Traducción multilingüe a escala: 10000 pares de idiomas y más allá
- [Lanzamiento del modelo] Noviembre, 2021: MarkUPLM - Pre -Training para texto y lenguaje de marcado (por ejemplo, HTML/XML)
- [Lanzamiento del modelo] noviembre, 2021: VLMO -Pre-Training en lenguaje de visión unificado con Beit
- Octubre de 2021: WAVLM Big logra un rendimiento de vanguardia en el excelente punto de referencia
- [Lanzamiento del modelo] Octubre, 2021: WAVLM -Modelos previamente capacitados auto-supervisados a gran escala para el habla.
- [Modelo de lanzamiento] octubre de 2021: Trocr está en Huggingface
- 28 de septiembre de 2021: T-ULRV5 (también conocido como XLM-E/Infoxlm) como Sota en la clasificación Xtreme. // Blog
- [Lanzamiento del modelo] septiembre, 2021: Layoutlm-Cased está en Huggingface
- [Modelo de lanzamiento] Septiembre, 2021: OCR basado en Trocr -transformer con modelos Beit y Roberta pre-entrenados.
- Agosto de 2021: LayoutLMV2 y LightOutXLM están en Huggingface
- [Lanzamiento del modelo] Agosto de 2021: LicoUtreader : construido con LayoutLM para mejorar la detección general de la orden de lectura.
- [Lanzamiento del modelo] agosto de 2021: Deltalm -Pretración del codificador del codificador para la generación y traducción del idioma.
- Agosto de 2021: Beit está en Huggingface
- [Lanzamiento del modelo] Julio de 2021: Beit - Hacia Bert Moment para CV
- [Lanzamiento del modelo] Junio de 2021: LayoutLMV2 , LayoutXLM , MinilMV2 y ADALM .
- Mayo de 2021: LayoutLMV2, InfoxLMV2, Minilmv2, Unilmv3 y ADALM fueron aceptados por ACL 2021.
- Abril de 2021: ¡LEYOUTXLM viene extendiendo el diseño al soporte multilingüe! También se introduce una forma multilingüe de forma de comprensión XFUND, que incluye formas con pares de valor clave etiquetados por humanos en 7 idiomas (chino, japonés, español, francés, italiano, alemán, portugués).
- Marzo de 2021: Infoxlm fue aceptado por NAACL 2021.
- 29 de diciembre de 2020: LayoutLMV2 viene con el nuevo SOTA en una amplia variedad de tareas de IA de documentos, incluidas Docvqa y Sroie Raeperboard.
- 8 de octubre de 2020: T-ULRV2 (también conocido como Infoxlm) como Sota en la clasificación Xtreme. // Blog
- Septiembre de 2020: Neurips 2020 aceptó el minilm.
- 16 de julio de 2020: Infoxlm (unilm multilingüe) arxiv
- Junio de 2020: UNILMV2 fue aceptado por ICML 2020; El diseño fue aceptado por KDD 2020.
- 5 de abril de 2020: ¡Minilm multilingüe lanzado!
- Septiembre de 2019: Neurips 2019 aceptó UNILMV1.
Licencia
Este proyecto tiene licencia bajo la licencia que se encuentra en el archivo de licencia en el directorio raíz de este árbol de origen. Las partes del código fuente se basan en el proyecto Transformers.
Código de conducta de Microsoft Open Source
Información del contacto
Para obtener ayuda o problemas utilizando los modelos previamente capacitados, envíe un problema de GitHub.
Para otras comunicaciones, comuníquese con Furu Wei ( [email protected] ).