aka.ms/generalai
Contratando
Estamos contratando em todos os níveis (incluindo pesquisadores e estagiários da ATC)! Se você estiver interessado em trabalhar conosco em modelos de fundação (também conhecido como modelos pré-treinados em larga escala) e em geral IA, PNL, MT, fala, documento ai e IA multimodal, envie seu currículo para [email protected].
Arquitetura da fundação
TorchScale - Uma Biblioteca de Arquiteturas da Fundação (Repo)
Pesquisas fundamentais para desenvolver novas arquiteturas para modelos de fundação e IA, concentrando -se na modelagem da generalidade e capacidade, bem como na estabilidade e eficiência do treinamento.
Estabilidade - DeepNet : dimensionar transformadores para 1.000 camadas e além
Generalidade - Transformers da fundação (magneto) : Para modelagem verdadeira de uso geral entre tarefas e modalidades (incluindo idioma, visão, fala e multimodal)
Capacidade - um transformador de comprimento extrapolável
Eficiência e transferibilidade- x-moe : escalável e fino.
A revolução da arquitetura modelo
BitNet : transformadores de 1 bit para grandes modelos de idiomas
Retnet : Rede de retentores: um sucessor para transformador para grandes modelos de idiomas
Longnet : Scaling Transformers para 1.000.000.000 de tokens
Modelos de fundação
A evolução do (M) LLM (Multimodal LLM)
Kosmos-2.5 : Um modelo alfabetizado multimodal
KOSMOS-2 : Modelos de linguagem grande multimodal de aterramento para o mundo
KOSMOS-1 : Um modelo de linguagem grande multimodal (MLLM)
Metalm : Modelos de idiomas são interfaces de uso geral
A grande convergência -pré-treinamento auto-supervisionado em larga escala entre tasks (preditiva e generativa), languages (mais de 100 idiomas) e modalities (idioma, imagem, áudio, layout/formato + idioma, visão + idioma, áudio + idioma, etc.)
Idioma e multilíngue
Unilm : unificado pré-treinamento para compreensão e geração de idiomas
Infoxlm/xlm-e : modelos pré-treinados multilíngues/cruzados para mais de 100 idiomas
DelTalm/MT6 : pré-treinamento do codificador para geração de idiomas e tradução para mais de 100 idiomas
Minilm : modelos pré-treinados pequenos e rápidos para compreensão e geração de idiomas
ADALM : Domínio, linguagem e adaptação de tarefas de modelos pré-treinados
Edgelm ( NEW ): pequenos modelos pré-treinados em dispositivos de borda/cliente
Simlm ( NEW ): pré-treinamento em larga escala para correspondência de similaridade
E5 ( NEW ): incorporação de texto
Minillm ( NEW ): Destilação de Conhecimento de Modelos de Língua grandes
Visão
BEIT / BEIT-2 : Pré-treinamento auto-supervisionado generativo para visão / pré-treinamento Bert de transformadores de imagem
DIT : pré-treinamento auto-supervisionado para transformadores de imagem de documentos
Textdiffuser / textdiffuser-2 ( NEW ): modelos de difusão como pintores de texto
Discurso
WAVLM : Fala pré-treinamento para tarefas de pilha completa
Vall-e : um modelo de idioma de codec neural para TTS
Multimodal (Linguagem X +)
Layoutlm / layoutlmv2 / layoutlmv3 : Multimodal (texto + layout / formato + imagem) modelo de fundação do documento para documento ai (por exemplo, documentos digitalizados, pdf, etc.)
Layoutxlm : Multimodal (texto + layout/formato + imagem) Modelo de fundação para documento multilíngue AI
Markuplm : Modelo de linguagem de marcação Pré-treinamento para compreensão de documentos ricos visuais
XDOC : unificado pré-treinamento para compreensão de documentos de formato cruzado
UNISPEEL : pré-treinamento unificado para aprendizado auto-supervisionado e aprendizado supervisionado para ASR
UNISPEECH-SAT : REPRESENTAÇÃO DE FOELO UNIVERSAL Aprendendo com pré-treinamento com reconhecimento de alto-falante
Speecht5 : pré-treinamento do codificador do codificador para processamento de linguagem falada
Speechlm : Fala aprimorada pré-treinamento com dados textuais não pareados
VLMO : pré-treinamento em linguagem de visão unificada
VL-Beit ( NEW ): Pré-treinamento generativo de visão de visão-Evolução do Beit para multimodal
Beit-3 ( NEW ): Um modelo de fundação multimodal de uso geral e um marco importante da grande convergência de pré-treinamento em larga escala entre tarefas, idiomas e modalidades.
Kits de ferramentas
S2S-FT : Kit de ferramentas de ajuste fino de sequência para sequência
Decodificação agressiva ( NEW ): Algoritmo de decodificação de sequência a sequência sem perdas e eficientes
Aplicações
TROCR : OCR baseado em transformador com modelos pré-treinados
Layoutreader : pré-treinamento de texto e layout para detecção de pedidos de leitura
XLM-T : NMT multilíngue com codificadores cruzados pré-treinados
Links
LLMOPS (repo)
Tecnologia geral para ativar os recursos de IA com LLMS e MLLMS.
Redstone (repo)
Dados de curadoria de gerais, código, matemática e controle de qualidade para grandes modelos de idiomas.
Notícias
- Dezembro de 2024: Redstone foi lançado!
- Dezembro de 2023: Longnet e Longvit lançados
- [Release do modelo] Dez, 2023: Modelos textdiffuser-2 , código e demonstração.
- Set, 2023: Kosmos-2.5 -Um modelo alfabetizado multimodal para leitura de máquinas de imagens com uso intensivo de texto.
- [Release do modelo] May, 2023: Modelos e códigos TextDiffUser .
- [Release do modelo] Março de 2023: Modelos e código pré-terenciados Beit-3 .
- Março de 2023: KOSMOS-1 -Um modelo de linguagem grande multimodal (MLLM) que pode perceber modalidades gerais, aprender em contexto (ou seja, poucos anos) e seguir instruções (ou seja, zero-tiro).
- Janeiro de 2023: Vall-e uma abordagem de modelagem de idiomas para a síntese de texto para a fala (TTS), que atinge o desempenho do TTS com tiro zero de última geração. Veja https://aka.ms/valle para demos do nosso trabalho.
- [Release do modelo] Janeiro de 2023: E5 -INCLIMAÇÕES DE TEXTO POR AR-TREINAÇÃO CONTRATIVO FABREVISADO.
- Novembro de 2022: TorchScale 0.1.1 foi lançado!
- Novembro de 2022: TROCR foi aceito pela AAAI 2023.
- [Release do modelo] Novembro de 2022: modelos básicos XDOC para compreensão de documentos de formato cruzado.
- [Release do modelo] Setembro de 2022: TROCR Base e grandes modelos para o reconhecimento de texto da cena (STR).
- [Release do modelo] Setembro de 2022: Código Beit V2 e modelos pré -criados.
- Agosto de 2022: Beit-3 -Um modelo de fundação multimodal de uso geral, que atinge o desempenho de transferência de ponta nas tarefas de visão e linguagem da visão
- Julho de 2022: Simlm -Pré-treinamento auto-supervisionado em larga escala para correspondência de similaridade
- Junho de 2022: DIT e LayoutlMv3 foram aceitos pela ACM Multimedia 2022.
- Junho de 2022: Metalm - Modelos de idiomas são interfaces de uso geral para modelos de fundação (linguagem/multilíngue, visão, fala e multimodal)
- Junho de 2022: VL-BEIT -Transformador multimodal bidirecional aprendido do zero com uma tarefa de pré-treinamento unificada, uma espinha dorsal compartilhada e treinamento em um estágio, apoiando tarefas de visão e linguagem da visão.
- [Release do modelo] Junho de 2022: Layoutlmv3 Chinesa - Versão chinesa do layoutlmv3
- [Código de liberação] de maio, 2022: Decodificação agressiva - aceleração sem perdas para geração seq2seq
- Abril de 2022: Transformers em escala = DeepNet + X-MOE
- [Release do modelo] abril de 2022: layoutlmv3 - pré -treinamento para o documento IA com text unificado e mascaramento de imagem
- [Release do modelo] Março de 2022: EDGEFORMER -Transformador de parâmetro eficiente para geração de seq2seq no dispositivo
- [Release do modelo] Março de 2022: DIT - Transformador de imagem de documento auto -supervisionado. Demonsibras: Análise de layout do documento, Classificação da imagem do documento
- Janeiro de 2022: Beit foi aceito pelo ICLR 2022 como apresentação oral (54 de 3391).
- [Release do modelo] 16 de dezembro de 2021: TROCR Pequenos modelos para textos manuscritos e impressos, com aceleração de inferência 3x.
- 24 de novembro de 2021: VLMO como o novo SOTA no desafio VQA
- Novembro de 2021: Tradução multilíngue em escala: 10000 pares de idiomas e além
- [Release do modelo] Novembro de 2021: Markuplm - pré -treinamento para o texto e a linguagem de marcação (por exemplo, html/xml)
- [Release do modelo] Novembro de 2021: VLMO -Pré-treinamento em linguagem de visão unificada com beit
- Outubro de 2021: Wavlm grande alcança desempenho de última geração no excelente referência
- [Release do modelo] Outubro de 2021: WAVLM -Modelos pré-treinados auto-supervisionados em larga escala para a fala.
- [Release do modelo] outubro de 2021: Trocr está no Huggingface
- 28 de setembro de 2021: T-ULRV5 (também conhecido como XLM-E/Infoxlm) como o SOTA na tabela de classificação Xtreme. // blog
- [Release do modelo] Setembro de 2021: Layoutlm está em Huggingface
- [Release do modelo] Setembro de 2021: TROCR -OCR baseado em transformadores com modelos pré-treinados Beit e Roberta.
- Agosto de 2021: Layoutlmv2 e Layoutxlm estão no Huggingface
- [Release do modelo] Agosto de 2021: Layoutreader - construído com layoutlm para melhorar a detecção geral de pedidos de leitura.
- [Release do modelo] Agosto de 2021: DelTalm -pré-treinamento do codificador-decodificador para geração e tradução para idiomas.
- Agosto de 2021: Beit está no Huggingface
- [Release do modelo] Julho de 2021: Beit - Rumo a Bert Moment for CV
- [Release do modelo] Junho de 2021: layoutlmv2 , layoutxlm , minilmv2 e adalm .
- Maio de 2021: layoutlmv2, infoxlmv2, minilmv2, unilmv3 e adalm foram aceitos pelo ACL 2021.
- Abril de 2021: Layoutxlm está chegando estendendo o layoutlm para o suporte multilíngue! Também é introduzido um benchmark de entendimento multilíngue XFund, que inclui formas com pares de valor-chave rotulado em 7 idiomas (chinês, japonês, espanhol, francês, italiano, alemão, português).
- Março de 2021: Infoxlm foi aceito pela NAACL 2021.
- 29 de dezembro de 2020: O Layoutlmv2 está chegando com o novo SOTA em uma ampla variedade de tarefas de IA do documento, incluindo DOCVQA e SROIE liderar tabela.
- 8 de outubro de 2020: T-ULRV2 (também conhecido como Infoxlm) como o SOTA na tabela de classificação Xtreme. // blog
- Setembro de 2020: Minilm foi aceito pelo Neurips 2020.
- 16 de julho de 2020: infoxlm (unilm multilíngue) arxiv
- Junho de 2020: UNILMV2 foi aceito pelo ICML 2020; O layoutlm foi aceito pelo KDD 2020.
- 5 de abril de 2020: Minilm multilíngue lançado!
- Setembro de 2019: O Unilmv1 foi aceito pela Neurips 2019.
Licença
Este projeto está licenciado sob a licença encontrada no arquivo de licença no diretório raiz desta árvore de origem. Partes do código -fonte são baseadas no projeto Transformers.
Código de Conduta Open do Microsoft Open
Informações de contato
Para obter ajuda ou problemas usando os modelos pré-treinados, envie um problema do GitHub.
Para outras comunicações, entre em contato com Furu Wei ( [email protected] ).