aka.ms/generalai
채용
우리는 모든 수준 (FTE 연구원 및 인턴 포함)에서 채용하고 있습니다! Foundation 모델 (일명 대규모 사전 훈련 된 모델) 및 일반 AI, NLP, MT, Speech, Document AI 및 Multimodal AI에서 우리와 협력하는 데 관심이 있으시면 이력서를 [email protected]으로 보내주십시오.
기초 건축
Torchscale- 재단 건축 도서관 (Repo)
기초 모델 및 AI를위한 새로운 아키텍처를 개발하기위한 기본 연구, 일반성 및 기능 모델링뿐만 아니라 교육 안정성 및 효율성에 중점을 둡니다.
안정성 -Deepnet : 변압기를 1,000 층으로 스케일링
일반성 - 파운데이션 변압기 (Magneto) : 작업 및 양식에 걸친 실제 일반 목적 모델 (언어, 비전, 언어 및 멀티 모달 포함)
기능 - 길이 - 트래블러블 변압기
효율성 및 전송 가능성 -X-MOE : 확장 가능 및 미세 결합 가능한 스파 스 믹스 러프 (MOE)
모델 아키텍처의 혁명
비트넷 : 대형 언어 모델 용 1 비트 변압기
Retnet : Rententive Network : 대형 언어 모델을위한 변압기의 후임자
Longnet : 변압기를 1,000,000,000 토큰으로 스케일링합니다
기초 모델
(M) LLM (Multimodal LLM)의 진화
Kosmos-2.5 : 멀티 모달 문맹 모델
Kosmos-2 : 세계에 대한 멀티 모달 대형 언어 모델 접지
Kosmos-1 : 멀티 모달 대형 언어 모델 (MLLM)
Metalm : 언어 모델은 일반적인 목적 인터페이스입니다
큰 수렴 -대규모 스스로 자체 감독 된 사전 훈련 (예측 및 생성), tasks languages 100+ 언어) 및 modalities (언어, 이미지, 오디오, 레이아웃/형식 + 언어, 비전 + 언어, 오디오 + 언어 등).
언어 및 다국어
UNILM : 언어 이해와 세대를위한 통일 된 사전 훈련
Infoxlm/XLM-E : 100 개 이상의 언어에 대한 다국어/교차-언어 사전 훈련 된 모델
DELTALM/MT6 : 100 개 이상의 언어에 대한 언어 생성 및 번역을위한 인코더-디코더 사전 훈련
Minilm : 언어 이해 및 세대를위한 작고 빠른 미리 훈련 된 모델
ADALM : 미리 훈련 된 모델의 도메인, 언어 및 작업 적응
Edgelm ( NEW ) : Edge/Client Devices의 소형 미리 훈련 된 모델
SIMLM ( NEW ) : 유사성 일치에 대한 대규모 사전 훈련
e5 ( NEW ) : 텍스트 임베딩
MINILLM ( NEW ) : 대형 언어 모델의 지식 증류
비전
BEIT / BEIT-2 : 이미지 변압기의 비전 / 버트 사전 훈련에 대한 생성 자체 감독 사전 훈련
DIT : 문서 이미지 변압기에 대한 자체 감독 사전 훈련
TextDiffuser / TextDiffuser-2 ( NEW ) : 텍스트 화가로서의 확산 모델
연설
WAVLM : 전체 스택 작업에 대한 음성 사전 훈련
Vall-E : TTS 용 신경 코덱 언어 모델
멀티 모달 (x + 언어)
layoutlm / layoutlmv2 / layoutlmv3 : 문서 AI에 대한 멀티 모달 (텍스트 + 레이아웃 / 형식 + 이미지) 문서 기초 모델 (예 : 스캔 된 문서, PDF 등).
LayoutXlm : 다국어 문서 AI에 대한 멀티 모달 (텍스트 + 레이아웃/형식 + 이미지) 문서 기초 모델
Markuplm : 시각적으로 풍부한 문서 이해를위한 마크 업 언어 모델 사전 훈련
XDOC : 교차 형식 문서 이해를위한 통합 사전 훈련
Unceech : 자체 감독 학습 및 ASR을위한 감독 학습을위한 통일 된 사전 훈련
Unispeech-Sat : 화자 인식 사전 훈련을 통한 보편적 인 음성 표현 학습
SpeechT5 : 음성 언어 처리를위한 인코더 디코더 사전 훈련
SpeechLM : 짝을 이루지 않은 텍스트 데이터로 향상된 음성 사전 훈련
VLMO : 통합 시력 사전 훈련
VL-BEIT ( NEW ) : 생성 비전-언어 사전 훈련 -BEIT 의 다중 모드로의 진화
BEIT-3 ( NEW ) : 일반 목적 멀티 모달 기초 모델과 작업, 언어 및 양식에 걸친 대규모 사전 훈련의 큰 수렴 의 주요 이정표.
툴킷
S2S-FT : 시퀀스-시퀀스 미세 조정 툴킷
공격적인 디코딩 ( NEW ) : 무손실 및 효율적인 시퀀스-시퀀스 디코딩 알고리즘
응용 프로그램
TROCR : 변압기 기반 OCR은 미리 훈련 된 모델이 있습니다
Layoutreader : 주문 감지를위한 텍스트 및 레이아웃의 사전 훈련
XLM-T : 다국어 NMT가있는 다국어 NMT
모래밭
llmops (Repo)
LLM 및 MLLM이있는 AI 기능을 활성화하기위한 일반적인 기술.
레드 스톤 (Repo)
대형 언어 모델에 대한 일반, 코드, 수학 및 QA 데이터를 선별합니다.
소식
- 2024 년 12 월 : Redstone 이 석방되었습니다!
- 2023 년 12 월 : Longnet 과 Longvit가 출시되었습니다
- [모델 릴리스] 2023 년 12 월 : TextDiffuser-2 모델, 코드 및 데모.
- 2023 년 9 월 : Kosmos-2.5- 텍스트 집약적 인 이미지의 기계 판독을위한 멀티 모달로 된 모델.
- [모델 릴리스] 2023 년 5 월 : TextDiffuser 모델 및 코드.
- [모델 릴리스] 2023 년 3 월 : BEIT-3 사방 모델 및 코드.
- 2023 년 3 월 : KOSMOS-1- 일반적인 양식을 인식하고, 맥락에서 배우고 (예 : 소수의 샷), 지침 (즉, 제로 샷)을 따를 수있는 멀티 모달 큰 언어 모델 (MLLM).
- 2023 년 1 월 : Vall-E TTS (Text to Speech Synthesis)에 대한 언어 모델링 접근법은 최첨단 제로 샷 TTS 성능을 달성합니다. 작업의 데모는 https://aka.ms/valle을 참조하십시오.
- [모델 릴리스] 2023 년 1 월 : E5- 약하게 감독 된 대조적 인 사전 훈련에 의한 텍스트 임베딩.
- 2022 년 11 월 : Torchscale 0.1.1 이 석방되었습니다!
- 2022 년 11 월 : AAAI 2023에 의해 Trocr을 받아 들였다.
- [모델 릴리스] 2022 년 11 월 : XDOC 기본 문서 이해를위한 XDOC 기본 모델.
- [ 모델 릴리스] 2022 년 9 월 : STR (Scen
- [모델 릴리스] 2022 년 9 월 : BEIT V2 코드 및 사전 치료 모델.
- 2022 년 8 월 : BEIT-3- 비전과 비전 언어 작업 모두에서 최첨단 전이 성과를 달성하는 일반 목적 멀티 모달 파운데이션 모델
- 2022 년 7 월 : SIMLM- 유사성 일치에 대한 대규모 자체 감독 사전 훈련
- 2022 년 6 월 : DIT 및 LAYOUTLMV3는 ACM Multimedia 2022에 의해 받아 들여졌다.
- 2022 년 6 월 : Metalm -Language Models는 기초 모델 (언어/다국어, 비전, 음성 및 멀티 모달)을위한 일반적인 목적 인터페이스입니다.
- 2022 년 6 월 : VL-BEIT- 양방향 멀티 모달 변압기는 하나의 통합 사전 조정 작업, 하나의 공유 백본 및 1 단계 훈련으로 비전과 비전 언어 작업을 모두 지원하여 처음부터 배웠습니다.
- [모델 릴리스] 2022 년 6 월 : Layoutlmv3 중국어 - Layoutlmv3의 중국어 버전
- [코드 릴리스] 2022 년 5 월 : 공격적인 디코딩 - SEQ2SEQ 생성을위한 무손실 속도
- 2022 년 4 월 : Scale = DeepNet + X-Moe의 변압기
- [모델 릴리스] 2022 년 4 월 : LayoutLMV3- 통합 텍스트 및 이미지 마스킹을 사용한 문서 AI에 대한 사전 훈련
- [모델 릴리스] 2022 년 3 월 : Edgeformer -ON-DEVICE SEQ2SEQ 생성을위한 매개 변수 효율적인 변압기
- [모델 릴리스] 2022 년 3 월 : DIT- 자체 감독 문서 이미지 변압기. 데모 : 문서 레이아웃 분석, 문서 이미지 분류
- 2022 년 1 월 : BEIT는 ICLR 2022에 의해 구두 프레젠테이션 (3391 중 54 개)으로 인정되었습니다.
- [모델 릴리스] 2021 년 12 월 16 일 : 3 배의 추론 속도를 가진 필기 및 인쇄 텍스트를위한 Trocr Small 모델.
- 2021 년 11 월 24 일 : VQA Challenge의 새로운 SOTA로서 VLMO
- 2021 년 11 월 : 규모의 다국어 번역 : 100000 언어 쌍 이상
- [모델 릴리스] 2021 년 11 월 : Markuplm- 텍스트 및 마크 업 언어에 대한 사전 훈련 (예 : html/xml)
- [모델 릴리스] 2021 년 11 월 : VLMO- 통합 시력 사전 훈련 w/ beit
- 2021 년 10 월 : Wavlm Barge는 훌륭한 벤치 마크에서 최첨단 성과를 달성합니다.
- [모델 릴리스] 2021 년 10 월 : WAVLM- 대규모 스스로 감독 된 미리 훈련 된 음성 모델.
- [모델 릴리스] 2021 년 10 월 : Trocr는 포옹에 있습니다
- 2021 년 9 월 28 일 : Xtreme 리더 보드의 SOTA로서 T-ULRV5 (일명 XLM-E/Infoxlm). // 블로그
- [모델 릴리스] 2021 년 9 월 : LayoutLM-Cased 가 껴안고 있습니다
- [모델 릴리스] 2021 년 9 월 : TROCR- 변압기 기반 OCR이있는 OCR이 사전 훈련 된 BEIT 및 Roberta 모델.
- 2021 년 8 월 : Layoutlmv2 및 LayoutXlm이 포옹에 있습니다
- [모델 릴리스] 2021 년 8 월 : Layoutreader- 일반 읽기 순서 감지를 개선하기 위해 LayoutLM으로 제작되었습니다.
- [모델 릴리스] 2021 년 8 월 : Deltalm -Encoder-Decoder 언어 생성 및 번역에 대한 사전 훈련.
- 2021 년 8 월 : Beit은 포옹에 있습니다
- [모델 릴리스] 2021 년 7 월 : BEIT- CV를위한 버트 순간
- [모델 릴리스] 2021 년 6 월 : Layoutlmv2 , LayoutXlm , Minilmv2 및 Adalm .
- 2021 년 5 월 : Layoutlmv2, Infoxlmv2, Minilmv2, Unilmv3 및 Adalm은 ACL 2021에 의해 받아 들여졌다.
- 2021 년 4 월 : LayoutLM을 다국어 지원으로 확장하여 LayoutXlm이오고 있습니다! 다국어 형식 이해 벤치 마크 Xfund도 소개되며, 여기에는 7 개 언어 (중국어, 일본어, 스페인어, 프랑스어, 이탈리아, 독일어, 포르투갈어)로 인간이라는 키 가치 쌍이있는 형태가 포함됩니다.
- 2021 년 3 월 : Infoxlm은 NAACL 2021에 의해 받아 들여졌다.
- 2020 년 12 월 29 일 : LayoutLMV2는 DOCVQA 및 SROIE 리더 보드를 포함한 다양한 문서 AI 작업에 대한 새로운 SOTA와 함께 제공됩니다.
- 2020 년 10 월 8 일 : Xtreme Leaderboard의 SOTA로서 T-ULRV2 (일명 Infoxlm). // 블로그
- 2020 년 9 월 : Minilm은 Neurips 2020에 의해 받아 들여졌습니다.
- 2020 년 7 월 16 일 : Infoxlm (다국어 UNILM) ARXIV
- 2020 년 6 월 : UNILMV2는 ICML 2020에 의해 받아 들여졌다; Layoutlm은 KDD 2020에 의해 허용되었습니다.
- 2020 년 4 월 5 일 : 다국어 미니 닐름이 출시되었습니다!
- 2019 년 9 월 : UNILMV1은 Neurips 2019에 의해 받아 들여졌습니다.
특허
이 프로젝트는이 소스 트리의 루트 디렉토리에있는 라이센스 파일에있는 라이센스에 따라 라이센스가 부여됩니다. 소스 코드의 일부는 변압기 프로젝트를 기반으로합니다.
Microsoft 오픈 소스 행동 강령
연락처 정보
미리 훈련 된 모델을 사용하는 도움이나 문제는 GitHub 문제를 제출하십시오.
다른 커뮤니케이션은 Furu Wei ( [email protected] )에 문의하십시오.