생성 AI 로드맵
큐 레이션 된 기사 및 프로젝트 목록을 포함한 생성 AI 연구를위한 주관적인 학습 안내서
Generative AI는 오늘날 화제가 되며이 로드맵은 초보자가 기본 지식을 신속하게 얻고 생성 AI의 유용한 리소스를 찾도록 도와 주도록 설계되었습니다. 전문가 조차도이 로드맵을 참조하여 오래된 지식을 기억하고 새로운 아이디어를 개발할 수 있습니다.
내용 테이블
- 배경 지식
- 신경망 추론 및 훈련
- 변압기 아키텍처
- 일반적인 변압기 기반 모델
- 여러 가지 잡다한
- 대형 언어 모델 (LLMS)
- 사전 조정 및 미세 조정
- 격려
- 평가
- 긴 맥락을 다루고 있습니다
- 효율적인 미세 조정
- 모델 병합
- 효율적인 생성
- 지식 편집
- LLM 기반 에이전트
- 결과
- 열린 도전
- 확산 모델
- 이미지 생성
- 비디오 생성
- 오디오 생성
- 사전 조정 및 미세 조정
- 평가
- 효율적인 생성
- 지식 편집
- 열린 도전
- 대형 멀티 모달 모델 (LMMS)
- 모델 아키텍처
- 구체화 된 제제를 향해
- 열린 도전
- 트랜스포머 너머
- 암시 적으로 구조화 된 매개 변수
- 새로운 모델 아키텍처
배경 지식
이 섹션에서는 신경망의 기본 지식 (예 : 역전)을 배우거나 회복하고 변압기 아키텍처에 익숙해지며 공통 변압기 기반 모델을 설명하는 데 도움이됩니다.
신경망 추론 및 훈련
다음과 같은 고전적인 신경망 구조에 매우 익숙하십니까?
- 다층 퍼셉트론 (MLP)
- 컨볼 루션 신경 네트워크 (CNN)
- 재발 신경 네트워크 (RNN)
그렇다면 다음 질문에 답할 수 있어야합니다.
- CNN이 이미지에서 MLP보다 더 잘 작동하는 이유는 무엇입니까?
- RNN이 시계열 데이터에서 MLP보다 더 잘 작동하는 이유는 무엇입니까?
- GRU와 LSTM의 차이점은 무엇입니까?
역전 (BP)은 NN 훈련의 기초입니다. BP를 이해하지 못하면 AI 전문가가되지 않습니다 . BP를 가르치는 많은 교과서와 온라인 튜토리얼이 있지만 불행히도 대부분은 벡터 화/텐서 화 형태로 공식을 제시하지 않습니다. NN 층의 BP 공식은 실제로 전방 통과 공식만큼 깔끔합니다. 이것이 바로 BP가 구현되고 구현되어야합니다. BP를 이해하려면 다음 자료를 읽으십시오.
- 신경망 및 딥 러닝 [3.2 장, 특히 3.2.6]
- MEPROP : 과적으로 감소한 가속 딥 러닝을위한 스파이 링 백파도 (ICML 2017) [섹션 2.1]
- RESPROP : 재사용 스파이 스파트 역전 (CVPR 2020) [섹션 3.1]
BP를 이해하면 다음과 같은 질문에 답할 수 있어야합니다.
- 컨볼 루션 층의 BP를 어떻게 설명 하시겠습니까?
- 밀도가 높은 레이어의 순방향 패스와 후진 통과 사이의 컴퓨팅 비용 (즉, 부동 소수점 조작 수)의 비율은 얼마입니까?
- 동일한 가중치 매트릭스를 공유하는 두 개의 조밀 한 층이있는 MLP의 BP를 어떻게 설명 하시겠습니까?
변압기 아키텍처
Transformer는 기존 대형 생성 모델의 기본 아키텍처입니다. 변압기의 모든 구성 요소를 이해해야합니다. 다음 자료를 읽으십시오.
- 주의가 필요한 모든 것입니다 (Neurips 2017) [원본 논문]
- 변압기 설명 자 : 텍스트 생성 모델의 대화식 학습 [대화식 튜토리얼]
- 이미지는 16x16의 가치가 있습니다 : 스케일에서 이미지 인식을위한 변압기 (ICLR 2021) [Vision Transformer]
- 변압기 및 케라를 사용한 신경 기계 번역 [MHA (Multihead Treate)를위한 훌륭한 설명 (MHA)]
- 변압기 블록의 플롭 [플롭 계산 연습을하자]
- 빠른 변압기 디코딩 : 하나의 쓰기 머리는 모든 것뿐입니다 [MQA (Multi-Query Interection) (MQA)]
- GQA : 다중 헤드 체크 포인트에서 일반화 된 다중 쿼리 변압기 모델 교육 [GQA (Grouped-Query Interection)]
- 로터리 위치 임베딩이있는 향상된 변압기 [위치 임베딩 이해]
- 로타리 임베딩 : 상대 혁명 [위치 삽입 이해]
- 교사 강제 vs 예정된 샘플링 대 일반 모드 [변압기 훈련의 교사 강제]
- Flexgen : 단일 GPU를 가진 대형 언어 모델의 고 처리량 생성 추론 [섹션 3- KV 캐시를 기반으로 한 LLMS Peform 생성 방법을 배우기위한 생성 추론 참조]
- 상황에 맞는 위치 인코딩 : 중요한 것을 계산하는 학습 [문맥 의존적 위치 인코딩]
트랜스포머를 이해하면 다음과 같은 질문에 답할 수 있어야합니다.
- RNNS에 비해 Tranformers의 장단점은 무엇입니까 (동시에 참석, 평행, 복잡성)
- GQA의 플롭을 조정할 수 있습니까? MHA와 MQA로 언제 저하됩니까?
- MQA와 GQA의 동기는 무엇입니까?
- 인과 적주의 마스크는 어떻게 생겼으며 그 이유는 무엇입니까?
- 디코더 전용 변압기의 훈련을 단계별로 어떻게 설명 하시겠습니까?
- 정현파 위치 인코딩보다 로프가 더 나은 이유는 무엇입니까?
일반적인 변압기 기반 모델
- 자연어 감독에서 전송 가능한 시각적 모델 학습 [클립]
- 자체 감독 시력 변압기의 새로운 특성 (ICCV 2021) [Dino]
- 마스크 된 자동 인코더는 확장 가능한 비전 학습자 (CVPR 2022) [MAE]
- 전문가의 희소 혼합으로 비전을 스케일링 (Neurips 2021) [Moe]
- 혼합 내심 : 변압기 기반 언어 모델에 동적으로 컴퓨팅을 할당 [MOD]
여러 가지 잡다한
Einsum은 쉽고 유용합니다 [Einsum/Einops 사용을위한 훌륭한 자습서]
개방형은 인공 초인간 지능에 필수적입니다 (ICML 2024) [초인간 AI 달성에 대한 생각]
AGI 경로에서의 운영 진행을위한 AGI 수준
대형 언어 모델 (LLMS)
LLM은 변압기입니다. [이미지 출처] 아래의 LLM Evolutionary Tree에서 볼 수 있듯이 인코더 전용, 인코더 디코더 및 디코더 전용 아키텍처로 분류 할 수 있습니다. LLM의 이정표 논문을 확인하십시오.

인코더 전용 모델은 문장 기능을 추출하는 데 사용될 수 있지만 생성력이 부족합니다. 인코더 디코더 및 디코더 전용 모델은 텍스트 생성에 사용됩니다. 특히, 대부분의 기존 LLM은 더 강력한 반복적 인 전력으로 인해 디코더 전용 구조를 선호합니다. 직관적으로, 인코더-디코더 모델은 디코더 전용 모델의 희소 버전으로 간주 될 수 있으며 정보는 인코더에서 디코더에 이르기까지 더 많이 붕괴됩니다. 자세한 내용은이 백서에 확인하십시오.
사전 조정 및 미세 조정
LLM은 일반적으로 자연 언어 구조를 내재화하기 위해 모델 게시자에 의해 수조 조의 텍스트 토큰에서 사전에 사전됩니다. 오늘날의 모델 개발자는 또한 인간 피드백 (RLHF)의 교육 미세 조정 및 강화 학습을 수행하여 모델에 인간의 지시를 따르고 인간의 선호도에 맞는 답변을 생성하도록 가르칩니다. 그런 다음 사용자는 게시 된 모델을 다운로드하여 소규모 개인 데이터 세트 (예 : 영화 대화 상자)에서 정합 할 수 있습니다. 많은 양의 데이터로 인해 사전 여지가 개인은 저렴한 컴퓨팅 리소스 (예 : 수천 개 이상의 GPU)가 필요합니다. 반면에 미세 조정은 자원이 덜 걸리며 몇 개의 GPU로 수행 할 수 있습니다.
다음 자료는 사전 계약 및 미세 조정 과정을 이해하는 데 도움이 될 수 있습니다.
- BERT : 언어 이해를위한 깊은 양방향 변압기의 사전 훈련 [인코더 전용 LLMS의 사전 연고 및 양방향]
- 스케일링 명령-결제 언어 모델 [사전 여과 및 교육적 결제]
- 인간 피드백에서 강화 학습을 설명 (RLHF)
- 언어 모델은 소수의 학습자입니다 [디코더 전용 LLMS]
더 많은 튜토리얼은 여기에서 찾을 수 있습니다.
격려
LLM에 대한 기술은 원하는 응답 또는 출력을 생성하도록 모델을 안내하는 방식으로 입력 텍스트를 제작하는 것이 포함됩니다. 더 나은 프롬프트를 작성하는 데 도움이되는 유용한 리소스는 다음과 같습니다.
- [Dair.AI] 프롬프트 엔지니어링 가이드
- Awesome Chatgpt 프롬프트 - Chatgpt 모델과 함께 사용할 신속한 예제 모음
- 굉장한 심의 프롬프트 - LLMS에게 신뢰할 수있는 추론을 생성하고 비판적 결정을 내리는 방법
- AUTOPROMPT- 다양한 NLP 작업 세트에 대한 프롬프트를 생성하기위한 기울기 유도 검색을 기반으로 자동화 된 방법입니다.
평가
대형 언어 모델에 대한 평가 도구는 다양한 작업 및 데이터 세트에서 성능, 기능 및 한계를 평가하는 데 도움이됩니다. 몇 가지 일반적인 평가 전략은 다음과 같습니다.
자동 평가 지표 : 이러한 메트릭은 인간의 개입없이 모델 성능을 자동으로 평가합니다. 일반적인 메트릭에는 다음이 포함됩니다.
- BLEU : N- 그램 오버랩을 기반으로 생성 된 텍스트와 참조 텍스트 사이의 유사성을 측정합니다.
- Rouge : 생성 된 N- 그램과 참조 요약 사이의 중첩 된 N- 그램을 비교하여 텍스트 요약을 평가합니다.
- Perplexity : 언어 모델이 텍스트 샘플을 얼마나 잘 예측하는지 측정합니다. 당혹감이 낮 으면 성능이 향상됩니다. 데이터와 모델 예측 사이의 교차 엔트로피의 지수와 동일합니다.
- F1 점수 : 텍스트 분류 또는 명명 된 엔티티 인식과 같은 작업에서 정밀도와 리콜 간의 균형을 측정합니다.
인간 평가 : 인간의 판단은 생성 된 텍스트의 품질을 포괄적으로 평가하는 데 필수적입니다. 일반적인 인간 평가 방법은 다음과 같습니다.
- 인간 등급 : 인간 주석기는 유창성, 일관성, 관련성 및 문법과 같은 기준에 따라 텍스트를 생성했습니다.
- 크라우드 소싱 플랫폼 : Amazon Mechanical Turk 또는 그림 8과 같은 플랫폼은 크라우드 소싱 주석으로 대규모 인간 평가를 촉진합니다.
- 전문가 평가 : 도메인 전문가는 모델 출력을 평가하여 특정 응용 프로그램 또는 작업에 대한 적합성을 측정합니다.
벤치 마크 데이터 세트 : 표준화 된 데이터 세트를 사용하면 다양한 작업 및 도메인에서 모델을 공정한 비교할 수 있습니다. 예제는 다음과 같습니다.
- Triviaqa : 독해를위한 대규모 먼 감독 챌린지 데이터 세트
- Hellaswag : 기계가 실제로 문장을 마칠 수 있습니까?
- GSM8K : 수학 단어 문제를 해결하기위한 검증 자
- 전체 목록은 여기에서 찾을 수 있습니다
모델 분석 도구 : 모델 동작 및 성능 분석 도구는 다음과 같습니다.
- 자동화 된 해석 가능성 - 뉴런 행동에 대한 자동 생성, 시뮬레이션 및 점수 설명을위한 코드
- LLM 시각화 - LLM을 낮은 수준으로 시각화합니다.
- 주의 분석 - Bert Transformer의주의 맵 분석.
- 뉴런 뷰어 - 뉴런 활성화 및 설명을보기위한 도구.
전체 목록은 여기에서 찾을 수 있습니다
기존 LLM의 표준 평가 프레임 워크에는 다음이 포함됩니다.
- LM-Evaluation-Harness- 언어 모델의 소수의 평가를위한 프레임 워크.
- LIGHTEVAL- 포옹 페이스가 내부적으로 사용하고있는 가벼운 LLM 평가 제품군.
- Olmo -Eval- 오픈 언어 모델을 평가하기위한 저장소.
- Instruct-Eval-이 저장소에는 알파카 및 FLAN-T5와 같은 명령 조정 모델을 정량적으로 평가하는 코드가 포함되어 있습니다.
긴 맥락을 다루고 있습니다
긴 상황을 다루는 것은 메모리 및 처리 용량의 한계로 인해 큰 언어 모델에 어려움을 겪습니다. 기존 기술에는 다음이 포함됩니다.
- 효율적인 변압기
- Longformer : Long-Document Transformer
- 개혁자 : 효율적인 변압기 (ICLR 2020)
- 상태 공간 모델
- 트랜스포머는 RNN : 선형주의를 가진 빠른 자동 회귀 변압기 (ICML 2020)
- 공연자들과의 관심을 다시 생각합니다
- 길이 외삽
- Mamba : 선택적 상태 공간을 가진 선형 시간 시퀀스 모델링
- ROFORMER : 로터리 위치 임베딩이있는 향상된 변압기
- 원사 : 대형 언어 모델의 효율적인 컨텍스트 창 확장
- 장기 기억
- MemoryBank : 장기 메모리로 대형 언어 모델 향상
- 자체 제어 메모리 시스템을 갖춘 대규모 언어 모델에 대한 무한 길이 입력 용량을 끄는
전체 목록은 여기에서 찾을 수 있습니다
효율적인 결합
매개 변수 효율적인 미세 조정 (PEFT) 메소드는 모든 모델의 매개 변수 대신 소수의 (추가) 모델 매개 변수 만 미세 조정하여 다양한 다운 스트림 애플리케이션에 대규모 사기 모델을 효율적으로 적응시킬 수 있습니다.
- 프롬프트 튜닝 : 매개 변수 효율적인 프롬프트 튜닝을위한 스케일의 전력
- 접두사 튜닝 : 접두사 조정 : 세대를위한 연속 프롬프트 최적화
- LORA : LORA : 대형 언어 모델의 낮은 순위 적응
- 매개 변수 효율적인 전송 학습에 대한 통일 된 견해를 향해
- 로라는 덜 배우고 덜 잊어 버립니다
Huggingface Peft Paper Collection에서 더 많은 작업을 찾을 수 있으며 Huggingface PEFT API와 함께 연습하는 것이 좋습니다.
모델 병합
모델 병합은 서로 다른 작업에 대해 훈련 된 둘 이상의 LLM을 단일 LLM으로 병합하는 것을 말합니다. 이 기술은 다양한 모델의 강점과 지식을 활용하여보다 강력하고 유능한 모델을 만드는 것을 목표로합니다. 예를 들어, 코드 생성을위한 LLM과 수학 프롤렘 해결을위한 다른 LLM을 합병하여 병합 된 모델이 코드 생성 및 수학 문제 해결을 모두 수행 할 수 있도록 할 수 있습니다.
모델 병합은 매우 간단하고 저렴한 알고리즘 (예 : 모델 가중치의 선형 조합)으로 효과적으로 달성 할 수 있기 때문에 흥미 롭습니다. 다음은 몇 가지 대표 논문 및 독서 자료입니다.
- 모델 수프 : 여러 미세 조정 모델의 평균 무게 평균 무게는 추론 시간을 증가시키지 않고 정확도를 향상시킵니다.
- 작업 산술로 모델 편집
- 대형 언어 모델을 Mergekit과 병합하십시오
모델 병합에 대한 더 많은 논문은 여기에서 찾을 수 있습니다
효율적인 생성
LLM의 디코딩을 가속화하는 것은 특히 실시간 또는 대기 시간에 민감한 애플리케이션에서 추론 속도 및 효율성을 향상시키는 데 중요합니다. LLM의 디코딩 프로세스 속도를 높이는 몇 가지 대표적인 작업은 다음과 같습니다.
- DEJA VU : 추론 시간에 효율적인 LLM에 대한 상황에 맞는 희소성 (ICML 2023 Oral)
- llmlingua : 대형 언어 모델의 가속화 된 추론을위한 압축 프롬프트 (EMNLP 2023)
- 주의 싱크가있는 효율적인 스트리밍 언어 모델
- Specinfer : 투기 추론 및 토큰 트리 검증으로 제공되는 생성 LLM 가속화
- MEDUSA : 다중 디코딩 헤드가있는 간단한 LLM 추론 가속 프레임 워크
- 다중 점화 예측을 통해 더 나은 대형 언어 모델
- 레이어 건너 뛰기 : 조기 출구 추론 및 자체 형성 디코딩 활성화
LLM 디코딩 가속화에 대한 더 많은 작업은 Link 1 및 Link 2를 통해 찾을 수 있습니다.
지식 편집
지식 편집은 편견 감소 및 학습 된 상관 관계를 수정하는 것과 같은 LLMS 동작을 효율적으로 수정하는 것을 목표로합니다. 여기에는 지식 현지화 및 학습과 같은 많은 주제가 포함됩니다. 대표 작업에는 다음이 포함됩니다.
- 규모에 따라 메모리 기반 모델 편집 (ICML 2022)
- Transformer-Patcher : 하나의 뉴런 가치가있는 한 가지 실수 (ICLR 2023)
- 메타 학습을 통한 대형 언어 모델에 대한 대규모 편집 (ICLR 2024)
- 모델 편집을위한 통합 프레임 워크
- 변압기 피드 포워드 레이어는 주요 가치 메모리입니다 (EMNLP 2021)
- 변압기의 질량 편집 메모리
더 많은 논문이 여기에서 찾을 수 있습니다.
LLM 기반 에이전트
LLMS는 대규모 교육을 받음으로써 세계 지식을 다루며 입력 지침을 정확하게 따를 수 있습니다. 이러한 놀라운 기능을 통해 LLM은 복잡한 작업을 자율적으로 (및 협력 적으로) 해결할 수있는 에이전트로 플레이하거나 인간의 상호 작용을 시뮬레이션 할 수 있습니다. LLM 에이전트의 일부 대표 논문은 다음과 같습니다.
- 생성 에이전트 : 인간 행동의 대화식 시뮬라 크라 (UIST 2023) [LLMS 비디오 게임에서 인간 사회를 시뮬레이션합니다]
- 소토피아 : 언어 에이전트의 사회적 지능에 대한 대화식 평가 (ICLR 2024) [LLMS 사회적 상호 작용을 시뮬레이션]
- Voyager : 대형 언어 모델을 가진 개방형 구체 에이전트 [LLM은 Minecraft World에 살고 있습니다]
- 도구 제조업체로서의 대형 언어 모델 (ICLR 2024) [LLM은 문제 해결을위한 자체 재사용 도구 (예 : 파이썬 기능)를 만듭니다]
- Metagpt : 다중 에이전트 공동 작업 프레임 워크를위한 메타 프로그래밍 [자동화 된 소프트웨어 개발 팀으로서의 LLM]
- WebArena : 자율 에이전트 구축을위한 사실적인 웹 환경 (ICLR 2024) [LLMS 사용 웹 애플리케이션]
- Mobile-ENV : LLM-GUI 상호 작용에 대한 평가 플랫폼 및 벤치 마크 [LLM 사용 모바일 애플리케이션 사용]
- Hugginggpt : 포옹 얼굴에 Chatgpt 및 친구들과 AI 작업을 해결합니다 (Neurips 2023) [LLM은 문제 해결을위한 포옹 표면에서 모델을 찾습니다]
- Agentgym : 다양한 환경에서 대형 언어 모델 기반 에이전트를 발전시키는 [LLM 기반 에이전트를위한 다양한 대화식 환경 및 작업]
종이, 플랫폼 및 평가 도구의 전체 목록은 여기에서 찾을 수 있습니다.
결과
- 트랜스포머는 비밀리에 선형입니다
- 모든 언어 모델 기능이 선형적인 것은 아닙니다
- 칸 또는 MLP : 공정한 비교
- 화가로 변압기 층
- 비전 언어 모델은 맹인입니다
열린 도전
LLM은 연구원과 개발자가 적극적으로 해결하기 위해 노력하고있는 몇 가지 열린 과제에 직면 해 있습니다. 이러한 과제에는 다음이 포함됩니다.
- 환각
- 대형 언어 모델의 환각 완화 기술에 대한 포괄적 인 조사
- 모델 압축
- 언어 모델에 대한 압축 알고리즘에 대한 포괄적 인 조사
- 평가
- 대형 언어 모델 평가 : 포괄적 인 설문 조사
- 추리
- 설명 가능성
- 이해에서 활용에 이르기까지 : 대형 언어 모델에 대한 설명에 대한 설문 조사
- 공평
- 사실
- 대형 언어 모델의 사실에 대한 설문 조사 : 지식, 검색 및 도메인-특이성
- 지식 통합
- 지식 및 대규모 언어 통합 추세 : 방법, 벤치 마크 및 응용 프로그램의 설문 조사 및 분류
전체 목록은 여기에서 찾을 수 있습니다.
확산 모델
확산 모델은 주어진 데이터 도메인의 확률 분포를 근사화하고 근사 분포에서 샘플을 생성하는 방법을 제공하는 것을 목표로합니다. 그들의 목표는 VAE, GANS 및 정규화 흐름과 같은 다른 인기있는 생성 모델과 유사합니다.
확산 모델의 작동 흐름에는 두 가지 프로세스가 있습니다.
- 전진 프로세스 (확산 프로세스) : 데이터가 완전히 노이즈가 될 때까지 원래 입력 데이터에 단계적으로 노이즈를 단계별로 점진적으로 적용합니다.
- 역 프로세스 (Denoising Process) : NN 모델 (예 : CNN 또는 Tranformer)은 전방 프로세스 동안 각 단계에서 적용되는 노이즈를 추정하도록 훈련되었습니다. 그런 다음이 훈련 된 NN 모델을 사용하여 노이즈 입력에서 데이터를 생성 할 수 있습니다. 기존 확산 모델은 또한 데이터 생성을 조정하기 위해 다른 신호 (예 : 사용자의 텍스트 프롬프트)를 받아 들일 수 있습니다.
이 멋진 블로그를 확인하면 더 많은 입문 자습서가 여기에서 찾을 수 있습니다. 확산 모델은 이미지, 오디오, 비디오 등을 생성하는 데 사용될 수 있으며 아래에 표시된 것처럼 확산 모델과 관련된 많은 서브 필드가 있습니다 [이미지 출처].

이미지 생성
이미지 생성을위한 확산 모델의 일부 대표 논문은 다음과 같습니다.
- 잠복 확산 모델을 사용한 고해상도 이미지 합성 (CVPR 2022)
- 팔레트 : 이미지-이미지 확산 모델 (Siggraph 2022)
- 반복적 인 정제를 통한 이미지 초-해상도
- Denoising 확산 확률 모델을 사용한 입원 (CVPR 2022)
- 텍스트-이미지 확산 모델에 조건부 제어 추가 (ICCV 2023)
더 많은 논문이 여기에서 찾을 수 있습니다.
비디오 생성
비디오 생성을위한 확산 모델의 일부 대표 논문은 다음과 같습니다.
- 비디오 확산 모델
- 긴 비디오의 유연한 확산 모델링 (Neurips 2022)
- 잠재 비디오 확산 모델을 대형 데이터 세트로 스케일링합니다
- I2VGEN-XL : 계단식 확산 모델을 통한 고품질 이미지 대 비디오 합성
더 많은 논문이 여기에서 찾을 수 있습니다.
오디오 생성
오디오 생성을위한 확산 모델의 일부 대표 논문은 다음과 같습니다.
- Grad-tts : 텍스트 음성 연설을위한 확산 확률 모델
- 명령 조정 된 LLM 및 잠재적 확산 모델을 사용한 텍스트-오디오 생성
- 확산 TTS 모델을 비난하기위한 제로 샷 음성 컨디셔닝
- 편집 : 제어 가능한 텍스트 음성 연설에 대한 점수 기반 편집
- 프로디 프 : 고품질 텍스트 음성 연설을위한 점진적인 빠른 확산 모델
더 많은 논문이 여기에서 찾을 수 있습니다.
사전 조정 및 미세 조정
다른 큰 생성 모델과 유사하게, 확산 모델은 또한 많은 양의 웹 데이터 (예 : LAION-5B 데이터 세트)에서 사전에 사전 상처를 받고 대규모 컴퓨팅 리소스를 소비합니다. 사용자는 공개 된 가중치를 다운로드하면 개인 데이터 세트에서 모델을 더 미세 조정할 수 있습니다.
다음은 확산 모델의 효율적인 미세 조정에 대한 몇 가지 대표적인 논문입니다.
- Dreambooth : 주제 중심 생성을위한 미세 튜닝 텍스트-이미지 확산 모델 (CVPR 2023)
- 이미지는 한 단어의 가치가 있습니다 : 텍스트 반전을 사용하여 텍스트-이미지 생성 개인화 (ICLR 2023)
- 커스텀 확산 : 텍스트-이미지 확산의 멀티 컨셉 사용자 정의 (CVPR 2023)
- 직교 결승에 의한 텍스트-이미지 확산 제어 (Neurips 2023)
더 많은 논문이 여기에서 찾을 수 있습니다.
Huggingface Diffusers API와 함께 연습을하는 것이 좋습니다.
평가
여기서는 이미지 생성에 대한 확산 모델의 평가에 대해 이야기합니다. 기존의 많은 이미지 품질 메트릭을 적용 할 수 있습니다.
- 클립 점수 : 클립 점수는 이미지 캡션 쌍의 호환성을 측정합니다. 클립 점수가 높을수록 호환성이 높아집니다. 클립 점수는 인간의 판단과 높은 상관 관계가있는 것으로 밝혀졌습니다.
- Fréchet Inception 거리 (FID) : FID는 이미지의 두 데이터 세트가 얼마나 유사한지를 측정하는 것을 목표로합니다. Inception Network의 특징 표현에 맞는 두 개의 가우스 사이의 프레첸 거리를 계산하여 계산됩니다.
- 클립 방향 유사성 : 두 이미지 캡션 사이의 변경으로 두 이미지 (클립 공간) 사이의 변화의 일관성을 측정합니다.
더 많은 이미지 품질 메트릭 및 계산 도구가 여기에서 찾을 수 있습니다.
효율적인 생성
확산 모델은 데이터를 생성하기 위해 여러 개의 전진 단계가 필요합니다. 효율적인 생성을위한 확산 모델의 일부 대표 논문은 다음과 같습니다.
- 점수 기반 모델로 데이터를 생성 할 때 빨리 가야합니다
- 지수 적분기를 사용한 확산 모델의 빠른 샘플링
- 샘플 품질을 통해 차별화하여 확산 모델을위한 빠른 샘플러 학습
- 확산 과정의 조기 정지를 통한 확산 모델 가속화
더 많은 논문이 여기에서 찾을 수 있습니다.
지식 편집
확산 모델에 대한 지식 편집에 대한 몇 가지 대표적인 논문은 다음과 같습니다.
- 확산 모델에서 개념 지우기 (ICCV 2023)
- 텍스트-이미지 확산 모델의 대규모 개념 편집
- 잊어 버리는 것 : 텍스트-이미지 확산 모델에서 잊어 버리는 법을 배우십시오
더 많은 논문이 여기에서 찾을 수 있습니다.
열린 도전
다음은 확산 모델이 직면 한 문제에 대해 이야기하는 일부 설문 조사 논문입니다.
- 확산 기반 이미지 생성 모델의 조사
- 비디오 확산 모델에 대한 설문 조사
- 시각적 컴퓨팅을위한 확산 모델에 관한 최신 기술
- NLP의 확산 모델 : 설문 조사
대형 멀티 모달 모델 (LMMS)
전형적인 LMM은 기존 사전 상환 된 단일 모달 모델을 연결하고 미세 조정하여 구성됩니다. 일부는 또한 처음부터 사방됩니다. 아래 이미지에서 LMMS가 어떻게 진화하는지 확인하십시오 [Image Source].

모델 아키텍처
LMM에 도달하는 방법에는 여러 가지가 있습니다. 대표 아키텍처에는 다음이 포함됩니다.
- 언어 모델은 일반적인 목적 인터페이스입니다
- FLAMINGO : 소수의 학습을위한 시각적 언어 모델 (Neurips 2022)
- BLIP : 통합 비전 언어 이해 및 세대를위한 부트 스트랩 언어 이미지 사전 훈련 (ICML 2022)
- Blip-2 : 냉동 이미지 인코더 및 대형 언어 모델로 언어 이미지 사전 훈련 부트 스트랩 (ICML 2023)
- MPLUG-OWL2 : 양식 공동 작업을 가진 다중 모달 대형 언어 모델 혁명
- Florence-2 : 다양한 비전 작업에 대한 통일 된 표현 발전
- MLLMS 용 밀도가 높은 커넥터
링크 1과 링크 2를 통해 더 많은 논문을 찾을 수 있습니다.
구체화 된 제제를 향해
연구자들은 LMM을 로봇과 결합함으로써 로봇 공학, 가상 어시스턴트, 자율 주행 차량 등에 걸쳐 잠재적 인 응용 프로그램을 통해보다 자연스럽고 직관적 인 방식으로 세계를 인식하고, 이유 및 행동 할 수있는 AI 시스템을 개발하는 것을 목표로합니다. 다음은 LMMS를 가진 구체화 된 AI를 실현하는 몇 가지 대표적인 작업입니다.
- RT-1 : 실제 규모의 실제 제어를위한 로봇 변압기
- RT-2 : 비전 언어 작용 모델은 웹 지식을 로봇 제어로 전달합니다
- RT-H : 언어를 사용한 액션 계층
- Palm-e : 구체화 된 멀티 모달 언어 모델
- 전자 : 온라인 수정으로부터 학습하여 현실 정책 전송
링크 1과 링크 2를 통해 더 많은 논문을 찾을 수 있습니다.
다음은 구현 된 AI의 LMMS 성능을 평가하기위한 몇 가지 인기있는 시뮬레이터 및 데이터 세트입니다.
- 서식지 3.0 : 가정 환경에서 공동 작업 인간-로봇 상호 작용 작업을 연구하기위한 구체화 된 AI 시뮬레이션 플랫폼
- Procthor-10K : 구체화 된 AI를위한 10K 대화식 가정 환경
- Arnold : 사실적인 3D 장면에서 연속 상태를 가진 언어 지형 작업 학습을위한 벤치 마크
- LEGENT : 구현 된 에이전트를위한 오픈 플랫폼
- Robocasa : 일반 로봇을위한 일상적인 작업의 대규모 시뮬레이션
더 많은 리소스를 여기에서 찾을 수 있습니다.
열린 도전
다음은 LMM 지원 구체화 된 AI에 대한 공개 과제에 대해 이야기하는 몇 가지 설문 조사 논문입니다.
- 대형 언어 모델 기반 에이전트의 상승 및 잠재력 : 조사
- 구체화 된 지능을 통한 비전 언어 내비게이션 : 조사
- 구체화 된 AI에 대한 조사 : 시뮬레이터에서 연구 작업에 이르기까지
- LLM 기반 자율 에이전트에 대한 설문 조사
- 자연 언어 기반의 마음의 마음의 폭풍
트랜스포머 너머
연구원들은 변압기 이외의 새로운 모델을 탐색하려고 노력하고 있습니다. 노력에는 암시 적으로 모델 매개 변수를 구성하고 새로운 모델 아키텍처 정의가 포함됩니다.
구조화 된 매개 변수를 암시합니다
- 군주 믹서 :주의 나 MLPS없이 Bert 재 방문
- Mamba : 선택적 상태 공간을 가진 선형 시간 시퀀스 모델링
새로운 모델 아키텍처
- 하이에나 계층 : 더 큰 컨볼 루션 언어 모델로
- RWKV : 변압기 시대를위한 RNN 재창조
- Ententive Network : 대형 언어 모델을위한 변압기의 후임자
- Mamba : 선택적 상태 공간을 가진 선형 시간 시퀀스 모델링
- Kan : Kolmogorov – Arnold 네트워크
- 변압기는 SSM입니다 : 구조화 된 상태 공간 이중성을 통한 일반화 된 모델 및 효율적인 알고리즘
다음은 State Space 모델에 대한 멋진 자습서입니다.