TroL 다운로드 - TroL 소스 코드 다운로드

TroL

기타 소스코드

1.0.0

다운로드

트롤 : 큰 언어 및 비전 모델을위한 레이어의 횡단 [ARXIV]

EZGIF-3-E30B467E05

소식

Huggingface 직원 덕분에 각 사용자에게 무료 Zerogpu (NVIDIA A100)를 사용할 수 있지만 쿼리가 제한되어 있으므로 추론이 고정되면 몇 분 동안 기다리십시오. (로컬 데모 속도는이 온라인 GPU 공간보다 훨씬 빠릅니다.)

Trol-1.8b는 이제 "Huggingface 모델에서 사용할 수 있습니다. (로컬 데모 readme 포함)
Trol-3.8b는 이제 "Huggingface Models에서 사용할 수 있습니다. (로컬 데모 readme 포함)
Trol-7B는 이제 "Huggingface 모델에서 사용할 수 있습니다. (로컬 데모 readme 포함)
온라인 트롤 데모는 이제 "Huggingface Spaces에서 사용할 수 있습니다. (모델 크기를 선택할 수 있습니다)

효율적인 모델 크기로 수많은 비전 언어 성능을 향상시키기 위해 TROL (Traversal of Layers) 의 기술적 부분을 실현하기위한 공식 Pytorch 구현 코드. 이 코드는 처음부터 개발되었습니다. 따라서 비교적 복잡하게 구조화 된 코드를 갖는 LLAVA와 비교하여 코드의 재진성과 단순성을 향상 시키려고 노력했습니다.

강조 표시된 이미지

그림 1. 트롤 레이어. 새로운 전파.

그림 2. 트롤 믹서의 구조.

그림 3. 수많은 모델 크기에 따른 성능.

그림 4. 폐쇄 소스 LLVMS와의 비교.

그림 5. 층 통과 (층 재사용 층)가 대부분 발생하는 곳을 조사합니다.

결과

표준 모델 크기의 오픈 소스 LLVM

llvms	SQA-IMG	로마 교황	mme	MMB	Mathvista	종자-임그	MM-VET	llava-w
Yi-VL-6B	71.7	82.5	1915	64.2	29.7	67.5	32.1	51.9
llava-next-7b	70.1	86.5	1851	69.6	34.6	70.2	43.9	72.3
MM1-7B	72.6	86.6	1858	72.3	35.9	70.9	42.1	-
트롤 -1.8b	87.5	88.6	2038	76.1	45.4	69.0	45.1	69.7
트롤 -3.8b	90.8	86.5	1980	79.2	55.1	70.5	51.1	76.6
트롤 -7b	92.8	87.8	2308	51.8	75.3	54.7	92.8	87.1

큰 모델 크기의 오픈 소스 LLVM

llvms	AI2D	ChartQa	mme	MMB	Mathvista	MM-VET	llava-w
Internvl1.5-40b	79.0	68.0	2175	82.2	47.7	48.9	-
Internvl1.5-26B	80.7	83.8	2188	82.2	53.5	62.8	-
MM1-30B	-	-	2069	75.1	39.4	48.7	-
미니 세미 -34b	-	-	2105	79.6	38.9	53.0	-
미니 세미 니 -HD-34B	-	-	2141	80.6	43.3	59.3	-
llava-next-34b	74.9	68.7	2030	79.3	46.0	57.4	88.8
llava-next-8b	71.6	69.5	1972	72.1	37.5	-	80.1
llava-next-72b	77.4	77.0	2159	80.5	46.6	-	89.2
llava-next-1110b	80.4	80.4	2201	80.5	49.0	-	90.4
트롤 -1.8b	68.9	64.0	2038	76.1	45.4	45.1	69.7
트롤 -3.8b	73.6	73.8	1980	79.2	55.1	51.1	76.6
트롤 -7b	78.5	71.2	2308	83.5	51.8	54.7	92.8

폐쇄 소스 LLVM

llvms	SQA-IMG	AI2D	ChartQa	mme	MMB	Mathvista	종자-임그	mmstar
Qwen-VL-Plus	71.6	75.9	78.1	2183	67.0	43.3	72.7	39.7
쌍둥이 자리 프로	80.1	73.9	74.1	1933	73.6	45.2	70.7	41.6
GPT-4V	84.6	78.2	78.5	1927	77.0	49.9	69.1	46.1
트롤 -1.8b	87.5	68.9	64.0	2038	76.1	45.4	69.0	45.5
트롤 -3.8b	90.8	73.6	73.8	1980	79.2	55.1	70.5	46.5
트롤 -7b	92.8	78.5	71.2	2308	83.5	51.8	75.3	51.3

시각적 명령 튜닝 데이터 세트 설명 트롤

총 : 2273830 (2.3m)

 ---------------------------* 실제 이미지 : 755K* 실제 텍스트 : 143K* 문서 및 차트 및 다이어그램 & 사인 및 기호 : 627K* 수학 : 747K
    - 비전과 수학 : 180k
    - 텍스트 만있는 수학 : 566k
---------------------------------

-Sharegpt4v-Caption [SAM없이] (91021, 91K)
-Sharegpt4v-Instruction [OCR-VQA의 몇 가지 샘플없이] (664703, 664K)
-Allava4v-text (143000, 143k)
-Minigemini-Instruction [Docvqa, Chartqa, DVQA, AI2D] (27670, 27K)
-DocdownStream (574268, 574K)
-Docreason (25877, 25k)
-Gllava-Align (60252, 60k)
-Gllava-Qa (117205, 117k)
-Mathvision (3040, 3k)
-Mathinstruct [TextonlyDataset] (262040, 262k)
-Mathplus [TextonlyDataset] (304754, 304k)

다음 9 개의 데이터 세트를 수집합니다. Minigemini의 경우 DOCVQA, ChartQA, DVQA 및 AI2D에 대해서만 데이터 샘플을 선택적으로 사용합니다. 따라서 Minigemini 용 모든 데이터 샘플을 다운로드 할 필요는 없습니다.

sharegpt4v [링크]
allava4v-text [link]
미니 세미니 [링크]
docdownstream [링크]
Doceason [Link]
Gllava [링크]
MathVision [링크]
Mathinstruct [링크]
Mathplus [링크]

수집 된 데이터 세트 레이아웃

 trol_dataset_path
llava # sharegpt4v│ └ └ 커트. llava_pretrain
                  │ │ │─퀴 이미지
                  Coco # sharegpt4v│ └ └ └ └얼리. Train2017
                   SAM # sharegpt4v│ └ 대 이미지
                  ├ ── GQA # sharegpt4v│ └ └ 담장. 이미지
                  OCR_VQA # sharegpt4v│ └ 대 이미지
                  TextVQA # sharegpt4v│ └ └ └ 커스
                    VG # sharegpt4v│ ├ 담사. vg_100k
                 VG_100K_2
                   Share_TextVQA # sharegpt4v│ └ 담장. 이미지
                  Web-Celebrity # sharegpt4v │ └ └ 커스티
                  Web-Landmark # sharegpt4v│ └ └ └ 커 이미지
                  Wikiart # sharegpt4v │ └ └ 커트. 이미지
                  Share_TextVQA # sharegpt4v│ └ 담장. 이미지
                  docvqa # minigemini│ └ └ 담장. 이미지
                  Chartqa # Minigemini│ └ └ └얼
                   │ │ │─퀴 이미지
                  DVQA # MINIGEMINI│ └ └ 담장. 이미지
                  AI2D # MINIGEMINI│ └ └ 커 이미지
                  IMGS # docdownstream & docreason └ └ └커
│ │ ── aprue_benchmark
Deepform
│ │ ─신 신입니다
infographicsvqa
Kleistercharity
tabfact
WikitableQuestions
│ │ ─퀴. 텍스트 캡
│ │ ─퀴 ~ textvqa
│ │ 익. VisualMrc
GEO3K # GLLAVA |   └ ─) 기차
Geoqa_plus # gllava├à 정전 # MathVision | ├ | ├ | ├ | ─ sharegpt4v_instruct_gpt4-vision_cap100k.json # sharegpt4v-caption├ ─뇨 sharegpt4v_mix665k_cap23k_coco-ap9k_lcsam9k _dson # hortt4v OL- 강조 GPT4- 터보 -143K. JSON # allava4v-text├|) jsonl.jsonl # docdownStream #) reaverd_explanation.jsonl # docreason├| 있고 minigemini_instruction.json # minigemini-instruction ├ 착수는 Gllava_align.parquet # gllava-align├─ gllava_qa.parquet # Qaisionà 정전. MathVision.Parquet # MathVision ├ 착수

평가 벤치 마크

평가 데이터 세트 목록입니다. 완전히 다운로드하면 데이터 세트는 다음 디렉토리 레이아웃 아래 폴더에 배치해야합니다.

Q- 벤치 [링크]
SQA-IMG [링크]
ai2d [링크]
ChartQa [링크]
씨앗 [링크]
교황 [링크]
hallusionbench [링크]
MME [링크]
Mathvista [Link]
MMB [링크]
MM-VET [링크]
llava-W [링크]
mmstar [링크]
Mathverse [링크]
VisualWebBench [링크]

평가 데이터 세트 디렉토리 레이아웃

 평가_DATASET_PATH
ScienceQa # Sqa-Img├à 정전 # Ai2d # Ai2d├à 정전 Qa # Chartqa├| 있고 Seed-Bench # Seed-Img├ 확장 # Pope # Pope #) HallusionBench # hallusionbench├─* MME_BENCHMARM_RELEASE_VERSION # MMEATION # U MATHVISTA # MATHVISTA태├ ─) MMBENCH # MMBATIN #) MM-VET # MM-VETATIN 출신 Llava-Bench-in-The-Wild # Llava Bench # ─ MMSTAR # MMSTAR태 ── MathVerse # Mathverse 신 ─신 VisualWebBench # VisualWebBench

확장하다

추가 정보