[ English | Fr Fr.Cais |.
이 저장소의 요약은 또한 사전 인쇄로 출판됩니다 : 일본어를위한 열린 큰 언어 모델 탐색 : 실용 가이드
이 저장소를 언급하는 경우 다음을 인용하십시오.
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
일부 아키텍처 변경이 이루어졌습니다. 자세한 내용은 아래를 참조하십시오. 1,000 억 파라미터의 스케일로 원래 LLM "Plamo-100B"의 사전 학습 ↩
자세한 내용은 다음 기사를 참조하십시오. 대규모 언어 모델 Tanuki-8B 및 8x8B 등의 위치 및 개발 지침을 포함하여 대규모 언어 모델을 개발할 때 사전 및 사후 학습을위한 전략적 노트-특히 합성 데이터-↩ 2 ↩ 2 에 대한.
그러나 모델의 속도를 높이려면 원래 라마가 변경되었습니다. 자세한 내용은 아래를 참조하십시오 : Plamo-13B가 출시되었습니다 ↩
세부 사항은 지정되지 않지만 보도 자료는 다음과 같이 명시되어 있습니다. 개방형 데이터 세트 외에도 교육 데이터에는 Stability AI Japan이 생성 한 원래 데이터 세트와 Eleutheai Polyglot 프로젝트의 일본어 팀과 Stable Community Japan 회원의 협력으로 생성 된 데이터가 포함됩니다. '↩
이 연구는 일반적인 왼쪽에서 오른쪽 대신 오른쪽에서 왼쪽으로 단어를 예측하도록 훈련 된 언어 모델의 평가를 수행했습니다. 정상 및 역 언어 모델이 모두 게시됩니다. ↩
명령어 튜닝을 수행하기 전에 채팅 벡터를 추가합니다. 이는 LLAMA 3 Tertuct와 LLAMA 3 Base의 차이점입니다. ↩ 2
명령어 튜닝을 수행 한 후 채팅 벡터가 추가됩니다. 이는 LLAMA 3 Instruct와 LLAMA 3베이스의 차이입니다. ↩ 2
그러나 상업적 목적으로 Karakuri LM을 사용하려면 개발자 인 Karakuri Co., Ltd.에 문의해야합니다. ↩
명령어 튜닝 인 시스템은 GPT-3.5 및 GPT-4와 같은 OpenAI 모델에서 생성 된 데이터를 사용하여 학습하기 때문에 OpenAI 규정을 위반할 수 있습니다. ↩ ↩ ↩ 2 ↩ 3 ↩ 4 ↩ 4 ↩ 5 ↩ 6 ↩ 7 ↩ 8 ↩ 9 ↩ 10
ORPO를 수행하기 전에 Gemma 2 Instruct와 Gemma 2 Base의 차이에 대한 채팅 벡터를 추가합니다. ↩
○ :이 모델은 Huggingface의 모델 허브에 업로드되었으며 AutoModel.from_pretrained() 등을 사용하여 즉시 읽을 수 있습니다. △ : 모델 허브에는 모델이 업로드되지 않지만 포맷 포어 징징 페이스 (Transformers, 이전에는 Pytorch-Transformers)를 지원합니다. ✕ : 모델은 Huggingface를 지원하지 않습니다. ↩
이것은 다양한 형태소 분석기와 서브 워드 기술의 조합으로 실험하는 연구입니다. 모든 조합에 대한 모델을 나열하기는 어렵 기 때문에 실험에서 평균 작업 성능이 가장 높은 모델 Juman +++ BPE를 제시합니다. ↩
그러나 최대 시리즈 길이는 2048 년으로 확장되었으며 원래 Bert에 대한 다양한 건축 변화가 이루어졌습니다. 자세한 내용은 Huggingface 저장소의 ReadMe를 참조하십시오. ↩
NLP-WASEDA/ROBERTA-BASE-JAPANESE 및 NLP-WASEDA/ROBERTA-LARGE-JAPANESE는 128에서 모델 입력의 최대 토큰 길이를 사전 훈련 한 반면 NLP-WASEDA/ROBERGA-LARGE-JAPANESE-SEQ512 512에서 사전 트레인
그러나 최대 직렬 길이는 일반 512에서 1282로 연장되므로 더 긴 입력 문을 처리 할 수 있습니다.
작은 것은 일본 Wikipedia와 Japanese Financial Corpus를 사용한 긁힘 연구이며, 기본은 Tohoku University Bert의 일본 금융 코퍼스를 사용한 다른 연구입니다.
Man-Proof WordPiece 모델은 MECAB (IPA Dictionary + Man-Proof Dictionary)를 사용하여 단어를 나누고 WordPiece를 사용하여 서브 워드를 나누는 모델이며, 문장 모델은 단어를 단어를 분할하지 않고 Unigram으로 직접 변환하는 모델입니다.
각 모델에 대한 자세한 내용은 저자 논문의 4 장을 참조하십시오. SC-2M-Wiki 모델은 Wikipedia에서만 미리 훈련되므로 도메인 별 모델이 아닙니다. ↩
임베딩 모델은 사전에 걸린 언어 모델을 기반으로 조밀 한 텍스트 검색을 사용하여 분류되었습니다 (Zhao+, 2022). Bi-Encoder는 두 개의 입력이 모델에 개별적으로 입력되는 아키텍처이며, 각각은 벡터화 된 다음 DOT 제품을 공식화하고 이러한 입력의 코사인 유사성을 공식화하여 입력의 근접성으로 공식화됩니다. 대조적으로, 크로스 인코더는 두 입력을 모델에 입력하고 모델 내 근접성을 직접 계산하는 아키텍처입니다. 정보 추출 분야에서 크로스 코더는 더 많은 계산 비용이 많이 들지만, 모델이 입력의 근접성을보다 정밀하게 계산할 것으로 예상되기 때문에, 추출 결과의 순서를 재검토하기위한 다시 시작하는 사람으로 사용됩니다. 또한, 바이오 코더들 중에서, 단일 벡터 (예 : Colbert)가 아닌 다중 벡터 (예 : Colbert)로 입력을 나타내는 이중 계선 기가 있으므로 단일 진술 바이 코더 및 멀티 프레젠테이션 바이-인코더로 더 나뉘어졌다. ↩
그러나 사람들은 연구 및 교육 목적으로 사용을 염두에 두어야합니다. 또한 병합 된 모델에 대한 일부 라이센스는 Apache 2.0이 아닙니다. ↩ ↩ 2 ↩ 3