Baichuan 7B Скачать - Baichuan 7B исходный код скачать

Baichuan 7B

Другой исходный код

1.0.0

Скачать

Baichuan-7b

?

Китайский |

Обновить информацию

[2023.09.06] Мы выпустили новое поколение модели с открытым исходным кодом Baichuan 2, включая размеры 7B и 13B

представлять

Baichuan-7b является коммерчески доступной крупномасштабной предварительно обученной языковой модели, разработанной Baichuan Intellent. Основываясь на структуре трансформатора, модель параметров 7 миллиардов, обученная приблизительно 1,2 триллиона токенов, поддерживает китайский и английский двуязычный, а длина окна контекста составляет 4096. Лучшие результаты в одинаковом размере достигаются как на стандартном китайском, так и на английском языке (C-Eval/MMLU).

Общедоступный список

Китайский обзор

C-Eval

Набор данных C-Eval представляет собой комплексный китайский набор данных базовой модели, охватывающий 52 дисциплины и четыре уровня сложности. Мы использовали набор DEV этого набора данных в качестве источника нескольких выстрелов и выполнили 5-shot в тестовом наборе. Выполнить следующую команду, выполнив:

 cd evaluation
python evaluate_zh.py --model_name_or_path ' your/model/path '

результат

Модель 5-выстрел	Средний	Avg (жесткий)	КОРЕНЬ	Социальные науки	Гуманитарные науки	Другие
GPT-4	68.7	54,9	67.1	77.6	64,5	67.8
Чатгпт	54.4	41.4	52,9	61.8	50,9	53,6
Claude-V1.3	54.2	39,0	51.9	61.7	52,1	53,7
Claude-Instant-V1.0	45,9	35,5	43.1	53,8	44.2	45,4
Bloomz-7b	35,7	25.8	31.3	43,5	36.6	35,6
Чатглм-6B	34,5	23.1	30.4	39,6	37.4	34,5
Ziya-Llama-13b-Pretrain	30.2	22.7	27.7	34.4	32,0	28.9
МОСС-МУН-003-База (16B)	27.4	24.5	27.0	29.1	27.2	26.9
Llama-7b-Hf	27.1	25.9	27.1	26.8	27,9	26.3
Falcon-7b	25.8	24.3	25.8	26.0	25.8	25.6
Tigerbot-7b-баз	25,7	27.0	27.3	24.7	23.4	26.1
Aquila-7b ^*	25,5	25.2	25.6	24.6	25.2	26.6
Open-Llama-V2-Pretrain (7b)	24.0	22.5	23.1	25.3	25.2	23.2
Блум-7b	22.8	20.2	21.8	23.3	23.9	23.3
Baichuan-7b	42,8	31.5	38.2	52,0	46.2	39,3

Гаокао

Gaokao - это набор данных, который использует вопросы вступительного экзамена в китайском колледже в качестве набора данных для оценки способности крупных языковых моделей оценивать языковую способность и способность к логическим рассуждениям модели. Мы сохранили только вопросы по одному выбору и провели единый 5-shot на всех моделях после случайного деления.

результат

Вот результаты теста.

Модель	Средний
Bloomz-7b	28.72
Лама-7B	27.81
Блум-7b	26.96
Tigerbot-7b-баз	25,94
Falcon-7b	23.98
Ziya-Llama-13b-Pretrain	23.17
Чатглм-6B	21.41
Open-Llama-V2-Pretrain	21.41
Aquila-7b ^*	24.39
Baichuan-7b	36.24

Agivelal

Agival стремится оценить общие способности модели в когнитивных и решениях задач. Мы сохранили только четыре из них и провели единый 5-shot на всех моделях после случайного деления.

результат

Модель	Средний
Bloomz-7b	30.27
Лама-7B	28.17
Ziya-Llama-13b-Pretrain	27.64
Falcon-7b	27.18
Блум-7b	26.55
Aquila-7b ^*	25.58
Tigerbot-7b-баз	25.19
Чатглм-6B	23.49
Open-Llama-V2-Pretrain	23.49
Baichuan-7b	34.44

^* Модель Aquila поступает с официального веб-сайта Zhiyuan (https://model.baai.ac.cn/model-detail/100098) только для справки.

Английский список

В дополнение к китайцам, Baichuan-7B также проверил эффект модели на английском языке. Мы приняли схему оценки с открытым исходным кодом, и окончательные результаты 5-shot следующие:

результат

Модель	Гуманитарные науки	Социальные науки	КОРЕНЬ	Другой	Средний
Chatglm-6b ⁰	35,4	41.0	31.3	40,5	36.9
Bloomz-7b ⁰	31.3	42.1	34.4	39,0	36.1
MPT-7B ¹	-	-	-	-	35,6
Лама-7b ²	34.0	38.3	30,5	38.1	35,1
Сокол-7B ¹	-	-	-	-	35,0
Moss-Moon-003-SFT (16b) ⁰	30,5	33,8	29.3	34.4	31.9
Bloom-7b ⁰	25.0	24.4	26.5	26.4	25,5
Moss-Moon-003-баз (16b) ⁰	24.2	22.8	22.4	24.4	23.6
Baichuan-7b ⁰	38.4	48.9	35,6	48.1	42.3

^{0: Повторно}
^{1: https://huggingface.co/spaces/huggingfaceh4/open_llm_leaderboard}
^{2: https://paperswithcode.com/sota/multi-task-language-ersustanding-on-mmlu}

Метод воспроизведения

git clone https://github.com/hendrycks/test
cd test
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
mkdir results
cp ../evaluate_mmlu.py .
python evaluate_mmlu.py -m /path/to/Baichuan-7B

Конкретные подробные показатели 57 задач на MMLU следующие:

Индикаторы каждой дисциплины следующие:

Методы рассуждения

Код рассуждения уже находится в официальной библиотеке Huggingfice

 from transformers import AutoModelForCausalLM , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( "baichuan-inc/Baichuan-7B" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "baichuan-inc/Baichuan-7B" , device_map = "auto" , trust_remote_code = True )
inputs = tokenizer ( '登鹳雀楼->王之涣n夜雨寄北->' , return_tensors = 'pt' )
inputs = inputs . to ( 'cuda:0' )
pred = model . generate ( ** inputs , max_new_tokens = 64 , repetition_penalty = 1.1 )
print ( tokenizer . decode ( pred . cpu ()[ 0 ], skip_special_tokens = True ))

данные

Первоначальные данные включают данные о китайском и английском языке с открытым исходным кодом, а также данные о китайском интернете, а также некоторые высококачественные данные знаний.
При работе со ссылкой на соответствующие данные частота и качество являются двумя измерениями, которые сосредоточены в процессе обработки данных. Мы фильтруют главу и гранулярность предложения исходного набора данных, основанного на эвристических правилах и оценке модели качества. На полных данных метод локального конфиденциального хешина используется для фильтрации детализации главы и предложений.

Общий процесс заключается в следующем:

После непрерывных корректировок и нескольких раундов тестирования китайско-английское соотношение, которое выполнялось лучше всего в нижестоящих задачах, было наконец подтверждено.
Мы используем стратегию взвешивания данных, основанную на автоматическом обучении для пропорции различных категорий данных.

Причастие

Мы называем академическое решение для использования кодировки байтовой пары (BPE) в предложении в качестве алгоритма сегментации слова и выполняем следующие оптимизации:

В настоящее время большинство моделей с открытым исходным кодом в основном основаны на оптимизации английского языка, поэтому существует проблема низкой эффективности для китайского корпуса. Мы использовали 20 миллионов моделей сегментации слов многоязычного корпуса, чтобы значительно улучшить скорость сжатия для китайцев.
Для области математики мы ссылаемся на схемы в ламе и галактике, разделяя каждую цифру числа отдельно, чтобы избежать проблемы несоответствий в числах, что важно для улучшения математических способностей.
Для редких слов (таких как специальные символы и т. Д.) Поддерживается байтовое кодирование символов UTF-8, поэтому достигается полное покрытие неизвестных слов.
Мы проанализировали коэффициент сжатия различных причастий слов к корпусу, как показано в приведенной ниже таблице, которая показывает, что наше причастие слова значительно лучше, чем модели с открытым исходным кодом, такие как Llama и Falcon, и по сравнению с другими причастиями китайского слова, эффективность обучения и рассуждения выше, чем у других китайских причастие.

Модель	Baichuan-7b	Лама	Сокол	MPT-7B	Чатглм	Мосс-Мун-003
Скорость сжатия	0,737	1.312	1.049	1.206	0,631	0,659
Размер слока	64 000	32 000	65,024	50,254	130,344	106 029

Структура модели

Общая модель основана на стандартной структуре трансформатора, и мы принимаем тот же дизайн модели, что и Llama.

Кодирование положения: ротационное вводное введение-это схема кодирования положения, принятая большинством моделей на этом этапе, с лучшими эффектами эпитаксии. Хотя максимальная длина во время обучения составляет 4096, модель может быть хорошо расширена до 5000 токенов в реальном тестировании, как показано на рисунке ниже:

Активационный слой: Swiglu, Перевозит изменяется в 8/3 раза больше размера скрытого слоя, то есть 11,008
Нормализация слоя: предварительная нормализация на основе RMSnorm

Стабильность обучения и пропускная способность

Мы внесли много модификаций в оригинальной структуре Llama для повышения пропускной способности во время обучения, в том числе:

Технология оптимизации операторов: принять более эффективные операторы, такие как флэш-агитация, RMSnorm Nvidia Apex и т. Д.
Технология сегментации оператора: сегментная часть оператора расчета для снижения пика памяти.
Технология гибридной точности: уменьшает ускорение процесса расчета без потери точности модели.
Технология обучения аварийного восстановления: совместная оптимизация учебной платформы и структуры обучения, IAAS + PaaS реализует местоположение ошибки и восстановление задач.
Технология оптимизации связи, в частности, включая:
1. Алгоритм ансамбля с учетом топологии применяется, чтобы избежать проблем с перегрузкой сети и повышения эффективности связи.
2. Адаптивно устанавливайте размер ведра в соответствии с количеством карт для улучшения использования полосы пропускания.
3. Согласно модельной и кластерной среде, время триггера примитивах связи настроено для перекрытия расчета и связи.

Основываясь на вышеуказанных технологиях оптимизации, мы достигли пропускной способности 7B Model 182 TFLOPS на графической карте Kilocard A800, а пиковая скорость использования вычислительной мощности GPU достигает 58,3%.

Окончательная потеря, как показано ниже:

Метод обучения

Зависимости установки

pip install -r requirements.txt

Подготовьте данные

Пользователь равномерно делит учебный корпус на несколько текстовых файлов UTF-8 в соответствии с множеством общего числа ранга и помещает его в каталог корпуса (по умолчанию data_dir ). Каждый процесс ранга будет читать разные файлы в каталоге корпуса, и после того, как все загружают их в память, он начнет последующий процесс обучения. Приведенное выше - это упрощенный процесс демонстрации.

Загрузите модель Tokenizer

Загрузите Tokenizer Model File Tokenizer.Model и поместите его в каталог проектов.

Настройка DeepSpeed

Этот демонстрационный код обучается с использованием структуры DeepSpeed. Пользователи должны изменить config/hostfile в соответствии с ситуацией кластера. Для получения подробной информации, пожалуйста, обратитесь к официальным инструкциям DeepSpeed.

Провести обучение

 scripts / train . sh

протокол

Использование этого исходного кода репозитория подлежит лицензионному соглашению с открытым исходным кодом Apache 2.0.

Baichuan-7b является коммерчески доступным. Если модель Baichuan-7B или ее производные используются для коммерческих целей, пожалуйста, свяжитесь с лицензиаром следующим образом, чтобы зарегистрироваться и подать заявку на письменное разрешение от лицензиата: Контактная электронная почта: [email protected].

Сторонние ресурсы

Эффективная настройка Llama поддерживает Baichuan-7b для Finetune с использованием Qlora, поддерживает RLHF и поддерживает WebDemo. Смотрите Hiyouga/Baichuan-7b-SFT для использования модели SFT.
Fireballoon/Baichuan-Vicuna-Chinese-7b Используйте ShareGPT, ShareGPT-ZH, Cot & Cot-ZH, LeetCode, фиктивные и другие модели, включающие данные о китайском и английском языке, и обратитесь к FastChat для обучающего кода.
Fireballoon/Baichuan-Vicuna-7B использует ShareGPT, Cot и LeetCode и другие данные для смешивания моделей Finetune, и обратитесь к Fastchat для обучающего кода.
Эффективная настройка-LLMS поддерживает Baichuan-7b для вывода Finetune и 4BT с использованием Qlora.
FASTLLM FASTLLM-это чистая реализация C ++, без сторонних зависимостей, и поддерживает Baichuan-7B для работы на мобильном телефоне.
TheBloke/Baichuan-7b-Gptq 4bit Количественная оценка Baichuan-7b.

Звездная история

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-03-05
размер 940.56KB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01