Скачать character based cnn - Скачать исходный код character based cnn

character based cnn

Другой исходный код

English Model

Скачать

На основе персонажа CNN

Этот репо содержит внедрение Pytorch в сверточной нейронной сети на уровне символов для классификации текста.

Архитектура модели происходит от этой статьи: https://arxiv.org/pdf/1509.01626.pdf

Сетевая архитектура

Есть два варианта: большой и маленький. Вы можете переключаться между ними, изменив файл конфигурации.

Эта архитектура имеет 6 сверточных слоев:

Слой	Большая особенность	Небольшая особенность	Ядро	Бассейн
1	1024	256	7	3
2	1024	256	7	3
3	1024	256	3	N/a
4	1024	256	3	N/a
5	1024	256	3	N/a
6	1024	256	3	3

и 2 полностью подключенных слоя:

Слой	Выходные единицы большие	Выходные блоки маленькие
7	2048	1024
8	2048	1024
9	Зависит от проблемы	Зависит от проблемы

Видеоурок

Если вам интересно, как работает персонаж CNN, а также в демонстрации этого проекта, вы можете проверить мой видеоурок на YouTube.

Почему вы должны заботиться о уровне персонажа CNN

У них очень хорошие свойства:

Они довольно мощные в классификации текста (см. Бесхусл Paper), даже если у них нет представления о семантике
Вам не нужно применять какую -либо предварительную обработку текста (токенизация, лемматизация, вытекание ...), используя их
Они обрабатывают слова с ошибками и токены OOV (вне вокалу
Они быстрее тренируются по сравнению с рецидивирующими нейронными сетями
Они легкие, поскольку они не требуют хранения большой матрицы встраивания слов. Следовательно, вы можете легко развернуть их в производстве

Обучение классификатора настроений по французским отзывам клиентов

Я протестировал эту модель на наборе французских отзывов с маркировкой клиентов (более 3 миллионов строк). Я сообщил о метрик в Tensorboardx.

Я получил следующие результаты

	F1 Оценка	Точность
тренироваться	0,965	0,9366
тест	0,945	0,915

Метрики обучения

Зависимости

Numpy
Панды
Sklearn
Pytorch 0.4.1
Tensorboardx
Tensorflow (чтобы иметь возможность запустить Tensorboardx)

Структура кода

В корне проекта у вас будет:

train.py : используется для обучения модели
Predict.py : используется для тестирования и вывода
config.json : файл конфигурации для хранения параметров модели (количество фильтров, нейронов)
SRC : папка, которая содержит:
- cnn_model.py : фактическая модель CNN (метод инициализации модели и вперед)
- data_loader.py : сценарий, отвечающий за передачу данных в обучение после обработки
- utils.py : набор функций утилиты для предварительной обработки текста (URL/Hashtag/User_mention удаление)

Как использовать код

Обучение

Код в настоящее время работает только на бинарных метках (0/1)

Запустите Train.py со следующими аргументами:

data_path : путь данных. Данные должны быть в формате CSV, по крайней мере, столбцом для текста и столбцом для метки
validation_split : отношение данных проверки. по умолчанию до 0,2
label_column : имя столбца метки
text_column : имя столбца текстов
max_rows : максимальное количество строк для загрузки из набора данных. (Я в основном использую это для тестирования, чтобы идти быстрее)
chunksize : размер кусков при загрузке данных с помощью пандов. по умолчанию до 500000
encoding : по умолчанию UTF-8
steps : Текст предварительной обработки, чтобы включить в текст, подобный хэштегу или удалению URL -адреса
group_labels : Будь то группировать этикетки. По умолчанию никто.
use_sampler : использовать ли взвешенный пробоотборник для преодоления дисбаланса класса
alphabet : по умолчанию в ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789 ,;.!?: '"/ | _@#$%^&*~`+-= <> () [] {} (обычно вы не должны модифицировать его)
number_of_characters : по умолчанию 70
extra_characters : дополнительные символы, которые вы добавили бы в алфавит. Например
max_length : максимальная длина для исправления для всех документов. по умолчанию до 150, но должно быть адаптировано к вашим данным
epochs : количество эпох
batch_size : размер партии, по умолчанию до 128.
optimizer : Адам или SGD, по умолчанию в SGD
learning_rate : по умолчанию до 0,01
class_weights : использовать веса классов в потерь потерь энтропии или нет
focal_loss : использовать или нет
gamma : гамма -параметр потери фокуса. по умолчанию до 2
alpha : альфа -параметр потери фокала. По умолчанию до 0,25
schedule : количество эпох, с помощью которых скорость обучения уменьшается вдвое (планирование скорости обучения работает только для SGD), по умолчанию 3. Установите его на 0, чтобы отключить его
patience : максимальное количество эпох, чтобы ждать без улучшения потери проверки, по умолчанию 3
early_stopping : выбрать, остановите ли рано остановить обучение или нет. по умолчанию в 0. Установите на 1, чтобы включить его.
checkpoint : выбрать, чтобы сохранить модель на диске или нет. по умолчанию в 1, установите на 0, чтобы отключить контрольную точку модели
workers : количество работников в DataLoader Pytorch, по умолчанию до 1
log_path : Путь файла журнала Tensorboard
output : путь папки, где сохраняются модели
model_name : название префикса сохраненных моделей

Пример использования:

python train.py --data_path=/data/tweets.csv --max_rows=200000

Построение результатов на Tensorboardx

Запустите эту команду в корне проекта:

tensorboard --logdir=./logs/ --port=6006

Затем перейдите по адресу: http: // localhost: 6006 (или какой -либо хост, который вы используете)

Прогноз

Запуск прогнозирует.py со следующими аргументами:

model : Путь предварительно обученной модели
text : входной текст
steps : Список шагов предварительной обработки, по умолчанию, чтобы снизить
alphabet : по умолчанию в Abcdefghijklmnopqrstuvwxyz0123456789-,;.!?: '"/| _@#$%^&*~`+-= <> () [] {} n'
number_of_characters : по умолчанию 70
extra_characters : дополнительные символы, которые вы добавили бы в алфавит. Например
max_length : максимальная длина для исправления для всех документов. по умолчанию до 150, но должно быть адаптировано к вашим данным

Пример использования:

python predict.py ./models/pretrained_model.pth --text= " I love pizza ! " --max_length=150

Загрузите предварительные модели

Модель анализа настроений на французских отзывах клиентов (3M документы): Ссылка загрузки
При использовании:
- Установите max_length на 300
- Используйте extra_characters = "ééèâââêéûççëü" (Акцентированные буквы)

Взносы - PR приветствуются:

Вот неэкгартный список потенциальных будущих функций для добавления:

Адаптировать потерю для многоклассовой классификации
Метрики обучения и проверки журнала для каждой эпохи в текстовый файл
Предоставьте учебные пособия по ноутбуке

Лицензия

Этот проект лицензирован по лицензии MIT

Расширять

Дополнительная информация

Версия English Model
Тип Другой исходный код
Время обновления 2025-04-18
размер 213.92KB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

2024-11-04
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Retrieval based Voice Conversion WebUI

2024-11-01
Иди изо всех сил - персонаж Зорро

2022-08-20

character based cnn

На основе персонажа CNN

Видеоурок

Почему вы должны заботиться о уровне персонажа CNN

Обучение классификатора настроений по французским отзывам клиентов

Зависимости

Структура кода

Как использовать код

Обучение

Построение результатов на Tensorboardx

Прогноз

Загрузите предварительные модели

Взносы - PR приветствуются:

Лицензия

GitHub sgrebnov/cordova plugin background download

Enhanced Blockchain Based Decentralized Public Auditing for Cloud Storage

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

Иди изо всех сил - персонаж Зорро

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express