НЛП редко
Введение: Этот проект представляет собой исследовательские заметки и материалы, подготовленные с помощью интервью по обработке естественного языка (NLP) на основе личных интервью и опыта. Этот материал в настоящее время содержит накопление вопросов интервью в различных областях обработки естественного языка.

> Группа NLP Interview and Exchange (примечание: если вы заполнены, вы можете добавить редактор WX: yzyykm666, чтобы присоединиться к группе!)

4. Общие интервью для алгоритмов обучения НЛП
4.1 Общие интервью для извлечения информации
4.1.1 Общие интервью для признания именования организации
- Скрытый алгоритм Маркова HMM Общие интервью
- 1. Введение в основную информацию
- 1.1 Что такое модель графика вероятности?
- 1.2 Что такое случайный аэропорт?
- 2. Введение в процесс Маркова
- 2.1 Что такое процесс Маркова?
- 2.2 Какова основная идея процесса Маркова?
- Iii. Скрытый алгоритм Маркова
- 3.1 Введение в алгоритм скрытого Маркова
- 3.1.1 Что такое алгоритм скрытого Маркова?
- 3.1.2 Каковы две последовательности в скрытом алгоритме Маркова?
- 3.1.3 Каковы три матрицы в скрытом алгоритме Маркова?
- 3.1.4 Каковы два предположения в скрытом алгоритме Маркова?
- 3.1.5 Что такое рабочий процесс в скрытом алгоритме Маркова?
- 3.2 Процесс вычисления модели алгоритма скрытого марковского марковского
- 3.2.1 Каков обучающий процесс обучения Adden Markov Algorithm?
- 3.2.2 Что такое процесс аннотации последовательности (декодирование) алгоритма скрытого Маркова?
- 3.2.3 Каков процесс вероятности последовательности алгоритма скрытого Маркова?
- 3.3 Скрытая проблема алгоритма Маркова
Нажмите, чтобы просмотреть ответ
- Максимальная энтропия Markov Model Memm Общие интервью
- 4. Максимальная энтропия модель Маркова (MEMM)
- 4.1 Мотивация максимальной энтропии марковской модели (MEMM)
- 4.1.1 Каковы проблемы с хмм?
- 4.2 Введение в модель максимальной энтропии Маркова (MEMM)
- 4.2.1 Как выглядит максимальная энтропия модель Маркова (MEMM)?
- 4.2.2 Максимальная энтропия Markov Model (MEMM) Как решить проблему HMM?
- 4.3 Максимальная энтропия модели марковской модели (MEMM)
Нажмите, чтобы просмотреть ответ
- Условные случайные аэропорты (CRF) общие интервью
- 5. Условное случайное поле (CRF)
- 5.1 CRF мотив
- 5.1.1 Каковы проблемы с HMM и MEMM?
- 5.2 CRF Введение
- 5.2.1 Что такое CRF?
- 5.2.2 Какова основная идея CRF?
- 5.2.3 Что такое определение CRF?
- 5.2.4 Что такое процесс CRF?
- 5.3 CRF Pros and Cons
- 5.3.1 Каковы преимущества CRF?
- 5.3.2 Каковы недостатки CRF?
- 5.4 CRF -репродукция?
- 6. Сравнение
- 6.1 В чем разница между моделью CRF и моделью HMM и MEMM?
Нажмите, чтобы просмотреть ответ
- DNN-CRF Общие интервью
- 1. Основная информация
- 1.1 Каковы индикаторы оценки для признания именования сущностей?
- 2. Традиционный метод распознавания сущностей именования
- 2.1 Каков метод распознавания сущности, основанный на правилах?
- 2.2 Какой метод распознавания объектов именования основан на неконтролируемом обучении?
- 2.3 Каков метод распознавания именованных объектов, основанный на основанных на функциях, контролируемой обучении?
- 3. Метод распознавания сущностей на основе глубокого обучения
- 3.1 Каковы преимущества именованных методов распознавания организации, основанные на глубоком обучении по сравнению с названными методами распознавания сущности, основанных на машинном обучении?
- 3.2 Какова структура именованного метода распознавания сущности, основанная на глубоком обучении?
- 3.3 Что такое распределенный входной слой и каковы методы?
- 3.4 Текстовый энкодер
- 3.4.1 Bilstm-CRF
- 3.4.1.1 Что такое Bilstm-CRF?
- 3.4.1.2 Зачем использовать Bilstm?
- 3.4.2 idcnn-crf
- 3.4.2.1 Что такое расширенный CNN?
- 3.4.2.2 Почему существует расширенная CNN?
- 3.4.2.3 Каковы преимущества расширенного CNN?
- 3.4.2.4 Введение в IDCNN-CRF
- 3.5 Tag Декодер
- 3.5.1 Что такое декодер с меткой?
- 3.5.2 Введение в слой MLP+SoftMax?
- 3.5.3 ВВЕДЕНИЕ В СОСТОЯННОЕ СЛОВОЕ СЛОВОЕ ПОЛЕЙСКОЙ КРД -КРФ?
- 3.5.4 Введение в уровень RNN повторяющейся нейронной сети?
- 3.5.3 ВВЕДЕНИЕ В СЕТЕЛЕВ СЕТИ?
- 4. Сравнение
- 4.1 CNN-CRF против BILSTM-CRF против IDCNN-CRF?
- 4.2 Зачем DNN нужно добавить CRF?
- 4.3 CRF в TensorFlow против CRF в дискретном инструментарии?
Нажмите, чтобы просмотреть ответ
- Китайские полевые общие интервью
- 1. Мотив
- 1.1 В чем разница между признанием китайской именной организации и признанием английского языка, названным организацией?
- 2. Улучшение словарного запаса
- 2.1 Что такое словарный запас?
- 2.2 Почему метод «Улучшение словарного запаса» эффективен для китайских задач NER?
- 2.3 Каковы методы улучшения словарного запаса?
- 2.4 Динамическая архитектура
- 2.4.1 Что такое динамическая архитектура?
- 2.4.2 Каковы общие методы?
- 2.4.3 Что такое решетчатая LSTM и каковы проблемы?
- 2.4.4 Что такое плоское и каковы проблемы?
- 2.5 Адаптивная парадигма адаптивного встраивания
- 2.5.1 Что такое адаптивная парадигма встраивания?
- 2.5.2 Каковы общие методы?
- 2.5.3 Что такое WC-LSTM и каковы проблемы?
- 3. Улучшение информации о типе словарного запаса/объекта
- 3.1 Что такое улучшение информации о словарном/типе объекта?
- 3.2 Почему метод «Усовершенствование информации о типе словаря/объекта» эффективен для китайских задач NER?
- 3.3 Каковы методы улучшения информации о словаре/типа объекта?
- 3.4 Что такое Лекс-Берт?
Нажмите, чтобы просмотреть ответ
- Названный трюк по признанию сущности общие интервью
- Хитрость 1: Сопоставление доменного словаря
- Хитрость 2: Извлечение правил
- Хитрость 3: Вектор слов: вектор слов или вектор слов?
- Хитрость 4: Как выбрать экстрактор функции?
- Хитрость 5: Как справиться с выдающимся именем?
- Хитрость 6: Как справиться с недостаточными данными маркировки?
- Хитрость 7: Как иметь дело с признанием вложенного названного организации
- 7.1 Что такое гнездование сущностей?
- 7.2 Различия от традиционных заданий по признанию сущности
- 7.3 Решение:
- 7.3.1 Метод 1: аннотация последовательности
- 7.3.2 Метод 2: Аннотация указателя
- 7.3.3 Метод 3: Аннотация длинного заголовка
- 7.3.4 Метод 4: Расположение фрагментов
- Хитрон 8: Почему метод «улучшения словарного запаса» эффективен для китайских задач NER?
- Хитрость 9: Что мне делать, если промежуток сущностей слишком длинный?
- Трюк 10: NER Маркировка данных о шуме?
- Трюк 11: Учитывая две названные задачи распознавания сущности, одна задача имеет достаточно данных, а другая имеет очень мало данных. Что я могу сделать?
- Хитрость 12: Проблема дисбаланса данных маркировки NER?
Нажмите, чтобы просмотреть ответ
4.1.2 Общие интервью для рисования отношений
- Отношение отношений с общими интервью
- 1. Мотив
- 1.1 Что такое извлечение отношений?
- 1.2 Каковы методы извлечения отношений?
- 1.3 Как выполняются обычные процессы извлечения отношений?
- 2. Классическая извлечение отношений
- 2.1 Что ссылается метод соответствия шаблона? Каковы плюсы и минусы?
- 2.2 Что относится к извлечению отношений с дистанционным наблюдением? Каковы его плюсы и минусы?
- 2.3 Что такое отношения перекрывается? Сложные проблемы отношений?
- 2.4 Что такое совместная добыча? Каковы трудности?
- 2.5 Каковы общие методы совместной экстракции? Каковы их недостатки?
- 2.6 Введение в метод совместной извлечения на основе общих параметров?
- 2.7 Введение в совместное декодирование на основе совместного декодирования?
- 2.8 Каковы передовые технологии и проблемы при извлечении отношений организации? Как решить извлечение отношений сущности в рамках низких ресурсов и сложных образцов?
- 3. Извлечение отношений на уровне документа
- 3.1 В чем разница между извлечением отношений на уровне документа и извлечением классических отношений?
- 3.2 Какие проблемы сталкиваются при извлечении отношений на уровне документов?
- 3.3 Каковы методы извлечения отношений на уровне документов?
- 3.3.1 Как делается извлечение отношений с документами на основе BERT-подобной?
- 3.3.2 Как выполняется извлечение отношений с графическими документами?
- 3.4 Каковы общие наборы данных для извлечения отношений на уровне документов и их методов оценки?
Нажмите, чтобы просмотреть ответ
4.1.3 Извлечение событий общие интервью
- Обработанное мероприятие общие интервью
- 1. Принципы
- 1.1 Что такое событие?
- 1.2 Что такое извлечение событий?
- 1.3 Каковы основные термины и задачи, связанные с извлечением событий в оценке ACE?
- 1.4 Как развивается извлечение событий?
- 1.5 Каковы проблемы с извлечением событий?
- 2. Основные задачи
- 2.1 Обнаружение слов запускает
- 2.1.1 Что такое обнаружение Trigger Word?
- 2.1.2 Каковы методы обнаружения слов триггера?
- 2.2 Тип идентификация
- 2.2.1 Что такое распознавание типа?
- 2.2.2 Каковы методы идентификации типа?
- 2.3 распознавание ролей
- 2.3.1 Что такое распознавание ролей?
- 2.3.2 Каковы методы распознавания ролей?
- 2.4 Обнаружение аргументов
- 2.4.1 Что такое обнаружение аргументов?
- 2.4.2 Каковы методы обнаружения аргументов?
- 3. Общие методы
- 3.1 Как использовать метод сопоставления шаблонов при извлечении событий?
- 3.2 Как используются методы статистического машинного обучения при извлечении событий?
- 3.3 Как методы глубокого обучения используются при извлечении событий?
- IV Наборы данных и показатели оценки
- 4.1 Каковы общие наборы данных английского при извлечении событий?
- 4.2 Каковы наборы данных общих китайских данных при извлечении событий?
- 4.3 Каковы показатели оценки для извлечения событий? Как это рассчитать?
- 5. Сравнение
- 5.1 Каковы сходства и различия между извлечением событий и признанием названного объекта (то есть извлечение сущности)?
- 5.2 Каковы сходства и различия между экстракцией событий и извлечением отношений?
- 5.3 Что такое карта факта? Каковы типы отношений событий? Как построить рациональную карту? Каковы основные технические области и текущие горячие точки разработки?
- 6. Приложение
- 7. Расширение
- 7.1 Сводка документов по извлечению событий
- 7.2 FAQ извлечения событий
4.2 Общие интервью для алгоритмов предварительного обучения НЛП
- 【О TF-IDF】 Вещи, которые вы не знаете
- 1. ОДИН-HOT
- 1.1 Почему есть один высокий?
- 1.2 Что такое очень высокий?
- 1.3 Каковы характеристики однопольного?
- 1.4 Каковы проблемы с одного высоким?
- 2. TF-IDF
- 2.1 Что такое TF-IDF?
- 2.2 Как TF-IDF оценивает важность слов?
- 2.3 Что такое идея TF-IDF?
- 2.4 Какова формула расчета для TF-IDF?
- 2.5 Как описать TF-IDF?
- 2.6 Каковы преимущества TF-IDF?
- 2.7 Каковы недостатки TF-IDF?
- 2.8 Применение TF-IDF?
Нажмите, чтобы просмотреть ответ
- 【О Word2Vec】 Вещи, которые вы не знаете
- 1. Введение в WordVec
- 1.1 Что означает WordVec?
- 1.2 Что означает Cbow в WordVec?
- 1.3 Что означает Skip-Gram в WordVec?
- 1.4 Какой из них лучше для Cbow vs Skip-Gram?
- 2. Статья оптимизации WordVEC
- 2.1 Что такое дерево Хоффмана в Word2VEC?
- 2.2 Почему вам нужно использовать Hoffman Tree в Word2VEC?
- 2.3 Каковы преимущества использования деревьев Хоффмана в Word2VEC?
- 2.4 Почему отрицательная выборка используется в Word2VEC?
- 2.5 Каким отрицательным отбором выборки в Word2VEC?
- 2.6 Каков метод отбора проб отрицательного отбора проб в Word2VEC?
- 3. Сравнение WordVec
- 3.1 В чем разница между Word2VEC и NNLM? (Word2VEC против NNLM)
- 3.2 В чем разница между Word2VEC и TF-IDF в расчете сходства?
- 4. Word2VEC Практическая глава
- 4.1 Word2VEC Training Trick, насколько велика настройка окна?
- 4.1 Word2VEC Training Trick, Word Vector Latitude, каковы эффекты больших и малых и других параметров?
Нажмите, чтобы просмотреть ответ
- 【О FastText】 Вещи, которые вы не знаете
- 1. Мотивация быстрого текста
- 1.1 Что такое модель на уровне слов?
- 1.2 Каковы проблемы с моделью уровня слов?
- 1.3 Что такое модель на уровне персонажа?
- 1.4 Преимущества модели на уровне символов?
- 1.5 Есть ли проблема с моделью на уровне символов?
- 1.6 Решение проблемы модели на уровне символов?
- 2. Введение в информацию о n-грамме в словах (подвод N-грамма Информация)
- 2.1 Введение
- 2.2 Что такое быстрый текст?
- 2.3 Какова структура быстрого текста?
- 2.4 Почему FastText использует информацию о n-грамме в Word (Подвод N-грамма Информация)?
- 2.5 Введение в информацию о n-грамме в FastText Word (Подвод N-грамма Информация)?
- 2.6 Процесс обучения информации N-грамма в FastText Word?
- 2.7 Есть ли какие-либо проблемы с информацией N-грамма в FastText Word?
- 3. Введение в иерархическую регрессию Softmax (иерархический Softmax)
- 3.1 Зачем использовать иерархическую регрессию Softmax?
- 3.2 Какова идея иерархической регрессии Softmax?
- 3.3 Каковы шаги к иерархической регрессии Softmax?
- 4. Есть ли проблемы с Fastext?
Нажмите, чтобы просмотреть ответ
- 【О Elmo】 Вещи, которые вы не знаете
- 1. Эльмо мотивация
- 2. Elmo ВВЕДЕНИЕ
- 2.1 Каковы особенности Elmo?
- 2.2 Что думает Элмо?
- 3. Elmo Вопросы
- 3.1 Каковы проблемы с Elmo?
Нажмите, чтобы просмотреть ответ
4.3 Берт общие интервью
- Берт общие интервью
- 1. Мотив
- 1.1.
- 1.2 [История эволюции] Есть проблема с WordVec?
- 1.3 [История эволюции] Есть ли какие -то проблемы с Fastext?
- 1.4 [История эволюции] Есть ли проблемы с Элмо?
- 2. Берт
- 2.1 Берт Введение
- 2.1.1 【Берт】 Что такое Берт?
- 2.1.2 【Берт】 Берт Три ключевых момента?
- 2.2 BERT входной и выходной характеристики
- 2.2.1 [BERT] Как выглядит входная и выходная характеристика BERT?
- 2.3 【Bert】 Bert Pre Training
- 2.3.1 【Берт】 Берт-задачи предварительного обучения введение
- 2.3.2 【Берт】 Берт предварительно тренировочный задача маскированная глава LM
- 2.3.2.1 【Берт】 Зачем Берту нужны задачи перед тренировкой маскированы LM?
- 2.3.2.2 【БЕРТ】 Как выполнить задачу предварительного обучения BERT Masked LM?
- 2.3.2.3 【Берт】 Есть ли какие-либо проблемы с задачей предварительной тренировки маскировки LM?
- 2.3.2.4 【BERT】 Решение о несоответствии между предварительным тренировком и тонкой настройкой?
- 2.3.3 【Берт】 Берт-задача предварительного обучения. Следующее прогноз предложения
- 2.3.3.1 [Берт] Почему Берту нужны задачи предварительного обучения в следующем прогнозировании?
- 2.3.3.2 【Bert】 Как сделать прогноз следующего предложения в задаче предварительного обучения BERT?
- 2.4 【Bert】 Прекрасная статья?
- 2.4.1 【Берт】 Зачем Берту необходимо точное поворот?
- 2.4.2 【Берт】 Как тонкий развод в Берте?
- 2.5 【Функции потери Bert】 Bert?
- 2.5.1 [BERT] Какова функция потерь, соответствующая двум задачам предварительного обучения BERT (выражено в форме формулы)?
- 3. Сравнение?
- 3.1 [Contrast] В чем проблема полисинтетики?
- 3.2 [Сравнение] Почему Word2VEC не может решить проблему полисинонимов?
- 3.3 [Сравнение] В чем разница между GPT и Bert?
- 3.4 (Возьмите Elmo в качестве примера)
Нажмите, чтобы просмотреть ответ
- 【Об анализе исходного кода BERT I Основное тело] вещи, которые вы не знаете
- 【Об анализе исходного кода BERT II Глава предварительного обучения】 вещи, которые вы не знаете
- 【Об анализе исходного кода BERT III Глава тонкой настройки】 Вещи, которые вы не знаете
- [О анализе исходного кода BERT IV.
- [О анализе исходного кода BERT v Глава сходства текста] вещи, которые вы не знаете
4.3.1 Общие интервью для сжатия модели BERT
- Bert Model Compression Общее интервью
- 1. Мотивация сжатия модели BERT
- 2. Таблица сравнения сжатия модели BERT модели
- 3. Введение в метод сжатия модели BERT
- 3.1 Факторизация с низким рейтингом и совместное использование параметров метода сжатия модели BERT
- 3.1.1 Что такое факторизация с низким уровнем ранга?
- 3.1.2 Что такое межслойный обмен параметрами?
- 3.1.3 Метод, используемый Альбертом?
- 3.2 Метод сжатия модели BERT дистилляция дистилляции
- 3.2.1 Что такое дистилляция?
- 3.2.2 Какие бумаги используют модель дистилляции? Позвольте мне представить это кратко?
- 3.3 Количественная оценка метода сжатия модели BERT
- 3.3.1 Что такое количественная оценка?
- 3.3.2 Q-BERT: ультра низкая точная точность квантизация количественной оценки 【【】】】】 【【
- 3.4 Обрезка метода сжатия модели BERT
- 4. Есть ли проблемы с сжатием модели?
Нажмите, чтобы просмотреть ответ
4.3.2 Общие интервью для серии моделей Bert
- Вы знаете Xlnet? Вы можете сказать мне? В чем разница между Бертом?
- Вы знаете Роберту? Вы можете сказать мне? В чем разница между Бертом?
- Вы знаете Spanbert? Вы можете сказать мне? В чем разница между Бертом?
- Вы знаете массу? Вы можете сказать мне? В чем разница между Бертом?
Нажмите, чтобы просмотреть ответ
4.4 Общие интервью для классификации текста
- Общие интервью для классификации текста
- 1. Абстрактные предложения
- 1.1 Каковы категории задач классификации? Каковы их характеристики?
- 1.2 Каковы различия между задачами классификации текста по сравнению с задачами классификации в других областях?
- 1.3 В чем разница между задачами классификации текста и другими задачами в текстовом поле?
- 1.4 Процесс классификации текста?
- 2. Предварительная обработка данных
- 2.1 Каковы методы предварительной обработки данных для задач классификации текста?
- 2.2 Какое слово причастие и инструменты вы использовали?
- 2.3 Как принять участие в китайских текстах?
- 2.4 Каков принцип метода сегментации слов, основанный на сопоставлении строк?
- 2.5 Как применяются статистические языковые модели к причастию слова? N-грамм максимальная вероятность причастия?
- 2.6 Какой метод сегментации слова основан на аннотации последовательности?
- 2.7 Что такое аннотация части речи, основанную на (BI-) LSTM?
- 2.8 В чем разница между извлечением ствола и восстановлением формы слова?
- 3. Извлечение функции
- 3.1 (конкретный) Какие характеристики можно использовать в задаче классификации текста?
- 3.2 (для западных текстов) В чем разница между использованием слов и использованием букв в качестве характеристик?
- 3.3 Можете ли вы кратко представить модель пакета слов?
- 3.4 N-грамм
- 3.4.1 Что такое синтаксис N-Method? Зачем использовать N-грамм?
- 3.4.2 Каковы ограничения алгоритма N-грамма?
- 3.5 Тематическое моделирование
- 3.5.1 Введение в задачу моделирования темы?
- 3.5.2 Общие методы моделирования темы
- 3.5.3 Что делает алгоритм TF-IDF? Краткое введение в алгоритм TF-IDF
- 3.5.4 Что означает TF-IDF высокий?
- 3.5.5 недостатки TF-IDF
- 3.6 Сходство текста
- 3.6.1 Как рассчитать расстояние между двумя абзацами текста?
- 3.6.2 Что такое дистанция Jaccard?
- 3.6.3 В чем разница между коэффициентом костей и коэффициентом Jaccard?
- 3.6.4 То же самое расстояние редактирования, в чем разница между расстоянием Левиништейна и расстоянием хамминга?
- 3.6.5 Напишите вопрос о программировании о расчете расстояния редактирования (расстояние Lewinstein)?
- 4. Модель
- 4.1 FASTEXT
- 4.1.1 Процесс классификации быстрого текста?
- 4.1.2 Каковы преимущества быстрого текста?
- 4.2 TextCnn
- 4.2.1 Процесс TextCnn, выполняющий текстовую классификацию?
- 4.2.2 Какие параметры могут настроить TextCnn?
- 4.2.3 При использовании CNN в качестве текстового классификатора, какая информация различные каналы соответствуют тексту?
- 4.2.4 Что представляют длина и ширина ядра свертки в TextCnn?
- 4.2.5 В чем разница между операциями объединения в TextCnn и операциями объединения в общем CNN?
- 4.2.6 Ограничения TextCnn?
- 4.3 dpcnn
- 4.3.1 Как решить задачу классификации длинной текста?
- 4.3.2 Кратко ввести улучшения модели DPCNN по сравнению с TextCnn?
- 4.4 Textrcnn
- 4.4.1 Кратко представить улучшения Textrcnn по сравнению с TextCnn?
- 4.5 rnn+внимание
- 4.5.1 Идея RNN+внимания к задачам классификации текста, и почему необходимо добавить механизм внимания/внимания?
- 4.6 Нейронная сеть GNN Graph
- 4.6.1 Как применяется нейронная сеть GNN Graph для классификации текста?
- 4.7 Трансформатор
- 4.7.1 Как применить предварительно обученные модели на основе трансформатора в поле текстовой классификации?
- 4.8 Предварительно обученная модель
- 4.8.1 Какие предварительно обученные модели вы знаете? Каковы их характеристики?
- V. Функция потери
- 5.1 Функция активации сигмоида
- 5.1.1 Введение в функцию активации Sigmoid, используемый для проблем бинарной классификации?
- 5.1.2 Каковы недостатки Сигмода?
- 5.2 Функция активации Softmax
- 5.2.1 Что такое функция Softmax?
- 5.2.2 Как найти производную функции Softmax?
- 5.3 Какие еще функции потерь используются для задач классификации?
- 6. Оценка модели и сравнение алгоритмов
- 6.1 Какие алгоритмы оценки и индикаторы используются в задачах классификации текста?
- 6.2 Краткое введение в матрицу путаницы и каппа?
Нажмите, чтобы просмотреть ответ
- Текст классификации текстовой классификации общие интервью
- 1. Как предварительно обрабатывать данные классификации текста?
- 2. Как выбрать предварительную модель Text Classification, предварительно обученную?
- 3. Как оптимизировать параметры классификации текста?
- 4. Каковы сложные задачи классификации текста?
- 5. Строительство системы маркировки классификации текста?
- 6. Стратегия создания текстовой классификации?
Нажмите, чтобы просмотреть ответ
- Используйте методы поиска для проведения общих интервью для классификации текста
- Зачем нам использовать поиск для классификации текста?
- Какова идея классификации текста на основе методов поиска?
- Как построить библиотеку отзыва для извлеченного метода?
- Как сделать стадию обучения метода поиска?
- Как сделать этап прогнозирования метода поиска?
- Каковы применимые сценарии для классификации текста с использованием методов поиска?
Нажмите, чтобы просмотреть ответ
4.5 Общие интервью для сопоставления текста
- Модель совпадения текста ESIM Общие интервью
- Зачем вам ESIM?
- Как насчет представления модели ESIM?
Нажмите, чтобы просмотреть ответ
- Общие интервью для Берта в сходных задачах сходства
- 1. Задача классификации пары предложений: используйте CLS
- 2. Сходство косинуса
- 3. Разница между длинными и короткими текстами
- 4. предложение/встроение слова
- 5. Сиамский сетевой метод
Нажмите, чтобы просмотреть ответ
4.6 Общие интервью для системы вопросов и ответов
4.6.1 Общие интервью для системой вопросов и ответов на основе часто задаваемых вопросов, основанных на FAQ
- 1. Мотивация
- 1.1 Мотивация системы Q & A?
- 1.2 Что такое система Q & A?
- 2. Введение в систему Q & A на основе данных FAQ
- 2.1 Какова система вопросов и ответов, основанная на FAQ?
- 2.2 Какова ядро стандартного QA соответствующего запроса?
- 3. Решение системных вопросов и ответов на основе часто задаваемых вопросов.
- 3.1 Каковы обычно используемые решения?
- 3.2 Почему сопоставление QQ чаще используется?
- 3.2.1 Каковы преимущества сопоставления QQ?
- 3.2.2 Что такое семантическое пространство для соответствия QQ?
- 3.2.3 Какова стабильность корпуса соответствия QQ?
- 3.2.4 Какова развязка ответов на бизнес и алгоритм соответствующих ответов и алгоритм?
- 3.2.5 Каковы обнаружение и дедупликация новых проблем сопоставления QQ?
- 3.2.6 Какова онлайн -скорость бега QQ?
- 3.3 Каков общий процесс обработки для сопоставления QQ? [Предполагая, что стандартный банк проблем был обработан]
- 4. Строительство стандартного банка задач.
- 4.1 Как найти стандартные проблемы в FAQ?
- 4.2 Как разделить часто задаваемые вопросы?
- 4.3 Как слияние FAQ?
- 4.4 Как обновить стандартную библиотеку FAQ в режиме реального времени?
- 5. FAQ Стандартный вопрос Банк Оптимизация ответа Оптимизация
- 5.1 Как оптимизировать ответы на стандартный банк часто задаваемых вопросов?
Нажмите, чтобы просмотреть ответ
4.6.2 Инструменты для вопросов и ответов общие интервью
- FAISS COMMENT Интервью
- 1. Мотив
- 1.1 Каковы проблемы с традиционными алгоритмами сходства?
- 2. Введение
- 2.1 Что такое Файс?
- 2.2 Как использовать Faiss?
- 2.3 Принцип FAISS и основной алгоритм
- 3. Практическая глава Faiss
- 3.1 Как установить Faiss?
- 3.2 Каковы индексы индексов FAISS?
- 3.3 Как использовать индекс индекса FAISS?
- 3.3.1 Подготовка данных
- 3.3.2 Насильственная эстетика Indexflatl2
- 3.3.3 Флэш -индексисфлат
- 3.3.4 Memory Manager Indexivfpq
- 3.4 Faiss затем использовать графический процессор?
- 4. Сравнение Файс
- 4.1 Какой из них лучше, Sklearn Cosine_similality или Faiss
4.7 Общие интервью для системы диалога
- Общие интервью для системы диалога
- 1. Введение в систему диалога
- 1.1 Каковы системы диалога?
- 1.2 Каковы различия между этими системами диалога?
- 2. Введение в систему многоуровневого диалога
- 2.1 Зачем использовать многоуровневую систему диалога?
- 2.2 Каковы общие системы многоуровневого диалога?
- 3. Введение в систему диалога на основе задач
- 3.1 Что такое система диалога на основе задач?
- 3.2 Каков процесс системы диалога на основе задач?
- 3.3 Понимание языка системы на основе задач (SLU)
- 3.3.1 Что такое языковое понимание (SLU)?
- 3.3.2 Каковы ввод и вывод языкового понимания (SLU)?
- 3.3.3 Какие методы используются в понимании языка (SLU)?
- 3.4 Система диалога на основе задач DST (отслеживание статуса диалога)
- 3.4.1 Что такое DST (отслеживание статуса диалога)?
- 3.4.2 Каковы ввод и вывод DST (отслеживание состояния диалога)?
- 3.4.3 У DST (отслеживание статуса диалога) проблемы и решения?
- 3.4.4 Каков метод реализации DST (отслеживание статуса диалога)?
- 3.5 DPO (Learning Learning стратегии диалога) системы диалога на основе задач
- 3.5.1 Что такое DPO (обучение стратегии диалога)?
- 3.5.2 Каковы входные и вывод DPO (Learning Learning Dialoge)?
- 3.5.3 Каков метод реализации DPO (обучение стратегии диалога)?
- 3.6 NLG (генерация естественного языка), основанная на задачах, система диалога
- 3.6.1 Что такое NLG (генерация естественного языка)?
- 3.6.2 Каковы входные и выходные данные NLG (генерация естественного языка)?
- 3.6.3. Реализация ли NLG (генерация естественного языка)?
Нажмите, чтобы просмотреть ответ
4.8 Общие интервью для графиков знаний
4.8.1 Общие интервью для графиков знаний
- 1. Введение в график знаний
- 1.1 Введение
- 1.2 Что такое график знаний?
- 1.2.1 Что такое график?
- 1.2.2 Что такое схема?
- 1.3 Каковы категории графиков знаний?
- 1.4 Какова ценность графика знаний?
- 2. Как построить график знаний?
- 2.1 Откуда берутся данные с графа знаний?
- 2.2 Каковы трудности в извлечении информации?
- 2.3 Технологии, связанные с построением графа знаний?
- 2.4. Какова конкретная технология для создания графа знаний?
- 2.4.1 названное признание организации
- 2.4.2 Извлечение отношений
- 2.4.3 Резолюция сущности
- 2.4.4 относится к устранению неоднозначности
- 3. Как хранить графики знаний?
- 4. Что может сделать график знаний?
Нажмите, чтобы просмотреть ответ
4.8.2 Общие интервью
- 1. Методы, основанные на словаре и правилах
- Реализовать KBQA на основе словаря и правил?
- Реализация процесса KBQA на основе словаря и правил?
- 2. Методы на основе извлечения информации
- Реализовать процесс KBQA на основе извлечения информации?
Нажмите, чтобы просмотреть ответ
4.8.3 NEO4J общие интервью
- 1. Neo4j введение и установка
- 1.1 Введение
- 1.2 Как скачать NEO4J?
- 1.3 Как установить NEO4J?
- 1.4 Введение в веб -интерфейс NEO4J
- 1.5 Что такое язык запросов Cypher?
- 2. NEO4J добавление, удаление, поиск и модификация
- 2.1 Введение
- 2.2 Как создать узел в NEO4J?
- 2.3 Как создать отношения в NEO4J?
- 2.4 Как создать отношения с местом рождения в NEO4J?
- 2.5 Как запросить neo4j?
- 2.6 Как удалить и изменить NEO4J?
- 3. Как использовать Python для управления базой данных Graph NEO4J?
- 3.1 Модуль NEO4J: каково выполнение оператора CQL (CYPHER)?
- 3.2 Что такое модуль Py2neo?
- 4. Импорт данных база данных диаграмм NEO4J
Нажмите, чтобы просмотреть ответ
4.9 Текстовые резюме общие интервью
- 1. Мотив
- 1.1 Что такое текстовое резюме?
- 1.2 Каковы типы текстовых методов сводных технологий?
- 2. Сводка извлечения
- 2.1 Как сделать решающее резюме?
- 2.1.1 Каковы алгоритмы оценки важности предложения?
- 2.1.2 Каковы методы резюме на основе ограничений?
- 2.1.3 Как извлекает алгоритм TextTeaser?
- 2.1.4 Как экстракт алгоритма Textrank извлекает резюме?
- 2.2 Какова проблема читабельности извлеченного резюме?
- 3. Сжатое резюме
- 3.1 Как сделать сжатое резюме?
- 4. Генеративное резюме
- 4.1 Как сделать генеративное резюме?
- 4.2 Каковы проблемы с генеративным резюме?
- 4.3 Какие проблемы решают сеть Повествования-Генератора?
- V. Метод абстрактной оценки качества
- 5.1 Каковы типы методов абстрактного качества?
- 5.2 Что такое Rouge?
- 5.3 Какова разница между несколькими индикаторами Rouge?
- 5.4 В чем разница между Bleu и Rouge?
Нажмите, чтобы просмотреть ответ
4.10 Статья по исправлению текстовой ошибки
- 1. Введение
- 1.1 Что такое исправление ошибок текста?
- 1.2 Общие типы ошибок текста?
- 1.3 Общие методы коррекции ошибок текста?
- 2. Введение в метод трубопровода
- Как реализовать обнаружение ошибок в трубопроводе?
- Как внедрить отзыв кандидатов в трубопроводе?
- Как реализовать сортировку исправления ошибок в трубопроводе?
- Как реализовать оптимизацию ASR Echo в трубопроводе?
Нажмите, чтобы просмотреть ответ
4.11 Текстовое резюме общие интервью
- 1. Мотив
- 1.1 Что такое текстовое резюме?
- 1.2 Каковы типы текстовых методов сводных технологий?
- 2. Сводка извлечения
- 2.1 Как сделать решающее резюме?
- 2.1.1 Каковы алгоритмы оценки важности предложения?
- 2.1.2 Каковы методы резюме на основе ограничений?
- 2.1.3 Как извлекает алгоритм TextTeaser?
- 2.1.4 Как экстракт алгоритма Textrank извлекает резюме?
- 2.2 Какова проблема читабельности извлеченного резюме?
- 3. Сжатое резюме
- 3.1 Как сделать сжатое резюме?
- 4. Генеративное резюме
- 4.1 Как сделать генеративное резюме?
- 4.2 Каковы проблемы с генеративным резюме?
- 4.3 Какие проблемы решают сеть Повествования-Генератора?
- V. Метод абстрактной оценки качества
- 5.1 Каковы типы методов абстрактного качества?
- 5.2 Что такое Rouge?
- 5.3 Какова разница между несколькими индикаторами Rouge?
- 5.4 В чем разница между Bleu и Rouge?
Нажмите, чтобы просмотреть ответ
4.12 Общие интервью для генерации текста
- Общие интервью для методов декодирования для создания моделей
- Что такое генеративная модель?
- Каковы методы декодирования на основе поиска?
- Каковы методы декодирования на основе отбора проб?
Нажмите, чтобы просмотреть ответ
3. Алгоритм глубокого обучения общее интервью
- CNN Общие интервью
- 1. Мотив
- 2. CNN сверточный слой
- 2.1 Какова суть сверточного слоя?
- 2.2 Какова связь между сверточным слоем CNN и полностью подключенным слоем?
- 2.3 Что означает канал?
- 3. CNN Pooling Layer
- 3.1 Какой слой объединения для региона?
- 3.2 Каковы типы слоев объединения?
- 3.3 Какова функция слоя объединения?
- 3.4 Что такое обратное распространение в слое объединения?
- 3.5 Что такое подлый объединение обратного процесса?
- 3.6 Каким образом похожа обратный процесс объединения слоя?
- 4. CNN в целом
- 4.1 Что такое процесс CNN?
- 4.2 Каковы характеристики CNN?
- 4.3 Почему сверточная нейронная сеть имеет трансляционную инвариантность?
- 4.4 Как IM2COL реализуется в сверточной нейронной сети?
- 4.5 Каковы ограничения CNN?
- 5. Итерарованный расширенный CNN
- 5.1 Что такое расширение CNN Void Convolution?
- 5.2 Что такое итерация расширенная CNN?
- 6. Деконволюция
- 6.1 Объясните принципы и использование деконволюции?
Нажмите, чтобы просмотреть ответ
- RNN Общие интервью
- 1. Рнн
- 1.2 Зачем мне нужен RNN?
- 1.2 Что такое структура RNN?
- 1.3 Формула расчета прямой RNN?
- 1.4 Каковы проблемы с RNN?
- 2. Длинная краткосрочная сеть памяти (LSTM)
- 2.1 Зачем вам LSTM?
- 2.2 Что такое структура LSTM?
- 2.3 Как LSTM смягчает проблемы исчезновения градиента RNN и взрыва градиента?
- 2.3 Что такое процесс LSTM?
- 2.4 Каковы различия в функциях активации в LSTM?
- 2.5 Сложность LSTM?
- 2.6 Какие проблемы существуют LSTM?
- 3.
- 3.1 Зачем вам GRU?
- 3.2 Что такое структура Гру?
- 3.3 Впередное расчет Гру?
- 3.4 В чем разница между моделями GRU и других серий RNN?
- 4. Модель серии RNN
- 4.1 Каковы характеристики модели серии RNN?
Нажмите, чтобы просмотреть ответ
- Внимание общие интервью
- 1. seq2seq
- 1.1 Что такое seq2seq (кодер-декодер)?
- 1.2 Как насчет энкодера в Seq2seq?
- 1.3 Как насчет декодера в seq2seq?
- 1.4 Знаете ли вы SEQ2SEQ с математической точки зрения?
- 1.5 Какие проблемы у SEQ2SEQ?
- 2. Внимание
- 2.1 Что такое внимание?
- 2.2 Почему введен механизм внимания?
- 2.3 Какова функция внимания?
- 2.4 Каков процесс внимания?
- Шаг 1 для выполнения Encoder (в соответствии с SEQ2SEQ)
- Шаг 2 Рассчитайте коэффициент выравнивания
- Шаг 3: Рассчитайте контекст семантический вектор c
- Шаг 4 Обновите статус декодера
- Шаг 5 Рассчитайте слова вывода прогнозирования
- 2.5 Каковы области применения внимания?
- 3. Вариант внимания
- 3.1 Что такое мягкое внимание?
- 3.2 Что такое сложное внимание?
- 3.3 Что такое глобальное внимание?
- 3.4 Что такое местное внимание?
- 3.5 Что такое самоубийство?
Нажмите, чтобы просмотреть ответ
- Генерирование состязательной сети Gan Common extureds
- 1. Мотивация
- 2. Введение
- 2.1 Основные идеи GAN
- 2.2 Основное введение в GAN
- 2.2.1 Основная структура GAN
- 2.2.2 Основные идеи GAN
- 三、训练篇
- 3.1 生成器介绍
- 3.2 判别器介绍
- 3.3 训练过程
- 3.4 训练所涉及相关理论基础
- 四、总结
点击查看答案
3.1 Transformer 常见面试篇
- Transformer 常见面试篇
- 一、动机篇
- 1.1 为什么要有Transformer?
- 1.2 Transformer 作用是什么?
- 二、整体结构篇
- 2.1 Transformer 整体结构是怎么样?
- 2.2 Transformer-encoder 结构怎么样?
- 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
- 3.1 self-attention 模块
- 3.1.1 传统attention 是什么?
- 3.1.2 为什么会有self-attention?
- 3.1.3 self-attention 的核心思想是什么?
- 3.1.4 self-attention 的目的是什么?
- 3.1.5 self-attention 的怎么计算的?
- 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
- 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型?
- 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
- 3.1.9 self-attention 如何解决长距离依赖问题?
- 3.1.10 self-attention 如何并行化?
- 3.2 multi-head attention 模块
- 3.2.1 multi-head attention 的思路是什么样?
- 3.2.2 multi-head attention 的步骤是什么样?
- 3.2.3 Transformer为何使用多头注意力机制?(为什么不使用一个头)
- 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维?
- 3.2.5 multi-head attention 代码介绍
- 3.3 位置编码(Position encoding)模块
- 3.3.1 为什么要加入位置编码(Position encoding) ?
- 3.3.2 位置编码(Position encoding)的思路是什么?
- 3.3.3 位置编码(Position encoding)的作用是什么?
- 3.3.4 位置编码(Position encoding)的步骤是什么?
- 3.3.5 Position encoding为什么选择相加而不是拼接呢?
- 3.3.6 Position encoding和Position embedding的区别?
- 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding?而Bert却采用的是Position Embedding ?
- 3.3.8 位置编码(Position encoding)的代码介绍
- 3.4 残差模块模块
- 3.5 Layer normalization 模块
- 3.5.1 为什么要加入Layer normalization 模块?
- 3.5.2 Layer normalization 模块的是什么?
- 3.5.3 Batch normalization 和Layer normalization 的区别?
- 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
- 3.5.5 Layer normalization 模块代码介绍
- 3.6 Mask 模块
- 3.6.1 什么是Mask?
- 3.6.2 Transformer 中用到几种Mask?
- 3.6.3 能不能介绍一下Transformer 中用到几种Mask?
点击查看答案
- 【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
- 1.1 既然Transformer 怎么牛逼,是否还存在一些问题?
- 二、每个问题的解决方法是什么?
- 2.1 问题一:Transformer 不能很好的处理超长输入问题
- 2.1.1 Transformer 固定了句子长度?
- 2.1.2 Transformer 固定了句子长度的目的是什么?
- 2.1.3 Transformer 针对该问题的处理方法?
- 2.2 问题二:Transformer 方向信息以及相对位置的缺失问题
- 2.3 问题三:缺少Recurrent Inductive Bias
- 问题四:问题四:Transformer是非图灵完备的: 非图灵完备通俗的理解,就是无法解决所有的问题
- 问题五:transformer缺少conditional computation;
- 问题六:transformer 时间复杂度和空间复杂度过大问题;
五、NLP 技巧面
5.1 少样本问题面
5.1.1 数据增强(EDA) 面试篇
- 一、动机篇
- 1.1 什么是数据增强?
- 1.2 为什么需要数据增强?
- 二、常见的数据增强方法篇
- 2.1 词汇替换篇
- 2.1.1 什么是基于词典的替换方法?
- 2.1.2 什么是基于词向量的替换方法?
- 2.1.3 什么是基于MLM 的替换方法?
- 2.1.4 什么是基于TF-IDF 的词替换?
- 2.2 词汇插入篇
- 2.3 词汇交换篇
- 2.4 词汇删除篇
- 2.5 回译篇
- 2.6 交叉增强篇
- 2.7 语法树篇
- 2.8 对抗增强篇
点击查看答案
5.1.2 主动学习面试篇
- 一、动机篇
- 1.1 主动学习是什么?
- 1.2 为什么需要主动学习?
- 二、主动学习篇
- 2.1 主动学习的思路是什么?
- 2.2 主动学习方法的价值点在哪里?
- 三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
- 3.2.1 测试集内选取“信息”量最大的数据标记
- 3.2.2 依赖不确定度的样本选取策略(Uncertainty Sampling, US)
- 3.2.3 基于委员会查询的方法(Query-By-Committee,QBC)
点击查看答案
5.1.3 数据增强之对抗训练面试篇
- 1. Введение
- 1.1 什么是对抗训练?
- 1.2 为什么对抗训练能够提高模型效果?
- 1.3 对抗训练有什么特点?
- 1.4 对抗训练的作用?
- 二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
- 三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method(FGM)
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent(PGD)
点击查看答案
5.2 “脏数据”处理面试篇
- 一、动机
- 1.1 何为“脏数据”?
- 1.2 “脏数据” 会带来什么后果?
- 二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢?
- 2.2 置信学习方法篇
- 2.2.1 什么是置信学习方法?
- 2.2.2 置信学习方法优点?
- 2.2.3 置信学习方法怎么做?
- 2.2.4 置信学习方法怎么用?有什么开源框架?
- 2.2.5 置信学习方法的工作原理?
点击查看答案
5.3 batch_size设置面试篇
- 一、训练模型时,batch_size的设置,学习率的设置?
点击查看答案
5.4 早停法EarlyStopping 面试篇
- 一、 为什么要用早停法EarlyStopping?
- 二、 早停法EarlyStopping 是什么?
- 三、早停法torch 版本怎么实现?
点击查看答案
5.5 标签平滑法LabelSmoothing 面试篇
- 一、为什么要有标签平滑法LabelSmoothing?
- 二、 标签平滑法是什么?
- 三、 标签平滑法torch 怎么复现?
点击查看答案
5.6 Bert Trick 面试篇
5.6.1 Bert 未登录词处理面试篇
- 什么是Bert 未登录词?
- Bert 未登录词如何处理?
- Bert 未登录词各种处理方法有哪些优缺点?
点击查看答案
5.6.2 BERT在输入层引入额外特征面试篇
点击查看答案
5.6.3 关于BERT 继续预训练面试篇
- 什么是继续预训练?
- 为什么会存在【数据分布/领域差异】大问题?
- 如何进行继续预训练?
- 还有哪些待解决问题?
- 训练数据问题解决方案?
- 知识缺乏问题解决方案?
- 知识理解缺乏问题解决方案?
点击查看答案
5.6.4 BERT如何处理篇章级长文本面试篇
- 为什么Bert 不能处理长文本?
- BERT 有哪些处理篇章级长文本?
点击查看答案
六、 Prompt Tuning 面试篇
6.1 Prompt 面试篇
- 什么是prompt?
- 如何设计prompt?
- prompt进阶——如何自动学习prompt?
- Prompt 有哪些关键要点?
- Prompt 如何实现?
点击查看答案
6.2 Prompt 文本生成面试篇
- Prompt之文本生成评估手段有哪些?
- Prompt文本生成具体任务有哪些?
点击查看答案
6.3 LoRA 面试篇
- 什么是lora?
- lora 是怎么做的呢?
- lora 为什么可以这样做?
- 用一句话描述lora?
- lora 优点是什么?
- lora 缺点是什么?
- lora 如何实现?
点击查看答案
6.4 PEFT(State-of-the-art Parameter-Efficient Fine-Tuning)面试篇
- 一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ?
- 1.2 微调Fine-tuning 基本思想是什么?
- 二、轻度微调(lightweight Fine-tuning)篇
- 2.1 什么是轻度微调(lightweight Fine-tuning)?
- 三、适配器微调(Adapter-tuning)篇
- 3.1 什么是适配器微调(Adapter-tuning)?
- 3.2 适配器微调(Adapter-tuning)变体有哪些?
- 四、提示学习(Prompting)篇
- 4.1 什么是提示学习(Prompting)?
- 4.2 提示学习(Prompting)的目的是什么?
- 4.3 提示学习(Prompting) 代表方法有哪些?
- 4.3.1 前缀微调(Prefix-tining)篇
- 4.3.1.1 什么是前缀微调(Prefix-tining)?
- 4.3.1.2 前缀微调(Prefix-tining)的核心是什么?
- 4.3.1.3 前缀微调(Prefix-tining)的技术细节有哪些?
- 4.3.1.4 前缀微调(Prefix-tining)的优点是什么?
- 4.3.1.5 前缀微调(Prefix-tining)的缺点是什么?
- 4.3.2 指示微调(Prompt-tuning)篇
- 4.3.2.1 什么是指示微调(Prompt-tuning)?
- 4.3.2.2 指示微调(Prompt-tuning)的核心思想?
- 4.3.2.3 指示微调(Prompt-tuning)的优点/贡献是什么?
- 4.3.2.4 指示微调(Prompt-tuning)的缺点是什么?
- 4.3.2.5 指示微调(Prompt-tuning)与Prefix-tuning 区别是什么?
- 4.3.2.6 指示微调(Prompt-tuning)与fine-tuning 区别是什么?
- 4.3.3 P-tuning 篇
- 4.3.3.1 P-tuning 动机是什么?
- 4.3.3.2 P-tuning 核心思想是什么?
- 4.3.3.3 P-tuning 做了哪些改进?
- 4.3.3.4 P-tuning 有哪些优点/贡献?
- 4.3.3.5 P-tuning 有哪些缺点?
- 4.3.4 P-tuning v2 篇
- 4.3.4.1 为什么需要P-tuning v2?
- 4.3.4.2 P-tuning v2 是什么?
- 4.3.4.3 P-tuning v2 有哪些优点?
- 4.3.4.4 P-tuning v2 有哪些缺点?
- 4.3.5 PPT 篇
- 4.3.5.1 为什么需要PPT ?
- 4.3.5.2 PPT 核心思想是什么?
- 4.3.5.3 PPT 具体做法是怎么样?
- 4.3.5.4 常用的soft prompt初始化方法?
- 4.3.5.5 PPT 的优点是什么?
- 4.3.5.6 PPT 的缺点是什么?
- 4.4 提示学习(Prompting) 优点是什么?
- 4.5 提示学习(Prompting) 本质是什么?
- 五、指令微调(Instruct-tuning)篇
- 5.1 为什么需要指令微调(Instruct-tuning)?
- 5.2 指令微调(Instruct-tuning)是什么?
- 5.3 指令微调(Instruct-tuning)的优点是什么?
- 5.4 指令微调(Instruct-tuning) vs 提升学习(Prompting)?
- 5.5 指令微调(Instruct-tuning) vs 提升学习(Prompting) vs Fine-tuning?
- 六、指令提示微调(Instruct Prompt tuning)篇
- 6.1 为什么需要指令微调(Instruct-tuning)?
- 6.2 指令微调(Instruct-tuning) 是什么?
- 6.3 指令微调(Instruct-tuning) 在不同任务上性能?
- 七、self-instruct篇
- 八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ?
- 8.2 什么是Chain-of-Thought ?
- 8.3 Chain-of-Thought 的思路是怎么样的?
- 8.4 Chain-of-Thought 的优点是什么?
- 8.5 为什么chain-of-thought 会成功?
- 九、LoRA 篇
- 9.1 LoRA 篇
- 9.1.1 LoRA 核心思想是什么?
- 9.1.2 LoRA 具体思路是什么?
- 9.1.3 LoRA 优点是什么?
- 9.1.4 LoRA 缺点是什么?
- 9.2 AdaLoRA 篇
- 9.2.1 AdaLoRA 核心思想是什么?
- 9.2.2 AdaLoRA 实现思路是什么?
- 9.3 DyLoRA 篇
- 9.3.1 AdaLoRA 动机是什么?
- 9.3.2 AdaLoRA 核心思想是什么?
- 9.3.3 AdaLoRA 优点是什么?
- 十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么?
- 10.2 AdaLoRA 优点是什么?
- 10.3 AdaLoRA 缺点是什么?
点击查看答案
七、LLMs 面试篇
7.1 【现在达模型LLM,微调方式有哪些?各有什么优缺点?
- 现在达模型LLM,微调方式有哪些?各有什么优缺点?
点击查看答案
7.2 GLM:ChatGLM的基座模型常见面试题
- GLM 的核心是什么?
- GLM 的模型架构是什么?
- GLM 如何进行多任务训练?
- 在进行NLG 时, GLM 如何保证生成长度的未知性?
- GLM 的多任务微调方式有什么差异?
- GLM 的多任务微调方式有什么优点?
点击查看答案
一、基础算法常见面试篇
- 过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么?
- 二、过拟合/高方差(overfiting / high variance)篇
- 2.1 过拟合是什么及检验方法?
- 2.2 导致过拟合的原因是什么?
- 2.3 过拟合的解决方法是什么?
- 三、欠拟合/高偏差(underfiting / high bias)篇
- 3.1 欠拟合是什么及检验方法?
- 3.2 导致欠拟合的原因是什么?
- 3.3 过拟合的解决方法是什么?
点击查看答案
- BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
- 1.1 独立同分布(independent and identically distributed)与白化
- 1.2 ( Internal Covariate Shift,ICS)
- 1.3 ICS问题带来的后果是什么?
- 二、Normalization 篇
- 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
- 3.1 Batch Normalization(纵向规范化)是什么?
- 3.2 Batch Normalization(纵向规范化)存在什么问题?
- 3.3 Batch Normalization(纵向规范化)适用的场景是什么?
- 3.4 BatchNorm 存在什么问题?
- 四、Layer Normalization(横向规范化) 篇
- 4.1 Layer Normalization(横向规范化)是什么?
- 4.2 Layer Normalization(横向规范化)有什么用?
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效?
点击查看答案
激活函数常见面试篇
- 一、动机篇
- 二、激活函数介绍篇
- 2.1 sigmoid 函数篇
- 2.1.1 什么是sigmoid 函数?
- 2.1.2 为什么选sigmoid 函数作为激活函数?
- 2.1.3 sigmoid 函数有什么缺点?
- 2.2 tanh 函数篇
- 2.2.1 什么是tanh 函数?
- 2.2.2 为什么选tanh 函数作为激活函数?
- 2.2.3 tanh 函数有什么缺点?
- 2.3 relu 函数篇
- 2.3.1 什么是relu 函数?
- 2.3.2 为什么选relu 函数作为激活函数?
- 2.3.3 relu 函数有什么缺点?
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0,L1,L2正则化篇
- 1.1 正则化是什么?
- 1.2 什么是L0 正则化?
- 1.3 什么是L1 (稀疏规则算子Lasso regularization)正则化?
- 1.4 什么是L2 正则化(岭回归Ridge Regression 或者权重衰减Weight Decay)正则化?
- 二、对比篇
- 2.1 什么是结构风险最小化?
- 2.2 从结构风险最小化的角度理解L1和L2正则化
- 2.3 L1 vs L2
- 三、dropout 篇
- 3.1 什么是dropout?
- 3.2 dropout 在训练和测试过程中如何操作?
- 3.3 dropout 如何防止过拟合?
点击查看答案
- 优化算法及函数常见面试篇
- 一、动机篇
- 1.1 为什么需要优化函数?
- 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
- 2.1 梯度下降法是什么?
- 2.2 随机梯度下降法是什么?
- 2.3 Momentum 是什么?
- 2.4 SGD with Nesterov Acceleration 是什么?
- 2.5 Adagrad 是什么?
- 2.6 RMSProp/AdaDelta 是什么?
- 2.7 Adam 是什么?
- 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇
点击查看答案
- 归一化常见面试篇
- 一、动机篇
- 二、介绍篇
- 2.1 归一化有哪些方法?
- 2.2 归一化各方法特点?
- 2.3 归一化的意义?
- Iii. Приложение
- 3.1 哪些机器学习算法需要做归一化?
- 3.2 哪些机器学习算法不需要做归一化?
点击查看答案
- 判别式(discriminative)模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
- 1.1 什么是判别式模型?
- 1.2 判别式模型是思路是什么?
- 1.3 判别式模型的优点是什么?
- 二、生成式模型篇
- 2.1 什么是生成式模型?
- 2.2 生成式模型是思路是什么?
- 2.3 生成式模型的优点是什么?
- 2.4 生成式模型的缺点是什么?
点击查看答案
二、机器学习算法篇常见面试篇
点击查看答案
- 支持向量机常见面试篇
- 一、原理篇
- 1.1 什么是SVM?
- 1.2 SVM怎么发展的?
- 1.3 SVM存在什么问题?
- 二、算法篇
- 2.1 什么是块算法?
- 2.2 什么是分解算法?
- 2.3 什么是序列最小优化算法?
- 2.4 什么是增量算法?
- 三、其他SVM篇
- 3.1 什么是最小二次支持向量机?
- 3.2 什么是模糊支持向量机?
- 3.3 什么是粒度支持向量机?
- 3.4 什么是多类训练算法?
- 3.5 什么是孪生支持向量机?
- 3.6 什么是排序支持向量机?
- IV Приложение
- 4.1 模式识别
- 4.2 网页分类
- 4.3 系统建模与系统辨识
- 4.4 其他
- 五、对比篇
- 六、拓展篇
点击查看答案
- 集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
- 2.1 介绍篇
- 2.1.1 集成学习的基本思想是什么?
- 2.1.2 集成学习为什么有效?
- 三、 Boosting 篇
- 3.1 用一句话概括Boosting?
- 3.2 Boosting 的特点是什么?
- 3.3 Boosting 的基本思想是什么?
- 3.4 Boosting 的特点是什么?
- 3.5 GBDT 是什么?
- 3.6 Xgboost 是什么?
- 四、Bagging 篇
- 4.1 用一句话概括Bagging?
- 4.2 Bagging 的特点是什么?
- 4.3 Bagging 的基本思想是什么?
- 4.4 Bagging 的基分类器如何选择?
- 4.5 Bagging 的优点是什么?
- 4.6 Bagging 的特点是什么?
- 4.7 随机森林是什么?
- 五、 Stacking 篇
- 5.1 用一句话概括Stacking ?
- 5.2 Stacking 的特点是什么?
- 5.3 Stacking 的基本思路是什么?
- 六、常见问题篇
- 6.1 为什么使用决策树作为基学习器?
- 6.2 为什么不稳定的学习器更适合作为基学习器?
- 6.3 哪些模型适合作为基学习器?
- 6.4 Bagging 方法中能使用线性分类器作为基学习器吗? Boosting 呢?
- 6.5 Boosting/Bagging 与偏差/方差的关系?
- 七、对比篇
点击查看答案
九、【关于Python 】那些你不知道的事
- 【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs?
- 1.1 为什么会有*args 和**kwargs?
- 1.2 *args 和**kwargs 的用途是什么?
- 1.3 *args 是什么?
- 1.4 **kwargs是什么?
- 1.5 *args 与**kwargs 的区别是什么?
- 二、什么是装饰器?
- 三、Python垃圾回收(GC)
- 3.1 垃圾回收算法有哪些?
- 3.2 引用计数(主要)是什么?
- 3.3 标记-清除是什么?
- 3.4 分代回收是什么?
- 四、python的sorted函数对字典按key排序和按value排序
- 4.1 python 的sorted函数是什么?
- 4.2 python 的sorted函数举例说明?
- 五、直接赋值、浅拷贝和深度拷贝
- 5.1 概念介绍
- 5.2 介绍
- 5.3 变量定义流程
- 5.3 赋值
- 5.4 浅拷贝
- 5.5 深度拷贝
- 5.6 核心:不可变对象类型and 可变对象类型
- 5.6.1 不可变对象类型
- 5.6.2 可变对象类型
- 六、进程、线程、协程
- 6.1 进程
- 6.1.1 什么是进程?
- 6.1.2 进程间如何通信?
- 6.2 线程
- 6.2.1 什么是线程?
- 6.2.2 线程间如何通信?
- 6.3 进程vs 线程
- 6.4 协程
- 6.4.1 什么是协程?
- 6.4.2 协程的优点?
- 七、全局解释器锁
- 7.1 什么是全局解释器锁?
- 7.2 GIL有什么作用?
- 7.3 GIL有什么影响?
- 7.4 如何避免GIL带来的影响?
十、【关于Tensorflow 】那些你不知道的事
- 【关于Tensorflow 损失函数】 那些你不知道的事
- 一、动机
- 二、什么是损失函数?
- 三、目标函数、损失函数、代价函数之间的关系与区别?
- 四、损失函数的类别
- 4.1 回归模型的损失函数
- (1)L1正则损失函数(即绝对值损失函数)
- (2)L2正则损失函数(即欧拉损失函数)
- (3)均方误差(MSE, mean squared error)
- (4)Pseudo-Huber 损失函数
- 4.2 分类模型的损失函数
- (1)Hinge损失函数
- (2)两类交叉熵(Cross-entropy)损失函数
- (3)Sigmoid交叉熵损失函数
- (4)加权交叉熵损失函数
- (5)Softmax交叉熵损失函数
- (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Резюме