NLP Interview Notes Скачать - Загрузки NLP Interview Notes Загрузка исходного кода

НЛП редко

> Группа NLP Interview and Exchange (примечание: если вы заполнены, вы можете добавить редактор WX: yzyykm666, чтобы присоединиться к группе!)

4. Общие интервью для алгоритмов обучения НЛП

4.1 Общие интервью для извлечения информации

4.1.1 Общие интервью для признания именования организации

Скрытый алгоритм Маркова HMM Общие интервью
- 1. Введение в основную информацию
  - 1.1 Что такое модель графика вероятности?
  - 1.2 Что такое случайный аэропорт?
- 2. Введение в процесс Маркова
  - 2.1 Что такое процесс Маркова?
  - 2.2 Какова основная идея процесса Маркова?
- Iii. Скрытый алгоритм Маркова
  - 3.1 Введение в алгоритм скрытого Маркова
    - 3.1.1 Что такое алгоритм скрытого Маркова?
    - 3.1.2 Каковы две последовательности в скрытом алгоритме Маркова?
    - 3.1.3 Каковы три матрицы в скрытом алгоритме Маркова?
    - 3.1.4 Каковы два предположения в скрытом алгоритме Маркова?
    - 3.1.5 Что такое рабочий процесс в скрытом алгоритме Маркова?
  - 3.2 Процесс вычисления модели алгоритма скрытого марковского марковского
    - 3.2.1 Каков обучающий процесс обучения Adden Markov Algorithm?
    - 3.2.2 Что такое процесс аннотации последовательности (декодирование) алгоритма скрытого Маркова?
    - 3.2.3 Каков процесс вероятности последовательности алгоритма скрытого Маркова?
  - 3.3 Скрытая проблема алгоритма Маркова

Максимальная энтропия Markov Model Memm Общие интервью
- 4. Максимальная энтропия модель Маркова (MEMM)
  - 4.1 Мотивация максимальной энтропии марковской модели (MEMM)
    - 4.1.1 Каковы проблемы с хмм?
  - 4.2 Введение в модель максимальной энтропии Маркова (MEMM)
    - 4.2.1 Как выглядит максимальная энтропия модель Маркова (MEMM)?
    - 4.2.2 Максимальная энтропия Markov Model (MEMM) Как решить проблему HMM?
  - 4.3 Максимальная энтропия модели марковской модели (MEMM)

Условные случайные аэропорты (CRF) общие интервью
- 5. Условное случайное поле (CRF)
  - 5.1 CRF мотив
    - 5.1.1 Каковы проблемы с HMM и MEMM?
  - 5.2 CRF Введение
    - 5.2.1 Что такое CRF?
    - 5.2.2 Какова основная идея CRF?
    - 5.2.3 Что такое определение CRF?
    - 5.2.4 Что такое процесс CRF?
  - 5.3 CRF Pros and Cons
    - 5.3.1 Каковы преимущества CRF?
    - 5.3.2 Каковы недостатки CRF?
  - 5.4 CRF -репродукция?
- 6. Сравнение
  - 6.1 В чем разница между моделью CRF и моделью HMM и MEMM?

DNN-CRF Общие интервью
- 1. Основная информация
  - 1.1 Каковы индикаторы оценки для признания именования сущностей?
- 2. Традиционный метод распознавания сущностей именования
  - 2.1 Каков метод распознавания сущности, основанный на правилах?
  - 2.2 Какой метод распознавания объектов именования основан на неконтролируемом обучении?
  - 2.3 Каков метод распознавания именованных объектов, основанный на основанных на функциях, контролируемой обучении?
- 3. Метод распознавания сущностей на основе глубокого обучения
  - 3.1 Каковы преимущества именованных методов распознавания организации, основанные на глубоком обучении по сравнению с названными методами распознавания сущности, основанных на машинном обучении?
  - 3.2 Какова структура именованного метода распознавания сущности, основанная на глубоком обучении?
  - 3.3 Что такое распределенный входной слой и каковы методы?
  - 3.4 Текстовый энкодер
    - 3.4.1 Bilstm-CRF
      - 3.4.1.1 Что такое Bilstm-CRF?
      - 3.4.1.2 Зачем использовать Bilstm?
    - 3.4.2 idcnn-crf
      - 3.4.2.1 Что такое расширенный CNN?
      - 3.4.2.2 Почему существует расширенная CNN?
      - 3.4.2.3 Каковы преимущества расширенного CNN?
      - 3.4.2.4 Введение в IDCNN-CRF
  - 3.5 Tag Декодер
    - 3.5.1 Что такое декодер с меткой?
    - 3.5.2 Введение в слой MLP+SoftMax?
    - 3.5.3 ВВЕДЕНИЕ В СОСТОЯННОЕ СЛОВОЕ СЛОВОЕ ПОЛЕЙСКОЙ КРД -КРФ?
    - 3.5.4 Введение в уровень RNN повторяющейся нейронной сети?
    - 3.5.3 ВВЕДЕНИЕ В СЕТЕЛЕВ СЕТИ?
- 4. Сравнение
  - 4.1 CNN-CRF против BILSTM-CRF против IDCNN-CRF?
  - 4.2 Зачем DNN нужно добавить CRF?
  - 4.3 CRF в TensorFlow против CRF в дискретном инструментарии?

Китайские полевые общие интервью
- 1. Мотив
  - 1.1 В чем разница между признанием китайской именной организации и признанием английского языка, названным организацией?
- 2. Улучшение словарного запаса
  - 2.1 Что такое словарный запас?
  - 2.2 Почему метод «Улучшение словарного запаса» эффективен для китайских задач NER?
  - 2.3 Каковы методы улучшения словарного запаса?
  - 2.4 Динамическая архитектура
    - 2.4.1 Что такое динамическая архитектура?
    - 2.4.2 Каковы общие методы?
    - 2.4.3 Что такое решетчатая LSTM и каковы проблемы?
    - 2.4.4 Что такое плоское и каковы проблемы?
  - 2.5 Адаптивная парадигма адаптивного встраивания
    - 2.5.1 Что такое адаптивная парадигма встраивания?
    - 2.5.2 Каковы общие методы?
    - 2.5.3 Что такое WC-LSTM и каковы проблемы?
- 3. Улучшение информации о типе словарного запаса/объекта
  - 3.1 Что такое улучшение информации о словарном/типе объекта?
  - 3.2 Почему метод «Усовершенствование информации о типе словаря/объекта» эффективен для китайских задач NER?
  - 3.3 Каковы методы улучшения информации о словаре/типа объекта?
  - 3.4 Что такое Лекс-Берт?

Названный трюк по признанию сущности общие интервью
- Хитрость 1: Сопоставление доменного словаря
- Хитрость 2: Извлечение правил
- Хитрость 3: Вектор слов: вектор слов или вектор слов?
- Хитрость 4: Как выбрать экстрактор функции?
- Хитрость 5: Как справиться с выдающимся именем?
- Хитрость 6: Как справиться с недостаточными данными маркировки?
- Хитрость 7: Как иметь дело с признанием вложенного названного организации
  - 7.1 Что такое гнездование сущностей?
  - 7.2 Различия от традиционных заданий по признанию сущности
  - 7.3 Решение:
    - 7.3.1 Метод 1: аннотация последовательности
    - 7.3.2 Метод 2: Аннотация указателя
    - 7.3.3 Метод 3: Аннотация длинного заголовка
    - 7.3.4 Метод 4: Расположение фрагментов
- Хитрон 8: Почему метод «улучшения словарного запаса» эффективен для китайских задач NER?
- Хитрость 9: Что мне делать, если промежуток сущностей слишком длинный?
- Трюк 10: NER Маркировка данных о шуме?
- Трюк 11: Учитывая две названные задачи распознавания сущности, одна задача имеет достаточно данных, а другая имеет очень мало данных. Что я могу сделать?
- Хитрость 12: Проблема дисбаланса данных маркировки NER?

4.1.2 Общие интервью для рисования отношений

Отношение отношений с общими интервью
- 1. Мотив
  - 1.1 Что такое извлечение отношений?
  - 1.2 Каковы методы извлечения отношений?
  - 1.3 Как выполняются обычные процессы извлечения отношений?
- 2. Классическая извлечение отношений
  - 2.1 Что ссылается метод соответствия шаблона? Каковы плюсы и минусы?
  - 2.2 Что относится к извлечению отношений с дистанционным наблюдением? Каковы его плюсы и минусы?
  - 2.3 Что такое отношения перекрывается? Сложные проблемы отношений?
  - 2.4 Что такое совместная добыча? Каковы трудности?
  - 2.5 Каковы общие методы совместной экстракции? Каковы их недостатки?
  - 2.6 Введение в метод совместной извлечения на основе общих параметров?
  - 2.7 Введение в совместное декодирование на основе совместного декодирования?
  - 2.8 Каковы передовые технологии и проблемы при извлечении отношений организации? Как решить извлечение отношений сущности в рамках низких ресурсов и сложных образцов?
- 3. Извлечение отношений на уровне документа
  - 3.1 В чем разница между извлечением отношений на уровне документа и извлечением классических отношений?
  - 3.2 Какие проблемы сталкиваются при извлечении отношений на уровне документов?
  - 3.3 Каковы методы извлечения отношений на уровне документов?
    - 3.3.1 Как делается извлечение отношений с документами на основе BERT-подобной?
    - 3.3.2 Как выполняется извлечение отношений с графическими документами?
  - 3.4 Каковы общие наборы данных для извлечения отношений на уровне документов и их методов оценки?

4.1.3 Извлечение событий общие интервью

Обработанное мероприятие общие интервью
- 1. Принципы
  - 1.1 Что такое событие?
  - 1.2 Что такое извлечение событий?
  - 1.3 Каковы основные термины и задачи, связанные с извлечением событий в оценке ACE?
  - 1.4 Как развивается извлечение событий?
  - 1.5 Каковы проблемы с извлечением событий?
- 2. Основные задачи
  - 2.1 Обнаружение слов запускает
    - 2.1.1 Что такое обнаружение Trigger Word?
    - 2.1.2 Каковы методы обнаружения слов триггера?
  - 2.2 Тип идентификация
    - 2.2.1 Что такое распознавание типа?
    - 2.2.2 Каковы методы идентификации типа?
  - 2.3 распознавание ролей
    - 2.3.1 Что такое распознавание ролей?
    - 2.3.2 Каковы методы распознавания ролей?
  - 2.4 Обнаружение аргументов
    - 2.4.1 Что такое обнаружение аргументов?
    - 2.4.2 Каковы методы обнаружения аргументов?
- 3. Общие методы
  - 3.1 Как использовать метод сопоставления шаблонов при извлечении событий?
  - 3.2 Как используются методы статистического машинного обучения при извлечении событий?
  - 3.3 Как методы глубокого обучения используются при извлечении событий?
- IV Наборы данных и показатели оценки
  - 4.1 Каковы общие наборы данных английского при извлечении событий?
  - 4.2 Каковы наборы данных общих китайских данных при извлечении событий?
  - 4.3 Каковы показатели оценки для извлечения событий? Как это рассчитать?
- 5. Сравнение
  - 5.1 Каковы сходства и различия между извлечением событий и признанием названного объекта (то есть извлечение сущности)?
  - 5.2 Каковы сходства и различия между экстракцией событий и извлечением отношений?
  - 5.3 Что такое карта факта? Каковы типы отношений событий? Как построить рациональную карту? Каковы основные технические области и текущие горячие точки разработки?
- 6. Приложение
- 7. Расширение
  - 7.1 Сводка документов по извлечению событий
  - 7.2 FAQ извлечения событий

4.2 Общие интервью для алгоритмов предварительного обучения НЛП

【О TF-IDF】 Вещи, которые вы не знаете
- 1. ОДИН-HOT
  - 1.1 Почему есть один высокий?
  - 1.2 Что такое очень высокий?
  - 1.3 Каковы характеристики однопольного?
  - 1.4 Каковы проблемы с одного высоким?
- 2. TF-IDF
  - 2.1 Что такое TF-IDF?
  - 2.2 Как TF-IDF оценивает важность слов?
  - 2.3 Что такое идея TF-IDF?
  - 2.4 Какова формула расчета для TF-IDF?
  - 2.5 Как описать TF-IDF?
  - 2.6 Каковы преимущества TF-IDF?
  - 2.7 Каковы недостатки TF-IDF?
  - 2.8 Применение TF-IDF?

【О Word2Vec】 Вещи, которые вы не знаете
- 1. Введение в WordVec
  - 1.1 Что означает WordVec?
  - 1.2 Что означает Cbow в WordVec?
  - 1.3 Что означает Skip-Gram в WordVec?
  - 1.4 Какой из них лучше для Cbow vs Skip-Gram?
- 2. Статья оптимизации WordVEC
  - 2.1 Что такое дерево Хоффмана в Word2VEC?
  - 2.2 Почему вам нужно использовать Hoffman Tree в Word2VEC?
  - 2.3 Каковы преимущества использования деревьев Хоффмана в Word2VEC?
  - 2.4 Почему отрицательная выборка используется в Word2VEC?
  - 2.5 Каким отрицательным отбором выборки в Word2VEC?
  - 2.6 Каков метод отбора проб отрицательного отбора проб в Word2VEC?
- 3. Сравнение WordVec
  - 3.1 В чем разница между Word2VEC и NNLM? (Word2VEC против NNLM)
  - 3.2 В чем разница между Word2VEC и TF-IDF в расчете сходства?
- 4. Word2VEC Практическая глава
  - 4.1 Word2VEC Training Trick, насколько велика настройка окна?
  - 4.1 Word2VEC Training Trick, Word Vector Latitude, каковы эффекты больших и малых и других параметров?

【О FastText】 Вещи, которые вы не знаете
- 1. Мотивация быстрого текста
  - 1.1 Что такое модель на уровне слов?
  - 1.2 Каковы проблемы с моделью уровня слов?
  - 1.3 Что такое модель на уровне персонажа?
  - 1.4 Преимущества модели на уровне символов?
  - 1.5 Есть ли проблема с моделью на уровне символов?
  - 1.6 Решение проблемы модели на уровне символов?
- 2. Введение в информацию о n-грамме в словах (подвод N-грамма Информация)
  - 2.1 Введение
  - 2.2 Что такое быстрый текст?
  - 2.3 Какова структура быстрого текста?
  - 2.4 Почему FastText использует информацию о n-грамме в Word (Подвод N-грамма Информация)?
  - 2.5 Введение в информацию о n-грамме в FastText Word (Подвод N-грамма Информация)?
  - 2.6 Процесс обучения информации N-грамма в FastText Word?
  - 2.7 Есть ли какие-либо проблемы с информацией N-грамма в FastText Word?
- 3. Введение в иерархическую регрессию Softmax (иерархический Softmax)
  - 3.1 Зачем использовать иерархическую регрессию Softmax?
  - 3.2 Какова идея иерархической регрессии Softmax?
  - 3.3 Каковы шаги к иерархической регрессии Softmax?
- 4. Есть ли проблемы с Fastext?

【О Elmo】 Вещи, которые вы не знаете
- 1. Эльмо мотивация
  - 1.1 Почему есть Эльмо?
- 2. Elmo ВВЕДЕНИЕ
  - 2.1 Каковы особенности Elmo?
  - 2.2 Что думает Элмо?
- 3. Elmo Вопросы
  - 3.1 Каковы проблемы с Elmo?

4.3 Берт общие интервью

Берт общие интервью
- 1. Мотив
  - 1.1.
  - 1.2 [История эволюции] Есть проблема с WordVec?
  - 1.3 [История эволюции] Есть ли какие -то проблемы с Fastext?
  - 1.4 [История эволюции] Есть ли проблемы с Элмо?
- 2. Берт
  - 2.1 Берт Введение
    - 2.1.1 【Берт】 Что такое Берт?
    - 2.1.2 【Берт】 Берт Три ключевых момента?
  - 2.2 BERT входной и выходной характеристики
    - 2.2.1 [BERT] Как выглядит входная и выходная характеристика BERT?
  - 2.3 【Bert】 Bert Pre Training
    - 2.3.1 【Берт】 Берт-задачи предварительного обучения введение
    - 2.3.2 【Берт】 Берт предварительно тренировочный задача маскированная глава LM
      - 2.3.2.1 【Берт】 Зачем Берту нужны задачи перед тренировкой маскированы LM?
      - 2.3.2.2 【БЕРТ】 Как выполнить задачу предварительного обучения BERT Masked LM?
      - 2.3.2.3 【Берт】 Есть ли какие-либо проблемы с задачей предварительной тренировки маскировки LM?
      - 2.3.2.4 【BERT】 Решение о несоответствии между предварительным тренировком и тонкой настройкой?
    - 2.3.3 【Берт】 Берт-задача предварительного обучения. Следующее прогноз предложения
      - 2.3.3.1 [Берт] Почему Берту нужны задачи предварительного обучения в следующем прогнозировании?
      - 2.3.3.2 【Bert】 Как сделать прогноз следующего предложения в задаче предварительного обучения BERT?
  - 2.4 【Bert】 Прекрасная статья?
    - 2.4.1 【Берт】 Зачем Берту необходимо точное поворот?
    - 2.4.2 【Берт】 Как тонкий развод в Берте?
  - 2.5 【Функции потери Bert】 Bert?
    - 2.5.1 [BERT] Какова функция потерь, соответствующая двум задачам предварительного обучения BERT (выражено в форме формулы)?
- 3. Сравнение?
  - 3.1 [Contrast] В чем проблема полисинтетики?
  - 3.2 [Сравнение] Почему Word2VEC не может решить проблему полисинонимов?
  - 3.3 [Сравнение] В чем разница между GPT и Bert?
  - 3.4 (Возьмите Elmo в качестве примера)

【Об анализе исходного кода BERT I Основное тело] вещи, которые вы не знаете
【Об анализе исходного кода BERT II Глава предварительного обучения】 вещи, которые вы не знаете
【Об анализе исходного кода BERT III Глава тонкой настройки】 Вещи, которые вы не знаете
[О анализе исходного кода BERT IV.
[О анализе исходного кода BERT v Глава сходства текста] вещи, которые вы не знаете

4.3.1 Общие интервью для сжатия модели BERT

Bert Model Compression Общее интервью
- 1. Мотивация сжатия модели BERT
- 2. Таблица сравнения сжатия модели BERT модели
- 3. Введение в метод сжатия модели BERT
  - 3.1 Факторизация с низким рейтингом и совместное использование параметров метода сжатия модели BERT
    - 3.1.1 Что такое факторизация с низким уровнем ранга?
    - 3.1.2 Что такое межслойный обмен параметрами?
    - 3.1.3 Метод, используемый Альбертом?
  - 3.2 Метод сжатия модели BERT дистилляция дистилляции
    - 3.2.1 Что такое дистилляция?
    - 3.2.2 Какие бумаги используют модель дистилляции? Позвольте мне представить это кратко?
  - 3.3 Количественная оценка метода сжатия модели BERT
    - 3.3.1 Что такое количественная оценка?
    - 3.3.2 Q-BERT: ультра низкая точная точность квантизация количественной оценки 【【】】】】【【
  - 3.4 Обрезка метода сжатия модели BERT
    - 3.4.1 Что такое обрезка?
- 4. Есть ли проблемы с сжатием модели?

4.3.2 Общие интервью для серии моделей Bert

Вы знаете Xlnet? Вы можете сказать мне? В чем разница между Бертом?
Вы знаете Роберту? Вы можете сказать мне? В чем разница между Бертом?
Вы знаете Spanbert? Вы можете сказать мне? В чем разница между Бертом?
Вы знаете массу? Вы можете сказать мне? В чем разница между Бертом?

4.4 Общие интервью для классификации текста

Общие интервью для классификации текста
- 1. Абстрактные предложения
  - 1.1 Каковы категории задач классификации? Каковы их характеристики?
  - 1.2 Каковы различия между задачами классификации текста по сравнению с задачами классификации в других областях?
  - 1.3 В чем разница между задачами классификации текста и другими задачами в текстовом поле?
  - 1.4 Процесс классификации текста?
- 2. Предварительная обработка данных
  - 2.1 Каковы методы предварительной обработки данных для задач классификации текста?
  - 2.2 Какое слово причастие и инструменты вы использовали?
  - 2.3 Как принять участие в китайских текстах?
  - 2.4 Каков принцип метода сегментации слов, основанный на сопоставлении строк?
  - 2.5 Как применяются статистические языковые модели к причастию слова? N-грамм максимальная вероятность причастия?
  - 2.6 Какой метод сегментации слова основан на аннотации последовательности?
  - 2.7 Что такое аннотация части речи, основанную на (BI-) LSTM?
  - 2.8 В чем разница между извлечением ствола и восстановлением формы слова?
- 3. Извлечение функции
  - 3.1 (конкретный) Какие характеристики можно использовать в задаче классификации текста?
  - 3.2 (для западных текстов) В чем разница между использованием слов и использованием букв в качестве характеристик?
  - 3.3 Можете ли вы кратко представить модель пакета слов?
  - 3.4 N-грамм
    - 3.4.1 Что такое синтаксис N-Method? Зачем использовать N-грамм?
    - 3.4.2 Каковы ограничения алгоритма N-грамма?
  - 3.5 Тематическое моделирование
    - 3.5.1 Введение в задачу моделирования темы?
    - 3.5.2 Общие методы моделирования темы
    - 3.5.3 Что делает алгоритм TF-IDF? Краткое введение в алгоритм TF-IDF
    - 3.5.4 Что означает TF-IDF высокий?
    - 3.5.5 недостатки TF-IDF
  - 3.6 Сходство текста
    - 3.6.1 Как рассчитать расстояние между двумя абзацами текста?
    - 3.6.2 Что такое дистанция Jaccard?
    - 3.6.3 В чем разница между коэффициентом костей и коэффициентом Jaccard?
    - 3.6.4 То же самое расстояние редактирования, в чем разница между расстоянием Левиништейна и расстоянием хамминга?
    - 3.6.5 Напишите вопрос о программировании о расчете расстояния редактирования (расстояние Lewinstein)?
- 4. Модель
  - 4.1 FASTEXT
    - 4.1.1 Процесс классификации быстрого текста?
    - 4.1.2 Каковы преимущества быстрого текста?
  - 4.2 TextCnn
    - 4.2.1 Процесс TextCnn, выполняющий текстовую классификацию?
    - 4.2.2 Какие параметры могут настроить TextCnn?
    - 4.2.3 При использовании CNN в качестве текстового классификатора, какая информация различные каналы соответствуют тексту?
    - 4.2.4 Что представляют длина и ширина ядра свертки в TextCnn?
    - 4.2.5 В чем разница между операциями объединения в TextCnn и операциями объединения в общем CNN?
    - 4.2.6 Ограничения TextCnn?
  - 4.3 dpcnn
    - 4.3.1 Как решить задачу классификации длинной текста?
    - 4.3.2 Кратко ввести улучшения модели DPCNN по сравнению с TextCnn?
  - 4.4 Textrcnn
    - 4.4.1 Кратко представить улучшения Textrcnn по сравнению с TextCnn?
  - 4.5 rnn+внимание
    - 4.5.1 Идея RNN+внимания к задачам классификации текста, и почему необходимо добавить механизм внимания/внимания?
  - 4.6 Нейронная сеть GNN Graph
    - 4.6.1 Как применяется нейронная сеть GNN Graph для классификации текста?
  - 4.7 Трансформатор
    - 4.7.1 Как применить предварительно обученные модели на основе трансформатора в поле текстовой классификации?
  - 4.8 Предварительно обученная модель
    - 4.8.1 Какие предварительно обученные модели вы знаете? Каковы их характеристики?
- V. Функция потери
  - 5.1 Функция активации сигмоида
    - 5.1.1 Введение в функцию активации Sigmoid, используемый для проблем бинарной классификации?
    - 5.1.2 Каковы недостатки Сигмода?
  - 5.2 Функция активации Softmax
    - 5.2.1 Что такое функция Softmax?
    - 5.2.2 Как найти производную функции Softmax?
  - 5.3 Какие еще функции потерь используются для задач классификации?
- 6. Оценка модели и сравнение алгоритмов
  - 6.1 Какие алгоритмы оценки и индикаторы используются в задачах классификации текста?
  - 6.2 Краткое введение в матрицу путаницы и каппа?

Текст классификации текстовой классификации общие интервью
- 1. Как предварительно обрабатывать данные классификации текста?
- 2. Как выбрать предварительную модель Text Classification, предварительно обученную?
- 3. Как оптимизировать параметры классификации текста?
- 4. Каковы сложные задачи классификации текста?
- 5. Строительство системы маркировки классификации текста?
- 6. Стратегия создания текстовой классификации?

Используйте методы поиска для проведения общих интервью для классификации текста
- Зачем нам использовать поиск для классификации текста?
- Какова идея классификации текста на основе методов поиска?
- Как построить библиотеку отзыва для извлеченного метода?
- Как сделать стадию обучения метода поиска?
- Как сделать этап прогнозирования метода поиска?
- Каковы применимые сценарии для классификации текста с использованием методов поиска?

4.5 Общие интервью для сопоставления текста

Модель совпадения текста ESIM Общие интервью
- Зачем вам ESIM?
- Как насчет представления модели ESIM?

Общие интервью для Берта в сходных задачах сходства
- 1. Задача классификации пары предложений: используйте CLS
- 2. Сходство косинуса
- 3. Разница между длинными и короткими текстами
- 4. предложение/встроение слова
- 5. Сиамский сетевой метод

4.6 Общие интервью для системы вопросов и ответов

4.6.1 Общие интервью для системой вопросов и ответов на основе часто задаваемых вопросов, основанных на FAQ

1. Мотивация
- 1.1 Мотивация системы Q & A?
- 1.2 Что такое система Q & A?
2. Введение в систему Q & A на основе данных FAQ
- 2.1 Какова система вопросов и ответов, основанная на FAQ?
- 2.2 Какова ядро стандартного QA соответствующего запроса?
3. Решение системных вопросов и ответов на основе часто задаваемых вопросов.
- 3.1 Каковы обычно используемые решения?
- 3.2 Почему сопоставление QQ чаще используется?
  - 3.2.1 Каковы преимущества сопоставления QQ?
  - 3.2.2 Что такое семантическое пространство для соответствия QQ?
  - 3.2.3 Какова стабильность корпуса соответствия QQ?
  - 3.2.4 Какова развязка ответов на бизнес и алгоритм соответствующих ответов и алгоритм?
  - 3.2.5 Каковы обнаружение и дедупликация новых проблем сопоставления QQ?
  - 3.2.6 Какова онлайн -скорость бега QQ?
- 3.3 Каков общий процесс обработки для сопоставления QQ? [Предполагая, что стандартный банк проблем был обработан]
4. Строительство стандартного банка задач.
- 4.1 Как найти стандартные проблемы в FAQ?
- 4.2 Как разделить часто задаваемые вопросы?
- 4.3 Как слияние FAQ?
- 4.4 Как обновить стандартную библиотеку FAQ в режиме реального времени?
5. FAQ Стандартный вопрос Банк Оптимизация ответа Оптимизация
- 5.1 Как оптимизировать ответы на стандартный банк часто задаваемых вопросов?

4.6.2 Инструменты для вопросов и ответов общие интервью

FAISS COMMENT Интервью
- 1. Мотив
  - 1.1 Каковы проблемы с традиционными алгоритмами сходства?
- 2. Введение
  - 2.1 Что такое Файс?
  - 2.2 Как использовать Faiss?
  - 2.3 Принцип FAISS и основной алгоритм
- 3. Практическая глава Faiss
  - 3.1 Как установить Faiss?
  - 3.2 Каковы индексы индексов FAISS?
  - 3.3 Как использовать индекс индекса FAISS?
    - 3.3.1 Подготовка данных
    - 3.3.2 Насильственная эстетика Indexflatl2
    - 3.3.3 Флэш -индексисфлат
    - 3.3.4 Memory Manager Indexivfpq
  - 3.4 Faiss затем использовать графический процессор?
- 4. Сравнение Файс
  - 4.1 Какой из них лучше, Sklearn Cosine_similality или Faiss

4.7 Общие интервью для системы диалога

Общие интервью для системы диалога
- 1. Введение в систему диалога
  - 1.1 Каковы системы диалога?
  - 1.2 Каковы различия между этими системами диалога?
- 2. Введение в систему многоуровневого диалога
  - 2.1 Зачем использовать многоуровневую систему диалога?
  - 2.2 Каковы общие системы многоуровневого диалога?
- 3. Введение в систему диалога на основе задач
  - 3.1 Что такое система диалога на основе задач?
  - 3.2 Каков процесс системы диалога на основе задач?
  - 3.3 Понимание языка системы на основе задач (SLU)
    - 3.3.1 Что такое языковое понимание (SLU)?
    - 3.3.2 Каковы ввод и вывод языкового понимания (SLU)?
    - 3.3.3 Какие методы используются в понимании языка (SLU)?
  - 3.4 Система диалога на основе задач DST (отслеживание статуса диалога)
    - 3.4.1 Что такое DST (отслеживание статуса диалога)?
    - 3.4.2 Каковы ввод и вывод DST (отслеживание состояния диалога)?
    - 3.4.3 У DST (отслеживание статуса диалога) проблемы и решения?
    - 3.4.4 Каков метод реализации DST (отслеживание статуса диалога)?
  - 3.5 DPO (Learning Learning стратегии диалога) системы диалога на основе задач
    - 3.5.1 Что такое DPO (обучение стратегии диалога)?
    - 3.5.2 Каковы входные и вывод DPO (Learning Learning Dialoge)?
    - 3.5.3 Каков метод реализации DPO (обучение стратегии диалога)?
  - 3.6 NLG (генерация естественного языка), основанная на задачах, система диалога
    - 3.6.1 Что такое NLG (генерация естественного языка)?
    - 3.6.2 Каковы входные и выходные данные NLG (генерация естественного языка)?
    - 3.6.3. Реализация ли NLG (генерация естественного языка)?

4.8 Общие интервью для графиков знаний

4.8.1 Общие интервью для графиков знаний

1. Введение в график знаний
- 1.1 Введение
- 1.2 Что такое график знаний?
  - 1.2.1 Что такое график?
  - 1.2.2 Что такое схема?
- 1.3 Каковы категории графиков знаний?
- 1.4 Какова ценность графика знаний?
2. Как построить график знаний?
- 2.1 Откуда берутся данные с графа знаний?
- 2.2 Каковы трудности в извлечении информации?
- 2.3 Технологии, связанные с построением графа знаний?
- 2.4. Какова конкретная технология для создания графа знаний?
  - 2.4.1 названное признание организации
  - 2.4.2 Извлечение отношений
  - 2.4.3 Резолюция сущности
  - 2.4.4 относится к устранению неоднозначности
3. Как хранить графики знаний?
4. Что может сделать график знаний?

4.8.2 Общие интервью

1. Методы, основанные на словаре и правилах
- Реализовать KBQA на основе словаря и правил?
- Реализация процесса KBQA на основе словаря и правил?
2. Методы на основе извлечения информации
- Реализовать процесс KBQA на основе извлечения информации?

4.8.3 NEO4J общие интервью

1. Neo4j введение и установка
- 1.1 Введение
- 1.2 Как скачать NEO4J?
- 1.3 Как установить NEO4J?
- 1.4 Введение в веб -интерфейс NEO4J
- 1.5 Что такое язык запросов Cypher?
2. NEO4J добавление, удаление, поиск и модификация
- 2.1 Введение
- 2.2 Как создать узел в NEO4J?
- 2.3 Как создать отношения в NEO4J?
- 2.4 Как создать отношения с местом рождения в NEO4J?
- 2.5 Как запросить neo4j?
- 2.6 Как удалить и изменить NEO4J?
3. Как использовать Python для управления базой данных Graph NEO4J?
- 3.1 Модуль NEO4J: каково выполнение оператора CQL (CYPHER)?
- 3.2 Что такое модуль Py2neo?
4. Импорт данных база данных диаграмм NEO4J

4.9 Текстовые резюме общие интервью

1. Мотив
- 1.1 Что такое текстовое резюме?
- 1.2 Каковы типы текстовых методов сводных технологий?
2. Сводка извлечения
- 2.1 Как сделать решающее резюме?
  - 2.1.1 Каковы алгоритмы оценки важности предложения?
  - 2.1.2 Каковы методы резюме на основе ограничений?
  - 2.1.3 Как извлекает алгоритм TextTeaser?
  - 2.1.4 Как экстракт алгоритма Textrank извлекает резюме?
- 2.2 Какова проблема читабельности извлеченного резюме?
3. Сжатое резюме
- 3.1 Как сделать сжатое резюме?
4. Генеративное резюме
- 4.1 Как сделать генеративное резюме?
- 4.2 Каковы проблемы с генеративным резюме?
- 4.3 Какие проблемы решают сеть Повествования-Генератора?
V. Метод абстрактной оценки качества
- 5.1 Каковы типы методов абстрактного качества?
- 5.2 Что такое Rouge?
- 5.3 Какова разница между несколькими индикаторами Rouge?
- 5.4 В чем разница между Bleu и Rouge?

4.10 Статья по исправлению текстовой ошибки

1. Введение
- 1.1 Что такое исправление ошибок текста?
- 1.2 Общие типы ошибок текста?
- 1.3 Общие методы коррекции ошибок текста?
2. Введение в метод трубопровода
- Как реализовать обнаружение ошибок в трубопроводе?
- Как внедрить отзыв кандидатов в трубопроводе?
- Как реализовать сортировку исправления ошибок в трубопроводе?
- Как реализовать оптимизацию ASR Echo в трубопроводе?

4.11 Текстовое резюме общие интервью

1. Мотив
- 1.1 Что такое текстовое резюме?
- 1.2 Каковы типы текстовых методов сводных технологий?
2. Сводка извлечения
- 2.1 Как сделать решающее резюме?
  - 2.1.1 Каковы алгоритмы оценки важности предложения?
  - 2.1.2 Каковы методы резюме на основе ограничений?
  - 2.1.3 Как извлекает алгоритм TextTeaser?
  - 2.1.4 Как экстракт алгоритма Textrank извлекает резюме?
- 2.2 Какова проблема читабельности извлеченного резюме?
3. Сжатое резюме
- 3.1 Как сделать сжатое резюме?
4. Генеративное резюме
- 4.1 Как сделать генеративное резюме?
- 4.2 Каковы проблемы с генеративным резюме?
- 4.3 Какие проблемы решают сеть Повествования-Генератора?
V. Метод абстрактной оценки качества
- 5.1 Каковы типы методов абстрактного качества?
- 5.2 Что такое Rouge?
- 5.3 Какова разница между несколькими индикаторами Rouge?
- 5.4 В чем разница между Bleu и Rouge?

4.12 Общие интервью для генерации текста

Общие интервью для методов декодирования для создания моделей
- Что такое генеративная модель?
- Каковы методы декодирования на основе поиска?
- Каковы методы декодирования на основе отбора проб?

3. Алгоритм глубокого обучения общее интервью

CNN Общие интервью
- 1. Мотив
- 2. CNN сверточный слой
  - 2.1 Какова суть сверточного слоя?
  - 2.2 Какова связь между сверточным слоем CNN и полностью подключенным слоем?
  - 2.3 Что означает канал?
- 3. CNN Pooling Layer
  - 3.1 Какой слой объединения для региона?
  - 3.2 Каковы типы слоев объединения?
  - 3.3 Какова функция слоя объединения?
  - 3.4 Что такое обратное распространение в слое объединения?
  - 3.5 Что такое подлый объединение обратного процесса?
  - 3.6 Каким образом похожа обратный процесс объединения слоя?
- 4. CNN в целом
  - 4.1 Что такое процесс CNN?
  - 4.2 Каковы характеристики CNN?
  - 4.3 Почему сверточная нейронная сеть имеет трансляционную инвариантность?
  - 4.4 Как IM2COL реализуется в сверточной нейронной сети?
  - 4.5 Каковы ограничения CNN?
- 5. Итерарованный расширенный CNN
  - 5.1 Что такое расширение CNN Void Convolution?
  - 5.2 Что такое итерация расширенная CNN?
- 6. Деконволюция
  - 6.1 Объясните принципы и использование деконволюции?

RNN Общие интервью
- 1. Рнн
  - 1.2 Зачем мне нужен RNN?
  - 1.2 Что такое структура RNN?
  - 1.3 Формула расчета прямой RNN?
  - 1.4 Каковы проблемы с RNN?
- 2. Длинная краткосрочная сеть памяти (LSTM)
  - 2.1 Зачем вам LSTM?
  - 2.2 Что такое структура LSTM?
  - 2.3 Как LSTM смягчает проблемы исчезновения градиента RNN и взрыва градиента?
  - 2.3 Что такое процесс LSTM?
  - 2.4 Каковы различия в функциях активации в LSTM?
  - 2.5 Сложность LSTM?
  - 2.6 Какие проблемы существуют LSTM?
- 3.
  - 3.1 Зачем вам GRU?
  - 3.2 Что такое структура Гру?
  - 3.3 Впередное расчет Гру?
  - 3.4 В чем разница между моделями GRU и других серий RNN?
- 4. Модель серии RNN
  - 4.1 Каковы характеристики модели серии RNN?

Внимание общие интервью
- 1. seq2seq
  - 1.1 Что такое seq2seq (кодер-декодер)?
  - 1.2 Как насчет энкодера в Seq2seq?
  - 1.3 Как насчет декодера в seq2seq?
  - 1.4 Знаете ли вы SEQ2SEQ с математической точки зрения?
  - 1.5 Какие проблемы у SEQ2SEQ?
- 2. Внимание
  - 2.1 Что такое внимание?
  - 2.2 Почему введен механизм внимания?
  - 2.3 Какова функция внимания?
  - 2.4 Каков процесс внимания?
    - Шаг 1 для выполнения Encoder (в соответствии с SEQ2SEQ)
    - Шаг 2 Рассчитайте коэффициент выравнивания
    - Шаг 3: Рассчитайте контекст семантический вектор c
    - Шаг 4 Обновите статус декодера
    - Шаг 5 Рассчитайте слова вывода прогнозирования
  - 2.5 Каковы области применения внимания?
- 3. Вариант внимания
  - 3.1 Что такое мягкое внимание?
  - 3.2 Что такое сложное внимание?
  - 3.3 Что такое глобальное внимание?
  - 3.4 Что такое местное внимание?
  - 3.5 Что такое самоубийство?

Генерирование состязательной сети Gan Common extureds
- 1. Мотивация
- 2. Введение
  - 2.1 Основные идеи GAN
  - 2.2 Основное введение в GAN
    - 2.2.1 Основная структура GAN
    - 2.2.2 Основные идеи GAN
- 三、训练篇
  - 3.1 生成器介绍
  - 3.2 判别器介绍
  - 3.3 训练过程
  - 3.4 训练所涉及相关理论基础
- 四、总结

3.1 Transformer 常见面试篇

Transformer 常见面试篇
- 一、动机篇
  - 1.1 为什么要有Transformer?
  - 1.2 Transformer 作用是什么？
- 二、整体结构篇
  - 2.1 Transformer 整体结构是怎么样？
  - 2.2 Transformer-encoder 结构怎么样？
  - 2.3 Transformer-decoder 结构怎么样?
- 三、模块篇
  - 3.1 self-attention 模块
    - 3.1.1 传统attention 是什么?
    - 3.1.2 为什么会有self-attention?
    - 3.1.3 self-attention 的核心思想是什么?
    - 3.1.4 self-attention 的目的是什么?
    - 3.1.5 self-attention 的怎么计算的?
    - 3.1.6 self-attention 为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
    - 3.1.7 为什么采用点积模型的self-attention 而不采用加性模型？
    - 3.1.8 Transformer 中在计算self-attention 时为什么要除以 $sqrt{d}$ ?
    - 3.1.9 self-attention 如何解决长距离依赖问题？
    - 3.1.10 self-attention 如何并行化？
  - 3.2 multi-head attention 模块
    - 3.2.1 multi-head attention 的思路是什么样?
    - 3.2.2 multi-head attention 的步骤是什么样?
    - 3.2.3 Transformer为何使用多头注意力机制？（为什么不使用一个头）
    - 3.2.4 为什么在进行多头注意力的时候需要对每个head进行降维？
    - 3.2.5 multi-head attention 代码介绍
  - 3.3 位置编码（Position encoding）模块
    - 3.3.1 为什么要加入位置编码（Position encoding）？
    - 3.3.2 位置编码（Position encoding）的思路是什么？
    - 3.3.3 位置编码（Position encoding）的作用是什么？
    - 3.3.4 位置编码（Position encoding）的步骤是什么？
    - 3.3.5 Position encoding为什么选择相加而不是拼接呢？
    - 3.3.6 Position encoding和Position embedding的区别？
    - 3.3.7 为何17年提出Transformer时采用的是Position Encoder 而不是Position Embedding？而Bert却采用的是Position Embedding ？
    - 3.3.8 位置编码（Position encoding）的代码介绍
  - 3.4 残差模块模块
    - 3.4.1 为什么要加入残差模块？
  - 3.5 Layer normalization 模块
    - 3.5.1 为什么要加入Layer normalization 模块？
    - 3.5.2 Layer normalization 模块的是什么？
    - 3.5.3 Batch normalization 和Layer normalization 的区别？
    - 3.5.4 Transformer 中为什么要舍弃Batch normalization 改用Layer normalization 呢?
    - 3.5.5 Layer normalization 模块代码介绍
  - 3.6 Mask 模块
    - 3.6.1 什么是Mask？
    - 3.6.2 Transformer 中用到几种Mask？
    - 3.6.3 能不能介绍一下Transformer 中用到几种Mask？

【关于Transformer 问题及改进】那些你不知道的事
- 一、Transformer 问题篇
  - 1.1 既然Transformer 怎么牛逼，是否还存在一些问题？
- 二、每个问题的解决方法是什么？
  - 2.1 问题一：Transformer 不能很好的处理超长输入问题
    - 2.1.1 Transformer 固定了句子长度？
    - 2.1.2 Transformer 固定了句子长度的目的是什么？
    - 2.1.3 Transformer 针对该问题的处理方法？
  - 2.2 问题二：Transformer 方向信息以及相对位置的缺失问题
  - 2.3 问题三：缺少Recurrent Inductive Bias
  - 问题四：问题四：Transformer是非图灵完备的：非图灵完备通俗的理解，就是无法解决所有的问题
  - 问题五：transformer缺少conditional computation；
  - 问题六：transformer 时间复杂度和空间复杂度过大问题；

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA）面试篇

一、动机篇
- 1.1 什么是数据增强？
- 1.2 为什么需要数据增强？
二、常见的数据增强方法篇
- 2.1 词汇替换篇
  - 2.1.1 什么是基于词典的替换方法？
  - 2.1.2 什么是基于词向量的替换方法？
  - 2.1.3 什么是基于MLM 的替换方法？
  - 2.1.4 什么是基于TF-IDF 的词替换？
- 2.2 词汇插入篇
  - 2.2.1 什么是随机插入法？
- 2.3 词汇交换篇
  - 2.3.1 什么是随机交换法？
- 2.4 词汇删除篇
  - 2.4.1 什么是随机删除法？
- 2.5 回译篇
  - 2.5.1 什么是回译法？
- 2.6 交叉增强篇
  - 2.6.1 什么是交叉增强篇
- 2.7 语法树篇
  - 2.7.1 什么是语法树操作？
- 2.8 对抗增强篇
  - 2.8.1 什么是对抗增强？

5.1.2 主动学习面试篇

一、动机篇
- 1.1 主动学习是什么？
- 1.2 为什么需要主动学习？
二、主动学习篇
- 2.1 主动学习的思路是什么？
- 2.2 主动学习方法的价值点在哪里？
三、样本选取策略篇
- 3.1 以未标记样本的获取方式的差别进行划分
- 3.2 测试集内选取“信息”量最大的数据标记
  - 3.2.1 测试集内选取“信息”量最大的数据标记
  - 3.2.2 依赖不确定度的样本选取策略（Uncertainty Sampling, US）
  - 3.2.3 基于委员会查询的方法（Query-By-Committee，QBC）

5.1.3 数据增强之对抗训练面试篇

1. Введение
- 1.1 什么是对抗训练？
- 1.2 为什么对抗训练能够提高模型效果？
- 1.3 对抗训练有什么特点？
- 1.4 对抗训练的作用?
二、概念篇
- 2.1 对抗训练的基本概念?
- 2.2 如何计算扰动?
- 2.3 如何优化?
三、实战篇
- 3.1 NLP 中经典对抗训练之Fast Gradient Method（FGM）
- 3.2 NLP 中经典对抗训练之Projected Gradient Descent（PGD）

5.2 “脏数据”处理面试篇

一、动机
- 1.1 何为“脏数据”？
- 1.2 “脏数据” 会带来什么后果？
二、“脏数据” 处理篇
- 2.1 “脏数据” 怎么处理呢？
- 2.2 置信学习方法篇
  - 2.2.1 什么是置信学习方法？
  - 2.2.2 置信学习方法优点？
  - 2.2.3 置信学习方法怎么做？
  - 2.2.4 置信学习方法怎么用？有什么开源框架？
  - 2.2.5 置信学习方法的工作原理？

5.3 batch_size设置面试篇

一、训练模型时，batch_size的设置，学习率的设置?

5.4 早停法EarlyStopping 面试篇

一、为什么要用早停法EarlyStopping？
二、早停法EarlyStopping 是什么？
三、早停法torch 版本怎么实现？

5.5 标签平滑法LabelSmoothing 面试篇

一、为什么要有标签平滑法LabelSmoothing？
二、标签平滑法是什么？
三、标签平滑法torch 怎么复现？

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

什么是Bert 未登录词？
Bert 未登录词如何处理？
Bert 未登录词各种处理方法有哪些优缺点？

5.6.2 BERT在输入层引入额外特征面试篇

BERT在输入层如何引入额外特征？

5.6.3 关于BERT 继续预训练面试篇

什么是继续预训练？
为什么会存在【数据分布/领域差异】大问题？
如何进行继续预训练？
还有哪些待解决问题？
训练数据问题解决方案？
知识缺乏问题解决方案？
知识理解缺乏问题解决方案？

5.6.4 BERT如何处理篇章级长文本面试篇

为什么Bert 不能处理长文本？
BERT 有哪些处理篇章级长文本?

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

什么是prompt？
如何设计prompt？
prompt进阶——如何自动学习prompt？
Prompt 有哪些关键要点？
Prompt 如何实现？

6.2 Prompt 文本生成面试篇

Prompt之文本生成评估手段有哪些？
Prompt文本生成具体任务有哪些？

6.3 LoRA 面试篇

什么是lora？
lora 是怎么做的呢？
lora 为什么可以这样做？
用一句话描述lora？
lora 优点是什么？
lora 缺点是什么？
lora 如何实现？

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

一、微调Fine-tuning 篇
- 1.1 什么是微调Fine-tuning ？
- 1.2 微调Fine-tuning 基本思想是什么？
二、轻度微调（lightweight Fine-tuning）篇
- 2.1 什么是轻度微调（lightweight Fine-tuning）？
三、适配器微调（Adapter-tuning）篇
- 3.1 什么是适配器微调（Adapter-tuning）？
- 3.2 适配器微调（Adapter-tuning）变体有哪些？
四、提示学习（Prompting）篇
- 4.1 什么是提示学习（Prompting）？
- 4.2 提示学习（Prompting）的目的是什么？
- 4.3 提示学习（Prompting）代表方法有哪些？
  - 4.3.1 前缀微调（Prefix-tining）篇
    - 4.3.1.1 什么是前缀微调（Prefix-tining）？
    - 4.3.1.2 前缀微调（Prefix-tining）的核心是什么？
    - 4.3.1.3 前缀微调（Prefix-tining）的技术细节有哪些？
    - 4.3.1.4 前缀微调（Prefix-tining）的优点是什么？
    - 4.3.1.5 前缀微调（Prefix-tining）的缺点是什么？
  - 4.3.2 指示微调（Prompt-tuning）篇
    - 4.3.2.1 什么是指示微调（Prompt-tuning）？
    - 4.3.2.2 指示微调（Prompt-tuning）的核心思想？
    - 4.3.2.3 指示微调（Prompt-tuning）的优点/贡献是什么？
    - 4.3.2.4 指示微调（Prompt-tuning）的缺点是什么？
    - 4.3.2.5 指示微调（Prompt-tuning）与Prefix-tuning 区别是什么？
    - 4.3.2.6 指示微调（Prompt-tuning）与fine-tuning 区别是什么？
  - 4.3.3 P-tuning 篇
    - 4.3.3.1 P-tuning 动机是什么？
    - 4.3.3.2 P-tuning 核心思想是什么？
    - 4.3.3.3 P-tuning 做了哪些改进？
    - 4.3.3.4 P-tuning 有哪些优点/贡献？
    - 4.3.3.5 P-tuning 有哪些缺点？
  - 4.3.4 P-tuning v2 篇
    - 4.3.4.1 为什么需要P-tuning v2？
    - 4.3.4.2 P-tuning v2 是什么？
    - 4.3.4.3 P-tuning v2 有哪些优点？
    - 4.3.4.4 P-tuning v2 有哪些缺点？
  - 4.3.5 PPT 篇
    - 4.3.5.1 为什么需要PPT ？
    - 4.3.5.2 PPT 核心思想是什么？
    - 4.3.5.3 PPT 具体做法是怎么样？
    - 4.3.5.4 常用的soft prompt初始化方法？
    - 4.3.5.5 PPT 的优点是什么？
    - 4.3.5.6 PPT 的缺点是什么？
- 4.4 提示学习（Prompting）优点是什么？
- 4.5 提示学习（Prompting）本质是什么？
五、指令微调（Instruct-tuning）篇
- 5.1 为什么需要指令微调（Instruct-tuning）？
- 5.2 指令微调（Instruct-tuning）是什么？
- 5.3 指令微调（Instruct-tuning）的优点是什么？
- 5.4 指令微调（Instruct-tuning） vs 提升学习（Prompting）？
- 5.5 指令微调（Instruct-tuning） vs 提升学习（Prompting） vs Fine-tuning？
六、指令提示微调（Instruct Prompt tuning）篇
- 6.1 为什么需要指令微调（Instruct-tuning）？
- 6.2 指令微调（Instruct-tuning）是什么？
- 6.3 指令微调（Instruct-tuning）在不同任务上性能？
七、self-instruct篇
- 7.1 什么是self-instruct？
八、Chain-of-Thought 篇
- 8.1 为什么需要Chain-of-Thought ？
- 8.2 什么是Chain-of-Thought ？
- 8.3 Chain-of-Thought 的思路是怎么样的？
- 8.4 Chain-of-Thought 的优点是什么？
- 8.5 为什么chain-of-thought 会成功？
九、LoRA 篇
- 9.1 LoRA 篇
  - 9.1.1 LoRA 核心思想是什么？
  - 9.1.2 LoRA 具体思路是什么？
  - 9.1.3 LoRA 优点是什么？
  - 9.1.4 LoRA 缺点是什么？
- 9.2 AdaLoRA 篇
  - 9.2.1 AdaLoRA 核心思想是什么？
  - 9.2.2 AdaLoRA 实现思路是什么？
- 9.3 DyLoRA 篇
  - 9.3.1 AdaLoRA 动机是什么？
  - 9.3.2 AdaLoRA 核心思想是什么？
  - 9.3.3 AdaLoRA 优点是什么？
十、BitFit 篇
- 10.1 AdaLoRA 核心思想是什么？
- 10.2 AdaLoRA 优点是什么？
- 10.3 AdaLoRA 缺点是什么？

七、LLMs 面试篇

7.1 【现在达模型LLM，微调方式有哪些？各有什么优缺点？

现在达模型LLM，微调方式有哪些？各有什么优缺点？

7.2 GLM：ChatGLM的基座模型常见面试题

GLM 的核心是什么？
GLM 的模型架构是什么？
GLM 如何进行多任务训练？
在进行NLG 时， GLM 如何保证生成长度的未知性？
GLM 的多任务微调方式有什么差异？
GLM 的多任务微调方式有什么优点？

一、基础算法常见面试篇

过拟合和欠拟合常见面试篇
- 一、过拟合和欠拟合是什么？
- 二、过拟合/高方差（overfiting / high variance）篇
  - 2.1 过拟合是什么及检验方法？
  - 2.2 导致过拟合的原因是什么？
  - 2.3 过拟合的解决方法是什么？
- 三、欠拟合/高偏差（underfiting / high bias）篇
  - 3.1 欠拟合是什么及检验方法？
  - 3.2 导致欠拟合的原因是什么？
  - 3.3 过拟合的解决方法是什么？

BatchNorm vs LayerNorm 常见面试篇
- 一、动机篇
  - 1.1 独立同分布（independent and identically distributed）与白化
  - 1.2 （ Internal Covariate Shift，ICS）
  - 1.3 ICS问题带来的后果是什么？
- 二、Normalization 篇
  - 2.1 Normalization 的通用框架与基本思想
- 三、Batch Normalization 篇
  - 3.1 Batch Normalization（纵向规范化）是什么？
  - 3.2 Batch Normalization（纵向规范化）存在什么问题？
  - 3.3 Batch Normalization（纵向规范化）适用的场景是什么？
  - 3.4 BatchNorm 存在什么问题？
- 四、Layer Normalization（横向规范化）篇
  - 4.1 Layer Normalization（横向规范化）是什么？
  - 4.2 Layer Normalization（横向规范化）有什么用？
- 五、BN vs LN 篇
- 六、主流Normalization 方法为什么有效？

激活函数常见面试篇
- 一、动机篇
  - 1.1 为什么要有激活函数？
- 二、激活函数介绍篇
  - 2.1 sigmoid 函数篇
    - 2.1.1 什么是sigmoid 函数？
    - 2.1.2 为什么选sigmoid 函数作为激活函数？
    - 2.1.3 sigmoid 函数有什么缺点？
  - 2.2 tanh 函数篇
    - 2.2.1 什么是tanh 函数？
    - 2.2.2 为什么选tanh 函数作为激活函数？
    - 2.2.3 tanh 函数有什么缺点？
  - 2.3 relu 函数篇
    - 2.3.1 什么是relu 函数？
    - 2.3.2 为什么选relu 函数作为激活函数？
    - 2.3.3 relu 函数有什么缺点？
- 三、激活函数选择篇
正则化常见面试篇
- 一、L0，L1，L2正则化篇
  - 1.1 正则化是什么？
  - 1.2 什么是L0 正则化？
  - 1.3 什么是L1 （稀疏规则算子Lasso regularization）正则化？
  - 1.4 什么是L2 正则化（岭回归Ridge Regression 或者权重衰减Weight Decay）正则化？
- 二、对比篇
  - 2.1 什么是结构风险最小化？
  - 2.2 从结构风险最小化的角度理解L1和L2正则化
  - 2.3 L1 vs L2
- 三、dropout 篇
  - 3.1 什么是dropout？
  - 3.2 dropout 在训练和测试过程中如何操作？
  - 3.3 dropout 如何防止过拟合?

优化算法及函数常见面试篇
- 一、动机篇
  - 1.1 为什么需要优化函数？
  - 1.2 优化函数的基本框架是什么?
- 二、优化函数介绍篇
  - 2.1 梯度下降法是什么?
  - 2.2 随机梯度下降法是什么?
  - 2.3 Momentum 是什么?
  - 2.4 SGD with Nesterov Acceleration 是什么?
  - 2.5 Adagrad 是什么?
  - 2.6 RMSProp/AdaDelta 是什么？
  - 2.7 Adam 是什么?
  - 2.8 Nadam 是什么?
- 三、优化函数学霸笔记篇

归一化常见面试篇
- 一、动机篇
  - 1.1 为什么要归一化？
- 二、介绍篇
  - 2.1 归一化有哪些方法？
  - 2.2 归一化各方法特点？
  - 2.3 归一化的意义？
- Iii. Приложение
  - 3.1 哪些机器学习算法需要做归一化？
  - 3.2 哪些机器学习算法不需要做归一化？

判别式（discriminative）模型vs. 生成式(generative)模型常见面试篇
- 一、判别式模型篇
  - 1.1 什么是判别式模型？
  - 1.2 判别式模型是思路是什么？
  - 1.3 判别式模型的优点是什么？
- 二、生成式模型篇
  - 2.1 什么是生成式模型？
  - 2.2 生成式模型是思路是什么？
  - 2.3 生成式模型的优点是什么？
  - 2.4 生成式模型的缺点是什么？

二、机器学习算法篇常见面试篇

逻辑回归常见面试篇
- 1. Введение
  - 1.1什么是逻辑回归
  - 1.2逻辑回归的优势
- 二、推导篇
  - 2.1逻辑回归推导
  - 2.2求解优化

支持向量机常见面试篇
- 一、原理篇
  - 1.1 什么是SVM？
    - QA
  - 1.2 SVM怎么发展的？
  - 1.3 SVM存在什么问题？
    - QA
- 二、算法篇
  - 2.1 什么是块算法？
  - 2.2 什么是分解算法？
  - 2.3 什么是序列最小优化算法？
  - 2.4 什么是增量算法？
    - QA
- 三、其他SVM篇
  - 3.1 什么是最小二次支持向量机？
  - 3.2 什么是模糊支持向量机？
  - 3.3 什么是粒度支持向量机？
  - 3.4 什么是多类训练算法？
  - 3.5 什么是孪生支持向量机？
  - 3.6 什么是排序支持向量机？
    - QA
- IV Приложение
  - 4.1 模式识别
  - 4.2 网页分类
  - 4.3 系统建模与系统辨识
  - 4.4 其他
- 五、对比篇
- 六、拓展篇

集成学习常见面试篇
- 一、动机
- 二、集成学习介绍篇
  - 2.1 介绍篇
    - 2.1.1 集成学习的基本思想是什么？
    - 2.1.2 集成学习为什么有效？
- 三、 Boosting 篇
  - 3.1 用一句话概括Boosting？
  - 3.2 Boosting 的特点是什么？
  - 3.3 Boosting 的基本思想是什么？
  - 3.4 Boosting 的特点是什么？
  - 3.5 GBDT 是什么？
  - 3.6 Xgboost 是什么？
- 四、Bagging 篇
  - 4.1 用一句话概括Bagging？
  - 4.2 Bagging 的特点是什么？
  - 4.3 Bagging 的基本思想是什么？
  - 4.4 Bagging 的基分类器如何选择？
  - 4.5 Bagging 的优点是什么？
  - 4.6 Bagging 的特点是什么？
  - 4.7 随机森林是什么？
- 五、 Stacking 篇
  - 5.1 用一句话概括Stacking ？
  - 5.2 Stacking 的特点是什么？
  - 5.3 Stacking 的基本思路是什么？
- 六、常见问题篇
  - 6.1 为什么使用决策树作为基学习器？
  - 6.2 为什么不稳定的学习器更适合作为基学习器？
  - 6.3 哪些模型适合作为基学习器？
  - 6.4 Bagging 方法中能使用线性分类器作为基学习器吗？ Boosting 呢？
  - 6.5 Boosting/Bagging 与偏差/方差的关系？
- 七、对比篇
  - 7.1 LR vs GBDT?

九、【关于Python 】那些你不知道的事

【关于Python 】那些你不知道的事
- 一、什么是*args 和**kwargs？
  - 1.1 为什么会有*args 和**kwargs？
  - 1.2 *args 和**kwargs 的用途是什么？
  - 1.3 *args 是什么？
  - 1.4 **kwargs是什么？
  - 1.5 *args 与**kwargs 的区别是什么？
- 二、什么是装饰器？
  - 2.1 装饰器是什么？
  - 2.2 装饰器怎么用？
- 三、Python垃圾回收（GC）
  - 3.1 垃圾回收算法有哪些？
  - 3.2 引用计数（主要）是什么？
  - 3.3 标记-清除是什么？
  - 3.4 分代回收是什么？
- 四、python的sorted函数对字典按key排序和按value排序
  - 4.1 python 的sorted函数是什么？
  - 4.2 python 的sorted函数举例说明？
- 五、直接赋值、浅拷贝和深度拷贝
  - 5.1 概念介绍
  - 5.2 介绍
  - 5.3 变量定义流程
  - 5.3 赋值
  - 5.4 浅拷贝
  - 5.5 深度拷贝
  - 5.6 核心：不可变对象类型and 可变对象类型
    - 5.6.1 不可变对象类型
    - 5.6.2 可变对象类型
- 六、进程、线程、协程
  - 6.1 进程
    - 6.1.1 什么是进程？
    - 6.1.2 进程间如何通信？
  - 6.2 线程
    - 6.2.1 什么是线程？
    - 6.2.2 线程间如何通信？
  - 6.3 进程vs 线程
    - 6.3.1 区别
    - 6.3.2 应用场景
  - 6.4 协程
    - 6.4.1 什么是协程？
    - 6.4.2 协程的优点？
- 七、全局解释器锁
  - 7.1 什么是全局解释器锁？
  - 7.2 GIL有什么作用？
  - 7.3 GIL有什么影响？
  - 7.4 如何避免GIL带来的影响？

十、【关于Tensorflow 】那些你不知道的事

【关于Tensorflow 损失函数】那些你不知道的事
- 一、动机
- 二、什么是损失函数？
- 三、目标函数、损失函数、代价函数之间的关系与区别？
- 四、损失函数的类别
  - 4.1 回归模型的损失函数
    - （1）L1正则损失函数（即绝对值损失函数）
    - （2）L2正则损失函数（即欧拉损失函数）
    - （3）均方误差（MSE, mean squared error）
    - （4）Pseudo-Huber 损失函数
  - 4.2 分类模型的损失函数
    - （1）Hinge损失函数
    - （2）两类交叉熵（Cross-entropy）损失函数
    - （3）Sigmoid交叉熵损失函数
    - （4）加权交叉熵损失函数
    - （5）Softmax交叉熵损失函数
    - (6) SparseCategoricalCrossentropy vs sparse_categorical_crossentropy
- 5. Резюме

Расширять

NLP Interview Notes

НЛП редко

4. Общие интервью для алгоритмов обучения НЛП

4.1 Общие интервью для извлечения информации

4.1.1 Общие интервью для признания именования организации

4.1.2 Общие интервью для рисования отношений

4.1.3 Извлечение событий общие интервью

4.2 Общие интервью для алгоритмов предварительного обучения НЛП

4.3 Берт общие интервью

4.3.1 Общие интервью для сжатия модели BERT

4.3.2 Общие интервью для серии моделей Bert

4.4 Общие интервью для классификации текста

4.5 Общие интервью для сопоставления текста

4.6 Общие интервью для системы вопросов и ответов

4.6.1 Общие интервью для системой вопросов и ответов на основе часто задаваемых вопросов, основанных на FAQ

4.6.2 Инструменты для вопросов и ответов общие интервью

4.7 Общие интервью для системы диалога

4.8 Общие интервью для графиков знаний

4.8.1 Общие интервью для графиков знаний

4.8.2 Общие интервью

4.8.3 NEO4J общие интервью

4.9 Текстовые резюме общие интервью

4.10 Статья по исправлению текстовой ошибки

4.11 Текстовое резюме общие интервью

4.12 Общие интервью для генерации текста

3. Алгоритм глубокого обучения общее интервью

3.1 Transformer 常见面试篇

五、NLP 技巧面

5.1 少样本问题面

5.1.1 数据增强（EDA） 面试篇

5.1.2 主动学习面试篇

5.1.3 数据增强之对抗训练面试篇

5.2 “脏数据”处理面试篇

5.3 batch_size设置面试篇

5.4 早停法EarlyStopping 面试篇

5.5 标签平滑法LabelSmoothing 面试篇

5.6 Bert Trick 面试篇

5.6.1 Bert 未登录词处理面试篇

5.6.2 BERT在输入层引入额外特征面试篇

5.6.3 关于BERT 继续预训练面试篇

5.6.4 BERT如何处理篇章级长文本面试篇

六、 Prompt Tuning 面试篇

6.1 Prompt 面试篇

6.2 Prompt 文本生成面试篇

6.3 LoRA 面试篇

6.4 PEFT（State-of-the-art Parameter-Efficient Fine-Tuning）面试篇

七、LLMs 面试篇

7.1 【现在达模型LLM，微调方式有哪些？各有什么优缺点？

7.2 GLM：ChatGLM的基座模型常见面试题

一、基础算法常见面试篇

二、机器学习算法篇常见面试篇

九、【关于Python 】那些你不知道的事

十、【关于Tensorflow 】那些你不知道的事

5.1.1 数据增强（EDA）面试篇