Информация-протекальная
Ключевые слова
Elasticsearch, MongoDB, Tornado Server, Restful API, Python, поиск информации, машинное обучение, веб -гусеница
Скриншоты
- Поиск веб -страницы

- Результат Elasticsearch

- Поисковый интерфейс

- Результаты поиска

Введение
Домашнее задание моего курса «Поиск информации», Python 3.
- Преподаватель: Вирджил Павлу
- Университет: Северо -восточный университет
- Курс: CS6200
- Elasticsearch Index
- Индекс более 80000 документов в Elasticsearch
- оптимизированная скорость индекса до 15 минут
- Индекс документов
- Сделаю свой собственный "Elasticsearch"
- Индексные данные как в измерении DOC, так и в измерении термина
- Два вида индекса измерений повышают эффективность индекса.
- Веб -гусеницы
- Тема: морская авария
- Поиск по ширине для выполнения всех страниц в ранних волнах.
- Приложение тематического модуля для точной проверки актуальности страниц
- В общей сложности 36000 страниц более 50% имеет отношение к теме «морская авария»
- Различайте разыскиваемые страницы по типу контента заголовка, прежде чем загружать его.
- Применяемый сеанс сеанс для восстановления файлов cookie для быстрой и низкой повторной передачи.
- Сортировка доменов в соответствии с последним временем доступа, чтобы несколько потоков могли получить доступ к различным доменам, чтобы ускорить ползание
- Нормализовать ссылки HREF в хорошем методе, чтобы снизить скорость падения страниц
- Вычисление веб -графа
- Применяемый PageRank и хиты, чтобы оценить страницу во всей странице
- относиться к ссылкам на и выходе страниц в качестве направленного сетевого графа
- Вычисление веб -графов - это своего рода идея «кремы поднимаются до вершины»:
- Страница с хорошей властью может быть упоминана все больше и больше,
- Good Hub Page раскачивает все больше и больше хороших авторитетных страниц.
- Оценки актуальности веб -интерфейса
- Применяемый сервер торнадо в качестве веб -сервера, к которому можно получить удаленно
- Сервер связи с базой данных ElasticSearch для поиска и извлечения данных
- MongoDB восстанавливает информацию о странице, чтобы ускорить веб -сервер
- Сделанный шаблон HTML на основе Python для автоматического создания страницы результатов поиска и гибкости.
- Установите разрешение на вход для фильтрации пользователей
- Применяемый приложение Информация об уровне для передачи параметров между страницами.
- После получения ручной оценки примените запрос вычислить R-назначение, среднюю точность, NDCG, точность и отзыв и F1, чтобы оценить результаты поиска, поступающие из набора страниц.
- Нарисуйте точность и отзывную графику для визуализированного сотрудничества между распределением результатов поиска и соответствующими истинными значениями страницы.
- Машинное обучение для ИК
- С лучшим пониманием Elasticsearch, повторно индекс набора данных, который устанавливает новый анализатор со стандартным стволом токенизатора, нижнего регистра и Porter2.
- Установите вложенное отображение для восстановления деталей функций
- различать документы по различным типам Elasticsearch
- Для набора данных с помеченными данными в нем, разделите его на 80% для обучения, 20% для тестирования
- Пробовал различная комбинация функции для повышения производительности модуля машинного обучения
- Применяемые различные модули машинного обучения, включая: регрессия лайнера, логистическая регрессия, SVM, Rank SVM