CarReviewsSearchEngine Скачать - CarReviewsSearchEngine исходный код скачать

CarReviewsSearchEngine

Другой исходный код

1.0.0

Скачать

Проект для моего экзамена по управлению информацией AY 2023/2024

Абстрактный

Покупка нового автомобиля может быть сложной и сложной из -за огромного количества автопроизводителей и моделей, каждый из которых со своими плюсами, минусами и специальными функциями. Эта поисковая система направлена на то, чтобы помочь людям отфильтровать отзывы для автомобильных моделей, предложив для них наиболее интересные и актуальные.

Модули содержание

DateSet_Generator.py

Создает приблизительно 300 000 файлов из указанного файла .csv , приведенного в качестве первого аргумента, и хранит их в каталоге, указанном в качестве второго аргумента. Каждый файл соответствует строке в файле .csv , с каждым аргументом, разделенным Newline. Это формирует базовый набор данных для создания инвертированного индекса.

concurrent_generator.py

Параллельная версия dataset_generator.py , которая одновременно создает набор данных, сокращая время примерно на 33%. Этот вывод основан на различных тестах, проведенных на разных ПК.

index_generator.py

Этот скрипт создает инвертированный индекс из файлов, сгенерированных с помощью dataset_generator.py , принимая каталог файлов в качестве первого аргумента. Затем инвертированный индекс сохраняется в текущем каталоге.

Индексная схема определение:

file : имя файла обзора
maker : производитель автомобилей обзорного автомобиля
model : модель автомобиля рецензируемого автомобиля
year : год рецензируемого автомобиля
author : автор обзора
date : дата обзора
title : Название обзора
rating : рейтинг обзора
content : фактический обзор

Query.py

Сценарий, который работает в каталоге индекса (должен быть в рабочем каталоге) и позволяет задавать запросы по инвертированному индексу.

Основные функции поиска и синтаксис:

Полнотекстовый поиск: word1 word2
Phrasal Search: "word1 word2"
Поиск подстановочного знака: word*
Поиск диапазона: [word1 TO word2]
Поиск близости: "word1 word2"~N
Логический поиск: word1 AND/OR/NOT word2
Нечеткий поиск: word~
Цифра 0 для выхода

Укриста не работают на запросе с указанными полями (Ex. maker:a* ), потому что поля maker и model устанавливаются в качестве идентификатора в определении схемы, чтобы избежать предварительной обработки их, поскольку это ухудшает результаты запроса.

custom_model.py

Модуль, который содержит классы и методы для пользовательской оценки различных моделей.

Текущие модели:

Полнотекстовая модель: использует BM25F-оценку с небольшой настройкой на свободные переменные B и K1 . Модель, используемая для запроса: Настраиваемые значения BM25F: B=0.5, K1=1.5 .
Модель настроений: использует настроение обзора, чтобы повлиять на оценку. Он был разработан для работы как для BM25F , так и для TF_IDF . Он имеет 2 разных типа очков:
- Оценка с чувством значения: использует только значение настроения обзора, чтобы повлиять на окончательный счет с формулой: final_score = score * sentiment_value .
- Оценка с чувством значения и ранжирования: использует значение настроения и рейтинг обзора, чтобы исправить оценку, избегая любых возможных несоответствий с рейтингом и значением настроения. Он использует серию формул, основанные на типе настроений (см. Код комментарий, чтобы узнать больше):
  - Положительное мнение: final_score = score * sentiment_value * rating/5 .
  - Отрицательное настроение: final_score = score * sentiment_value * 1.2 - rating/5 .
  - Нейтральное настроение: if rating > 3: final_score = score * sentiment_value * 0.4 - rating/5 или, if rating < 3: final_score = score * sentiment_value * 0.4 + rating/5 .
Модель Word2VEC: модель была обучена пользовательской наборе данных, используя архитектуру CBOW (непрерывная сумка слов). Для каждого слова в документе он вычисляет вектор, а затем вычисляет среднее вектор документа. Среднее значение хранятся в файле .json , который используется пользовательским классом модели, который вычисляет сходство косинуса между каждым документом и предварительным вектором запросов. Затем используйте следующую формулу, чтобы получить окончательный счет: final_score = score * cosine_similarity .

Полезные файлы:

Набор данных: набор данных Kaggle
Полный перевернутый индекс: ссылка будет добавлена позже
Предварительно обученная модель настроений: страница huggingface
Демо -версия на инвертированном индексе (~ 20 000 обзоров): демонстрация инвертированного индекса
Модель Word2VEC, обученная нами: модель Word2VEC
Word2vec векторы всех набора данных: word2vec векторы

Как использовать:

Создание набора данных: вы можете создать индекс, начиная с набора данных, загрузив его по ссылке выше и вставая в каталог проекта. Запустите dataset_generator.py следующим образом: python3 -s dataset_generator.py review.csv <output_directory> .
Создание инвертированного индекса: как только вы создали набор данных, вы можете запустить index_generator.py , чтобы создать инвертированный индекс. Используйте следующую команду: python3 -s index_generator.py <dataset_directory> Я предлагаю попробовать демо индекса, прежде чем создавать весь один, так как этот скрипт вычисляет настроение каждого файла во время генерации индекса, и в зависимости от спецификаций вашего ПК, это может занять давнее (это потребовалось мне ~ 8 часов для 1 -й версии полной и ~ 20 мин.
Запрос индекса: после того, как вы загрузили или создали индекс, теперь вы можете загрузить модель Word2VEC и векторы Word2VEC в рабочем каталоге. Затем просто запустите query.py следующим образом: python3 -s query.py <index_directory_path> .

Требования

Этот проект был разработан и протестирован с помощью Python 3.11.5 (скачать здесь). Любое использование другой версии может вызвать ошибки.

Требования к модулям перечислены в требованиях.txt.

Члены проекта: Муссини Симона, Сиена Андреа, Стомео Парид

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-05-27
размер 12.05KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

CarReviewsSearchEngine

Проект для моего экзамена по управлению информацией AY 2023/2024

Абстрактный

Модули содержание

DateSet_Generator.py

concurrent_generator.py

index_generator.py

Индексная схема определение:

Query.py

custom_model.py

Полезные файлы:

Как использовать:

Требования

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express