EMAN скачать - скачать исходный код EMAN

EMAN

Другие категории

1.0.0

Скачать

Эман

Простая система рекомендаций по электронной книге, основанная на алгоритме Framework и Pretment Collaborative Filtering (ITEMCF)

Интерфейс скриншот

IMG/HomePage 0.png

IMG/HomePage 1 мне интересно.

Классификация IMG/книги 0.png

Страница IMG/Book Page 0.png

IMG/Книга Подробности Page 1 Рекомендации и комментарии.png

IMG/Книга Подробности Страница 2 Комментарии.png

IMG/Книга Подробности Page 1 Рекомендации и комментарии.png

img/login.png

img/search page.png

Анализ функции системы

«Стратегия ползания

IMG/CRAWLER CRAUTLING STRAPING.PNG

Системный анализ и дизайн

Системный анализ

Как показано на диаграмме вариантов использования, в этой системе есть три основных пользователя. Это туристы, зарегистрированные пользователи и администраторы. Посетители могут посетить домашнюю страницу платформы рекомендаций электронной книги, страницы регистрации пользователей и просмотреть страницу электронной книги. Функция регистрации пользователей заключается в том, что они могут оценивать и комментировать электронные книги и рекомендовать электронные книги, определяемые прогнозируемым процентом пользователя. Администраторы могут регулярно использовать модуль Crawler для обновления информации о электронных книгах и использовать модуль статистики для обновления классифицированной статистики, матрицы совместного появления электронных книг и матрицы сходства косинусов E-книги.

! [User case.png] (/img/user case.png)

Дизайн системы

Таблица базы данных

IMG/ER Picture.png

Электронная книга: подробности книги
RatingList: �� Список комментариев рейтинга
SubClassify: Book SubClassify
Пользователь: Пользовательская информация
ClassificationMainStatistics: Статистика основной классификации
Рекомендовать: Рекомендуемые книги на домашней странице (должны быть определены)
Любимый: Пользовательский список категорий
Matrixc: Матрица совместного появления C и матрица сходства косинуса W.

Класс и связанные с ним основные документы

Символ → Указывает, что класс является обычной ручной работой модулей

com.controller

EbookController: интерфейс, связанный с книгой
RatingListController: интерфейс, связанный с комментариями пользователей и рейтингами
StatisticsController: интерфейс модуля статистики
USERCONTROLLER: интерфейс, связанный с пользователем
FastoriteController: пользователи любят интерфейсы классификации
ClassifyMainStatisticsController: интерфейс, связанный с статистикой классификации

com.dao

DBACCESS: используется для получения подключения к базе данных SQLSession
Ebookdao: предоставляет доступ к спискам книг
RatingListdao: предоставьте доступ к таблице обзоров рейтинга
UserDao: предоставляет доступ к пользовательским таблицам
FASTIDEDAO: Пользовательский любимый доступ к категориям таблиц
ClassifyMainStatisticsDao: доступ к таблицам данных, связанных с классифицированной статистикой
Matrixcdao: обеспечивает доступ к матрице Co-occurrence C и Matrix сходства косинуса w
Ebookmapper.xml: SQL -заявление, которое обеспечивает доступ к таблицу книг
Ratinglistmapper.xml: оператор SQL, который обеспечивает доступ к таблице комментариев рейтинга
Usermapper.xml: SQL оператор, который предоставляет доступ к пользовательским таблицам
Classifymainstatisticsmapper.xml: оператор SQL, который обеспечивает доступ к основной таблице статистики раздела
FastoriteMapper.xml: SQL -операторы, которые пользователи любят получить доступ к таблице классификации
Classifymainstatisticsmapper.xml: оператор SQL для доступа к таблицам данных, связанных с классифицированной статистикой
Matrixcmapper.xml: SQL-оператор, который обеспечивает доступ к матрице Co-occurrence C и косинусной сходству w

com.entity

Электронная книга: книги-> Электронные книги
Ratinglist: комментарии и рейтинги -> Таблица рейтинга
ClassifyMainStatistics: модуль основной статистики разделения -> ClassifyMainStatistics Table
Пользователь: пользователь-> Пользовательская таблица
Любимый: Пользователи любят классифицированные объекты-> Любимый таблица
Matrixc: Матрица Co -occurrence C и косинусная матрица сходства W -> Таблица Matrixc

com.service

Электронная книга: модуль книги
RatingListService: модуль оценки комментариев
Userservice: пользовательский модуль
Favorite Sperise: пользователи любят классификационные модули
ClassifyMainStatisticsService: Classification StatisticsModule

com.statistics

→ ItemcollaborationFilter: используется для расчета рекомендуемой матрицы для совместной фильтрации на основе элементов
→ StatisticsClassifyMain: StatisticsClassifyMain: Количество рейтинга людей, средний рейтинг и дисперсия рейтингов для каждой оценки в основной категории
→ StatisticsratingValue: Информация о рейтинге книг Статистика: подсчитайте данные таблицы RatingValue и напишите статистические результаты в таблицу электронных книг, соответствующую книге

com.util

Chartdatajsoncreater: предоставляет структурированный формат данных JSON для преобразования данных в плагин chart.js
JSonConverter: обеспечивает прямое преобразование объектов Javabeans в структурированные данные JSON
RandomNumFactory: класс инструментов генерации случайных чисел

паук (пакет Crawler)

BookInfospider: Clawl Eck-Book подробно описывает страницы и храните их в базе данных
→ Ebooklistspider: ползайте все электронные книги
Httpurlconnectionutil:
→ RatingValuelistsPider: Список рейтинга книг Crawl Douban и комментарии пользователей (прочитайте информацию о книге из базы данных и сканируйте список рейтинга)

Файл конфигурации

Файл конфигурации Framework SSM

ApplicationContext.xml: файл конфигурации Spring Framework
JDBC.Properties: файл конфигурации JDBC
mybatis-config.xml: файл конфигурации Mybatis Framework
web.xml: файл конфигурации проекта

Файл конфигурации Crawler

Настройка.properties: файл конфигурации Ebooklistspider
user_spider_setting.properties: файл конфигурации для RatingValuelistsPider
user_spider_exception.log: журнал ошибок Rate Rating Comment Rating Crawler (RatingValuelistsPider)

IMG/EMAN Class Structure.png

Список страниц

index.jsp: домашняя страница
Head.jsp: навигационный бар
error.jsp: страница сообщения об ошибке (для реализации)
Success.jsp: успешная эксплуатация информации о прыжках на страницу
/Электронная книга (страница, связанная с книгой)

list.jsp: список книг основных категорий
info.jsp: страница сведений о книге
serrchresult.jsp�: страница результатов поиска книги

/пользователь (страница, связанная с пользователем)

Login.jsp: пользовательский вход
Register.jsp: регистрация пользователя
hom

Реализация системы

Проектирование и внедрение алгоритма (ITEMCF на основе элемента)

Существует два основных шага для алгоритма совместной фильтрации на основе элементов:

Рассчитайте сходство между элементами.
Создайте список рекомендаций для пользователей на основе сходства элементов и исторического поведения пользователей.

Предположим, N (i) - это количество пользователей, которым нравится пункт i. N (i) ⋂n (j) представляет количество пользователей, которым нравится Item I j одновременно. Тогда сходство между пунктом I и пунктом J:

Рассчитайте сходство элементов.png

Тем не менее, приведенная выше формула имеет дефект: когда Item J является очень популярным продуктом, и всем нравится, тогда WIJ будет очень близок к 1, то есть вышеуказанная формула сделает много предметов иметь отличное сходство с популярными продуктами, поэтому вы можете улучшить формулу:

Рассчитайте улучшение сходства предметов.png

Создайте список пользовательских элементов, перевернутых (предположим, что буквы с заглавными буквами представляют пользователей, строчные буквы представляют элементы):

Элемент обратный заказ.png

Рассчитайте матрицу Co-occurrence C (матрица Co-occurrence C представляет количество пользователей, которые, как два элемента одновременно, и рассчитывается на основе таблицы инверсии пользователя):

Совместная матрица.png

Как показано на рисунке, мы видим, что диагональные элементы матрицы совместного появления-все 0 и являются настоящими симметричными разреженными матрицами. Алгоритм реализуется следующим образом:

com.statistics.itemcollaborationfilter

    /**
	 * 计算共现矩阵C
	 */
	private void computerMatrixC (){
		// 建立用户物品倒排表
		// 若用户对物品评分大于等于4则认为喜欢(出现)
		List < User > allUser = userDao . queryAllUser ();
		for ( int i = 0 ; i < allUser . size (); i ++){ // 遍历全部用户
			// 获取一个用户的评分列表中>=4的评分记录
			List < RatingList > likeList = ratingListDao . selectRatingListByUidAndRatingValue ( allUser . get ( i ). getUid (), 4 );
			if ( likeList . size () <= 1 ){ // 若用户只喜欢一本或不喜欢任何图书
				continue ;
			}
			
			for ( int j = 0 ; j < likeList . size (); j ++){ // 计算likeList中两两出现的图书并写入同现矩阵C
				for ( int k = j + 1 ; k < likeList . size (); k ++){
					int a = Integer . valueOf ( likeList . get ( j ). getEid ());
					int b = Integer . valueOf ( likeList . get ( k ). getEid ());
					// 生成key
					String key = null ;
					if ( a < b ){
						key = a + "," + b ;
					} else {
						key = b + "," + a ;
					}
					// 检查key是否已经存在
					if ( this . matrixC . get ( key ) != null ){
						int value = this . matrixC . get ( key );
						this . matrixC . put ( key , value + 1 );
					} else {
						this . matrixC . put ( key , 1 );
					}
				}
			}
			System . out . println ( "[" + df . format ( new Date ())+ "]" + "[已完成" + i + ",共" + allUser . size ()+ "]:用户uid=" + allUser . get ( i ). getUid ()+ "的记录以计算完成,共" + likeList . size ()+ "本图书" ); 
		}
		
	}

Количество раз, когда каждый элемент появляется:

Количество появления элементов.png

Рассчитайте матрицу сходства косинуса w: матрица сходства косинуса может быть получена с помощью улучшенной формулы.

Косинусная матрица сходства.png

Алгоритм реализуется следующим образом:

com.statistics.itemcollaborationfilter

 /**
	 * 计算余弦相似度矩阵W
	 * 计算方法：
	 * 使用矩阵C的每个value作为分子，key中的两个图书的喜欢人数的积开根号作为分母
	 */
	private Double computerMatrixW ( String eida , String eidb , int value ){
		DecimalFormat df = new DecimalFormat ( "#.##" );
		// 查询每个图书有多少人喜欢
        try {
            Statement statemenet = conn . createStatement ();
            ResultSet rs = statemenet . executeQuery ( "select count(rid) from ratinglist where eid = '" + eida + "' and ratingValue >= 4;" );
            rs . next ();
            int likeANum = rs . getInt ( "count(rid)" );
            rs = statemenet . executeQuery ( "select count(rid) from ratinglist where eid = '" + eidb + "' and ratingValue >= 4;" );
            rs . next ();
            int likeBNum = rs . getInt ( "count(rid)" );
            if ( likeANum == 0 )
                likeANum = 1 ;
            if ( likeBNum == 0 )
                likeBNum = 1 ;
            // 开始计算
            Double answer = value * 1.0 / Math . sqrt ( likeANum * likeBNum );
            // 精确到小数点后两位
            Double result = Double . parseDouble ( df . format ( answer ));
            // 返回计算结果
            return result ;
        } catch ( SQLException e ) {
            e . printStackTrace ();
        }
		return null ;
	}

Какой предмет в конечном итоге рекомендуется, определяется путем прогнозирования интереса.

Item J прогнозирует процент = процент элемента I, который пользователю любит × сходство между пунктом I и пунктом J.

Например: пользователю нравятся элементы A, B и C. Их интерес составляет 1, 2 и 2 соответственно. Тогда прогнозируемый интерес предметов C, D, E и F - это:

C: 1 × 0,58+2 × 0+2 × 0 = 0,58
D: 1 × 1,0+2 × 1,44+2 × 0,45 = 4,78
E: 1 × 0 +2 × 0 +2 × 0 = 0,0
F: 1 × 0+2 × 0,35+2 × 0 = 0,70

Следовательно, пункт D должен быть рекомендован пользователю. Алгоритм реализуется следующим образом:

	@ Override
	public List < EBook > userRecommendedList ( String uid ) {
		// 获取用户喜爱图书列表
		List < RatingList > likeList = this . ratingListDao . selectRatingListByUidAndRatingValue ( uid , 4 );
		// debug
		System . out . println ( "uid=" + uid + "用户喜爱图书列表" );
		for ( RatingList r : likeList ){
			System . out . println ( r . getEid ()+ "," + r . getRatingValue ());
		}
		System . out . println ( "likeList.size=" + likeList . size ());
		// 定义计算用矩阵
		List < Item > matrix = new ArrayList <>();
		// 将用户喜爱的图书作为矩阵的列
		// 将与用户喜爱的图书同现的图书作为矩阵的行
		// 建立工作矩阵
		for ( int i = 0 ; i < likeList . size (); i ++){ // 遍历用户喜爱的图书
			RatingList temp = likeList . get ( i );
			// 获取同现图书
			List < MatrixC > itemList = this . matrixCDao . selectMatrixCByEidAOrEidB ( temp . getEid (), temp . getEid ());
			for ( int j = 0 ; j < itemList . size (); j ++){
				MatrixC c = itemList . get ( j );
				// 从matrixC的key中选出同现图书的eid
				String sEid = null ;
				if ( c . getEida (). equals ( temp . getEid ())){
					sEid = c . getEidb ();
				} else {
					sEid = c . getEida ();
				}
				// 在行中查询同现图书是否存在
				if ( matrix . indexOf ( sEid ) == - 1 ){ // 若列中不存在
					double [] col = new double [ likeList . size ()];
					// 将同现图书所在行对应喜爱图书的数组值设为对应的余弦相似度*用户喜爱程度(4分为1,5分为2)
					col [ likeList . indexOf ( temp )] = c . getCos_similarity ()*( temp . getRatingValue ()- 3 );
					matrix . add ( new Item ( sEid , col )); // 增加行

				} else { // 若列中存在
					// 则将同现图书所在行对应喜爱图书的数组值设为对应的余弦相似度*用户喜爱程度(4分为1,5分为2)
					matrix . get ( matrix . indexOf ( sEid )). col [ likeList . indexOf ( temp )] = c . getCos_similarity ()*( temp . getRatingValue ()- 3 );
				}
			}
		}
		// 计算预测兴趣度
		for ( int i = 0 ; i < matrix . size (); i ++){
			Item item = matrix . get ( i );
			double interestValue = 0 ;
			for ( int j = 0 ; j < item . col . length ; j ++){
				interestValue += item . col [ j ];
			}
			matrix . get ( i ). interestValue = interestValue ;
		}
		// 根据预测兴趣度进行排序
		Collections . sort ( matrix );
		// 返回推荐图书列表
		List < EBook > resultList = new ArrayList <>();
		for ( int i = 0 ; i < matrix . size () && i < 20 ; i ++){ // 返回排前10的书
			if ( matrix . get ( i ). interestValue > 0 ){
				EBook eBook = this . eBookDao . queryEBookByEid ( matrix . get ( i ). eid );
				resultList . add ( eBook );
				// debug
				System . out . println ( matrix . get ( i ). eid + "," + eBook . getEname ()+ ",interestValue=" + matrix . get ( i ). interestValue );
			}
		}
		return EBookServiceImpl . initEBookImgAddress ( resultList );
	}

Рекомендуемый модуль использует данные, ползутые гусеницей в качестве входных данных для вывода результатов расчета в таблице Matrixc. Весь процесс расчета разделен на 2 этапа. На первом этапе рассчитывается матрица совместного появления C. На втором этапе рассчитывает сходство косинуса w из электронных книг, которые появляются парами. Для рекомендуемой функции, основанной на прогнозируемой пользователе, поскольку пользователю нравится в режиме реального времени, и общая сумма расчетов данных электронной книги слишком велика, пользователь будет использовать вычисления в реальном времени при доступе к странице. После нескольких тестов среднее время ожидания пользователя находится в приемлемом диапазоне.

Приложение: данные

Поскольку обновление веб-страницы Douban Movie добавило меры против развертывания, здесь представлены данные, используемые для запуска рекомендуемого алгоритма.