Descarga de EMAN - Descargar código fuente EMAN

EMAN

Otras categorias

1.0.0

Descargar

Emán

Un sistema de recomendación de libro electrónico simple basado en el marco SSM y el algoritmo de filtrado colaborativo de elementos (itemCF)

Captura de pantalla de interfaz

IMG/Página de inicio 0.png

IMG/Página de inicio 1 Estoy interesado en ti.png

IMG/Clasificación de libros 0.png

IMG/Detalles del libro Página 0.png

IMG/Detalles del libro Página 1 Recomendaciones y comentarios.png

IMG/Detalles del libro Página 2 Comentarios.png

IMG/Detalles del libro Página 1 Recomendaciones y comentarios.png

img/login.png

IMG/Search Page.png

Análisis de funciones del sistema

Estrategia de recomendación

Porque algunos algoritmos de recomendación deben usar los datos favoritos del usuario como parámetros. Si el usuario no ha iniciado sesión, se adoptará la estrategia de recomendación para los turistas. Si el usuario ha iniciado sesión, se adopta la política de recomendación para el usuario iniciado. Si el usuario registrado tiene un registro de interés de interés en la base de datos, se agregará una recomendación de la partición que le interesa. Por lo tanto, la estrategia de recomendación se divide en dos situaciones: si inicia sesión o no.

Copia de la estrategia recomendada.png

Si el usuario no ha iniciado sesión, se adoptará la estrategia de visualización de calificación del usuario para los turistas. Si se inicia el usuario, se adopta la Política de visualización de calificación del usuario para el usuario iniciado en el usuario. Si el usuario registrado ya ha obtenido el libro electrónico en la página de detalles actual, se mostrará su registro de calificación.

Copia de la estrategia de puntuación.png

Estrategia de rastreo de rastreadores

estrategia de rastreo img/rastreador.png

Análisis y diseño del sistema

Análisis del sistema

Como se muestra en el diagrama de casos de uso, hay tres usuarios básicos en este sistema. Estos son turistas, usuarios registrados y administradores. Los visitantes pueden visitar la página de inicio de la plataforma de recomendación de libros electrónicos, la página de registro del usuario y ver la página del libro electrónico. La función de registrar a los usuarios es que pueden calificar y comentar sobre libros electrónicos y recomendar libros electrónicos determinados por el interés previsto del usuario. Los administradores pueden usar regularmente el módulo Crawler para actualizar la información del libro electrónico y usar el módulo de estadísticas para actualizar estadísticas clasificadas, matriz de coincidencia de libros electrónicos y matriz de similitud de coseno de libros electrónicos.

! [User Case.png] (/img/user case.png)

La función recomendada adopta el algoritmo de filtrado colaborativo basado en elementos (itemCF)

Teniendo en cuenta que hay un problema de inicio en frío con este algoritmo. Es decir, para los nuevos usuarios, a menudo carecen de datos de calificación, lo que lleva a la recomendación basada en el nivel de interés predicho del usuario y no se puede llevar a cabo sin problemas. Para resolver este problema, agregué un módulo para usar directamente la matriz de similitud de coseno W para realizar directamente recomendaciones de libros electrónicos similares, de modo que los usuarios no registrados y los nuevos usuarios puedan obtener mejor recomendaciones. En cuanto a los problemas de matriz de datos dispersos en los algoritmos de filtrado colaborativo, algunos libros electrónicos impopulares pueden no tener calificaciones de usuario, baja correlación de libros electrónicos y algunos usuarios tienen pocas calificaciones de libros electrónicos. Para resolver este problema, agregue un nuevo módulo de recomendación de libros a la página de inicio para recomendar mejor los libros electrónicos que no tienen calificación; Agregue un módulo de recomendación de partición para recomendar libros electrónicos basados en el interés del usuario para aumentar el interés de los usuarios específicos para recomendar libros electrónicos. Vale la pena señalar que el libro electrónico recomendado por los usuarios para predecir el interés se calcula utilizando fórmulas en la matriz de similitud de coseno W calculada por este algoritmo. Además, el libro electrónico favorito del usuario también se requiere como parámetros de entrada durante el cálculo. El libro electrónico similar recomendado es usar la matriz de similitud de cadena W para estadísticas directamente. Esto significa que las dos recomendaciones anteriores deben completar el cálculo de la matriz de concurrencia del libro electrónico y la matriz de similitud de coseno del libro electrónico. Debido a que las dos matrices anteriores son computacionalmente grandes y se requieren todos los datos para cada cálculo, el administrador las realizará regularmente.

Diseño del sistema

Tabla de base de datos

IMG/ER IMAGEN.PNG

Ebook: detalles del libro
RatingList: Lista de comentarios de calificación
Subclasifica: Libro Subclasify
Usuario: Información del usuario
Clasificación de las estadísticas de la materia: estadísticas principales de clasificación
Recomendado Homepage: Libros recomendados en la página de inicio (para determinar)
Favorito: Lista de categorías favoritas del usuario
Matrixc: matriz de concurrencia C y Matriz de similitud de coseno W Table

Clase y documentos principales relacionados

Símbolo → indica que la clase es una operación manual regular de módulos

com.controller

EBookController: una interfaz relacionada con el libro
RatingListController: interfaz relacionada con comentarios y calificaciones de los usuarios
StatisticsController: interfaz del módulo de estadística
UserController: interfaz relacionada con el usuario
Favoritecontroller: a los usuarios les gustan las interfaces de clasificación
ClassifyMainStatisticsController: interfaz de clasificación relacionada con las estadísticas

com.dao

DBACESS: se usa para obtener la conexión de la base de datos SQLSession
EBookdao: proporciona acceso a listas de libros
RatingListdao: proporcionar acceso a la tabla de revisión de calificación
Userdao: proporciona acceso a tablas de usuario
FavoritedAo: Acceso favorito al usuario a tablas de categoría
ClassifyMainStatisticsDao: Acceso a tablas de datos relacionadas con estadísticas clasificadas
Matrixcdao: proporciona acceso a la matriz de concurrencia C y la matriz de similitud de coseno W
EBookMapper.xml: instrucción SQL que proporciona acceso a la tabla de libros
RatingListMapper.xml: instrucción SQL que proporciona acceso a la tabla de comentarios de calificación
Usermapper.xml: instrucción SQL que proporciona acceso a tablas de usuario
ClassifyMainStatisticsMapper.xml: Declaración SQL que proporciona acceso a la tabla de estadísticas de partición principal
FavoritaMapper.xml: declaraciones SQL que a los usuarios les gusta acceder a la tabla de clasificación
ClassifyMainStatisticsMapper.xml: Declaración SQL para acceder a tablas de datos relacionadas con estadísticas clasificadas
Matrixcmapper.xml: instrucción SQL que proporciona acceso a la matriz de concurrencia C y la matriz de similitud de coseno W

com. Entidad

Ebook: libros-> libros electrónicos
RatingList: Comentarios y calificaciones -> Tabla de Lista de clasificación
ClassifyMainstatistics: Módulo de estadística de partición principal -> Tabla ClasifyMainstatistics
Usuario: Usuario-> Tabla de usuario
Favorito: a los usuarios les gustan las entidades clasificadas-> mesa favorita
Matrixc: matriz de concurrencia C y matriz de similitud de coseno W -> Matrixc Table

com.servicio

EBookService: módulo de libro
RatingListservice: módulo de puntuación de comentarios
UserService: módulo de usuario
FavoritService: a los usuarios les gustan los módulos de clasificación
Clasifique ManainStatisticsService: Clasificación Estadística Módulo

com. Estadística

→ itemCollaborationFilter: Se utiliza para calcular la matriz recomendada para el filtrado colaborativo basado en elementos
→ StatisticsClassifyMain: StatisticsClassifyMain: Número de personas calificadas, calificación promedio y varianza de calificaciones para cada puntaje en la categoría principal
→ Estadística RatingValue: Información de calificación del libro Estadísticas: Cuente los datos de la tabla de valor de calificación y escriba los resultados estadísticos en la tabla de libros electrónicos correspondientes al libro

com.util

ChartDataJsonCreater: proporciona formato de datos JSON estructurado para convertir los datos en el complemento de chart.js
JSONConverter: proporciona conversión directa de objetos de Javabeans en datos JSON estructurados
RandomNumFactory: clase de herramienta de generación de números aleatorios

Spider (paquete de rastreadores)

BookInfospider: rastreando páginas de detalles de libros electrónicos y guárdelos en la base de datos
→ Ebooklistspider: rastreando todos los libros electrónicos
HttpurlconnectionUtil:
→ RatingValuelistsPider: Lista de calificación de libros Douban Douban y comentarios de los usuarios (lea la información del libro de la base de datos y rastree la lista de calificación)

Archivo de configuración

Archivo de configuración del marco SSM

ApplicationContext.xml: archivo de configuración de Spring Framework
JDBC.Properties: archivo de configuración JDBC
mybatis-config.xml: archivo de configuración del marco mybatis
Web.xml: archivo de configuración del proyecto

Archivo de configuración de rastreadores

setting.Properties: ebookListsPider Archivo de configuración
user_spider_setting.properties: Archivo de configuración para RatingValuelistsPider
user_spider_exception.log: registro de errores de Crawler de calificación de comentarios del usuario (RatingValuelistsPider)

estructura de clase img/eman.png

Lista de páginas

index.jsp: página de inicio
head.jsp: barra de navegación
error.jsp: página de mensaje de error (para ser implementado)
Success.jsp: Operación exitosa de información salta a la página
/Ebook (página relacionada con el libro)

list.jsp: Lista de libros de categoría principal
info.jsp: página de detalles del libro
SERRCHRESULT.JSP�: Página de resultados de búsqueda de libros

/usuario (página relacionada con el usuario)

Login.jsp: Inicio de sesión del usuario
registrar.jsp: registro del usuario
home.jsp: selección de categoría favorita del usuario

Implementación del sistema

Diseño e implementación del algoritmo (itemCF basado en el elemento)

Hay dos pasos principales para el algoritmo de filtrado colaborativo basado en elementos:

Calcule la similitud entre los elementos.
Genere una lista de recomendaciones para los usuarios en función de la similitud de los elementos y el comportamiento histórico de los usuarios.

Supongamos que n (i) es la cantidad de usuarios que les gusta el elemento i. N (i) ⋂n (j) representa el número de usuarios que les gusta el elemento I elemento j al mismo tiempo. Entonces la similitud entre el artículo I y el artículo J es:

Calcule la similitud de elementos.png

Sin embargo, la fórmula anterior tiene un defecto: cuando el artículo J es un producto muy popular y a todos les gusta, entonces WIJ estará muy cerca de 1, es decir, la fórmula anterior hará que muchos artículos tengan una gran similitud con los productos populares, por lo que puede mejorar la fórmula:

Calcule el elemento Mejora de similitud.png

Cree una lista de elementos de usuario invertidos (suponga que las letras mayúsculas representan a los usuarios, las letras minúsculas representan elementos):

Artículo de orden inverso.png

Calcule la matriz de concurrencia C (la matriz de concurrencia C representa el número de usuarios que les gustan dos elementos al mismo tiempo, y se calcula en función de la tabla de inversión del elemento del usuario):

Matriz de concurrencia de concurrencia.png

Como se muestra en la figura, podemos ver que los elementos diagonales de la matriz de concurrencia son 0 y son matrices escasas simétricas reales. El algoritmo se implementa de la siguiente manera:

com.statistics.ItemCollaborationFilter

    /**
	 * 计算共现矩阵C
	 */
	private void computerMatrixC (){
		// 建立用户物品倒排表
		// 若用户对物品评分大于等于4则认为喜欢(出现)
		List < User > allUser = userDao . queryAllUser ();
		for ( int i = 0 ; i < allUser . size (); i ++){ // 遍历全部用户
			// 获取一个用户的评分列表中>=4的评分记录
			List < RatingList > likeList = ratingListDao . selectRatingListByUidAndRatingValue ( allUser . get ( i ). getUid (), 4 );
			if ( likeList . size () <= 1 ){ // 若用户只喜欢一本或不喜欢任何图书
				continue ;
			}
			
			for ( int j = 0 ; j < likeList . size (); j ++){ // 计算likeList中两两出现的图书并写入同现矩阵C
				for ( int k = j + 1 ; k < likeList . size (); k ++){
					int a = Integer . valueOf ( likeList . get ( j ). getEid ());
					int b = Integer . valueOf ( likeList . get ( k ). getEid ());
					// 生成key
					String key = null ;
					if ( a < b ){
						key = a + "," + b ;
					} else {
						key = b + "," + a ;
					}
					// 检查key是否已经存在
					if ( this . matrixC . get ( key ) != null ){
						int value = this . matrixC . get ( key );
						this . matrixC . put ( key , value + 1 );
					} else {
						this . matrixC . put ( key , 1 );
					}
				}
			}
			System . out . println ( "[" + df . format ( new Date ())+ "]" + "[已完成" + i + ",共" + allUser . size ()+ "]:用户uid=" + allUser . get ( i ). getUid ()+ "的记录以计算完成,共" + likeList . size ()+ "本图书" ); 
		}
		
	}

El número de veces que aparece cada elemento es:

Número de artículos que aparecen.png

Calcule la matriz de similitud de coseno W: la matriz de similitud de coseno se puede obtener utilizando la fórmula mejorada.

El algoritmo se implementa de la siguiente manera:

com.statistics.ItemCollaborationFilter

 /**
	 * 计算余弦相似度矩阵W
	 * 计算方法：
	 * 使用矩阵C的每个value作为分子，key中的两个图书的喜欢人数的积开根号作为分母
	 */
	private Double computerMatrixW ( String eida , String eidb , int value ){
		DecimalFormat df = new DecimalFormat ( "#.##" );
		// 查询每个图书有多少人喜欢
        try {
            Statement statemenet = conn . createStatement ();
            ResultSet rs = statemenet . executeQuery ( "select count(rid) from ratinglist where eid = '" + eida + "' and ratingValue >= 4;" );
            rs . next ();
            int likeANum = rs . getInt ( "count(rid)" );
            rs = statemenet . executeQuery ( "select count(rid) from ratinglist where eid = '" + eidb + "' and ratingValue >= 4;" );
            rs . next ();
            int likeBNum = rs . getInt ( "count(rid)" );
            if ( likeANum == 0 )
                likeANum = 1 ;
            if ( likeBNum == 0 )
                likeBNum = 1 ;
            // 开始计算
            Double answer = value * 1.0 / Math . sqrt ( likeANum * likeBNum );
            // 精确到小数点后两位
            Double result = Double . parseDouble ( df . format ( answer ));
            // 返回计算结果
            return result ;
        } catch ( SQLException e ) {
            e . printStackTrace ();
        }
		return null ;
	}

El elemento se recomienda en última instancia se determina predecir el interés.

El ítem j predice interés = interés del ítem I que al usuario le gusta × similitud entre el ítem I y el ítem j.

Por ejemplo: a un usuario le gustan los elementos A, B y C. Su interés es 1, 2 y 2 respectivamente. Entonces el interés previsto de los ítems C, D, E y F son:

C: 1 × 0.58+2 × 0+2 × 0 = 0.58
D: 1 × 1.0+2 × 1.44+2 × 0.45 = 4.78
E: 1 × 0 +2 × 0 +2 × 0 = 0.0
F: 1 × 0+2 × 0.35+2 × 0 = 0.70

Por lo tanto, el elemento D debe recomendarse al usuario. El algoritmo se implementa de la siguiente manera:

	@ Override
	public List < EBook > userRecommendedList ( String uid ) {
		// 获取用户喜爱图书列表
		List < RatingList > likeList = this . ratingListDao . selectRatingListByUidAndRatingValue ( uid , 4 );
		// debug
		System . out . println ( "uid=" + uid + "用户喜爱图书列表" );
		for ( RatingList r : likeList ){
			System . out . println ( r . getEid ()+ "," + r . getRatingValue ());
		}
		System . out . println ( "likeList.size=" + likeList . size ());
		// 定义计算用矩阵
		List < Item > matrix = new ArrayList <>();
		// 将用户喜爱的图书作为矩阵的列
		// 将与用户喜爱的图书同现的图书作为矩阵的行
		// 建立工作矩阵
		for ( int i = 0 ; i < likeList . size (); i ++){ // 遍历用户喜爱的图书
			RatingList temp = likeList . get ( i );
			// 获取同现图书
			List < MatrixC > itemList = this . matrixCDao . selectMatrixCByEidAOrEidB ( temp . getEid (), temp . getEid ());
			for ( int j = 0 ; j < itemList . size (); j ++){
				MatrixC c = itemList . get ( j );
				// 从matrixC的key中选出同现图书的eid
				String sEid = null ;
				if ( c . getEida (). equals ( temp . getEid ())){
					sEid = c . getEidb ();
				} else {
					sEid = c . getEida ();
				}
				// 在行中查询同现图书是否存在
				if ( matrix . indexOf ( sEid ) == - 1 ){ // 若列中不存在
					double [] col = new double [ likeList . size ()];
					// 将同现图书所在行对应喜爱图书的数组值设为对应的余弦相似度*用户喜爱程度(4分为1,5分为2)
					col [ likeList . indexOf ( temp )] = c . getCos_similarity ()*( temp . getRatingValue ()- 3 );
					matrix . add ( new Item ( sEid , col )); // 增加行

				} else { // 若列中存在
					// 则将同现图书所在行对应喜爱图书的数组值设为对应的余弦相似度*用户喜爱程度(4分为1,5分为2)
					matrix . get ( matrix . indexOf ( sEid )). col [ likeList . indexOf ( temp )] = c . getCos_similarity ()*( temp . getRatingValue ()- 3 );
				}
			}
		}
		// 计算预测兴趣度
		for ( int i = 0 ; i < matrix . size (); i ++){
			Item item = matrix . get ( i );
			double interestValue = 0 ;
			for ( int j = 0 ; j < item . col . length ; j ++){
				interestValue += item . col [ j ];
			}
			matrix . get ( i ). interestValue = interestValue ;
		}
		// 根据预测兴趣度进行排序
		Collections . sort ( matrix );
		// 返回推荐图书列表
		List < EBook > resultList = new ArrayList <>();
		for ( int i = 0 ; i < matrix . size () && i < 20 ; i ++){ // 返回排前10的书
			if ( matrix . get ( i ). interestValue > 0 ){
				EBook eBook = this . eBookDao . queryEBookByEid ( matrix . get ( i ). eid );
				resultList . add ( eBook );
				// debug
				System . out . println ( matrix . get ( i ). eid + "," + eBook . getEname ()+ ",interestValue=" + matrix . get ( i ). interestValue );
			}
		}
		return EBookServiceImpl . initEBookImgAddress ( resultList );
	}

El módulo recomendado utiliza los datos rastreados por el rastreador como entrada para obtener los resultados del cálculo en la tabla MatrixC. Todo el proceso de cálculo se divide en 2 etapas. La primera etapa calcula la matriz de concurrencia C. La segunda etapa calcula la similitud cosena W de los libros electrónicos que aparecen en pares. Para la función recomendada basada en el interés predicho del usuario, debido a que al usuario le gusta el monto del cálculo en tiempo real y total de los datos de libros electrónicos es demasiado grande, el usuario usará cálculos en tiempo real al acceder a la página. Después de múltiples pruebas, el tiempo de espera promedio del usuario está dentro de un rango aceptable.

Apéndice: datos

Debido a que la actualización de la página web de Douban Movie ha agregado medidas antiinterrator, los datos utilizados para ejecutar el algoritmo recomendado se proporcionan aquí.