本文研究的主要是Java編程通過匹配合併數據(數據預處理)的相關內容,具體如下。
數據描述
以下程序是對如下格式的數據進行合併處理。
這個表的每一行表示用戶id及用戶的特徵。其中,一個用戶只有一個特徵向量,即第一列不會重複。
這張表的第一列,表示用戶的id,第二列表示用戶所看的電影,第三列表示用戶對電影的打分(1-13分),第四列表示用戶對電影的打分,但分值範圍是1-5分。
問題描述
在做數據預處理時,如何將第二張表添加上用戶特徵呢?其實,方法很簡單,將第二張表的用戶id與第一張表的用戶id進行匹配就行。合併結果如下圖所示。
數據處理程序
package deal;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.math.BigDecimal;import java.util.ArrayList;import java.util.HashMap;import java.util.List;/* * author:合肥工業大學管院學院錢洋* email:[email protected]*/public class GetPUser {public static List<String> readDocs(String docsPath,String code) throws IOException{BufferedReader reader = new BufferedReader( new InputStreamReader( new FileInputStream( new File(docsPath)),code));String s=null;List<String> userproductscore=new ArrayList<String>();while ((s=reader.readLine())!=null) {userproductscore.add(s);}reader.close();return userproductscore;}public static HashMap<String, String> MAPread(String docsPath1,String code1) throws IOException{BufferedReader reader1 = new BufferedReader( new InputStreamReader( new FileInputStream( new File(docsPath1)),code1));String s1=null;HashMap<String,String> userfeaturemap=new HashMap<String,String>();while ((s1=reader1.readLine())!=null) {String arr[]=s1.split("/t");String feature="";for (int i = 1; i < arr.length; i++) {BigDecimal db = new BigDecimal(arr[i]);String ii = db.toPlainString();feature+=ii+" ";}userfeaturemap.put(s1.split("/t")[0], feature);}reader1.close();return userfeaturemap;}public static List<String> match(List<String> userproductscore,HashMap<String, String> userfeaturemap) throws IOException{List<String> userscoreandfeature=new ArrayList<>();for (int i = 0; i < userproductscore.size(); i++) {//獲取用戶idString user_id=userproductscore.get(i).split("/t")[0];//獲取用戶特徵String userfeature = userfeaturemap.get(user_id);userscoreandfeature.add(userproductscore.get(i)+"/t"+userfeature);System.out.println(userproductscore.get(i)+"/t"+userfeature);}return userscoreandfeature;}public static void main(String[] args) throws IOException {//讀取兩個文本List<String> userproductscore=readDocs("data/train/ydata-ymovies-user-movie-ratings-train-v1_0.txt","gbk");HashMap<String, String> userfeaturemap=MAPread("data/fileofuser/yahoo.txt","utf-8");//匹配結果match(userproductscore,userfeaturemap);}}
總結
以上就是本文關於Java編程通過匹配合併數據實例解析(數據預處理)的全部內容,希望對大家有所幫助。感興趣的朋友可以繼續參閱本站其他相關專題,如有不足之處,歡迎留言指出。感謝朋友們對本站的支持!