在線搜索廣告平台和實時廣告系列監視
使用JSOUP在亞馬遜上抓取信息。
搜索廣告將在線廣告放置在前端頁面上,這些廣告向用戶搜索引擎查詢顯示結果。該搜索廣告服務器將數千個產品數據作為候選廣告,選擇,過濾器,等級,分配和價格在搜索查詢進入時廣告。搜索廣告的選擇和排名基於廣告的質量以及廣告商提供的出價價格。
廣告Candiate將首先通過相關得分評估和過濾。相關得分是衡量與廣告中的關鍵詞相關的查詢。在這裡,相關得分=單詞匹配查詢的數量 /單詞總數。為了快速重述AD信息,ADS關鍵字的倒置索引是在Cache中構建並存儲的。
支持在線系統的數據層:
用戶點擊(P-CLICK)的可能性在ADS排名中起重要作用。
使用Spark ML進程模擬用戶單擊日誌數據並生成預測模型。
日誌:設備IP,設備ID,會話ID,查詢,ADID,ApaindID,ad_category_query_category(0/1),單擊(0/1)
PCLICK功能從搜索日誌中提取並存儲在鑰匙值商店中
邏輯回歸
梯度提升樹
質量得分= 0.25 *相關得分 + 0.75 * PCLICK
等級得分=質量得分 *出價
價格(每次點擊費用)=下一個排名分數 /當前質量得分 + 0.01
在接收搜索查詢時,系統將查詢與使用倒置索引的廣告關鍵字匹配以獲取相關性分數,並通過從50GB歷史點擊數據生成的回歸模型來預測點擊的概率。廣告的質量將由相關得分和點擊概率確定。廣告引擎計算出質量得分,並將其與廣告出價價格相結合,以獲得最終排名和定價。
實時廣告系列監視器系統構建用於收集由在線廣告服務器生成的廣告相關事件,並吸引廣告系列的趨勢。
他實時廣告系列監視系統是一條流媒體管道,可收集和處理在線搜索廣告引擎產生的廣告事件。偶然事件,印象事件和廣告的點擊事件已發佈到消息隊列並以流方式存儲在數據庫中。前端儀表板可視化預算狀態和動態印象,廣告系列的點擊和定價趨勢。