摘 要:[目的/意義]在高維數(shù)據(jù)環(huán)境下,推薦的精準度和實時性存在相互制約的現(xiàn)象。如何在精準度與實時性之間取得平衡,實現(xiàn)對推薦質量的有效控制是值得研究的問題。[方法/過程]本文首先分析了高維數(shù)據(jù)環(huán)境的成因及其對推薦質量的影響,在此基礎上構建了一種個性化推薦質量控制模型,該模型先評估推薦質量在精準度和實時性兩個方面的損失,再結合應用環(huán)境,得到相應的質量控制策略。[結果/結論]實驗分析的結果證明該模型可以在高維數(shù)據(jù)環(huán)境下實現(xiàn)對推薦質量的有效控制,讓推薦系統(tǒng)可以更好地適應不同的應用環(huán)境。
關鍵詞:高維數(shù)據(jù)環(huán)境;大數(shù)據(jù);個性化推薦;推薦質量;控制;模型;應用環(huán)境
個性化推薦技術在電子商務、社交、廣告和新聞領域都取得了商業(yè)上的成功,受到眾多學者的關注。精準度和實時性是個性化推薦質量的兩個核心指標,推薦的精準度越高、實時性越強,就表示推薦質量越好。大數(shù)據(jù)時代的來臨,高維數(shù)據(jù)環(huán)境對推薦系統(tǒng)來說已經成為常態(tài)。在高維數(shù)據(jù)環(huán)境下,個性化推薦的精準度和實時性存在相互制約的現(xiàn)象,即:在追求更高精準度的同時,其推薦實時性往往會下降,反之如果想實現(xiàn)更高實時性則精準度也會受到影響。
因此,當應用環(huán)境變化需要調節(jié)推薦的精準度或者實時性時,就必須在它們兩者之間取得一個平衡,不能為了提升一個推薦質量指標,而導致另一個推薦質量指標的大幅下降,這樣系統(tǒng)的推薦質量是無法保證的。由此,本文提出一種面向高維數(shù)據(jù)環(huán)境的個性化推薦質量控制模型,該模型通過對比推薦質量在精準度和實時性兩個方面的損失,來尋找有效的推薦質量控制策略,讓推薦系統(tǒng)可以更好地應對不同的應用環(huán)境。本研究不僅豐富了個性化推薦的理論體系,也為實際應用提供借鑒。
1 相關研究
個性化推薦是通過一定的技術手段來挖掘數(shù)據(jù)中的用戶興趣,再根據(jù)用戶興趣挖掘的結果來篩選待推薦的項目,最后生成推薦集合推送給目標用戶。目前有關個性化推薦的研究中,比較有代表性的有:
1)根據(jù)內容相似性來實現(xiàn)推薦。安悅等[1]提出一種基于內容的熱門微話題個性化推薦算法,該算法通過對比內容的相似性為用戶尋找感興趣的微話題,實驗結果表明該算法可以在一定程度上解決微博數(shù)據(jù)過載的問題,實現(xiàn)較好的推薦效果。王嫣然等[2]提出一種基于內容過濾的科技文獻個性化推薦算法,該算法將訪問時間權重和文獻重要度兩種概念與內容過濾相結合,實現(xiàn)了推薦精準度的提升。王潔等[3]先根據(jù)歷史瀏覽記錄對有相同興趣的用戶進行聚類,再通過內容相似性挖掘尋找推薦項目,實驗證明該個性化推薦方法可以有效提升推薦的精準度。
2)根據(jù)社交網(wǎng)絡中的用戶關系實現(xiàn)推薦。陳婷等[4]提出一種融合社交信息的個性化推薦方法,該方法將用戶評分相似度與社交網(wǎng)絡中的信任關系兩者相結合來尋找最近鄰,結合用戶自身偏好和最近鄰的影響實現(xiàn)評分預測,實驗結果證明該算法可以提升推薦的精準度。李鑫等[5]提出了一種基于興趣圈中社會關系挖掘的個性化推薦算法,該算法將興趣圈中的社會關系與矩陣分解模型相結合,實現(xiàn)矩陣分解的優(yōu)化,實驗證明該方法在解決推薦冷啟動方面有較好的效果。Ma H等[6]將信任網(wǎng)絡與用戶評分結合,通過概率矩陣分解來優(yōu)化推薦。景楠等[7]提出了一種基于用戶社會關系的好友個性化推薦算法,該算法將用戶在社會網(wǎng)絡中的影響力和社會關系相結合實現(xiàn)推薦算法的改進。
3)利用標簽信息來改進推薦效果。陳梅梅等[8]提出了基于標簽簇的信任張量模型,再通過計算簇內和簇間的信任強度,實現(xiàn)對傳統(tǒng)相似性計算的補充,從而改進個性化推薦的準確性。孔欣欣等[9]提出一種基于標簽權重評分的個性化推薦模型,并結合該模型對多類傳統(tǒng)推薦算法進行改進,實驗證明了該模型的有效性。李瑞敏等[10]通過分析用戶、標簽和項目之間的關系建立圖模型,在此基礎上將初步推薦列表與間接關聯(lián)集合進行綜合,實現(xiàn)對推薦算法的改進。
4)融合情境的個性化推薦。劉海鷗等[11]提出了一種對多種情境進行興趣建模的方法,該方法可以提升推薦的精準度。周明建等[12]用多維度建模法構建了知識情境模型,通過計算知識情境的相似性來尋找關聯(lián)知識并實現(xiàn)推薦,實驗表明該方法提升了個性化推薦的精準度。
5)基于協(xié)同過濾的個性化推薦。杜永萍等[13]將用戶間的信任關系與評分相似性相結合來尋找最近鄰,實現(xiàn)對傳統(tǒng)協(xié)同過濾推薦算法的改進。董立巖等[14]提出一種基于時間衰減的協(xié)同過濾個性化推薦算法,該算法將遺忘曲線和記憶周期融入?yún)f(xié)同過濾推薦中,以興趣衰減函數(shù)來優(yōu)化評分相似性的判斷,實驗證明該算法可提高推薦的精準度。
郭蘭杰等[15]提出一種融合社交網(wǎng)絡的協(xié)同過濾個性化推薦算法,該算法利用社交網(wǎng)絡中的朋友關系來進行評分矩陣的填充,可有效緩解數(shù)據(jù)稀疏性問題,實現(xiàn)算法的改進。郭弘毅等[16]提出一種融合社區(qū)結構和興趣聚類的協(xié)同過濾改進算法,該算法先識別社交網(wǎng)絡中的社區(qū)結構,再與用戶興趣聚類信息進行融合來共同優(yōu)化矩陣分解模型,實驗證明該算法提升了推薦的精準度。
總體來看,目前針對個性化推薦的研究中,無論是優(yōu)化相似性的度量方法,還是改進最近鄰的查找流程,或是優(yōu)化矩陣降維的方法等等,其改進的思路都是通過對推薦算法的不同環(huán)節(jié)進行優(yōu)化改進來提升推薦質量。大數(shù)據(jù)時代,推薦系統(tǒng)經常面對高維的數(shù)據(jù)環(huán)境,高維數(shù)據(jù)環(huán)境下推薦精準度和推薦實時性相互制約的現(xiàn)象,會嚴重影響推薦質量的穩(wěn)定,讓推薦系統(tǒng)無法適應應用環(huán)境的變化,而目前恰恰缺少對該問題解決方法的研究。由此,本文提出一種面向高維數(shù)據(jù)環(huán)境的個性化推薦質量控制模型,為解決該問題提供參考。
2 推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成原因
大數(shù)據(jù)時代用戶數(shù)據(jù)極大豐富,個性化推薦系統(tǒng)為了更好地感知用戶的興趣偏好,會通過不同渠道收集用戶的各類數(shù)據(jù),并將它們集中存儲起來作為推薦算法的數(shù)據(jù)源。如果這些數(shù)據(jù)源中的數(shù)據(jù)具有很高的維度,那么推薦系統(tǒng)就處在高維數(shù)據(jù)環(huán)境當中。推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成原因主要有以下兩點:
第一,用戶數(shù)和項目數(shù)的快速增長,導致推薦系統(tǒng)主數(shù)據(jù)源的維度大幅增加。個性化推薦系統(tǒng)是通過分析用戶已有消費或評分記錄,來判斷用戶的興趣,再在用戶未消費過的項目中匹配合適的推薦項目。因此,用戶消費或者評分的歷史記錄就是推薦系統(tǒng)的主數(shù)據(jù)源。隨著用戶數(shù)和項目數(shù)的快速增長,用戶歷史消費記錄矩陣或用戶對項目的評分矩陣都會大幅擴容,形成高維數(shù)據(jù)環(huán)境。
第二,由于數(shù)據(jù)之間存在關聯(lián)關系,附屬數(shù)據(jù)源的維度也會快速增長。上文提到推薦系統(tǒng)會收集各類用戶數(shù)據(jù)作為興趣感知源。本文將歷史消費信息與評分信息以外的數(shù)據(jù)統(tǒng)稱為附屬數(shù)據(jù)源。這些附屬數(shù)據(jù)雖然來源很多,數(shù)據(jù)類型和數(shù)據(jù)格式也很復雜,但它們都有一個共同特點,就是可以根據(jù)用戶的行為軌跡進行關聯(lián)。
這樣一來不同類型的用戶數(shù)據(jù)不再是相互孤立的,而是通過這種關聯(lián)關系緊密地聯(lián)系起來。因此,當主數(shù)據(jù)源的維度增加時,附屬數(shù)據(jù)也必須進行相應擴容。比如將用戶背景信息、社交網(wǎng)絡、標簽等與歷史購買記錄或用戶評分進行融合來實現(xiàn)推薦時,當購買記錄矩陣或評分矩陣的維度增加時,與之對應的用戶背景信息、社交網(wǎng)絡信息或者標簽信息的數(shù)據(jù)維度也在增長,這些附屬數(shù)據(jù)維度的增長速度甚至快于主數(shù)據(jù)源本身,由此進一步促使了推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成。
3 高維數(shù)據(jù)環(huán)境對個性化推薦質量的影響
精準度與實時性是個性化推薦質量的兩個核心指標,以下將分別介紹高維數(shù)據(jù)環(huán)境對推薦精準度和推薦實時性的影響,最后分析了精準度與實時性在高維數(shù)據(jù)環(huán)境下相互制約的原因。
3.1 高維數(shù)據(jù)環(huán)境對推薦精準度的影響
個性化推薦是通過分析用戶行為數(shù)據(jù)或用戶背景數(shù)據(jù)等信息來判斷用戶的興趣偏好。用戶的興趣是多方面,每個方向上都可能有潛在的興趣點,要想感知這些興趣,就需要有相應的用戶數(shù)據(jù)。總的來說,用戶興趣感知源越多,就越能從多個側面來推斷用戶的偏好。當推薦系統(tǒng)處于高維數(shù)據(jù)環(huán)境時,主數(shù)據(jù)源和附屬數(shù)據(jù)源都涵蓋了大量的有用信息,推薦系統(tǒng)可以利用不同的算法模型來挖掘用戶的興趣。從這個角度來說,高維數(shù)據(jù)環(huán)境對提升推薦精準度有正面的作用。
比如推薦系統(tǒng)可以利用用戶背景數(shù)據(jù)與消費評價數(shù)據(jù)進行融合,在多個用戶背景維度上對其興趣進行細分,這樣預測出的用戶興趣的精準度會大大提高,同樣的結合項目本身的屬性或者社交網(wǎng)絡、信任關系等也可以提升推薦的精準度。總的來說,高維數(shù)據(jù)環(huán)境為推薦系統(tǒng)提供了豐富的興趣感知源,為推薦精準度的提升奠定了數(shù)據(jù)基礎。
3.2 高維數(shù)據(jù)環(huán)境對推薦實時性的影響
推薦實時性也是推薦質量的重要指標,當用戶訪問網(wǎng)站時,推薦系統(tǒng)必須快速地識別用戶的潛在意圖,并及時給予推薦,這樣用戶根據(jù)系統(tǒng)推薦進行進一步的選擇。如果推薦集合的計算時間太長,無法保證推薦的實時性,用戶可能跳轉到另外一個頁面,其興趣可能已經發(fā)生轉化,或者在新的頁面下已經沒有了推薦欄的設置,無法實現(xiàn)推薦。
這樣系統(tǒng)的推薦質量會大大下降,用戶體驗也會降低。因此,保證推薦實時性對推薦系統(tǒng)來說非常重要。在高維數(shù)據(jù)環(huán)境下,用戶興趣感知源的增加,對推薦精準度來說是利好,但是對于推薦實時性來說,會使得興趣挖掘的計算復雜度大幅提升,從而導致系統(tǒng)開銷過大,直接影響推薦系統(tǒng)的響應。特別是將附屬數(shù)據(jù)源與主數(shù)據(jù)源進行融合挖掘時,計算復雜度的數(shù)量級會大大增加。此外,當大量用戶同時訪問時,系統(tǒng)的負擔會進一步加重,系統(tǒng)響應時間也會延長。總的來說,高維數(shù)據(jù)環(huán)境會降低推薦的實時性。
推薦閱讀:大數(shù)據(jù)市場下工業(yè)工程在制造業(yè)的應用
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >