來源:幼教網 2018-07-17 15:22:52
摘要:本文從用戶的聽歌數據入手,通過數據預處理技術提取相關特征,利用FP-tree算法得到歌曲之間的關聯規則;在此基礎上,利用DBSCAN聚類算法將歌曲根據其本身屬性進行聚類,找到同類歌曲。最終把兩者有機結合,互相補充,使新的推薦系統發揮更加理想的功能。
關鍵詞:歌曲;FP-tree;關聯規則;聚類;推薦系統;DBSCAN
一、推薦系統簡介
談起推薦系統首先要從個性化推薦談起。個性化推薦是根據用戶的興趣特點和購買行為,向用戶推薦其感興趣的商品和服務。隨著電子商務規模迅速擴大,商品數量和種類急速增長,顧客需要花費大量時間才能找到自己想買的商品。這種瀏覽大量無關信息和產品的過程會給用戶帶來極大的不便,從而導致消費者不斷流失。為了解決這些問題,個性化推薦系統應運而生。本文主要研究大數據在音樂推薦系統中的應用。通過一些挖掘算法,發現數據之間的相關性,預測用戶喜歡的歌曲類別以及更加具體的特點構建用戶畫像,快速準確推測使用者的喜好,及時為用戶推薦更多感興趣的信息、數據及鏈接,以達到方便用戶吸引消費者的目的。
(一)推薦系統現狀和弊端
現在商業智能平臺上信息量呈爆炸式發展,但數據本身所具有的規模巨大和不穩定性,對人們如何準確迅速提取出有價值的信息,仍具有不可忽視的制約作用。比如,實際上喜歡聽流行歌曲的用戶,因參與合唱活動反復聽了一些經典革命歌曲,使軟件在他結束合唱活動后,仍然繼續推薦大量經典老歌,導致出現不符合用戶需求的情況。這就是由于推薦系統數據處理系統過于僵化造成的不良后果。所以,推薦系統還有很多方面的技術需要優化升級。
(二)優化升級推進系統的創新點
在設計推薦系統過程中,如果強化數據預處理技術,并采用關聯規則與聚類算法相結合的方法,則會盡最大可能地避免推薦系統僵化的問題。1、強化優化數據預處理功能。在用戶選擇的歌曲中,并非都是用戶所喜愛的,所以,需要將數據先進行簡單處理。在用戶選擇過的歌曲中,將播放時間短于總歌曲時長60%的歌曲剔除;2、采用關聯規則與聚類算法相結合的方法。聽歌是一種較為個性的行為,單使用關聯規則推薦,會導致推薦范圍過于寬泛,沒有針對性;單使用同屬性歌曲推薦,會使用戶永遠無法嘗試新的歌曲,無法了解與自己類似愛好用戶的選擇。所以把兩者有機結合,互相補充,才能使新的推薦系統發揮更加理想的功能。使用關聯規則是從每一位用戶出發,挖掘聽了“a”歌曲的人同時聽的其它相關歌曲,形成“a”的關聯規則。這樣就可以在后續推薦中,為聽了“a”歌曲的人推薦與“a”相關的其他歌曲。使用聚類算法是對歌曲的各項屬性進行區別。各項屬性包括節奏、發行時間、語言和情感等。在實際情況中,用戶的喜好都是獨特的,不能單純的依靠其他用戶的選擇來推測,這樣就可以做到,為聽過“a”歌曲的用戶推薦與其屬于同一類別的歌曲。
二、實際應用
(一)關聯規則FP-tree的應用
在進行關聯規則分析時,以每個用戶在一個時間段的聽歌情況為一個元組。值得注意的是,用戶點擊的歌曲并非都是他喜歡的,首先需要對其進行預處理,把用戶聽了一小部分就直接跳過的歌曲直接清除,進而排除異常值對最終結果的影響。首先,設定最小支持度閾值為50%,最小置信度閾值為75%,將每一位用戶的每一首歌按照遞減的支持度排序,并構造FP-tree。從樹根處的節點向上尋找路徑,挖掘頻繁項集。例如,從h處向上的路徑只有一條且支持度小于最小支持度閾值,所以沒有包含歌曲h的頻繁項集。在歌曲h挖掘完成后對其它歌曲用此方式挖掘FP-tree。從d向上兩條路徑中發現{c,d}支持度為50%和在歌曲c中置信度75%,滿足條件。從歌曲c向上尋找路徑,可發現{a,c}也為頻繁項集,支持度為75%,歌曲c中置信度為75%。通過FP-tree算法,我們得到頻繁項集{a,d},{a,c}。
相關推薦:
小升初試題、期中期末題、小學奧數題
盡在奧數網公眾號
歡迎使用手機、平板等移動設備訪問幼教網,幼兒教育我們一路陪伴同行!>>點擊查看