日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

SCI期刊 | 網(wǎng)站地圖 周一至周日 8:00-22:30
你的位置:首頁(yè) >  移動(dòng)通信論文 ? 正文

重入網(wǎng)識(shí)別原理探索

2021-4-9 | 移動(dòng)通信論文

作者:艾達(dá) 羅愛(ài)平 單位:西安郵電學(xué)院通信與信息工程學(xué)院 中國(guó)聯(lián)通上海分公司

重入網(wǎng)用戶的識(shí)別原理是對(duì)比新增用戶特征和離網(wǎng)用戶在系統(tǒng)中記錄的特征,如果特征符合判斷條件,則認(rèn)為該用戶是重入網(wǎng)用戶,如果沒(méi)有符合特征的記錄,則認(rèn)為該用戶為新增用戶[6]。用戶特征包括:用戶資料,如姓名,身份證號(hào);用戶設(shè)備,如用戶使用的手機(jī)的國(guó)際移動(dòng)設(shè)備標(biāo)識(shí)號(hào)碼(InternationalMobileEquipmentIdentity,IMEI);用戶呼叫指紋,如用戶交往圈,頻繁發(fā)生呼叫的地理位置等。較為簡(jiǎn)單的重入網(wǎng)用戶識(shí)別方法是通過(guò)對(duì)比用戶資料或設(shè)備特征實(shí)現(xiàn)的。用戶資料,例如身份證信息,只能用于識(shí)別資料完整的用戶,對(duì)資料缺失、偽造以及大多數(shù)無(wú)需登記資料即可入網(wǎng)的預(yù)付費(fèi)用戶無(wú)效。每部手機(jī)都有唯一的IMEI號(hào),當(dāng)用戶撥打電話時(shí),手機(jī)的IMEI會(huì)自動(dòng)記錄在用戶的通話話單中,因此可以利用用戶手機(jī)判別是否重入網(wǎng)。采用對(duì)比IMEI號(hào)碼識(shí)別重入網(wǎng)用戶,具有方法簡(jiǎn)單,速度快的優(yōu)點(diǎn)。但通過(guò)調(diào)查發(fā)現(xiàn),重入網(wǎng)用戶手機(jī)更換率達(dá)32%以上[7],IMEI識(shí)別方法準(zhǔn)確率較低,約為42%[8]。

用戶的呼叫特征具有相對(duì)穩(wěn)定性和個(gè)體差異性兩個(gè)特性,可用于識(shí)別重入網(wǎng)用戶。相對(duì)穩(wěn)定性是指用戶通話習(xí)慣,通話群體等因素在一段時(shí)期內(nèi)相對(duì)穩(wěn)定,發(fā)生改變的概率較小。個(gè)體差異性是指每個(gè)移動(dòng)用戶都有自己獨(dú)特的通話習(xí)慣和聯(lián)系群體,不同用戶存在一定的差別。這種呼叫特征的相對(duì)穩(wěn)定性和個(gè)體差異性就像指紋一樣可以用于個(gè)體的識(shí)別。用戶在使用移動(dòng)產(chǎn)品及服務(wù)時(shí),產(chǎn)生的各種行為和屬性的綜合表征稱為呼叫指紋。呼叫指紋可分為用戶交往圈、位置特征、消費(fèi)特征、終端特征等多個(gè)維度。用戶交往圈是與用戶有通話行為的所有號(hào)碼的集合。位置特征是用戶在工作時(shí)間和休息時(shí)間活動(dòng)較為頻繁的小區(qū)標(biāo)識(shí)等信息。消費(fèi)特征是指用戶的消費(fèi)行為、消費(fèi)水平等信息。終端特征是指用戶使用過(guò)的手機(jī)終端信息。通過(guò)對(duì)用戶原始話單的數(shù)據(jù)采集和加工,生成不同維度的呼叫指紋[5]。采用呼叫指紋識(shí)別技術(shù),通過(guò)一系列的比較運(yùn)算就可找到重入網(wǎng)用戶,其重入網(wǎng)技術(shù)框圖如圖1所示。

基于呼叫指紋的識(shí)別算法

目前廣泛采用的有效交往圈算法[2],綜合運(yùn)用了用戶消費(fèi)層次、交往圈、頻繁活動(dòng)小區(qū)、用戶手機(jī)終端等4個(gè)維度的呼叫指紋,其識(shí)別步驟如下。

步驟1首先判斷離網(wǎng)用戶和新入網(wǎng)用戶消費(fèi)層次是否一致,將不一致的用戶排除。

步驟2消費(fèi)層次一致的用戶判斷交往圈匹配程度是否達(dá)到一定條件,滿足條件則認(rèn)為是重入網(wǎng)用戶,不滿足條件則認(rèn)為不是重入網(wǎng)用戶。

步驟3無(wú)法用交往圈匹配方法判斷的用戶,再對(duì)比其手機(jī)終端是否一致,如果一致則認(rèn)為是重入網(wǎng)用戶。

步驟4如果手機(jī)終端不一致,則判斷頻繁活動(dòng)的小區(qū)匹配程度,如果位置信息匹配程度達(dá)到一定條件,則認(rèn)為是重入網(wǎng)用戶。

步驟5如果位置信息不匹配,則變更用戶消費(fèi)層次,重新執(zhí)行步驟1。其中步驟1根據(jù)目標(biāo)用戶的消費(fèi)層次大小,分別確定每個(gè)目標(biāo)用戶的有效交往圈成員數(shù)N,即那些與所述用戶聯(lián)系比較頻繁且能保持長(zhǎng)期交往的重要交往對(duì)象個(gè)數(shù)。步驟2使用用戶的通話頻率Freq,通話次數(shù)Num,通話時(shí)長(zhǎng)Dura等參數(shù),計(jì)算出用戶交往指數(shù)Exp=f(Freq,Num,Dura)。

用交往指數(shù)排名前N個(gè)的號(hào)碼作為用戶的有效交往圈。計(jì)算離網(wǎng)用戶與新入網(wǎng)用戶有效交往圈交集的成員個(gè)數(shù),并計(jì)算符合率,即交集成員個(gè)數(shù)占離網(wǎng)用戶有效交往圈成員數(shù)的比例。如果符合率大于門限值,則認(rèn)為是重入網(wǎng)用戶;如果符合率小于門限值,但大于0,則屬于不確定情況。此時(shí),需要步驟3做進(jìn)一步判斷。交往圈余弦相似度算法在有效交往圈算法基礎(chǔ)上[2-3],將當(dāng)月離網(wǎng)用戶和新增用戶(分本網(wǎng)和競(jìng)爭(zhēng)對(duì)手)分別作為待匹配集和目標(biāo)匹配集,并按照位置信息和交往圈進(jìn)行k-means聚類,形成待匹配識(shí)別的基礎(chǔ)表。然后按照待識(shí)別號(hào)碼的類別信息計(jì)算位置信息的重合度,找出目標(biāo)集合中與待匹配號(hào)碼相近的號(hào)碼群,再通過(guò)計(jì)算待識(shí)別號(hào)碼交往圈的重合度對(duì)號(hào)碼群進(jìn)行篩選,最后通過(guò)呼叫指紋找出匹配的號(hào)碼,并用對(duì)比IMEI方式確認(rèn)。與文[2]計(jì)算有效交往圈符合率的判別方法不同,交往圈余弦相似度算法分別加權(quán)計(jì)算共有交往圈號(hào)碼的語(yǔ)音呼叫次數(shù),語(yǔ)音呼叫時(shí)長(zhǎng),短信次數(shù)的余弦相似度最大值αj=βj=(t1,t2,…,tm)T(j=1,2,…,n),而n表示交往圈號(hào)碼的總個(gè)數(shù)。另外,當(dāng)k=1時(shí),ti(i=1,2,…,m)為特定時(shí)間段內(nèi)與某一號(hào)碼通話(或短信)的次數(shù);當(dāng)k=2時(shí),ti(i=1,2,…,m)為特定時(shí)間段內(nèi)與某一號(hào)碼的通話時(shí)長(zhǎng)。當(dāng)i=1時(shí),m=7,表示通話行為的周特征;當(dāng)i=2時(shí),m=24表示通話行為的日特征(工作日和休息日)。當(dāng)l=1時(shí),交往圈取通話信息;當(dāng)l=2時(shí),交往圈取短信信息(此時(shí)k為特定時(shí)間內(nèi)與某一號(hào)碼的短信通話次數(shù))。其中ωl為權(quán)值,根據(jù)用戶的通話行為和短信行為動(dòng)態(tài)選取,通常根據(jù)交往圈內(nèi)的通話次數(shù)和短信次數(shù)的比例確定。根據(jù)式(1)分別計(jì)算待檢測(cè)號(hào)碼與目標(biāo)號(hào)碼集中每個(gè)號(hào)碼的θ,如果最大的θ≥0.85時(shí),即認(rèn)為待識(shí)別號(hào)碼與所對(duì)應(yīng)的目標(biāo)號(hào)碼完全匹配,否則認(rèn)為待檢測(cè)號(hào)碼離網(wǎng)或轉(zhuǎn)網(wǎng)。

改進(jìn)Hausdorff距離算法[4],用修改后的Hausdorff距離取代余弦相似度作為判別依據(jù),進(jìn)一步提高呼叫指紋比對(duì)的準(zhǔn)確性。在改進(jìn)的Haus-dorff距離中,認(rèn)為兩個(gè)集合匹配程度和他們的共有元素個(gè)數(shù)相關(guān),并且不使用單個(gè)dH(A,B)衡量集合之間的距離,而取其中所有的dH和作為統(tǒng)一的判別。首先定義任意兩個(gè)號(hào)碼的相似度,其中Ω是所有可以連接元素a和b鏈的集合,kl為當(dāng)前鏈的節(jié)點(diǎn)個(gè)數(shù),M為給定的常數(shù),tl為鏈l中所有節(jié)點(diǎn)元素通話時(shí)間的總和。改進(jìn)后的Hausdorff距離定義為在計(jì)算復(fù)雜度方面,盡管該算法較以往的算法更復(fù)雜,但由于對(duì)待匹配樣本集和目標(biāo)樣本集進(jìn)行了聚類細(xì)分,且采用并行運(yùn)算,因此整體的計(jì)算量略大于以往算法,在識(shí)別精度上有進(jìn)一步提高。TF-IDF加權(quán)余弦相似度算法[5]與上述三種算法所采用的識(shí)別方法不同,采用結(jié)合TF-IDF加權(quán)與Cosine相似算法相結(jié)合的呼叫指紋識(shí)別方法。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。用于識(shí)別呼叫指紋時(shí)的實(shí)現(xiàn)步驟如下。步驟1使用TF-IDF算法獲取某一個(gè)用戶的話單中呼叫號(hào)碼的TF-IDF值其中ni是號(hào)碼i在用戶D話單中出現(xiàn)的次數(shù),分母是該用戶話單中所有號(hào)碼數(shù)之和,|D|是用戶總數(shù),|{d:ti∈d}|是出現(xiàn)有號(hào)碼i話單的用戶總數(shù)。步驟2將該用戶話單用矩陣的形式表示,計(jì)算得到TF-IDF=TF•IDF。步驟3使用Cosine相似算法計(jì)算兩個(gè)用戶之間的相似度。通過(guò)對(duì)多個(gè)相似用戶常撥打的(10~30個(gè))號(hào)碼的權(quán)重和相似度進(jìn)行分析,從而達(dá)到判斷是否為重入網(wǎng)用戶。

Top