色综合久久久久综合体桃花网|国产精品久久久久久影院|四虎澳门永久8848在线影院|日韩免费视频一区二区|日韩中文字幕一区二区不卡

Menu
WEB日志挖掘?qū)崿F(xiàn)網(wǎng)站優(yōu)化
2008-03-26 15:14:41
Web數(shù)據(jù)挖掘是應(yīng)用于Internet的研究,是從半結(jié)構(gòu)化或無結(jié)構(gòu)的Web頁面中。抽取感興趣的、潛在的模式。當(dāng)前研究的主要有三種技術(shù):Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘。針對Internet的研究它是一個半結(jié)構(gòu)化的系統(tǒng),很難對它進(jìn)行處理,但Web服務(wù)器中的日志記錄具有良好的數(shù)據(jù)結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘的進(jìn)行。Web日志挖掘是web使用挖掘的一個分支它作為Web挖掘的一個重要組成部分,具有獨(dú)特的理論和實踐意義。

      Web日志挖掘的定義Web日志是指在服務(wù)器上有關(guān)Web訪問的各種日志文件,包括訪問日志、引用日志、代理日志、錯誤日志等文件,這些文件中包含了大量的用戶訪問信息,如用戶的IP地址、所訪問的uRL、訪問日期和時間、訪問方法(GET或POST)、訪問結(jié)果(成功、失敗、錯誤),訪問的信息大小等。Web日志挖掘是將數(shù)據(jù)挖掘應(yīng)用于Web日志記錄文件,發(fā)現(xiàn)用戶瀏覽模式,分析站點(diǎn)的使用情況。還可應(yīng)用于協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu),提高站點(diǎn)的訪問效率,構(gòu)造合理的Web服務(wù)器。提高用戶訪問的有效性。這對于優(yōu)化web站點(diǎn)來說非常有意義。

      Web日志挖掘的過程

      數(shù)據(jù)收集Web13志挖掘可以通過各個方面對13志文件進(jìn)王春霞:講師碩士基金項目:河南省教育廳自然科學(xué)基金資助項目行收集,例如從服務(wù)器端數(shù)據(jù)收集、客戶端數(shù)據(jù)收集、代理服務(wù)器端數(shù)據(jù)收集。

      數(shù)據(jù)預(yù)處理

      數(shù)據(jù)凈化數(shù)據(jù)凈化是指刪除web服務(wù)器13志中與挖掘算法無關(guān)的數(shù)據(jù)。一般來說只有13志中HTML文件與用戶會話相關(guān)。用戶一般不會顯式地請求頁面上的圖形文件。它們是根據(jù)HTML的超文本引用標(biāo)記自動下載的。web13志文件的目的是獲得用戶的行為模式并不關(guān)心那些用戶沒有顯式請求的文件。所以通過檢查URL的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如:將日志中文件的后綴名為GIF、JPEG、JPG等的圖形文件刪除。另外,后綴名為CGI的腳本文件也應(yīng)被刪除。具體到實際的系統(tǒng)就使用一個缺省的后綴名列表幫助刪除文件。列表可以根據(jù)正在分析的站點(diǎn)類型進(jìn)行修改,例如:對一個主要包含圖形文檔的站點(diǎn)。日志中GIF和JPEG文件可能代表了用戶的請求。此時就不能將圖形文件刪除。進(jìn)行數(shù)據(jù)凈化的還有一個方面,比如:有些網(wǎng)站的頁面用戶在提出請求時。Web服務(wù)器拒絕該頁面的請求。那么應(yīng)該過濾掉非法請求的頁面,對正常的頁面進(jìn)行數(shù)據(jù)處理是很有價值的。但是如果考慮的是網(wǎng)絡(luò)安全方面的問題。就另當(dāng)別論考慮非法請求的頁面的情況。

      用戶識別識別用戶對于會話識別特別是為用戶提供個性化的服務(wù)非常重要,目前由于本地緩存代理服務(wù)器和防火墻的存在、為用戶動態(tài)的分配IP地址想要識別出每一個用戶變得很復(fù)雜。

      針對用戶的識別有幾種最可能的解決辦法:

      如果IP地址相同,但是代理日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,就應(yīng)當(dāng)認(rèn)為每個不同的代理就表示不同的用戶。將用戶的訪問日志和站點(diǎn)的拓?fù)浣Y(jié)構(gòu)結(jié)合,構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請求的頁面同用戶已瀏覽的頁面之間沒有鏈接關(guān)系。那么就認(rèn)為存在另外具有相同IP地址的多個用戶不同的IP就認(rèn)為就是不同的用戶。Cookie是由Web服務(wù)器產(chǎn)生的記號存在于客戶端(用戶的機(jī)器),用于識別用戶的會話。它是一種自動跟蹤Web站點(diǎn)訪問者的標(biāo)記。當(dāng)用戶對Web資源提出請求時將為該用戶產(chǎn)生唯一的Cookie用于識別對話。在隨后的請求中,瀏覽器將該唯一的Cookie發(fā)送回服務(wù)器用來識別對話

      會話識別在跨越時間區(qū)段較大的Web服務(wù)器日志中,用戶可能多次訪問了該站點(diǎn)。會話識別的目的就是將用戶的訪問記錄分為單個會話。最簡單的方法是利用超時,如果兩頁間請求時間的差值超過一定的界限就認(rèn)為用戶開始了一個新的會話。JPitkow的實驗證明,比較合理的時間長度應(yīng)該是255分鐘。這種方法很簡單但是準(zhǔn)確性很差。還有一種方法是訪問日志法,它能劃分同一IP的并發(fā)訪問但存準(zhǔn)確性仍存在局限性。

      路徑補(bǔ)充在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄。這就是路徑補(bǔ)充所做的工作,解決的方法類似于用戶識別中的方法。如果當(dāng)前請求的頁與用戶上一次請求的頁之間沒有超文本鏈接那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查訪問日志確定當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若訪問日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

      Web日志挖掘的應(yīng)用一優(yōu)化Web站點(diǎn)

      優(yōu)化Web站點(diǎn)步驟優(yōu)化Web站點(diǎn)方法很簡單,需要對日志文件進(jìn)行預(yù)處理、模式識別最后是模式分析。其步驟為:先進(jìn)行預(yù)處理去掉不相關(guān)的數(shù)據(jù)項減少數(shù)據(jù)庫的存儲空間。比如:操作系統(tǒng)和瀏覽器、文件大小等等。模式識別是得到一個用戶訪問的頁面數(shù)據(jù)庫,并且是按照針對不同的用戶所訪問頁面的字母序的形式排列;字母序有助于挖掘的快速進(jìn)行。模式分析就是利用數(shù)據(jù)挖掘的算法解決實際性的問題。在優(yōu)化網(wǎng)站設(shè)計時,就是將每一個用戶訪問的頁面抽象為點(diǎn)而頁面到頁面之間鏈接抽象為線這樣就構(gòu)造出很多用戶的拓?fù)浣Y(jié)構(gòu)圖,然后找出這些圖之間的相關(guān)性及其從一些頁面到另一些頁面之間的最高訪問頻率,最后可構(gòu)造出整個web站點(diǎn)的拓?fù)鋱D。可將整個的WEB站點(diǎn)的所有頁面抽象為數(shù)字,那么可以得出很多路徑的數(shù)字排序。我們可以利用聚類中的頁面聚類找出這些數(shù)字之間的相關(guān)性很容易得出頁面到頁面間的訪問頻度。最后找出頁面訪問頻度最高的路徑就是要構(gòu)造該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖。根據(jù)該網(wǎng)站的拓?fù)浣Y(jié)構(gòu)圖,重新構(gòu)建該網(wǎng)站,進(jìn)而提高網(wǎng)站的利用率。

      優(yōu)化Web站點(diǎn)算法構(gòu)造網(wǎng)站的部分算法的說明:首先將整個Web站點(diǎn)可以看成是一個完全圖,因為它的每個Web頁都有一條從主頁到該頁面的鏈接,反過來一般也都有后退和返回按鈕。我們可以現(xiàn)將整個的頁面做一個映射,主頁記為1,其次,它的鏈接頁面可以定義為2,順序3,4,13。下面可以根據(jù)論文中上述知識找出每一個用戶的訪問頁面路徑。將路徑的信息轉(zhuǎn)換成矩陣的形式去做,實現(xiàn)起來比較方便。

      結(jié)束語優(yōu)化Web站點(diǎn)是通過Web日志分析系統(tǒng)挖掘的結(jié)果,改進(jìn)站點(diǎn)信息的組成結(jié)構(gòu),調(diào)整網(wǎng)站的內(nèi)容,形成用戶感興趣的web頁,然后存在web服務(wù)器上,最后當(dāng)用戶訪問的時候顯示給用戶,使之更好地為用戶提供服務(wù)。

?? ?
  • 宏瑞官方公眾號

    宏瑞官方公眾號
  • 響應(yīng)式客戶端

    客服微信

關(guān)于我們

揚(yáng)州宏瑞科技有限公司成立于2008年初,主要從事品牌網(wǎng)站建設(shè)\
高端網(wǎng)站定制\軟件定制開發(fā)\微信小程序開發(fā),服務(wù)客戶超過1000家。
致力于為企業(yè)提供可靠的網(wǎng)站建設(shè)解決方案。

免費(fèi)通話
在線QQ


點(diǎn)擊QQ聊天
客服微信

掃一掃
加客服微信

服務(wù)熱線
0514-87330378

在線留言
返回頂部