2009年7月31日 星期五

Awstats日誌統計和其他統計系統的差異

如果你同時使用awstats分析web日誌,也用Google Analytics跟蹤web訪問,通常你會看到GA的資料比Awstats統計的資料小,而且兩者相差很大,是awstats統計的問題還是google analytics的統計疏漏呢? 這是有兩種統計方法不同所造成的。
首先,我們看一下用戶數的統計。定義如下:
唯一用戶數: 用ip 位址 + ua 資訊的組合來識別不同的使用者訪問
訪問人次: 被識別的唯一使用者在最後一次頁面訪問後又間隔一定時間(30分鐘?)後再次訪問,算是該用戶的第二次訪問。
我們看到GA默認的間隔是30分鐘,而Awstats的間隔設置不同。所以導致資料統計不一樣。
接下來我們再看一下PV的統計
理論上來說awstats的資料來自于web日誌,應該比GA更為精確,但是awstats把很多中間頁面也統計了進去,造成資料的不準確。為了更精確地統計web日誌,我們看看有哪些是被awstats多統計的訪問量,並由日誌中統計出的PV量要排除掉他們:
• 1. 搜尋引擎爬蟲過來的搜尋引擎,爬蟲這些訪問不是用戶行為,應該排除
處理方法: 一般有異常IP位址的訪問量和UA資訊的判斷獲得,排除這些因素的PV量
• 2. 中間跳越網頁面中間跳越網頁面,對用戶來說只能看到跳轉後的頁面資訊,之前發起跳轉的頁面對使用者不可見,應該排除
處理方法: 找出設計中存在的跳越網頁面,排除跳轉前的頁面或跳轉後的頁面所彙集的PV量。
最好在業務設計和程式設計時做考慮處理,減少中間頁面跳轉這類的處理。
• 3. 頁面中內嵌的頁面這類是使用Frame或Div等形式,嵌在一個頁面中的一小塊資訊,
處理方法:找出這類位址,對其做訪問量排除
如果內嵌的是廣告資訊等,可以考慮單獨做分析
• 4. Ajax資料交換使用過的介面頁面這類位址一般使用者看不到,應該排除,
處理方法:找出這類ajax檔所在目錄,然後在統計量中排除對這些位址的訪問,最好在程式設計上將其放到一個目錄下,這樣可以直接排除對某個目錄的訪問。
• 5. 內部資料介面交互使用的PV這個不是針對用戶的,也應該排除
處理方法:如果是從localhost或者本地網的可以單獨過濾。對於這個方法排除後剩餘的檔,可以找出這類的位址,然後在統計量中排除對這些位址的訪問,如果能在架構設計時將其放到一個目錄下,這樣可以直接排除對這些目錄的訪問。
在awstats的設定檔中我們可以通過設置SkipFiles, SkipHosts參數防止被統計的頁面,比如我們不想統計/ajax/和/globalinclude/目錄下的檔,可以設置如下:
SkipFiles=”REGEX[^\/globalinclude\/] REGEX[^\/ajax\/] REGEX[^\/scripts] REGEX[^\/css] REGEX[^\/images] REGEX[^*\.gif]”
SkipHosts=”localhost REGEX[^192\.168\.]”
為了讓首頁的統計更精確,可以做如下設置:
DefaultFile=”index.htm index.html index.php”
如果程式設計目錄對這些方面考慮得不周全,建議從訪問量大的檔先開始過濾,相信一段時間之後,你的日誌統計就會越來越精確了。

摘自:http://www.jefflei.com/post/454.html

沒有留言:

wibiya widget