時間:2010-05-01 點(diǎn)擊: 次 來源:互聯(lián)網(wǎng) 作者:佚名 - 小 + 大
索引擎的難點(diǎn)包括如下幾點(diǎn): 2) 采集的數(shù)據(jù)還要有一個排重的過程. 只需要采集一個網(wǎng)站更新的數(shù)據(jù) 3) 對于需要cookie數(shù)據(jù)的網(wǎng)頁如何采集的問題,部分網(wǎng)站需要通過cookie數(shù)據(jù)登陸網(wǎng)站 4) 自動通過識別碼的驗(yàn)證 5) 一些網(wǎng)站對于密集訪問的請求會拒絕,技術(shù)上也要進(jìn)行處理 6) 對于一些特殊網(wǎng)頁的采集問題, 比如flash網(wǎng)頁,一些游戲網(wǎng)頁等,很多網(wǎng)站會讓采集程序陷入其中,采集數(shù)萬無效數(shù)據(jù),顯然是浪費(fèi)了采集程序的精力 7) 大數(shù)據(jù)量的存儲也是個難點(diǎn),據(jù)說Google的存儲是自己開發(fā)的架構(gòu),沒用任何的數(shù)據(jù)庫,因?yàn)閿?shù)據(jù)庫的查詢效率還是有一定損失. 可以采用數(shù)據(jù)塊的模式,然后通過散列表的模式連接. 以上主要列出的是后臺采集器的相關(guān)技術(shù)難點(diǎn),在前臺檢索、查詢效率等方面仍有許多難點(diǎn). |