搜索引擎未發(fā)現(xiàn)網(wǎng)站抓取階段問(wèn)題,未提交收錄入口新站未主動(dòng)向搜索引擎提交鏈接,如百度站長(zhǎng)平臺(tái)、解決注冊(cè)并驗(yàn)證站長(zhǎng)工具,提交首頁(yè)鏈接,使用主動(dòng)推送工具百度的自動(dòng)推送代碼,實(shí)時(shí)通知搜索引擎新內(nèi)容。
禁止抓取原因根目錄下的文件錯(cuò)誤屏蔽了搜索引擎檢查規(guī)則,確保允許抓取至少保留或允許關(guān)鍵目錄,網(wǎng)站未被任何頁(yè)面鏈接指向,無(wú)外部鏈接或內(nèi)部鏈接引導(dǎo)爬蟲(chóng)訪問(wèn)孤立頁(yè)面,在社交媒體行業(yè)論壇發(fā)布鏈接,獲取基礎(chǔ)外鏈,確保首頁(yè)有清晰導(dǎo)航,內(nèi)頁(yè)通過(guò)面包屑、相關(guān)推薦等互相鏈接。
技術(shù)層面阻礙抓取與索引網(wǎng)站無(wú)法被正常訪問(wèn),服務(wù)器不穩(wěn)定如頻繁錯(cuò)誤、IP被封禁、DNS解析異常,使用HTTPS但證書(shū)過(guò)期或配置錯(cuò)誤瀏覽器顯示不安全,更換可靠服務(wù)器,修復(fù)SSL證書(shū)。
頁(yè)面加載速度過(guò)慢圖片視頻未壓縮、阻塞渲染導(dǎo)致爬蟲(chóng)超時(shí)放棄抓取,檢測(cè)性能優(yōu)化措施包括,壓縮圖片使用WebP格式合并文件,啟用瀏覽器緩存設(shè)置CDN加速靜態(tài)資源。
動(dòng)態(tài)URL或參數(shù)復(fù)雜原因URL包含過(guò)多參數(shù),爬蟲(chóng)難以識(shí)別重復(fù)內(nèi)容,簡(jiǎn)化URL結(jié)構(gòu)使用靜態(tài)化路徑,通過(guò)站長(zhǎng)工具聲明參數(shù)處理規(guī)則等分頁(yè)參數(shù)。
使用爬蟲(chóng)難以解析的技術(shù)原因,單頁(yè)應(yīng)用內(nèi)容僅通過(guò)加載,未進(jìn)行服務(wù)器端渲染,內(nèi)容嵌套第三方頁(yè)面,對(duì)SPA應(yīng)用啟用SSR或靜態(tài)站點(diǎn)生成避免依賴Flash改用HTML5實(shí)現(xiàn)交互,iframe 內(nèi)容需確??杀华?dú)立抓取。
內(nèi)容質(zhì)量不達(dá)標(biāo)索引階段問(wèn)題,內(nèi)容低質(zhì)或重復(fù)自動(dòng)生成垃圾文本,關(guān)鍵詞堆砌、頁(yè)面內(nèi)容過(guò)短少于200字或無(wú)實(shí)質(zhì)價(jià)值,單純廣告頁(yè)原創(chuàng)內(nèi)容優(yōu)先,提供獨(dú)特觀點(diǎn)、數(shù)據(jù)或工具行業(yè)報(bào)告計(jì)算器,合并重復(fù)頁(yè)面相似產(chǎn)品頁(yè),使用指定主頁(yè)面。