最近更新|軟件分類(lèi)|軟件專(zhuān)題|軟件排行|手機(jī)版|軟件發(fā)布后羿采集器 v3.6.4官方正式版
您的位置:首頁(yè)>網(wǎng)絡(luò)軟件 > 下載工具>后羿采集器 v3.6.4官方正式版

后羿采集器 v3.6.4官方正式版數(shù)據(jù)采集器

網(wǎng)友評(píng)分:

相關(guān)軟件

軟件介紹

后羿采集器是一款非常好用的數(shù)據(jù)采集軟件,非常適合seo工作者們使用。用戶(hù)可以通過(guò)使用這款軟件將所需要的數(shù)據(jù)從網(wǎng)絡(luò)上采集下來(lái),非常的方便。需要的朋友歡迎下載使用。

后羿采集器 v3.6.4官方正式版

功能特點(diǎn)

可視化點(diǎn)選,一鍵采集網(wǎng)頁(yè)數(shù)據(jù)

全程拖拽和點(diǎn)擊操作,不需要開(kāi)發(fā)更不需要懂技術(shù)任何人都能用的網(wǎng)頁(yè)數(shù)據(jù)采集器

采集和導(dǎo)出全免費(fèi),無(wú)限制放心用

全免費(fèi)的采集軟件,導(dǎo)出數(shù)據(jù)無(wú)限制數(shù)據(jù)可導(dǎo)出到本地文件、發(fā)布到網(wǎng)站和數(shù)據(jù)庫(kù)等。

可后臺(tái)運(yùn)行,速度實(shí)時(shí)顯示

可切換軟件后臺(tái)運(yùn)行,不打擾您的其他前臺(tái)工作懸浮窗口實(shí)時(shí)查看采集速度和采集數(shù)據(jù)等。

全平臺(tái),Win/Mac/Linux都可用

不同于其他采集器,后羿支持所有操作系統(tǒng)版本更新和功能升級(jí)同步所有平臺(tái)。

使用方法

自定義采集百度搜索結(jié)果數(shù)據(jù)的方法

步驟1:創(chuàng)建采集任務(wù)

1)啟動(dòng)后羿采集器,進(jìn)入主界面,選擇自定義采集并點(diǎn)擊創(chuàng)建任務(wù)按鈕創(chuàng)建 "自定義采集任務(wù)"

后羿采集器 v3.6.4官方正式版

2)輸入百度搜索的URL,包括三種方式

1、手動(dòng)輸入:在輸入框中直接輸入U(xiǎn)RL,多個(gè)URL時(shí)須要換行分割

2、點(diǎn)擊從文件中讀取方式:用戶(hù)選擇一個(gè)存放URL的文件,文件中可以有多個(gè)URL地址,地址須要換行分割。

3、批量添加方式:通過(guò)添加并調(diào)整地址參數(shù)生成多個(gè)有規(guī)律的地址

后羿采集器 v3.6.4官方正式版

步驟2:自定義采集流程

1)點(diǎn)擊創(chuàng)建后自動(dòng)打開(kāi)第一個(gè)URL進(jìn)而進(jìn)入自定義設(shè)置頁(yè)面,默認(rèn)已經(jīng)創(chuàng)建了開(kāi)始、打開(kāi)網(wǎng)頁(yè)、結(jié)束的流程塊。底部模板區(qū)用于拖拽到畫(huà)布中生成新的流程塊;點(diǎn)擊打開(kāi)網(wǎng)頁(yè)中的屬性按鈕,可修改打開(kāi)的網(wǎng)址

后羿采集器 v3.6.4官方正式版

2)添加輸入文字流程塊:在底部模板區(qū)中拖拽輸入文字塊到打開(kāi)網(wǎng)頁(yè)塊后面附近,當(dāng)出現(xiàn)陰影區(qū)域的時(shí)候可以松開(kāi)鼠標(biāo),此時(shí)會(huì)自動(dòng)連接,添加完成

后羿采集器 v3.6.4官方正式版

3)生成完整流程圖:仿照上面添加輸入文字流程塊的拖拽流程添加新塊:如下圖所示:

后羿采集器 v3.6.4官方正式版

關(guān)鍵步驟塊設(shè)置介紹

步驟2:定時(shí)等待用于等待前面打開(kāi)網(wǎng)頁(yè)完成

步驟3:點(diǎn)擊輸入框Xpath屬性按鈕,在屬性菜單中點(diǎn)擊圖標(biāo)進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的輸入框,點(diǎn)擊輸入文本屬性按鈕,在菜單中輸入要搜索的文本。

步驟4:用于設(shè)置點(diǎn)擊開(kāi)始搜索按鈕,點(diǎn)擊元素的xpath屬性按鈕,在菜單中點(diǎn)擊點(diǎn)選圖標(biāo),然后點(diǎn)擊網(wǎng)頁(yè)中的百度一下按鈕即可。

步驟5:用于設(shè)置循環(huán)加載下一列表頁(yè)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇單個(gè)元素,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,同上進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的下一頁(yè)按鈕。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制點(diǎn)擊下一頁(yè)的次數(shù)。

步驟6:用于設(shè)置循環(huán)抽取列表頁(yè)中的數(shù)據(jù)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇不固定元素列表,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,然后在網(wǎng)頁(yè)中連續(xù)點(diǎn)選兩次抽取第一塊和第二塊元素。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制列表中收取字段的數(shù)量。

步驟7:用于執(zhí)行點(diǎn)擊下一頁(yè)按鈕操作,點(diǎn)擊元素xpath屬性按鈕,選擇使用當(dāng)前循環(huán)中元素的xpath選項(xiàng)。

步驟8:同理用于設(shè)置網(wǎng)頁(yè)加載等待時(shí)間。

步驟9:用于設(shè)置在列表頁(yè)抽取的字段規(guī)則,點(diǎn)擊屬性按鈕中使用循環(huán)中的元素按鈕,選擇使用循環(huán)中的元素選項(xiàng)。點(diǎn)擊元素模板屬性按鈕在字段表格中點(diǎn)擊加減進(jìn)行添加刪除字段,添加字段使用點(diǎn)選操作,即點(diǎn)擊加號(hào)后鼠標(biāo)移動(dòng)到網(wǎng)頁(yè)元素上點(diǎn)擊選擇。

4)點(diǎn)擊開(kāi)始采集,啟動(dòng)采集

后羿采集器 v3.6.4官方正式版

步驟3:數(shù)據(jù)采集及導(dǎo)出

1)采集任務(wù)運(yùn)行中

后羿采集器 v3.6.4官方正式版

2)采集完成后,選擇“導(dǎo)出數(shù)據(jù)”可以把數(shù)據(jù)都導(dǎo)出到本地文件

后羿采集器 v3.6.4官方正式版

3)選擇“導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出,這里可以選擇excel作為導(dǎo)出為格式

后羿采集器 v3.6.4官方正式版

4)采集數(shù)據(jù)導(dǎo)出后如下圖

后羿采集器 v3.6.4官方正式版

常見(jiàn)問(wèn)題

XX 網(wǎng)站能不能采集?XX 內(nèi)容能不能采集?

后羿采集器是一款通用網(wǎng)頁(yè)采集軟件,只要是有網(wǎng)址,可以通過(guò)網(wǎng)頁(yè)瀏覽,您能看得見(jiàn)的內(nèi)容,大多都是可以采集的(視頻比較特殊,得分析具體情況)。

為什么采集數(shù)據(jù)提前停止了?

如果您遇到的采集提前停止的問(wèn)題,請(qǐng)按照以下步驟自檢一下:

第一步:請(qǐng)確認(rèn)您在瀏覽器中能看見(jiàn)多少內(nèi)容

有的時(shí)候搜索顯示數(shù)量和你最終能看得見(jiàn)的數(shù)量不是一致的,請(qǐng)確認(rèn)您能看見(jiàn)多少條數(shù)據(jù),然后再確定采集是提前停止還是正常停止。

第二步:運(yùn)行日志是否提示“網(wǎng)頁(yè)數(shù)據(jù)未顯示,等待加載時(shí)間不足或被反爬”

在采集過(guò)程中,如果遇到這個(gè)問(wèn)題,有以下兩種可能性:

第一種可能性是采集速度過(guò)快而網(wǎng)頁(yè)加載時(shí)間過(guò)慢,從而導(dǎo)致無(wú)法采集到網(wǎng)頁(yè)中的數(shù)據(jù)。

遇到這種情況時(shí)請(qǐng)?jiān)黾诱?qǐng)求等待時(shí)間,等待時(shí)間長(zhǎng)一點(diǎn)之后,就有足夠的時(shí)間留給網(wǎng)頁(yè)加載內(nèi)容。

請(qǐng)求等待時(shí)間的設(shè)置在 啟動(dòng)設(shè)置—>防屏蔽設(shè)置中

后羿采集器 v3.6.4官方正式版

第二種可能性是你遇到了反爬,所謂反爬就是網(wǎng)站針對(duì)疑似采集的行為(不同網(wǎng)站對(duì)采集行為的定義不一致,例如有些網(wǎng)站覺(jué)得你翻頁(yè)過(guò)快就不正常,有些網(wǎng)址覺(jué)得你翻頁(yè)過(guò)多就不正常,有些網(wǎng)站覺(jué)得你直接輸入了詳情頁(yè)的網(wǎng)址就不正常,等等)。

是否遇到了反爬我們可以通過(guò)在運(yùn)行過(guò)程中,點(diǎn)擊運(yùn)行界面中的“查看網(wǎng)頁(yè)”來(lái)觀(guān)察一下當(dāng)前的網(wǎng)頁(yè)內(nèi)容是否正常,是否無(wú)法正常顯示,是否出現(xiàn)了驗(yàn)證碼或者其他非正常內(nèi)容的提示性文字。

如果出現(xiàn)了上述情況,那么你就是被反爬了。

解決反爬一般有降低采集速度、切換代理IP、手動(dòng)打碼或自動(dòng)打碼等方式,至于哪種方式可以起作用,這個(gè)需要測(cè)試才知道,不同的網(wǎng)站反爬手段不同,沒(méi)有一個(gè)統(tǒng)一的解決方案。

為什么采集字段不全?

字段不全一般有以下兩種情況:

第一種,由于列表元素的結(jié)構(gòu)不同,有些元素中有的字段其他元素中沒(méi)有,這是正常的現(xiàn)象,請(qǐng)大家先在網(wǎng)頁(yè)中確認(rèn)對(duì)應(yīng)元素中是否存在你想要的字段。

第二種,頁(yè)面結(jié)構(gòu)發(fā)生了變化,這種通常會(huì)發(fā)生在同一個(gè)搜索結(jié)果中包含多種頁(yè)面結(jié)構(gòu)的場(chǎng)景,例如百度搜索結(jié)果(包含很多種網(wǎng)站),淘寶搜索結(jié)果(包含淘寶和天貓)等。

為什么采集數(shù)據(jù)重復(fù)?

首先請(qǐng)確認(rèn)你已經(jīng)看過(guò)視頻教程,你的采集任務(wù)沒(méi)有頁(yè)面類(lèi)型的設(shè)置問(wèn)題,即錯(cuò)把單頁(yè)類(lèi)型設(shè)置為列表類(lèi)型,或是你錯(cuò)誤地理解了循環(huán)采集的使用方法。

然后請(qǐng)確定你是多次反復(fù)采集數(shù)據(jù)出現(xiàn)重復(fù)還是某一次單獨(dú)采集出現(xiàn)了重復(fù)數(shù)據(jù)。

在未修改采集任務(wù)時(shí),每一次運(yùn)行采集任務(wù)都是從頭開(kāi)始采集,所以每一次采集的數(shù)據(jù)都是重復(fù)的,這是正常的。

如果是在單次采集時(shí)出現(xiàn)了重復(fù)數(shù)據(jù),請(qǐng)確認(rèn)是否滿(mǎn)足以下情況:

第一種:重復(fù)數(shù)據(jù)均為最后一頁(yè)的數(shù)據(jù),這種有可能是翻到最后一頁(yè)未能停止翻頁(yè),請(qǐng)嘗試修改采集范圍,然后看是否還會(huì)出現(xiàn)重復(fù)數(shù)據(jù)的情況。

第二種:重復(fù)數(shù)據(jù)為中間頁(yè)的數(shù)據(jù),這種情況無(wú)法直接得出結(jié)論。

采集停止了,再運(yùn)行是不是從頭開(kāi)始?

是的,采集停止之后,下次再直接啟動(dòng)會(huì)默認(rèn)按照上一次的設(shè)置從頭開(kāi)始采集。

軟件奔潰了,重啟后左側(cè)數(shù)據(jù)都是0,數(shù)據(jù)丟了嗎?

請(qǐng)放心,已經(jīng)采集到的數(shù)據(jù)除非你手動(dòng)刪除,否則都不會(huì)丟失。

在軟件非正常關(guān)閉時(shí),重啟后左側(cè)任務(wù)采集的數(shù)據(jù)的數(shù)量需要手動(dòng)刷新,你只需點(diǎn)擊一下那個(gè)數(shù)字,就會(huì)恢復(fù)正常。

  • 下載地址