- 軟件大?。?7.58MB
- 軟件語(yǔ)言:簡(jiǎn)體中文
- 軟件類(lèi)型:國(guó)產(chǎn)軟件
- 軟件類(lèi)別:下載工具
- 更新時(shí)間:2023-06-13
- 軟件授權(quán):免費(fèi)版
- 官方網(wǎng)站://suncustomit.com
- 運(yùn)行環(huán)境:XP/Win7/Win8/Win10
- 標(biāo)簽:數(shù)據(jù)采集器 后羿采集器
易搜網(wǎng)頁(yè)數(shù)據(jù)采集器 v2.0.2.0
39.89MB/簡(jiǎn)體中文/7.5
27.5MB/簡(jiǎn)體中文/7.5
XPath2Doc(通用網(wǎng)站數(shù)據(jù)采集及Doc生成工具) v1.0.0.0最新版
14.6MB/簡(jiǎn)體中文/7.5
老樹(shù)美團(tuán)商家數(shù)據(jù)采集 v1.0.5試用版
29.7MB/簡(jiǎn)體中文/7.5
34.3MB/簡(jiǎn)體中文/8
后羿采集器是一款非常好用的數(shù)據(jù)采集軟件,非常適合seo工作者們使用。用戶(hù)可以通過(guò)使用這款軟件將所需要的數(shù)據(jù)從網(wǎng)絡(luò)上采集下來(lái),非常的方便。需要的朋友歡迎下載使用。
可視化點(diǎn)選,一鍵采集網(wǎng)頁(yè)數(shù)據(jù)
全程拖拽和點(diǎn)擊操作,不需要開(kāi)發(fā)更不需要懂技術(shù)任何人都能用的網(wǎng)頁(yè)數(shù)據(jù)采集器
采集和導(dǎo)出全免費(fèi),無(wú)限制放心用
全免費(fèi)的采集軟件,導(dǎo)出數(shù)據(jù)無(wú)限制數(shù)據(jù)可導(dǎo)出到本地文件、發(fā)布到網(wǎng)站和數(shù)據(jù)庫(kù)等。
可后臺(tái)運(yùn)行,速度實(shí)時(shí)顯示
可切換軟件后臺(tái)運(yùn)行,不打擾您的其他前臺(tái)工作懸浮窗口實(shí)時(shí)查看采集速度和采集數(shù)據(jù)等。
全平臺(tái),Win/Mac/Linux都可用
不同于其他采集器,后羿支持所有操作系統(tǒng)版本更新和功能升級(jí)同步所有平臺(tái)。
自定義采集百度搜索結(jié)果數(shù)據(jù)的方法
步驟1:創(chuàng)建采集任務(wù)
1)啟動(dòng)后羿采集器,進(jìn)入主界面,選擇自定義采集并點(diǎn)擊創(chuàng)建任務(wù)按鈕創(chuàng)建 "自定義采集任務(wù)"
2)輸入百度搜索的URL,包括三種方式
1、手動(dòng)輸入:在輸入框中直接輸入U(xiǎn)RL,多個(gè)URL時(shí)須要換行分割
2、點(diǎn)擊從文件中讀取方式:用戶(hù)選擇一個(gè)存放URL的文件,文件中可以有多個(gè)URL地址,地址須要換行分割。
3、批量添加方式:通過(guò)添加并調(diào)整地址參數(shù)生成多個(gè)有規(guī)律的地址
步驟2:自定義采集流程
1)點(diǎn)擊創(chuàng)建后自動(dòng)打開(kāi)第一個(gè)URL進(jìn)而進(jìn)入自定義設(shè)置頁(yè)面,默認(rèn)已經(jīng)創(chuàng)建了開(kāi)始、打開(kāi)網(wǎng)頁(yè)、結(jié)束的流程塊。底部模板區(qū)用于拖拽到畫(huà)布中生成新的流程塊;點(diǎn)擊打開(kāi)網(wǎng)頁(yè)中的屬性按鈕,可修改打開(kāi)的網(wǎng)址
2)添加輸入文字流程塊:在底部模板區(qū)中拖拽輸入文字塊到打開(kāi)網(wǎng)頁(yè)塊后面附近,當(dāng)出現(xiàn)陰影區(qū)域的時(shí)候可以松開(kāi)鼠標(biāo),此時(shí)會(huì)自動(dòng)連接,添加完成
3)生成完整流程圖:仿照上面添加輸入文字流程塊的拖拽流程添加新塊:如下圖所示:
關(guān)鍵步驟塊設(shè)置介紹
步驟2:定時(shí)等待用于等待前面打開(kāi)網(wǎng)頁(yè)完成
步驟3:點(diǎn)擊輸入框Xpath屬性按鈕,在屬性菜單中點(diǎn)擊圖標(biāo)進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的輸入框,點(diǎn)擊輸入文本屬性按鈕,在菜單中輸入要搜索的文本。
步驟4:用于設(shè)置點(diǎn)擊開(kāi)始搜索按鈕,點(diǎn)擊元素的xpath屬性按鈕,在菜單中點(diǎn)擊點(diǎn)選圖標(biāo),然后點(diǎn)擊網(wǎng)頁(yè)中的百度一下按鈕即可。
步驟5:用于設(shè)置循環(huán)加載下一列表頁(yè)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇單個(gè)元素,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,同上進(jìn)行點(diǎn)選網(wǎng)頁(yè)中的下一頁(yè)按鈕。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制點(diǎn)擊下一頁(yè)的次數(shù)。
步驟6:用于設(shè)置循環(huán)抽取列表頁(yè)中的數(shù)據(jù)。在循環(huán)塊內(nèi)部的循環(huán)條件塊中設(shè)置詳細(xì)條件,此處點(diǎn)擊操作按鈕,選擇不固定元素列表,然后在屬性菜單中點(diǎn)擊元素的xpath屬性按鈕,然后在網(wǎng)頁(yè)中連續(xù)點(diǎn)選兩次抽取第一塊和第二塊元素。循環(huán)次數(shù)屬性按鈕可默認(rèn)為0,即不限制列表中收取字段的數(shù)量。
步驟7:用于執(zhí)行點(diǎn)擊下一頁(yè)按鈕操作,點(diǎn)擊元素xpath屬性按鈕,選擇使用當(dāng)前循環(huán)中元素的xpath選項(xiàng)。
步驟8:同理用于設(shè)置網(wǎng)頁(yè)加載等待時(shí)間。
步驟9:用于設(shè)置在列表頁(yè)抽取的字段規(guī)則,點(diǎn)擊屬性按鈕中使用循環(huán)中的元素按鈕,選擇使用循環(huán)中的元素選項(xiàng)。點(diǎn)擊元素模板屬性按鈕在字段表格中點(diǎn)擊加減進(jìn)行添加刪除字段,添加字段使用點(diǎn)選操作,即點(diǎn)擊加號(hào)后鼠標(biāo)移動(dòng)到網(wǎng)頁(yè)元素上點(diǎn)擊選擇。
4)點(diǎn)擊開(kāi)始采集,啟動(dòng)采集
步驟3:數(shù)據(jù)采集及導(dǎo)出
1)采集任務(wù)運(yùn)行中
2)采集完成后,選擇“導(dǎo)出數(shù)據(jù)”可以把數(shù)據(jù)都導(dǎo)出到本地文件
3)選擇“導(dǎo)出方式”,將采集好的數(shù)據(jù)導(dǎo)出,這里可以選擇excel作為導(dǎo)出為格式
4)采集數(shù)據(jù)導(dǎo)出后如下圖
XX 網(wǎng)站能不能采集?XX 內(nèi)容能不能采集?
后羿采集器是一款通用網(wǎng)頁(yè)采集軟件,只要是有網(wǎng)址,可以通過(guò)網(wǎng)頁(yè)瀏覽,您能看得見(jiàn)的內(nèi)容,大多都是可以采集的(視頻比較特殊,得分析具體情況)。
為什么采集數(shù)據(jù)提前停止了?
如果您遇到的采集提前停止的問(wèn)題,請(qǐng)按照以下步驟自檢一下:
第一步:請(qǐng)確認(rèn)您在瀏覽器中能看見(jiàn)多少內(nèi)容
有的時(shí)候搜索顯示數(shù)量和你最終能看得見(jiàn)的數(shù)量不是一致的,請(qǐng)確認(rèn)您能看見(jiàn)多少條數(shù)據(jù),然后再確定采集是提前停止還是正常停止。
第二步:運(yùn)行日志是否提示“網(wǎng)頁(yè)數(shù)據(jù)未顯示,等待加載時(shí)間不足或被反爬”
在采集過(guò)程中,如果遇到這個(gè)問(wèn)題,有以下兩種可能性:
第一種可能性是采集速度過(guò)快而網(wǎng)頁(yè)加載時(shí)間過(guò)慢,從而導(dǎo)致無(wú)法采集到網(wǎng)頁(yè)中的數(shù)據(jù)。
遇到這種情況時(shí)請(qǐng)?jiān)黾诱?qǐng)求等待時(shí)間,等待時(shí)間長(zhǎng)一點(diǎn)之后,就有足夠的時(shí)間留給網(wǎng)頁(yè)加載內(nèi)容。
請(qǐng)求等待時(shí)間的設(shè)置在 啟動(dòng)設(shè)置—>防屏蔽設(shè)置中
第二種可能性是你遇到了反爬,所謂反爬就是網(wǎng)站針對(duì)疑似采集的行為(不同網(wǎng)站對(duì)采集行為的定義不一致,例如有些網(wǎng)站覺(jué)得你翻頁(yè)過(guò)快就不正常,有些網(wǎng)址覺(jué)得你翻頁(yè)過(guò)多就不正常,有些網(wǎng)站覺(jué)得你直接輸入了詳情頁(yè)的網(wǎng)址就不正常,等等)。
是否遇到了反爬我們可以通過(guò)在運(yùn)行過(guò)程中,點(diǎn)擊運(yùn)行界面中的“查看網(wǎng)頁(yè)”來(lái)觀(guān)察一下當(dāng)前的網(wǎng)頁(yè)內(nèi)容是否正常,是否無(wú)法正常顯示,是否出現(xiàn)了驗(yàn)證碼或者其他非正常內(nèi)容的提示性文字。
如果出現(xiàn)了上述情況,那么你就是被反爬了。
解決反爬一般有降低采集速度、切換代理IP、手動(dòng)打碼或自動(dòng)打碼等方式,至于哪種方式可以起作用,這個(gè)需要測(cè)試才知道,不同的網(wǎng)站反爬手段不同,沒(méi)有一個(gè)統(tǒng)一的解決方案。
為什么采集字段不全?
字段不全一般有以下兩種情況:
第一種,由于列表元素的結(jié)構(gòu)不同,有些元素中有的字段其他元素中沒(méi)有,這是正常的現(xiàn)象,請(qǐng)大家先在網(wǎng)頁(yè)中確認(rèn)對(duì)應(yīng)元素中是否存在你想要的字段。
第二種,頁(yè)面結(jié)構(gòu)發(fā)生了變化,這種通常會(huì)發(fā)生在同一個(gè)搜索結(jié)果中包含多種頁(yè)面結(jié)構(gòu)的場(chǎng)景,例如百度搜索結(jié)果(包含很多種網(wǎng)站),淘寶搜索結(jié)果(包含淘寶和天貓)等。
為什么采集數(shù)據(jù)重復(fù)?
首先請(qǐng)確認(rèn)你已經(jīng)看過(guò)視頻教程,你的采集任務(wù)沒(méi)有頁(yè)面類(lèi)型的設(shè)置問(wèn)題,即錯(cuò)把單頁(yè)類(lèi)型設(shè)置為列表類(lèi)型,或是你錯(cuò)誤地理解了循環(huán)采集的使用方法。
然后請(qǐng)確定你是多次反復(fù)采集數(shù)據(jù)出現(xiàn)重復(fù)還是某一次單獨(dú)采集出現(xiàn)了重復(fù)數(shù)據(jù)。
在未修改采集任務(wù)時(shí),每一次運(yùn)行采集任務(wù)都是從頭開(kāi)始采集,所以每一次采集的數(shù)據(jù)都是重復(fù)的,這是正常的。
如果是在單次采集時(shí)出現(xiàn)了重復(fù)數(shù)據(jù),請(qǐng)確認(rèn)是否滿(mǎn)足以下情況:
第一種:重復(fù)數(shù)據(jù)均為最后一頁(yè)的數(shù)據(jù),這種有可能是翻到最后一頁(yè)未能停止翻頁(yè),請(qǐng)嘗試修改采集范圍,然后看是否還會(huì)出現(xiàn)重復(fù)數(shù)據(jù)的情況。
第二種:重復(fù)數(shù)據(jù)為中間頁(yè)的數(shù)據(jù),這種情況無(wú)法直接得出結(jié)論。
采集停止了,再運(yùn)行是不是從頭開(kāi)始?
是的,采集停止之后,下次再直接啟動(dòng)會(huì)默認(rèn)按照上一次的設(shè)置從頭開(kāi)始采集。
軟件奔潰了,重啟后左側(cè)數(shù)據(jù)都是0,數(shù)據(jù)丟了嗎?
請(qǐng)放心,已經(jīng)采集到的數(shù)據(jù)除非你手動(dòng)刪除,否則都不會(huì)丟失。
在軟件非正常關(guān)閉時(shí),重啟后左側(cè)任務(wù)采集的數(shù)據(jù)的數(shù)量需要手動(dòng)刷新,你只需點(diǎn)擊一下那個(gè)數(shù)字,就會(huì)恢復(fù)正常。