最近更新|軟件分類|軟件專題|軟件排行|手機版|軟件發(fā)布Apache Nutch最新版 v2.3 免費版
您的位置:首頁>網(wǎng)絡(luò)軟件 > 搜索引擎>Apache Nutch最新版 v2.3 免費版

Apache Nutch最新版 v2.3 免費版Java搜索引擎工具

網(wǎng)友評分:

相關(guān)軟件

軟件介紹

Apache Nutch最新版是一款非常專業(yè)的Java搜索引擎工具,它還為大家提供高質(zhì)量的搜索結(jié)果,非常的方便實用,歡迎下載!

Apache Nutch最新版

軟件介紹

Apache Nutch是一個開放源代碼的Java搜索引擎框架,它提供了運行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬蟲,使用Nutch不僅可以建立自己內(nèi)部網(wǎng)的搜索引擎,同時也可以針對整個網(wǎng)絡(luò)建立搜索引擎。

軟件特色

1、Nutch致力于讓每個人能很容易,同時花費很少就可以配置世界一流的Web搜索引擎

2、每個月取幾十億網(wǎng)頁

3、為這些網(wǎng)頁維護一個索引

4、對索引文件進行每秒上千次的搜索

5、提供高質(zhì)量的搜索結(jié)果

軟件功能

1、支持將起始URL集合注入到Nutch系統(tǒng)之中

2、支持生成片段文件,其中包含了將要抓取的URL地址

3、根據(jù)URL地址在互聯(lián)網(wǎng)上抓取相應(yīng)的內(nèi)容

4、解析所抓取到的網(wǎng)頁,并分析其中的文本和數(shù)據(jù)

5、根據(jù)新抓取的網(wǎng)頁中的URL集合來更新起始URL集合,并再次進行抓取

6、同時,對抓取到的網(wǎng)頁內(nèi)容建立索引,生成索引文件存放在系統(tǒng)之中

Apache Nutch最新版

使用教程

1、首先先運行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定后選擇Import project from external model(Eclipse)

2、一直點擊next到結(jié)束,成功將項目導(dǎo)入project中去

3、源碼導(dǎo)入工程后,并不能執(zhí)行完整的爬取。Nutch將爬取的流程切分成很多階段,每個階段分別封裝在一個類的main函數(shù)中。在外面通過Linux Shell調(diào)用這些main函數(shù),來完整爬取的流程。下面我們來運行Nutch中最簡單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個或多個url,作為起始點(廣度遍歷樹的樹根)。Inject的作用,就是把用戶寫在文件里的種子(一行一個url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。

4、接下來我們按照Nutch默認(rèn)的配置,需要修改Nutch的配置文件,為插件文件夾指定一個絕對路徑,修改conf/nutch-default.xml文件內(nèi)容,并且保存到工程中

5、接下來我們就可以開始對指定的網(wǎng)站的信息進行完整的爬取了

更新日志

1、增加了可爬取的數(shù)據(jù)類型

2、增加對Web爬蟲的管理功能

3、解決了一些格式上的已知問題

4、修復(fù)了一些bug,優(yōu)化了軟件界面

5、優(yōu)化了軟件性能

  • 下載地址

點擊報錯軟件無法下載或下載后無法使用,請點擊報錯,謝謝!