| jboss |
2006-07-05 11:40 |
http://blog.csdn.net/zjzcl/archive/2006/02/06/593138.aspx
下面说说我的配置,也好给大家一个参考: 1,Tomcat 4.1.30 2,JDK 1.4.2 3,Nutch 0.6 4,cygwin(装gcc)
安装过程: 1,安装JDK(在C:\jdk),配置环境变量NUTCH_JAVA_HOME = C:jdk 2,安装Tomcat(在C:\Tomcat) 3,安装cygwin 4,在cygwin中你的目录下,建一个目录,用来存放nutch,比如我的是:D:\cygwin\home\iwind\nutch,然后装nutch 0.6压缩包解压到这里。 5,运行Tomcat,在http://localhost:8080/manager/html上传nutch根目录下的nutch-0.6.war文件。 6,关掉Tomcat,将C:\tomcat\webapps下的ROOT文件名改成其它的,比如ROOT1,将nutch 0.6之类的目录名改成ROOT,这样你访问http://localhost:8080 时,就直接到nutch搜索了
以上步骤完成之后,就可以抓取网页了。
在nutch根目录下创建一个文件urls(应该是可以改成其它的),输入抓取的开始页,比如 http://www.4kiki.net/
在nutch/conf下的crawl-urlfilter.txt里可以配置抓到的url特征,比如在# accept anything else下,将+.注释掉,换成自己的 +^http://([a-z0-9]*\.)*4kiki.net/
保存就ok了,这里需要注意的是这个urls里的内容要和这个规则相匹配,不然无法开始抓取。
打开cygwin,cd到nutch目录下,运行 bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 可以看到就开始了,这里的depth是深度,threads是线程数,urls就是刚才我们创建的那个文件,dir是抓取内容存放的地址。
过一段时间,cygwin抓完页面后就会停止。我们在 C:\tomcat\webapps\ROOT\WEB-INF\classes\nutch-site.xml 里,将 <nutch-conf> </nutch-conf> 换成 <nutch-conf> <property> <name>searcher.dir</name> <value>D:\cygwin\home\Administrator\nutch\crawl.demo</value> </property> </nutch-conf>
再启动tomcat,输入http://localhost:8080,就会发现我们自己的搜索引擎终于能搜索了。 |
|