【Java开源 搜索引擎】

 

 Lucene   点击次数:433

Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

 Nutch   点击次数:1065

Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

* 每个月取几十亿网页
* 为这些网页维护一个索引
* 对索引文件进行每秒上千次的搜索
* 提供高质量的搜索结果
* 以最小的成本运作

 spindle   点击次数:137

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的 HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不需要开发任何Java类就能够增加搜索功能。

 Egothor   点击次数:86

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

 Zilverline   点击次数:141

Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。 Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

 BDDBot   点击次数:75

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

 Oxyus   点击次数:124

一个纯java写的web搜索引擎。

 JXTA Search   点击次数:98

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

 Red-Piranha   点击次数:93

Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha 可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎, 或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何 Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT, Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.

 LIUS   点击次数:126

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:
Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如: Hibernate,JDO,Torque,TopLink进行开发时。

 Aperture   点击次数:88

Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下:
# Plain text
# HTML, XHTML
# XML
# PDF (Portable Document Format)
# RTF (Rich Text Format)
# Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher
# Microsoft Works
# OpenOffice 1.x: Writer, Calc, Impress, Draw
# StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw
# OpenDocument (OpenOffice 2.x, StarOffice 8.x)
# Corel WordPerfect, Quattro, Presentations
# Emails (.eml files)

 XQEngine   点击次数:47

XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询 XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

 YaCy   点击次数:49

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

 MG4J   点击次数:72

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

 Luke   点击次数:116

Luke是一个可以读取、修改已经存在的Lucene索引的项目。

Luke is a handy development and diagnostic tool, which accesses already existing Lucene indexes and allows you to display and modify their contents in several ways:

* browse by document number, or by term
* view documents / copy to clipboard
* retrieve a ranked list of most frequent terms
* execute a search, and browse the results
* analyze search results
* selectively delete documents from the index
* reconstruct the original document fields, edit them and re-insert to the index
* optimize indexes
* and much more...

Latest versions of Luke are also extensible through plugins and scripting.


Google
 
Web www.ideagrace.com
  © IdeaGrace 2007