オープンソースコラム


2008/09/27 16:49Update

Nutch - オープンソースのJava検索エンジン

TAGS: 全文検索 | Apache | Java

スポンサード リンク


NutchはJavaで検索システムを構築するためのオープンソース検索エンジンです。クロール・インデックス機能にApache Luceneエンジンを使用しています。                         

動作環境


◇ 言語:Java 1.4+
◇ Webサーバ:Tomcat 4.x+
◇ cygwin
◇ オープンソース。Apache License 2.0         

機能・特徴


◇ Luceneベース(クロール、インデックス)
◇ クロール機能
◇ インデックス機能
◇ Plain-Text、HTML、XML、JavaScript、OpenOfice.org ODF、Microsoft Power Point、Word、PDF、RSS、RTF、MP3、ZIPなどのフォーマットのドキュメントサポート
◇ カスタマイズ機能。開発者はNutchが提供したアーキテクチャを利用することで、メディア・タイプの解析、データ検索、クエリ、クラスタリングなどのプラグインを開発することは可能。

参考資料


Nutchプロジェクト・ウェブサイト
Nutch Wiki
オープンソースな検索エンジン Nutch のインストールから設定まで「ultimania.org」
チュートリアル1(英語)
チュートリアル2(英語。解説図あり)
Apache Lucene - Javaによる高機能な全文検索システム

Sponsored Link