Nutch - オープンソースのJava検索エンジン
NutchはJavaで検索システムを構築するためのオープンソース検索エンジンです。クロール・インデックス機能にApache Luceneエンジンを使用しています。
◇ 言語:Java 1.4+
◇ Webサーバ:Tomcat 4.x+
◇ cygwin
◇ オープンソース。Apache License 2.0
◇ Luceneベース(クロール、インデックス)
◇ クロール機能
◇ インデックス機能
◇ Plain-Text、HTML、XML、JavaScript、OpenOfice.org ODF、Microsoft Power Point、Word、PDF、RSS、RTF、MP3、ZIPなどのフォーマットのドキュメントサポート
◇ カスタマイズ機能。開発者はNutchが提供したアーキテクチャを利用することで、メディア・タイプの解析、データ検索、クエリ、クラスタリングなどのプラグインを開発することは可能。
Nutchプロジェクト・ウェブサイト
Nutch Wiki
オープンソースな検索エンジン Nutch のインストールから設定まで
「ultimania.org」
チュートリアル1
(英語)
チュートリアル2
(英語。解説図あり)
Apache Lucene - Javaによる高機能な全文検索システム
動作環境
◇ 言語:Java 1.4+
◇ Webサーバ:Tomcat 4.x+
◇ cygwin
◇ オープンソース。Apache License 2.0
機能・特徴
◇ Luceneベース(クロール、インデックス)
◇ クロール機能
◇ インデックス機能
◇ Plain-Text、HTML、XML、JavaScript、OpenOfice.org ODF、Microsoft Power Point、Word、PDF、RSS、RTF、MP3、ZIPなどのフォーマットのドキュメントサポート
◇ カスタマイズ機能。開発者はNutchが提供したアーキテクチャを利用することで、メディア・タイプの解析、データ検索、クエリ、クラスタリングなどのプラグインを開発することは可能。
参考資料
Nutchプロジェクト・ウェブサイト
Nutch Wiki
オープンソースな検索エンジン Nutch のインストールから設定まで
「ultimania.org」
チュートリアル1
(英語)
チュートリアル2
(英語。解説図あり)
Apache Lucene - Javaによる高機能な全文検索システム