オープンソースコラム


2008/09/23 18:54Update

Jericho HTML Parser - Javaで書かれた高機能なHTMLパーサ

TAGS: HTML Parser | Java | LGPL | EPL

スポンサード リンク


Jericho HTML Parserは、HTMLドキュメントを解析用Javaライブラリです。HTML標準タグのほか、JSPなどのサーバサイドタグにも対応しており、HTML構文解析、書き出しなどの機能を備えています。

特徴


◇HTML構文解析、書き出し機能
◇ASP、JSP、PSP、PHP、Masonなどのサーバサイドタグ対応
◇イベントベースやツリーベースではなく、テキスト検索に基づいているため、タグを効率的に認識・処理することができる
◇HTML整形機能標準で搭載
◇オープンソース。EPLもしくはLGPLライセンスが選択可能
◇文字列やローカルファイル、URLに対して解析可能

使用例


例えば、次のような簡単な書き方で、HTMLソースコードを整形することができます。
        String sourceUrlString="data/test.html";

        MicrosoftTagTypes.register();
        PHPTagTypes.register();
        MasonTagTypes.register();
        Source source=new Source(new URL(sourceUrlString));

        new SourceFormatter(source).setIndentString("  ").setTidyTags(true).writeTo(new OutputStreamWriter(System.out));


参考資料


Jericho HTML Parser JavaDocs

Sponsored Link