Jericho HTML Parser - Javaで書かれた高機能なHTMLパーサ
Jericho HTML Parserは、HTMLドキュメントを解析用Javaライブラリです。HTML標準タグのほか、JSPなどのサーバサイドタグにも対応しており、HTML構文解析、書き出しなどの機能を備えています。
◇HTML構文解析、書き出し機能
◇ASP、JSP、PSP、PHP、Masonなどのサーバサイドタグ対応
◇イベントベースやツリーベースではなく、テキスト検索に基づいているため、タグを効率的に認識・処理することができる
◇HTML整形機能標準で搭載
◇オープンソース。EPLもしくはLGPLライセンスが選択可能
◇文字列やローカルファイル、URLに対して解析可能
例えば、次のような簡単な書き方で、HTMLソースコードを整形することができます。
Jericho HTML Parser JavaDocs
特徴
◇HTML構文解析、書き出し機能
◇ASP、JSP、PSP、PHP、Masonなどのサーバサイドタグ対応
◇イベントベースやツリーベースではなく、テキスト検索に基づいているため、タグを効率的に認識・処理することができる
◇HTML整形機能標準で搭載
◇オープンソース。EPLもしくはLGPLライセンスが選択可能
◇文字列やローカルファイル、URLに対して解析可能
使用例
例えば、次のような簡単な書き方で、HTMLソースコードを整形することができます。
String sourceUrlString="data/test.html";
MicrosoftTagTypes.register();
PHPTagTypes.register();
MasonTagTypes.register();
Source source=new Source(new URL(sourceUrlString));
new SourceFormatter(source).setIndentString(" ").setTidyTags(true).writeTo(new OutputStreamWriter(System.out));
参考資料
Jericho HTML Parser JavaDocs