Apache Tika ちゃんは意外と簡単だった



どんなファイルでも読み取ってくれるApache Tika ちゃん(´・ω・`)


チカちゃんは優秀なヤツなんだなぁと思いつつ早速挑戦!!



tika-app-1.3.jar を用意して

File file = new File("foge.xls");

Metadata metadata = new Metadata();
FileInputStream fi = new FileInputStream(file);
StringWriter stringWriter = new StringWriter();

/**
 * 本文抽出
 */
new AutoDetectParser().parse(fi, new BodyContentHandler(stringWriter), metadata, new ParseContext());
String content = stringWriter.toString();

System.out.println(content);



おおぉ(´・ω・`)

エクセルファイルの中身丸見えになった(*´∀`*)



いろんなファイルをチカちゃんに口説いてもらったが、

文字コードがANSI、EUCなどの一部文字コードを使ったテキストがエラー(;´Д`)


こいつら多分ほうk(ry



仕方ないからチカちゃんの中身を隅から隅まで観察してわかった\(^o^)/


File file = new File("foge.xls");

Tika tika = new Tika();
String contents = tika.parseToString(file);

System.out.println(content);


これだけかよ(;´Д`)



なるほど口は2つあるのか(´・ω・`)



0 件のコメント:

コメントを投稿