どんなファイルでも読み取ってくれるApache Tika ちゃん(´・ω・`)
チカちゃんは優秀なヤツなんだなぁと思いつつ早速挑戦!!
tika-app-1.3.jar を用意して
File file = new File("foge.xls");
Metadata metadata = new Metadata();
FileInputStream fi = new FileInputStream(file);
StringWriter stringWriter = new StringWriter();
/**
* 本文抽出
*/
new AutoDetectParser().parse(fi, new BodyContentHandler(stringWriter), metadata, new ParseContext());
String content = stringWriter.toString();
System.out.println(content);
おおぉ(´・ω・`)
エクセルファイルの中身丸見えになった(*´∀`*)
いろんなファイルをチカちゃんに口説いてもらったが、
文字コードがANSI、EUCなどの一部文字コードを使ったテキストがエラー(;´Д`)
こいつら多分ほうk(ry
仕方ないからチカちゃんの中身を隅から隅まで観察してわかった\(^o^)/
File file = new File("foge.xls");
Tika tika = new Tika();
String contents = tika.parseToString(file);
System.out.println(content);
これだけかよ(;´Д`)
なるほど口は2つあるのか(´・ω・`)
0 件のコメント:
コメントを投稿