どんなファイルでも読み取ってくれるApache Tika ちゃん(´・ω・`)
チカちゃんは優秀なヤツなんだなぁと思いつつ早速挑戦!!
tika-app-1.3.jar を用意して
File file = new File("foge.xls"); Metadata metadata = new Metadata(); FileInputStream fi = new FileInputStream(file); StringWriter stringWriter = new StringWriter(); /** * 本文抽出 */ new AutoDetectParser().parse(fi, new BodyContentHandler(stringWriter), metadata, new ParseContext()); String content = stringWriter.toString(); System.out.println(content);
おおぉ(´・ω・`)
エクセルファイルの中身丸見えになった(*´∀`*)
いろんなファイルをチカちゃんに口説いてもらったが、
文字コードがANSI、EUCなどの一部文字コードを使ったテキストがエラー(;´Д`)
こいつら多分ほうk(ry
仕方ないからチカちゃんの中身を隅から隅まで観察してわかった\(^o^)/
File file = new File("foge.xls"); Tika tika = new Tika(); String contents = tika.parseToString(file); System.out.println(content);
これだけかよ(;´Д`)
なるほど口は2つあるのか(´・ω・`)
0 件のコメント:
コメントを投稿