口が悪いプログラマーの議事録: Apache Tika 文字コード ANSIで日本語が文字化け

とりあえず焦った(；´∀｀)

色々やったゎ(´・ω・｀)

Tikaのバージョンを 1.4へ変更もしたけどダメだった。

ソース読むのめんどくさいよ(´；ω；｀)

とりあえず調べていったら面白いことがわかった(・∀・)

リリースされてるソースIcu4jEncodingDetector.javaを読むと・・・

for (CharsetMatch match : detector.detectAll()) {
    try {
        return CharsetUtils.forName(match.getName());
    } catch (Exception e) {
    }
}

ん？

ここ何してんの？(；´Д｀)

どうやっても戻り値が IBM500 ってなんだ？？？

これが原因かなと思いつつソースを修正

// 戻り値を JISAutoDetect に修正
return CharsetUtils.forName("JISAutoDetect");

できたで工藤(●・ω・●)

とりあえず不明だなぁ(；´Д｀)

いい方法があれば別で修正しよう(´・ω・｀)

口が悪いプログラマーの議事録

Apache Tika 文字コード ANSIで日本語が文字化け

0 件のコメント:

コメントを投稿