Apache Tika 文字コード ANSIで日本語が文字化け

とりあえず焦った(;´∀`)


色々やったゎ(´・ω・`)


Tikaのバージョンを 1.4へ変更もしたけどダメだった。


ソース読むのめんどくさいよ(´;ω;`)



とりあえず調べていったら面白いことがわかった(・∀・)



リリースされてるソースIcu4jEncodingDetector.javaを読むと・・・


for (CharsetMatch match : detector.detectAll()) {
    try {
        return CharsetUtils.forName(match.getName());
    } catch (Exception e) {
    }
}




ん?

ここ何してんの?(;´Д`)


どうやっても戻り値が IBM500 ってなんだ???



これが原因かなと思いつつソースを修正


// 戻り値を JISAutoDetect に修正
return CharsetUtils.forName("JISAutoDetect");







できたで工藤(●・ω・●)


とりあえず不明だなぁ(;´Д`)



いい方法があれば別で修正しよう(´・ω・`)

0 件のコメント:

コメントを投稿