2011年10月21日金曜日

TesseractOCR トレーニング その2

さて、前回の続き。
ここからは、フォント毎にまとめられた「trファイル」を使ってTesseractに学習させる。

  1. mftrainingの実行.(その1)
    mftraining -F font_properties -U unicharset [フォント名].tr
    もし複数の[フォント名].trがある場合、半角空白でつないで実行。
    mftraining -F font_properties -U unicharset [フォント名].tr [フォント名].tr [フォント名].tr ...以下略

    そうすると、以下のファイルが出来上がるみたい。(あとで使う)
    • mfunicharset
    • pffmtable
    • inttemp
    • Microfeat

  2. mftrainingの実行.(その2)
    その1と似てるけど出力されるファイルが違う。
    mftraining -F font_properties -U unicharset -O jpn.unicharset unicharset [フォント名].tr
    これももし複数の[フォント名].trがある場合、半角空白でつないで実行。

    そうすると、以下のファイルが出来上がるみたい。(あとで使う)
    • jpn.unicharset

  3. cntrainingの実行.
    cntraining [フォント名.tr]
    これももし複数の[フォント名].trがある場合、半角空白でつないで実行。

    以下のファイルが出来上がる。(あとで使う)
    • normproto

  4. ファイル名変更.
    上記の手順で出来た以下のファイル名を変更(言語コードを付与する)。
    • mfunicharset
    • pffmtable
    • inttemp
    • Microfeat
    • normproto
    変更後↓
    • jpn.mfunicharset
    • jpn.pffmtable
    • jpn.inttemp
    • jpn.Microfeat
    • jpn.normproto
  5. トレーニングデータファイルの作成.
    今までの手順で作成された各種ファイルを合成し、一つの言語トレーニングデータを作成する。
    combine_tessdata [言語.]
    最後の[.](ドット)は必要みたい。日本語の場合なら、
    combine_tessdata jpn.
    こんな感じ。
    出来上がりはこれ。
    • [言語].traineddata(※上記の例の場合 jpn.traineddata)
  6. 実際の言語データと入れ替え
    出来上がったファイルを TesseractOCRが使う言語データのディレクトリに移動。
    cp [言語].traineddata /usr/local/share/tessdata/

done!!!

0 件のコメント:

コメントを投稿