ここからは、フォント毎にまとめられた「trファイル」を使ってTesseractに学習させる。
- mftrainingの実行.(その1)
mftraining -F font_properties -U unicharset [フォント名].tr
もし複数の[フォント名].trがある場合、半角空白でつないで実行。
mftraining -F font_properties -U unicharset [フォント名].tr [フォント名].tr [フォント名].tr ...以下略
そうすると、以下のファイルが出来上がるみたい。(あとで使う)
- mfunicharset
- pffmtable
- inttemp
- Microfeat
- mftrainingの実行.(その2)
その1と似てるけど出力されるファイルが違う。
mftraining -F font_properties -U unicharset -O jpn.unicharset unicharset [フォント名].tr
これももし複数の[フォント名].trがある場合、半角空白でつないで実行。
そうすると、以下のファイルが出来上がるみたい。(あとで使う)
- jpn.unicharset
- cntrainingの実行.
cntraining [フォント名.tr]
これももし複数の[フォント名].trがある場合、半角空白でつないで実行。
以下のファイルが出来上がる。(あとで使う)
- normproto
- ファイル名変更.
上記の手順で出来た以下のファイル名を変更(言語コードを付与する)。
- mfunicharset
- pffmtable
- inttemp
- Microfeat
- normproto
- jpn.mfunicharset
- jpn.pffmtable
- jpn.inttemp
- jpn.Microfeat
- jpn.normproto
- トレーニングデータファイルの作成.
今までの手順で作成された各種ファイルを合成し、一つの言語トレーニングデータを作成する。
combine_tessdata [言語.]
最後の[.](ドット)は必要みたい。日本語の場合なら、
combine_tessdata jpn.
こんな感じ。
出来上がりはこれ。
- [言語].traineddata(※上記の例の場合 jpn.traineddata)
- 実際の言語データと入れ替え
出来上がったファイルを TesseractOCRが使う言語データのディレクトリに移動。
cp [言語].traineddata /usr/local/share/tessdata/
done!!!
0 件のコメント:
コメントを投稿