画像認識やら音声認識やらの「ほにゃらら認識」に興味が沸いたのでちょっと手を出してみた。
GoogleのOCRプロジェクト:TesseractOCR
http://code.google.com/p/tesseract-ocr/
現在のバージョンは3.0.
どうやら日本語にも対応しているみたい。しかもトレーニング次第で認識率が上がるとか。
ほぅ。
せっかくさくらVPSもあることだし、とりあえずインスコ。
特に気をつけることもなくあっさりインストールできた。
気をつけるべきトコとしては、先に以下のライブラリを入れとくくらい。
ここからスタート。 Teseract本体、言語データのダウンロード。
使い方は、こんな感じ。(日本語)気をつけるべきトコとしては、先に以下のライブラリを入れとくくらい。
yum install libpng-devel※ これだけで準備できてるんだけど、とりあえずLeptonicaも。画像処理のライブラリ.
yum install libjpeg-devel
yum install libtiff-devel
yum install zlib-devel
wget http://www.leptonica.com/source/leptonica-1.68.tar.gzさてと。準備は出来た。
tar -xvzf leptonica-1.68.tar.gz
cd leptonica-1.68
./configure
make
make install
ここからスタート。 Teseract本体、言語データのダウンロード。
- ここから適当なところにソースを持ってくる。
こんな感じ。
$ wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
$ wget http://tesseract-ocr.googlecode.com/files/jpn.traineddata.gz - 展開.
$ tar xvzf tesseract-3.00.tar.gz
$ gzip -d jpn.traineddata.gz
言語データを移動..
$ mv jpn.traineddata tesseract-3.00/tessdata
- tesseract本体のディレクトリに移動し、インストール開始。
$ cd tesseract-3.00
$ ./configure
$ make
# make install
$ tesseract hoge.tiff aaaa -l jpnhoge.tiffから読み取った文字列をaaaa.txtに出力してくれる様子。
むむ・・・。とりあえず、トレーニングしてみるか。
0 件のコメント:
コメントを投稿