PHP技术,网站开发,PHP,PHP学习,Python学习,PHP开发,人工智能,大数据服务

PHP+Python » 服务器 » tesseract使用过程一些技巧

tesseract使用过程一些技巧

此文被围观717日期: 2017-05-13 分类 : 服务器  标签:  ··

使用: tesseract test.jpg -l  eng
Tesseract是图盲,默认情况下只能看得懂未压缩的TIFF图像,如果直接用tesseract处理其它格式的图片,会报错如下:
name_to_image_type:Error:Unrecognized image type:test.jpg
IMAGE::read_header:Error:Can't read this image type:test.jpg
tesseract:Error:Read of file failed:test.jpg

所以我们需要用ImageMagick来转换图片格式。
安装ImageMagick:
sudo apt-get install imagemagick

使用imagemagick转换图片格式:
convert -compress none -depth 8 -alpha off  test.jpg  test.tif

使用tesseract,结果保存在out.txt中
tesseract test.tif out

问题:如何让tesseract只识别字母或者数字?
编辑:sudo vi /usr/share/tesseract-ocr/tessdata/configs/digits
tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz0123456789
执行:
tesseract 1.tif out nobatch digits

© Copyright 2011-2019 adophper.com. All Rights Reserved.
读图网科技 版权所有。蜀ICP备12031064号