aardio 官方社区

 找回密码
 注册会员

QQ登录

只需一步,快速开始

搜索
查看: 81809|回复: 40

开源图文识别引擎 tesseract-ocr

  [复制链接]

166

主题

2154

回帖

1万

积分

管理员

积分
13056
发表于 2014-11-21 04:34:36 | 显示全部楼层 |阅读模式
演示程序下载(已包含测试图片,可直接测试识别效果)
ocr.png

关于 tesseract-ocr 研究的人比较多、网上的资料也比较多,请自行搜索了解。
Apache许可证可自由商用,aardio支持库1.5MB已包含所有组件, 用法也非常简单,下面是一个简单的例子:
  1. import console;
  2. import tesseract;

  3. var ocr = tesseract.ocr();
  4. if( 0 != ocr.init("eng","/") ){ //初始化样本语言包
  5.         error("没有找到样本 \tessdata\eng.traineddata");
  6. }

  7. //预设字符集可提升识别率,注意要一定在加载样本以后调用此函数
  8. ocr.setVariable("tessedit_char_whitelist","0123456789")

  9. //识别图像
  10. var text = ocr.processPages("\test.jpg" )   

  11. console.log(text)
  12. console.pause()
复制代码


示例二:

  1. import console;
  2. import tesseract;
  3. import win;

  4. var ocr = tesseract.ocr();
  5. if( 0 != ocr.init("eng","/" ) ){ //初始化样本语言包
  6.         error("没有找到样本 eng.traineddata",2)
  7.         
  8. }

  9. //预设字符集可提升识别率,注意要一定在加载样本以后调用此函数
  10. ocr.setVariable("tessedit_char_whitelist","0123456789")

  11. //获取图像像素数据
  12. var pix = liblept.pixRead( ..io.fullpath("\test.jpg") );
  13. ocr.setImage2( pix )

  14. //识别图像
  15. if( 0 != ocr.recognize() ){
  16.         console.pause(true,"识别图像出错");
  17.         return;
  18. }

  19. var text = ocr.getText()
  20. console.log("识别结果",text )

  21. liblept.pixDestroy({addr pix = pix})
  22. console.pause();

复制代码

8

主题

56

回帖

464

积分

二级会员

积分
464
发表于 2017-9-4 23:05:38 | 显示全部楼层
cjc0045 发表于 2017-9-1 11:15
是不是因为版本的问题,网上查了一下说要tesseract3.0以上才支持中文识别。


你说对了,跟版本有关系。

在看到你的回帖之前,经过验证,aardio里的DLL版本应该对应的是3.0.2,而之前我在tesseract-ocr官方下载的语言识别库版高于这个DLL,所以使用会报错。经过搜索找到对应的3.0.2语言库后,不再报错了,对于宋体、黑体等正常字体,识别度还是很高的,其他美术体就不好说了。

另外,识别之前的字符集设置,也是很有必要的,否则就算是有了相应的语言库,在不设置字符集的情况下,仍然不能做到很好的识别。

0

主题

9

回帖

220

积分

二级会员

积分
220
QQ
发表于 2014-11-21 09:19:52 | 显示全部楼层
刚好要用到,谢谢

3

主题

8

回帖

90

积分

一级会员

积分
90
发表于 2014-11-21 09:22:17 | 显示全部楼层
老大,看到更新很兴奋啊,准备用java搞的,现在aardio有了,那就不考虑java了,老大V5

12

主题

48

回帖

434

积分

二级会员

积分
434
发表于 2014-11-21 10:02:35 | 显示全部楼层
老大又出精品了

52

主题

217

回帖

1708

积分

四级会员

积分
1708
发表于 2014-11-21 23:16:05 | 显示全部楼层
真是极好的

0

主题

4

回帖

61

积分

一级会员

积分
61
发表于 2014-11-22 20:57:18 | 显示全部楼层
这个非常好,必须支持一下,以前也有想过要搞,现在有现成的,收下了。

5

主题

30

回帖

217

积分

二级会员

积分
217
发表于 2014-11-23 07:46:02 | 显示全部楼层
学无止境,学习了

9

主题

86

回帖

630

积分

三级会员

叫我何细尔

积分
630
QQ
发表于 2014-11-23 08:17:02 来自手机 | 显示全部楼层
太好了。看时间是凌晨4点更新??老大真强,不过身体要紧。

7

主题

293

回帖

1900

积分

新手入门

积分
1900
QQ
发表于 2014-11-23 08:56:16 | 显示全部楼层
赶紧下载学习!感谢分享!

1

主题

37

回帖

282

积分

二级会员

积分
282
发表于 2014-11-24 09:58:58 | 显示全部楼层
这个很强大,可以自己制作训练包

5

主题

30

回帖

217

积分

二级会员

积分
217
发表于 2014-11-24 14:39:44 | 显示全部楼层
air_fans 发表于 2014-11-24 09:58
这个很强大,可以自己制作训练包

最重要的就是语言库的训练,如果你有研究,发上来分享一下啊。

13

主题

294

回帖

1790

积分

荣誉会员

积分
1790
发表于 2014-11-24 15:53:42 | 显示全部楼层
laorenI 发表于 2014-11-24 14:39
最重要的就是语言库的训练,如果你有研究,发上来分享一下啊。

都这么有分享精神啊,要不你研究下发出来分享一下?!

5

主题

30

回帖

217

积分

二级会员

积分
217
发表于 2014-11-24 16:03:13 | 显示全部楼层
auaau 发表于 2014-11-24 15:53
都这么有分享精神啊,要不你研究下发出来分享一下?!

正在研究还是不会训练。

0

主题

8

回帖

60

积分

一级会员

积分
60
发表于 2014-11-24 19:50:52 | 显示全部楼层
学习啦

0

主题

54

回帖

362

积分

二级会员

积分
362
QQ
发表于 2014-11-25 07:32:24 | 显示全部楼层
谢谢老大

26

主题

76

回帖

649

积分

荣誉会员

积分
649
发表于 2014-11-26 23:27:46 | 显示全部楼层
感谢分享!

2

主题

8

回帖

173

积分

一级会员

积分
173
QQ
发表于 2014-11-28 17:04:35 | 显示全部楼层
这个强大 可以识别汉字

0

主题

8

回帖

66

积分

一级会员

积分
66
发表于 2014-11-29 20:49:53 | 显示全部楼层
谢谢楼主。

0

主题

10

回帖

301

积分

二级会员

积分
301
发表于 2014-12-5 10:58:50 | 显示全部楼层
衷心感谢分享!
先把这个源码收藏下来,再慢慢研究消化.
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

手机版|未经许可严禁引用或转载本站文章|aardio.com|aardio 官方社区 ( 皖ICP备09012014号 )

GMT+8, 2025-1-19 01:02 , Processed in 0.084063 second(s), 34 queries .

Powered by Discuz! X3.5

Copyright © 2001-2024 Tencent Cloud.

快速回复 返回顶部 返回列表