用node.js实现简单验证码识别

概述

在验证码识别上, node.js 其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node只需要做调度就行了。

所需工具

那么介绍一下这些工具吧

  • Tesseract 开源的 OCR 识别工具,目前由 Google 维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。
  • graphicsmagick 非常实用的图像处理工具,下面会讲到用途。

Tesseract的使用

以下操作均在 Mac 环境下,Windows 其实也差不多,请自行区分 :-)。

安装

1
brew install tesseract --all-languages

使用

1
tesseract 1.jpg -psm 7 r

-psm 7 表示识别的内容是文本,r 是保存识别内容的文件。

20161129001

然后你会发现识别结果很坑… (⊙o⊙)…

提高识别率

之所以是这样,是因为验证码上有无关的图像干扰,例如噪点什么的,理论上去掉了干扰的元素,识别率就会极大的提高。用阈值处理图片是个很方便的办法,在Photoshop中可以模拟这种操作

20161129002

再试一次

这里配置为55%的阈值,再来一次。

20161129003

成功了!( ⊙ o ⊙ )!虽然多了个空格,但是已经完整识别出来了。

用node.js实现

最后在 node.js 中整合上面的操作,其中图像处理用 graphicsmagick 代替。直接上源码把,里面用到了 tesseractgraphicsmagicknode.js 中对应的包装。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
var fs = require('fs');
var tesseract = require('node-tesseract');
var gm = require('gm');

processImg('1.jpg', 'test_1.jpg')
.then(recognizer)
.then(text = > { console.log(`识别结果: $ { text }`); })
.catch((err) = > { console.error(`识别失败: $ { err }`); });

///
// 处理图片为阈值图片
// @param imgPath
// @param newPath
// @param [thresholdVal=55] 默认阈值
// @returns {Promise}
///
function processImg(imgPath, newPath, thresholdVal) {
return new Promise((resolve, reject) = > {
gm(imgPath).threshold(thresholdVal || 55).write(newPath, (err) = > {
if (err) return reject(err);

resolve(newPath);
});
});
}

///
// 识别图片
// @param imgPath
// @param options tesseract options
// @returns {Promise}
///
function recognizer(imgPath, options) {
options = Object.assign({psm : 7}, options);

return new Promise((resolve, reject) = > {
tesseract.process(imgPath, options, (err, text) = > {
if (err) return reject(err);
resolve(text.replace(/ [\r\n\s] / gm, ''));
});
});
}

最后

写完之后才发现实例中的验证码的第一个字符其实是 G ,而不是识别出来的 C 。默认样本对相近字符识别还是挺低的,可以搜索 tesseract训练 ,提高相近字符的识别率。

资源


本文整理自 think2011的博客 的文章 用node.js实现验证码简单识别
转载请注明原出处