|
stvista
本文只是技术原理的介绍,未提供具体的方法. 为了方便说明原理,举了几个网赚中常见网站的例子,只是为了阐述方便,不是探讨如何作BI这些网站.就像讨论病毒往往是为了防病毒一样。站长在选图灵系统时,知道一点相关原理是必要的。
图灵码是这样生成的:图灵生成机对从标准图库中随机抽出几个字符的基本形态,然后要做旋转、拉伸、变形、随机摆放、颜色变化、加背景、加噪等处理。每一个字符都可能会有多个基本形态. 最弱智的图灵生成系统是这样:只有0-9这10个字符、每个字符只有一个基本形态、图灵生成机对字符不做大的处理只加一点噪而已。 对于最弱智的图灵生成系统,用枚举法即可。
识别的重点技术:1.图像处理;2.构造模板库
图像处理:对图像去噪,二值化,文字位置定位,文字大小归一化等 识别过程:对给定的图像,图像处理后,抽取特征值,和模板库中各个字符的特征值一一比较,最匹配且误差足够小,就返回这个字符 模板库的生成:针对某站的图灵采集大量样本,先做图像处理,提取特征值,用步进式学习法调整模板特征值,程序循环迭代,使识别误差最多不能超过5%,学习完成后模板特征值入库.
像对于easyhits4u.com冲浪时的验证码,算是中等难度,做了旋转、拉伸、随机摆放、颜色变化、加背景、加噪变化,而且每行字往往是从低到高或从高到低斜过来写,这时你还要分清楚字符所在的行。
fastfreeway.com冲浪时的一般验证码,算是较易难度,他只做了随机摆放和加噪.每冲20来个后,会出来一个很复杂的验证码,字和字之间界限模糊,变形处理用了放大镜、水纹等多种模式,很吓人,但是研究发现,这个"复杂的验证码"并不是图灵机生成的,而是固定好的图片,这时就用枚举法就可以了,一共1000个这种图,存成枚举字典即可。
E-gold那种,动来动去,让人识别起来眼花,但是由于未做什么其它的处理,所以用程序处理起来不复杂。
GMAIL属于较难识别而已,引入变形模式的概念,识别时先对图像反变形,逐个模式去试。
HOTMAIL在变形方面比GMAIL简单,但是他的干扰处理比较好,因为他的有的干扰和字母很像。
程序识别不是万能的,结合到具体情况,往往有变通的处理。
对于非常非常难的图灵码,就是开个网站让别人去识别,识别好后立刻返回给你程序。如 look2earn
|
|
|
|