【简 介】 自动识别技术使印刷体文字的录入最终摆脱了键盘。但是在OCR识别的过程中,往往会出现许多识别错误的情况,这到底是什么原因造成的呢?
|
|
|
|
【eNews消息】扫描仪在日常使用中的一个重要功能是OCR(Optical character recognition 光学字符识别),是电子设备检测打印在纸上的字符,并通过其亮暗模式来确定形状的方法,经扫描仪确定了字符的形状后,会使用字符识别方法将形状转换成计算机文本。 自动识别技术使印刷体文字的录入最终摆脱了键盘。但是在OCR识别的过程中,往往会出现许多识别错误的情况,这到底是什么原因造成的呢?许多人却把责任归咎为是OCR识别软件,其实情况并非如此。那么如何更好地提高OCR识别率,以减少人工修改的麻烦呢?下面笔者将向您介绍在使用中的几点经验。 1、选择高识别率的专业OCR软件 购买扫描仪时,附带的扫描软件中普遍都提供OCR识别软件,但是其识别率很难令人满意,所以一般应当购买和使用专业的OCR识别软件。 2、在识别前一定要作版面分析和倾斜校正 以尚书OCR为例,其版面分析把文稿分为横排正文、竖排正文、表格和图形图像四种类型。在版面上按住鼠标左键沿对角线拖出一块矩形区域,并选择相应的类型。尚书OCR只对前三种类型作文字识别,对第四种类型和划定区域以外不作识别。尚书OCR允许文稿有细微的倾斜,但倾斜得太厉害了就要作倾斜校正。校正的方法是,按住鼠标右键拖出直线使之平行于倾斜的文本,这样,识别软件会自动地将文本放正。标准版的尚书OCR 提供了自动的版面分析和倾斜校正,但笔者发现,它对复杂的版面的分析往往不太准确,需要再作人工的矫正。 3、充分使用识别软件的用户自学习功能 OCR识别软件内一般都含有用户自学习功能,如果个别字在扫描比较清楚的情况下,软件识别得不正确,就可以把这个字加到用户自定义库中,这样可以逐渐地提高识别的正确性。要提高OCR识别能力,在很大程度上取决于识别所用的图像质量,在尽可能的情况下应选择质量较高的图像进行OCR识别。要想获得较高的扫描识别率,用户应当不断进行尝试,找出一个适合OCR识别软件的扫描分辨率及扫描亮度以供参考。 4、适当的扫描分辨率和亮度 (1)选择合适的扫描分辨率:不求最“高”,只求最“佳”。如果分辨率太高,扫描的时间将会大大增加,图形所需的空间也会成倍地增长;如果分辨率太低,给OCR软件的信息量不足,识别率就不会太高。根据经验,普通五号印刷体采用250~300dpi比较合适;若字号比较大(四号以上),用150~200dpi就足够了;如果是六号或七号字,就要考虑使用400~600dpi了。当然,这也不是绝对的,如果印刷字迹比较模糊,或者笔划较多的识别文本,应适当提高扫描的分辨率。提供一个公式供参考:文件长度(字节)=(水平尺寸×垂直尺寸×扫描分辨率)/8 。
|
|
|