文本信息的 OCR 输入实验 - 多媒体技术与信息处理实验教程

（Windows XP/2000/2003、Linux 等），本实验默认操作系统为 Windows 2003 中文版。

（2）USB 接口的办公用扫描仪，至少 A4 幅面。

（3）USB 信号线，配套的扫描仪驱动程序。

（4）专门的 OCR 识别软件，如“方正 OCR” 、 “尚书 OCR”等。本实验使用方正 OCR 软件。

（5）选装了 MS Office 2003 组件中的文字处理软件 Word 2003。

（6）要输入（被扫描识别）的文稿内容，如一篇文章或一本书等。

或实物图像（如硬币或纺织品等三维物件）转换为计算机可以处理（显示、编辑、存储和输出）各自的 CCD 上，CCD 将 RGB 光带转变为模拟电子信号，此信号又被 A/D 变换器转变为数字电子信号。至此，反映原稿图像的光信号转变为计算机能够接受的二进制数字电子信号，最后力。OCR 的基本工作原理是：先将文稿以图片形式扫描输入到计算机，再由 OCR 识别软件对选定区域的文字进行识别，得到可编辑的文本信息，如果识别有错，可对照图形文字修改对应

1）定位到方正 OCR 软件，运行 SETUP.EXE，进入安装过程，屏幕显示图 146 所示画面。

图 146 方正 OCR 软件安装提示画面

2）初始设置完成后，进入图 147 所示画面。输入产品序列号，单击“下一步”按钮，系

统将进入如图 148 所示的画面。

图 147 方正 OCR 序列号输入对话框图 148 指定软件安装位置对话框

3）若需指定软件安装位置，可单击“浏览”按钮并选择合适的文件夹；若使用默认位置，

则可直接单击“下一步”按钮开始具体的软件安装工作。

4）安装完毕，系统会提示如图 149 所示的对话框。

图 149 方正 OCR 安装完成对话框

5）单击“结束”按钮，完成方正 OCR 的安装过程。此时会在 Windows 桌面和“程序”

菜单中出现“方正 OCR 世纪版”图标。

2．运行方正 OCR

开始文字的扫描识别工作。具体方法是单击“开始→程序→方正 OCR 世纪版” ，此时进入方正 OCR 识别程序，如图 150 所示。完整的 OCR 输入过程包括扫描、纠偏、切分、识别、

校对、保存文件等主要环节。

（1）扫描。一页内容的扫描过程可分为预扫描、设置参数、选择区域、扫描四个环节。

1）预扫描：将要识别的印刷品（书稿、讲稿等）放在扫描仪的玻璃板上，调整位置，尽可能使之与扫描仪的参考线呈平行或垂直状态，用左手轻轻按住印刷品以免位置发生移动，右手单击图 151 中左下部的“扫描”按钮，此时启动扫描仪，开始预扫描。预扫描完毕，被扫描的页面内容就呈现在扫描区域中，如图 151 右侧所示。

2）设置参数：单击图 151 右上部线框内的“图像类型”右侧的下箭头，从下拉列表中选

择“黑白文稿” ，再单击“目标设备”右侧的下箭头，从下拉列表中选择“OCR” ，此时“分辨率”右侧的参数会自动修改为“300”线，如果不是，请用鼠标单击右侧的下箭头，并选择 300。如果以上三个参数设置有误，将直接影响 OCR 的识别率。

图 150 方正 OCR 主画面

图 151 扫描程序画面

3）选择区域：在图 151 右侧的扫描区域中，将鼠标从要选择区域的左上角拖至右下角，此时要被扫描的区域就用虚线框起来了。

4）开始扫描：单击图 151 下方的“扫描”按钮，扫描仪则只扫描虚线框内的内容，并显示图 152 的进度提示。

扫描结束后，扫描结果将送给 OCR 程序，如图 153 所示。图 152 扫描进度提示

为了操作安全，可先将扫描结果保存为.TIFF 格式的图片文件，以后识别处理时则不必再次扫描，直接打开.TIFF 图片就可以进入下面的处理、识别环节。

图 153 OCR 得到的扫描结果

（2）纠偏。单击图 153 中的“图像倾斜校正工具”将图 153 中的文字图片进行角度校正，系统会自动检测需要校正的角度并提示给用户，且允许用户修改（通常不修改），使用系统检测到的校正角度得到的校正结果如图 154 所示。

图 154 纠偏后的识别对象

（3）自动切分。单击图 154 中的“切分”按钮，系统将对扫描图片按“特征”自动进行区域“切分” ，此例中将扫描图片切分为一个区域（或不切分），如图 155 中的线框所示。

（4）识别。单击图 155 中的“识别”按钮，系统提示“正在识别” 。识别完毕，系统会显示“文稿校对”窗口，允许操作者对识别内容进行校对修改，如图 156 所示。

正常图像倾斜校正

有点斜

图 155 识别对象的区域“切分”结果

图 156 方正 OCR 的“文稿校对”窗口

该图左上方为识别得到的可编辑文字，右上方为“个人词库” ，左下方的“大字体”则显示了从“可编辑文字”区当前光标开始的文字内容对应的识别前的“图片文字” ，黑框内的图片文字应该是“可编辑文字”区光标所指文字，右下方为可能的“候选字”区。

（5）校对。在图 156 中，将鼠标指向识别有误的文字处，左下方就会显示对应的“图片”

文字，人工从“候选字”区选择正确的字或键盘输入正确的字，即可完成对识别有错的文字的校对。

（6）保存。单击图 156“文件”菜单中的“存储文本文件”或“另存为”命令，即可打开文件“另存为”对话框，此时选择到该实验环境中的“实验 1.5”文件夹下，将文稿内容存储为 OCRInput.txt 文件。也可将图 156 中的文本信息复制到 MS Word 中，进行编辑排版后保存为 OCRInput.doc 文件。

区域切分

取消区域切分

光标位置

至此，通过 OCR 识别技术输入文本信息的基本过程已经完成。

1.5.6 实验结果

本实验的最终结果是：通过扫描仪和 OCR 识别技术在本实验环境的“实验 1.5”文件夹中生成了一个内容为 233 个汉字的名为 OCRInput.txt 或 OCRInput.doc 的文件。

1.5.7 注意事项

在以上实验过程中，需要重点注意以下几个问题：

（1）扫描和 OCR 识别是两个既相互联系又相对独立的环节。一方面，扫描质量的优劣直接影响识别率，另一方面，OCR 识别程序中的“角度校正” 、 “切分”等处理功能可实现对扫描图像的优化处理，从而提高识别率。实际工作中，可采用“批量扫描批量识别”的工作模式，即将要识别的所有文字页批量扫描成图片，并保存为.TIFF 格式的文件。然后，进入 OCR 识别系统，打开.TIFF 图片进行相关处理和识别，再将识别出的文字结果编辑保存为相应的文本文件。这样做的好处是缩短时间，提高速度，进而提高工作效率。

（2）正确的扫描参数是保证扫描质量的前提。通常情况下，需要用户特意设置的主要是与被扫对象有关的参数，主要包括图 151 中黑线框内的“图像类型” 、 “目标设备”和“分辨率”三个参数。为了满足 OCR 识别的要求，以上三个参数的取值分别为“黑白文稿” 、 “OCR”

和“300” ，否则将会影响 OCR 的识别率。

（3）对于扫描的特殊文稿图片（如分栏目录、分栏期刊、图文表混合文稿等），识别前应先使用“设定识别区域” 、 “删除识别区域” 、 “设定识别顺序” 、 “删除识别顺序”等工具，对识别对象进行人工区域切分和识别顺序设定，这样可有效提高识别率和文稿的可用性。比如，

对于“分栏目录”类型的文稿，如果按照图 157 所示进行切分和顺序设定，识别结果可直接使用，否则，将“按行”识别导致识别结果无法直接使用。

图 157 分栏目录的切分与识别顺序

（4）建议使用好的原稿，如果原稿文字不清，有重影或有污损或感光很差，则很难得到

（2）安装支持中、英文处理功能的操作系统（Windows XP/2000/2003、Linux 等），本实验默认操作系统为 Windows 2003 中文版。

（3）安装了 MS Office Professional Edition 2003 组件，其中包含文字处理软件 Word 2003 和语音输入组件。

（4）用于保存所编辑的文本信息位置。本实验默认的文本信息存储位置为： “F:\多媒体技术与信息处理实验\多媒体实验素材\实验 1”文件夹，具体文件名可自己指定。

1.6.4 实验过程

（1）用 MS Word 2003 打开要编辑的 txt 文件（或进入 MS Word 2003 用键盘输入要编辑的文本）。

（2）使用插入、删除功能编辑文本。

（3）使用区域选择、复制（剪切）、粘贴功能编辑文本。

（4）其他编辑。如字体、字号、颜色、对齐、分栏等。

1.6.5 实验结果

本实验的最终结果是：通过 MS Word 2003 编辑完成并保存于实验环境的“多媒体实验素材\实验 1”文件夹中的一个.doc 文件。

1.7 实验小结

本组实验主要包括文本信息的键盘输入、文本信息的手写输入、文本信息的语音输入

在文檔中多媒体技术与信息处理实验教程 - 万水书苑-出版资源网 (頁 24-31)