有时候在书上看到一篇好文章用相机拍下来,或是纸质文章需要输入到电脑时,如果数量比较大,手动输入会很慢,下面介绍几中方法将图片中的文字转化为文本,同样适用于影印版PDF。
只要图片中的文字不是很模糊,识别的正确率还是很高的,但是一定要记得进行校正。
下面几个方法各有优劣,可根据个人兴趣选择。
提取图片(扫描版PDF)中的文字――工具/原料ABBYY FineReader 11软件
Office2003 自带组件Microsoft Office Document Imaging
DoPDF软件和AJViewer
慧眼图像文字识别软件
提取图片(扫描版PDF)中的文字――步骤/方法提取图片(扫描版PDF)中的文字 1、
首先介绍ABBYY FineReader 11这个软件。
泰比(ABBYY)FineReader提供直观的文件扫描和转换成可编辑、可搜索的电子格式工具。泰比(ABBYY)FineReader可以识别和转换几乎所有打印的文档类型,包括书籍、志上的文章与复杂的布局、表格和电子表格、图片,甚至以准确的精度发传真。
下载地址:网上随便一搜就很多例如:
http://www.xp510.com/soft/Application/Processing/15768.html
破解补丁:
http://down.qiannao.com/space/file/l513980209/share/2011/11/2/ABBYY_FineReader_11_Professional_Edition_-514d-5e8f-5217-53f7-65e0-9650-5236-7834-89e3-7248-7834-89e3-6587-4ef6.rar/.page#
破解方法:将下载的文件替换原安装文件即可。
使用方法:
1 安装后打开软件,选择任务,这里选择图片至microsoft word。
2 打开需要识别的图片,软件会自动识别文字。
3 当然该软件还自带图像简单处理功能,使得识别更加准确。
4 识别后可以设置文字的样式、语言、字体、大小等。
5 对于自动识别的文字可能出现偏差,所以必须手动。
6 校验完毕后发送到word(可选其他格式)。
提取图片(扫描版PDF)中的文字 2、
提取图片(扫描版PDF)中的文字 3、
提取图片(扫描版PDF)中的文字 4、
提取图片(扫描版PDF)中的文字 5、
提取图片(扫描版PDF)中的文字_慧眼图像文字识别
提取图片(扫描版PDF)中的文字 6、
提取图片(扫描版PDF)中的文字 7、
提取图片(扫描版PDF)中的文字 8、
Office2003 自带组件Microsoft Office Document Imaging
如果Office装的是精简版,那么在就没装这个组件,可以自己装一下或是下载完整版。装完后如下图。
1 转换文件格式,将图片转化为tif格式。
用ACDSee打开你的.jpg文件,单击界面上的“浏览器”按钮(或者双击当前图片都可以进入到浏览器界面),在打开的浏览器中,右键这个文件,在右键菜单中选择“工具/转换文件格式”;在转换文件格式对话框中,选择TIFF格式,两次下一步后,就开始转换,结果是将你当前的.jpg文件转换成了.tif文件。
2 将图片转换为文字。
选择:开始/所有程序/Microsoft Office/Microsoft Office工具/Microsoft Office Document Imaging,打开这个工具后,菜单:文件/打开,找到你保存的那个.tif文件,打开它。然后选择菜单:工具/使用OCR识别文本;梢等一会儿,继续菜单:工具/将文本发送到Word。这样,这幅图片就到了Word中成了可以编辑的文字内容了。因为OCR识别并非百分之百成功,所以有些位置可能需要你进行手动修改。
提取图片(扫描版PDF)中的文字 9、
提取图片(扫描版PDF)中的文字_慧眼图像文字识别
提取图片(扫描版PDF)中的文字 10、
提取图片(扫描版PDF)中的文字 11、
提取图片(扫描版PDF)中的文字 12、
通过PDF->文字
也就是先将图片转化为PDF,然后再提取文字。
1 下载DoPDF将word转化为PDF,工具网上多得很,例如下载地址:
http://www.duote.com/soft/1329.html
2 下载AJViewer,地址:
http://www.drv5.cn/sfinfo/7781.html
3 打开AJViewer,选择【工具】-【文字识别】,如下图
4 选择文字后,进行转化,转化效果如下。
提取图片(扫描版PDF)中的文字 13、
提取图片(扫描版PDF)中的文字_慧眼图像文字识别
提取图片(扫描版PDF)中的文字 14、
提取图片(扫描版PDF)中的文字 15、
慧眼图像文字识别软件
可参考
http://jingyan.baidu.com/article/ceb9fb1006ffed8cad2ba01d.html
提取图片(扫描版PDF)中的文字――注意事项文字图像尽量平整,文字尽量清晰。
进行识别后一定要进行校验。