先发一段来自官方的介绍:
“
中国北京时间(2014年4月10日)-ABBYY®是文档识别、数据捕获和语言技术与服务领域的领先供应商。它今天宣布推出了ABBYYFineReader12。这是其屡获殊荣的光学字符识别(OCR)及文档转换软件的最新版本。
“OCR软件是纸质文件和数字文件之间的桥梁,是构建高效工作环境必不可少的工具。”ABBYY公司的FineReader桌面产品部主任伊万•博得瓦金(IvanBodyagin)说。“FineReader12旨在提供一种非常便捷的纸质文件数字化方案和文件内容处理方案。文件内容处理包括:编辑和引用文本,复制和重复使用数据,并对它们加以调整,以创建可搜索的文档。”
1.创新的后台OCR——在后台对任意大小的文档进行OCR处理的同时,可以打开、查看并处理这个文档,从而节省大量时间。
2.识别速度加快15%*。
3.轻松地提取数据和引用文本——无需识别整个文件,可以从选定区域中复制表格或格式化文本。
4.商务文档识别的准确度提高30%——ABBYYFineReader12新工具可以去除彩色印章和笔痕,更准确地保留图表等!
5.表格转换效率提高40%*——可以帮助处理数值数据的工程师、金融专业人士或其他专家节省大量时间和精力。
6.中、韩和日语识别的准确度提高20%,阿拉伯语提高15%,希伯来语提高10%。
7.更轻松地保存和检索云文件——通过FineReader12,可以更轻松地访问GoogleDrive™、Dropbox™、SkyDrive®等常用云存储区。
8.强化共享功能——将ABBYYFineReader12企业版和MicrosoftSharePoint®Online/Office365™直接集成,进一步强化了文件共享功能。
9.ABBYY相机OCR和PreciseScan技术——将照片文件转化为扫描仪品质的图像,以方便阅读和存档或提高打印效果。
10.验证和校正更快捷——同时提供拼写和格式校正。直观的快捷键和tab控件,使验证过程中的导航操作变得更容易。
11.ABBYYFineReader12Corporate(企业版)强化了热文件夹功能——热文件夹文件批量转换功能得以改进,从而加快了整个转换过程,外加提供双核处理支持。
12.兼容Windows8,并支持通过基本的触摸操作在笔记本电脑触摸屏上进行滚动和缩放操作。
”
以上是官方的介绍,其中我最感兴趣的部分就是第2条和第6条:也就是识别速度和识别准确率,这两项应该是OCR软件的核心性能了。下面我就这两项做个简单的测试,软件界面和使用方法之类的在此就不赘述了,直接进入正题。
我是流水帐式的测试,一面测一面写,所以现在结果如何我也不知道。
下面我用最版本(12)和旧版(11)做一下简单的对比测试:
用于测试的是一本229页的扫描版的PDF,
先测一下识别速度,档语言选“简体中文和英语”,色彩模式选“黑白”,用手机上的秒表计时:
11版从打开文档到识别完成3分58秒53,12版从打开文档到识别完成3分50秒91。应该说都很快。
下面上重头戏,识别率的测试。随机取其中的两页如下:
下面是新版识别出的的纯文本:
“
肯尼总是穿着保守的深色西装、白衬衫,唯一纵容自己的,是打一条艳俗的爱马仕领带。帕特里斯却不一样,打扮得像只孔雀:蓝衬衫、缝满华丽俗气丝质大口袋的彩格运动外套。他不是顾家型的男人,很少在中午以前来上班,但我敢说,他一定带着工作到你想象不到的地方去做。他常从纽约的高级夜总会瑞金(Regine’s)打电话给我,凌晨3点把人吵醒,讨论我负责的头寸风险程度微小又无关紧要的细节。他略微发福,却似乎很有女人缘,常在中午时分不见人影,几个小时内找不到人。以住在纽约的法国人来说,养成经常洗澡的习惯可能是他的优点。最近有一次,他找我去讨论紧急公务,时间在下午,而地点竟然选在巴黎一个没挂招牌的奇怪“俱乐部”。文件散落在他面前的桌上,他轻啜着香槟,左拥右抱衣着暴露的两位小姐。很奇怪,他竟然让她们参与谈话,好像也请她们来开会似的。他甚至请其中一位小姐帮他接听响个不停的手机,以免打断我们的谈话。
像只花蝴蝶般的这个人,非常喜欢冒险,直到今天仍叫我惊诧不已。他脑子里经常盘算着如何冒险,而且事先设想可能发生的每一件事情。他设想有一天飞机可能撞进办公室,一定要我为这件事拟妥替代计划。我回答说,在这种情况下,我对他部门的财务状况就不会产生兴趣,结果引得他勃然大怒。他是恶名昭彰的好色之徒:喜怒无常,一时动怒就炒人鱿鱼。不过他愿意听我说话,也了解我讲的每一句话,并且鼓励我更加努力研究随机问题。他教我留意可能导致投资组合炸毁的无形风险。他十分尊重科学,在科学家面前毕恭毕敬,这事并非巧合。在我们共事之后约10年,他出乎意料地出现在我的博士论文答辩会场,坐在会场后面对我微笑。
肯尼长袖善舞,懂得怎么在公司层层往上爬,到最后被迫离职前登上高
层位置。而帕特里斯则没有那么愉快的事业生涯,这件事教会我在老大的金融机构做事的自处之道。
许多自称“结果导向”的人,被问到并未发生的历史,而不是实际发生的历史时,总是紧皱眉头。对于力求在商场“出人头地”、正经八百的人来说,我的语言,以及我个性上的一些特质听起来很奇怪,难以理解。我的论点似乎触怒了很多人,这点令我觉得很有趣。
肯尼和帕特里斯的鲜明对比,并不是职场中的巧合而已。务必小心提防挥霍无度、“懂生意经”的人,因为市场上筑起的坟墓中,躺的多是自称重视“财务盈余”的人。他们平时行为举止像个“宇内高手”,但突然间会脸色苍白、气急败坏、谦逊卑微,垂头丧气地前往人事室,讨论怎么安排解雇条件。
有违直觉的真理
现实主义者会遭到沉重的打击,概率怀疑论者的下场更糟。戴着槪率的眼镜过日子很辛苦,因为会在各式各样的状况中,看到身边到处是不懂随机性的傻瓜,执著于自己认知中的假象。
我们很难想象亚历山大大帝或者恺撒在发生的历史中只打胜仗,却在未曾发生的历史中吃败仗。我们能够听到他们的大名,只是因为他们和其他成千上万的人一样,冒了很大的风险,最后碰巧取得胜利。他们十分聪明、有勇气、高尚,拥有当时所能产生的最高文化水平;但是其他数以千计、活在不
”
我从头到尾看了一遍,一字未错!又用旧版试了一下,同样一字未错,本次测试是失败的,只能继续了。
前面说了这篇测试是流水帐式的,一面测一面写的,到现在我暂时也不知道结果,下面将略过100%识别的部分,直到出错为止。
......
大约两小时后总算找到了一些出错的地方,真是不容易,或许这个扫描件的清晰度不错,新旧两版软件的识别率都非常高
中间的分号,旧版是别成了“|”,新版是别成了“,”
“警”字,新旧两版都识别成了“箬”
“薯”,旧版识别成了“蓽”,新版识别无误
“阻”字,新旧两版都识别成“P且”
“噶”字,旧版识别成“嗔”,新版识别成“鳴”
找到这里我实在找不下去了,识别错误的太少了。明天换个文件继续,今天先到这里了。
续:今天找一个图片版的PDF测试,就是说用截屏方式保存的文字做成的pdf。
下面直接上截图
原版:
11版:
12版:
我简单的对比了一下,11版识别错的文字是7个,12版是6个,差别在于西医的“西”字11版识别成了“丙”,12版识别正确。这个是文字方面,标点符号方面就比较明显了,12版的识别率远超11版很多。
测试小结:
我不是专门的编辑或者搞测评的,所以我的测试并不专业,只是一个普通的用户所做的简单测试。我的测试结果显示12版的性能确实超过11版。这样一款已经很优秀的OCR软件确实在继续进步着,这是用户之福。
小问题:12版的识别结果里并没有出现11版这种对置信度低的识别结果的颜色提示,我看了一下选项里默认都选择了这项。不知道这是试用版的限制,还是我对这个新版本不熟悉导致的。