主题:招募同道愚公录入《国防论》,并求好用的文字识别工具 -- 大洋芋
共:💬11 🌺3 新:
人多的话我们蚂蚁啃大象,每人一两页,两百页也不算什么。
汉文文本王好一点,但只能读图片,而且速度其实不快,跟直接输入差不多,也就是少动手而已。
外文的可以试试Scansoft出品的Omnipage或Textbridge,好像都不错。
很久以前用过,现在是不是有更好的就不知道了。
竖排没有试过。
看楼上。
竖排的倒是可以识别,不过文本王识别以后还可以立刻校对,光标点到哪个字就把这个字所对应的图圈起来,同时列出好多种可能的文字供挑选,TH-OCR专业版没有这个功能,只是直接输出到文本,校对起来很麻烦。
比如solidconverterpdf把pdf转换成bmp。然后用汉王文本王ocr.
可是输出的是rtf文件,还得用word打开、一个一个复制图片,多转几道手,有没有直接旧村成一堆图片的?
不需要你一个一个做的。
不知道你用的什么版本,我用的是2.2。你不要选择默认转换,那样出来就是word文件。在转换按钮的选项里,有一个叫使用导引截取图像,里面再选择bmp,就直接输出每页的bmp了。很方便的。你仔细看看。
TIFF也一样,还好,可以存成JPG,不到1MB,效果也差不多。
没想到bmp这么夸张。我以前转过pdf的书,每页bmp才100多k。
可惜太忙,不然可以帮你做一点。