<div><div class="gmail_quote">On 21 April 2010 20:58, Michael Kerpan <span dir="ltr"><<a href="mailto:mjkerpan@kerpan.com">mjkerpan@kerpan.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Very cool. Did you do any manual correction of the OCR or is the<br>
included OCR just the straight results of the OCR program you used?<br>
<br>
Mike<br>
_______________________________________________<br>
Simh mailing list<br>
<a href="mailto:Simh@trailing-edge.com">Simh@trailing-edge.com</a><br>
<a href="http://mailman.trailing-edge.com/mailman/listinfo/simh" target="_blank">http://mailman.trailing-edge.com/mailman/listinfo/simh</a><br>
</blockquote></div><br>I did no manual correction.  I'm far too lazy for that.  :)  I just figured it's good enough for quickly getting to the right pages for the information needed, even if it occasionally garbles a sentence or two.<div>
<br></div><div>For others wanting to do the same for their manuals, the software used was:</div><div><ul><li>Lizardtech's Document Express Enterprise 5.1 (an old version I had lying around unused for a long time) to generate the DJVU/OCR files.</li>
<li>Readiris Pro 11 Corporate Edition (a copy I picked up cheap from someone who doesn't use it anymore) to generate the PDF/OCR files.</li></ul><div>Both have the advantage of being able to do large batches without user intervention.  Readiris does a nice extra of detecting skew and rotation and adjusting for it automatically.  Document Express doesn't do this so the DJVU files still have the little scanning tilts.  Next time I do something like this I'll probably first process with Readiris and then convert the straightened output to DJVU.</div>
</div><br>-- <br>"Perhaps people don't believe this, but throughout all of the discussions of entering China our focus has really been what's best for the Chinese people. It's not been about our revenue or profit or whatnot."<br>
--Sergey Brin, demonstrating the emptiness of the "don't be evil" mantra.<br>
</div>