Selectează o Pagină

Am primit de curînd de la Andrei o frumoasă cărticică (vorba vine, are peste 500 de pagini) despre fotografie și, pentru că doar ce instalasem pe un laptop un linux (Lubuntu 12.04), m-am hotărît să văd cum se poate scana o carte.

Pînă acum, pe Win7, procedam așa: scanam fiecare fascicul cu VueScan, de obicei la 300dpi pentru cărțile apropiate ca dimensiuni de a4 și 600dpi pentru cele „de buzunar“, 16bit grayscale, format .dng. Aplicam setările cu CameraRaw batch pe toate fișierele și le salvam jpeg. După ce redenumeam manual fișierele, în Adobe Acrobat importam jpeg-urile și le salvam pdf. OCR și diverse optimizări erau făcute tot în Acrobat.

Așadar, aveam următoarele categorii de operațiuni:

1. scanarea propriu-zisă: pentru că VueScan este disponibil pe orice platformă iar licența este deosebit de permisivă, am păstrat programul ca driver de scanare. Pentru simplificare, am salvat fișierele scanate direct în jpeg, alb-negru, 600dpi.

Notă: Am testat totuși și dng care, prin intermediul Darktable, poate fi procesat fără nici o problemă.

2. post-procesarea: referitor la acest pas, nu spun decît atît: ScanTailor! Este superb! Detectează automat orientarea paginilor, împarte automat paginile scanate două cîte două, le rotește pînă linia textului este orizontală (la un moment dat chiar m-am mirat, pentru că o pagină mie mi se părea OK însă ScanTailor a vrut să o rotească cu 0,12 grade). După ce detectează blocul de text din fiecare pagină, șterge restul pentru a păstra o pagină curată. Folosește dimensiunile blocurilor de text din toate paginile scanate și marginile setate de utilizator pentru a genera dimensiunea uniformă a paginile exportate.

Imediat după ce ScanTailor își termină treaba și termin și eu de redenumit fișierele, pornesc alt program, gscan2pdf, care importă jpeg-urile exportate de ScanTailor și generează un pdf consolidat.

Aici a apărut o problemă la care nu am găsit soluție: deși am găsit nenumărate (ok, destul de multe, nu nenumărate) programe pentru OCR, unele dintre ele excepționale (Cuneiform, Tesseract sau OCRopus) nu am reușit decît să obțin un fișier txt avînd textul recunoscut, nicidecum un layer OCR în PDF, așa că a trebuit să apelez la Adobe Acrobat.

În final am urcat pdf pe archive.org și i-am creat și pagina pe OpenLibrary.