Ivan Ivanovich Kuznetsov, cât de repede puteți scana o carte în format pdf (folosind clearscan),

În acest tutorial scurt, aș dori să împărtășesc gândurile mele despre scanarea rapidă a cărților în format PDF și impresiile tehnologiei ClearScan disponibile în Adobe Acrobat încă de la versiunea 9.0. În opinia mea, aceasta este o tehnologie minunată, făcând (în sfârșit!) Formatul PDF potrivit pentru textul scanat.







De fapt, atunci când scanarea (carte foi rupte și scanerului coli utilizate) distructive, procesul de scanare - curățare - transferuri PDF - OCR poate fi realizată în trei ore pentru dimensiunea medie a cărții. (Trebuie să spun că nu am nici o experiență în cărți de fotografie, aparent fotografiat poate fi de asemenea realizată rapid, cu echipament adecvat, și pentru a evita astfel distrugerea cărții de hârtie.) Dacă „geamgiu“, adică aveți suficientă răbdare pentru a scana cartea pe geamul scanerului , scanarea, evident, va dura mai mult.

Cum încearcă un începător

Cum încearcă un începător

Dacă există un scaner, atunci doriți să scanați ceva! Și mulțumim lui Dumnezeu. Uitați-vă la abundența bibliotecilor digitale. Mulțumită tuturor celor care au scanat și l-au postat pentru alții.

Și acest lucru este uneori adevărat. Există o mulțime de lucrări diferite (cu 1, 2 ... 10 coli) cu care fac acest lucru. De ce să te deranjezi cu ei? Este vizibil - va fi. Și mai mult nu este necesar. Dar iată cartea ... și chiar și pentru cei care iubesc cărțile ... Este posibil să numim gunoiul oblic rezultant cu dungi, pete, puncte negre, cu o carte ruptă? Unde este îngropat câinele? Ce opțiune ar trebui să fie setată, care pârghie să se răsucească, astfel încât să pară toate cele originale?

Faptul este că nu există o singură pârghie. Există un proces în patru etape, fiecare dintre acestea necesită soluții optime de la operator. Un pachet de programe pentru un scanner care funcționează ca un "all-pobivahom unic" ascunde acest proces în patru pași, făcându-l o operațiune: o foaie de hârtie - un echivalent electronic. Dar despre ceea ce se întâmplă cu adevărat este ceva complicat, încă puteți ghici. De exemplu, scanerul a terminat deja scanarea și computerul nu este gata să continue; pe ea sunt deschise și închise unele programe; intermitentă lampă de acces pe hard disk ...

Pentru a scana cartea calitativ, trebuie să parcurgeți pașii acestui proces: scanarea, curățarea, traducerea în formatul dorit și OCR.

Sarcina acestei etape este traducerea paginilor de hârtie ale cărții în fișierele TIFF corespunzătoare cu o rezoluție de 300dpi. Această permisiune este suficientă pentru textul de carte al dimensiunii obișnuite ("ușor de citit"). Un font mic sau dorința de a transmite mici detalii ale ilustrațiilor pot necesita mai multă rezoluție. Faceți scrierile prin setările scanerului. La ieșire, trebuie să obțineți fișiere grafice în format TIFF. O foaie este un fișier. Și nu mai multe pagini TIFF (în cazul în care există mai multe pagini într-un fișier TIFF)! Nu există PDF-uri! Nu există OCR (recunoașterea textului)!

În această etapă, trebuie, de asemenea, să decideți dacă să scanați cartea în culori sau în tonuri de gri. De obicei, nu este recomandat pentru a scana cartea într-un mod strict alb-negru (greutate corporală), deoarece scanerul va trebui să decidă ce să facă cu negru și alb. De exemplu, o curba de pe pagina poate fi transmisă în negru și de a crea dungi negre și pete, și chiar mai rău, aceste spoturi vor fi închise ca text negru. Este imposibil să curățați astfel de "negru pe negru" după aceea. În cazul în care la fața locului luminos (bandă, un alt defect) de gri (sau alt, pentru scanarea color) color și text negru (non-defect) de culoare, defectul poate fi eliminat în etapa de curățare prin ștergerea culoare spot de imagine. Este, de asemenea, subtiaza de scanare și linii pauze și fontul strict negru și alb (adică, atunci când scrisoarea, să zicem, «d» apare ca «cl»). Prin urmare, pentru o scanare calitativă, imaginați-vă că opțiunea (bw) nu există.

Pentru scanerul meu, scanarea începe cu tăierea capacului. Un cuțit obișnuit de bucătărie cu o lamă scurtă și un mâner confortabil este destul de potrivit. Pentru un capac moale, cuțitul este împins între capac și prima pagină (cu capacul închis) și capacul este decupat. Dacă cartea are un capac greu, atunci cu capacul deschis, cartea însăși este tăiată din ea. Apoi, paginile se deconectează unul câte unul sau se taie. Marginile îngroșate pot fi apoi îndepărtate utilizând programul în faza de curățare. Principalul lucru este că margini zdrențe nu urcă textul.

Eu scriu aceste rânduri, iar în capul meu sunetele lui Marshak suna:

La Skvortsov Grishka Odată, au existat cărți - Dirty, Shaggy, Ragged, humpbacked ...

Am cărți, din copilărie, pe care le iubesc și nu le voi tăia. Dar de multe ori trebuie să scanați beneficiile, adesea calculatoare, adesea groase, și hârtie scrap - cel mai bun loc pentru ei. Și timpul lui de a scana "pe sticlă" îmi pare rău să-i pierd.

Încă o dată, despre setările de bază ale scanerului. Rezoluția este de 300 dpi, iar modul de culoare este "în tonuri de gri" sau "culoare". Formatul de fișier este TIFF.

Pentru a măsura pagina de carte în milimetri, puteți seta lungimea și lățimea. Desigur, "pe sticlă" se poate face doar aproximativ, deoarece este imposibil să se pună cu exactitate cartea pe sticlă. Un scanner de foaie va suge foile cu latura netedă (sau de sus / jos sau, în cazul în care din lateral, este necesar să se pună partea plată) și apoi totul va fi exact până la milimetru. Pe scaner lui foaie am recent, din cauza lene înnăscută, alegeți opțiunea „îmbunătățirea textului» (accesoriu text), care «uzhirnyaet» și «uchernyaet» text și răsfață ilustrații color (exagerează) și opțiunea de «aliniere a imaginii» (Deskew ), deoarece foile simple sunt mai ușor de procesat mai târziu. Dar nu puteți alege alte opțiuni decât dpi și culoare și lăsați totul în faza de curățare.







Pentru curățare, folosesc ScanKromsator v 5.9. Ar trebui să fie căutat pe Internet. Am scuipat puțin pe podea din cauza interfeței sale, dar este doar prima până când vă obișnuiți cu asta. Apoi, opriți să observați ciudățenii și, dimpotrivă, observați cât de convenabil este să faceți acest lucru sau altceva.

Link-uri către descrierea acestui program:

Programul, în special pentru începători, este complex, dar nu este atât de complex ca, de exemplu, Photoshop. Există și ScanTaylor, care promite să fie mai simplu, dar nu am încercat-o. Indiferent de programul utilizat, aveți nevoie

• Scoateți despicat

• Decupați marginile neuniforme

• Aliniați iluminarea (eliminați umbrele de la iluminarea neuniformă)

• îndepărtați punctele și alte resturi (despecți)

• verificați / corectați separat ilustrațiile (inclusiv capacul)

• Ridicați rezoluția la 600 dpi, dacă scanați la o rezoluție mai mică.

După ce ScanKromsator trece prin pagini (de exemplu, după ce a dat clic pe butonul de proces), deschide o fereastră pentru verificarea rezultatului (vizualizare rezultat). În această fereastră există unelte de neînlocuit, cum ar fi radiera, "curățarea magică" și alegerea culorii pentru ea. Nu disprețuiți-le să le folosiți pentru curățarea individuală a unor pagini deosebit de murdare.

Puteți corecta aceste defecte la paginile ca notele marginale (cu excepția cazului în desigur, nu există nici un scop de a le salva), șterge liniile de creion, subliniind textul (va interfera cu programul OCR, care le va lua pentru un program), îndepărtați benzile, pete, și, uneori, fundal. Am scanat o carte cu litere albastre pe fundal albastru; fundal a venit urât, și pur și simplu eliminate cu ajutorul unui „tratament magic“, adică. e. sa schimbat la alb, din moment ce el a fost un text pic mai ușor și poate fi eliminat prin eliminarea culorii sale.

„CEKA-GPU - un organism conceput pentru a pedepsi, și în cazul în care pur și simplu pentru a portretiza cazul. - nu numai pentru a pedepsi, ci pentru a pedepsi într-adevăr lumea cealaltă a fost creșterea populației notabilă, datorită muncii GPU noastre“

3. Traducerea în formatul final

3. Traducerea în formatul final

Deci ... traducem cartea în forma corectă. Consider doar aici formatul PDF ca singura soluție simplă, rapidă, cardinală la "problema formatului" ... stand. Undeva am spus deja. Da, da. Ei bine, sunt multe formate în care poți traduce o carte, inclusiv "text". Ca să citiți o carte - citiți-o. Doar citiți-o corect, apoi descărcați de pe Internet o carte în format text - acolo ticălos mare.

Voi explica cum să faceți o carte în format PDF, utilizând tehnologia ClearScan. ClearScan este o tehnologie avansată. În cazul în care PDF-ul în sine nu este ideal pentru stocarea scanărilor (se dovedește fie o dimensiune mare a fișierului, fie mai mult, o imagine de proastă calitate), atunci când se utilizează ClearScan, acest format se apropie de cel ideal.

Puteți traduce cartea în format text - TXT, RTF, DOC în cele din urmă, sau în HTML și XML EPUB și FB2. Dar aceasta este pentru a reemite cartea din nou. Și este posibil să pierdeți tot sau o parte din designul cărții în timpul reemiterii. Este necesar acest lucru dacă cartea a fost deja publicată? Desigur, depinde de tine. Dacă designul este mic, atunci puteți republica. Și dacă o mulțime și el vrea să salveze? Și nu vreau să pierdeți timpul pentru re-eliberare? Apoi ramane fie sa "slam" cartea in DJVU, fie in PDF (cineva "claps" si in PowerPoint, dar asta este, foarte rau, "in cele din urma"). Aceste formate ca "mici TIFF-uri" - cartea rămâne în format grafic, dar ocupă mai puțin spațiu.

Esența tehnologiei ClearScan este să înlocuiască imaginile literelor de pe scena OCR cu un font real. Acest font nu este un font de tip gata (sistem) mai mult sau mai puțin similar fontului original, ci un font special produs de programul Acrobat "în zbor" pentru o anumită literă a textului.

Ca urmare, în loc de pagina cărții în format grafic, apare o pagină cu text aproape real, în formă (aproape) aceeași cu cea originală.

După cum este menționat în acest articol și testat în practică, cele mai bune rezultate sunt obținute cu rezoluția înaltă a originalului (600dpi) și absența blocării laterale (gunoi, artefacte) pe original. Prin urmare, procesul de curățare a imaginii după scanare (alinierea iluminării, curățarea resturilor, creșterea rezoluției la 600dpi) este necesar pentru a obține text de înaltă calitate și cea mai mică dimensiune a fișierului.

Unde pot obține Adobe Acrobat 9.0 sau o versiune ulterioară? În capul meu, unul <нехорошее слово>. Dar de ce ar trebui să vă învăț cuvinte rele? Le cunoști fără mine. Prin urmare, ca o modalitate alternativa exotica, m-am gândit să merg la orice licitație, de exemplu E-bay, formați Adobe Acrobat 9 Pro și a vedea dacă puteți obține ceea ce vrei, la un preț rezonabil. Presupune - poți. Și Acrobat pe tine.

Rularea Acrobat, selectați toate TIFF-urile obținute după curățare. Pentru aceasta, faceți clic pe File ^ Combine ^ Mergeți fișierele într-un PDF unic. O fereastră se deschide în care noi

• în partea dreaptă sus, selectați opțiunea Singular PDF (cel mai probabil este deja selectat)

• în colțul din dreapta jos, unde sunt vizibile trei pagini, alegeți cea mai mare pagină pentru o calitate mai bună

• Faceți clic pe Adăugare fișiere → Adăugare fișiere și adăugați toate TIFF-urile. Pentru a adăuga simultan toate fișierele, faceți clic pe primul fișier, apoi țineți apăsată tasta Shift și faceți clic pe ultimul fișier. Apăsați Combinare fișiere și așteptați cu răbdare rezultatul - un fișier în format PDF.

4. OCR cu opțiunea ClearScan

4. OCR cu opțiunea ClearScan

Ei bine, rulați OCR în același Adobe Acrobat. Pentru a face acest lucru, faceți Document - Recunoașterea textului OCR - Recunoașterea textului utilizând OCR, iar în fereastra deschisă faceți clic pe Editare în secțiunea Setări. Noi alegem

• Limba OCR primară - specificați limba principală a documentului

• Stilul de ieșire PDF - setați ClearScan

• Imagini descrescătoare - este de obicei posibil să fie scăzut (300dpi).

Așteptăm răbdarea celor dintâi, dar mai bine mergem în vacanță. Rezultatul este PDF-ul dorit. Găsiți în ea o scrisoare și începe să crească. Această scrisoare ar trebui să rămână clară pentru orice creștere.

Efectuat. Nu uitați să salvați fișierul.

Și asta este ... Nu prindeți acest fișier în Acrobat pentru salvarea spațiului pe disc. Nici nu-ți voi spune cum. Nu strica calitatea fișierului, precum și pe dispozitive mobile, în cazul în care procesorul mai slab, precum și un program pentru a naviga PDF nu atât de inteligent, jucând o carte de prindere - chin.

Încercați să aruncați cartea pe un dispozitiv mobil - pentru mine va fi un iPad cu un cititor de cărți iBooks. Cât de bine arată! Cât de repede pot trece paginile! Există o căutare pentru cuvinte cheie! Studenții! Scanați-vă cărțile! Mama și tata! Scanați cărțile de copii ale copiilor buni!

Și nu uitați să le puneți în biblioteca electronică.

Tovarășul Kuznetsov, Ivan Ivanovici, a scris, după tovarășul Petrov, Philip Fedorovici, care a auzit toate astea de la un șoarece de culoare gri.







Articole similare

Trimiteți-le prietenilor: