estrarre-testo-da-pdf-ocr

Come Estrarre testo da file PDF protetti – Conversione in Word

Estrarre testo da file PDF protetti è possibile grazie a dei programmi di lettura, denominati anche OCR che consentono appunto di leggere un testo e tramutarlo in un normale file Word. Ma in quali casi potremmo averne realmente bisogno?

File PDF creati con immagini

Quando si va a creare un file PDF a partire da un testo si può scegliere se mantenere il formato testuale o se tramutare tutto in immagini. Tramutando tutto in immagini il nostro testo di partenza non sarà più recuperabile, aprendo il PDF il testo ovviamente non potrà essere evidenziato e quindi copiato ed incollato da un’altra parte. Ultimamente non si usa molto fare così quando si crea un nuovo PDF, ma esistono comunque molti PDF con testi inseriti in immagini. Chi utilizzava questo metodo lo faceva soprattutto per non permettere ai lettori di copiare parte o tutto il contenuto. Se vogliamo quindi avere un file Word normale a partire da questa tipologia di PDF occorrerà assolutamente un OCR.

File PDF protetti

Un altro caso in cui potrebbe servire un OCR è quando ci troviamo davanti ad un PDF protetto. In questo caso il testo non sarà contenuto in un’immagine, ad esempio un JPG e sarà evidenziabile con il mouse. Non potremo però copiarlo nè esportarlo in formato Word. Questo perchè chi lo ha creato ha deciso di proteggerlo. Con un OCR potremo ovviare al problema.

Rispettare il copyright

Prima di vedere come aggirare i problemi sopra esposti occorre dire che la dimostrazione è a scopo didattico e che prima di utilizzare i metodi che di conversione da PDF a Word che vi mostreremo sarà vostro dovere se avete i permessi necessari per trasformare una qualsiasi opera in formato testuale Word. Se i documenti sono stati protetti un motivo ci sarà e copiarli e peggio ancora distribuirli potrebbe essere reato. State quindi attenti.

Convertire PDF tipo immagini e protetti in Word

Arriva una novità davvero interessante per chi gestisce spesso file in formato PDF.

Fino a qualche tempo fa era un grosso problema convertire una scansione di un documento PDF in formato testuale, visto che la maggior parte dei programmi che permettevano la funzione erano a pagamento.

Recentemente le cose sono cambiate, sul web sono iniziati a “spuntare” i primi servizi OCR online che permettono di convertire in testo un documento PDF.

Uno dei migliori servizi disponibile gratuitamente è Free Online OCR. Un programma che oltre a convertire i  file in formato PDF, permette anche di editare file in formato Word, Excel e cosi via.

Free Online OCR supporta molte versioni di file dai documenti acquisiti tramite lo scanner alle immagini scattate dalla fotocamera digitale. Inoltre, è in grado di  leggere testi in 28 lingue. Online OCR è un programma di qualità e completamente gratuito. Vediamo passo passo come fare.

Estrarre testo da PDF
Estrarre testo da PDF

Uno sguardo al sito onlineocr.net

Come prima cosa occorre andare sul sito onlinecr.net, come potrete constatare tutto quello che ci servirà è in un’unica pagina. Se non sapete l’inglese non vi preoccupate è estremamente semplice. Su un unica riga seguendo 3 step, ovvero 3 passi c’è tutto quello che dovremo settare.

1 carichiamo il PDF, ma non solo

Il primo passo è caricare il PDF. Per farlo dovremo cliccare sul pulsante celeste con la scritta “Select file”. Come avrete intuito, potremo non solo caricare un PDF, ma anche un’immagine con testo, ad esempio una foto, oppure un JPG. Tutto ciò che darete in pasto lo convertirà.

2 Scegliamo la lingua del testo

Nel secondo box occorre selezionare la lingua in cui è scritto il testo nel PDF o nell’immagine. Questo è estremamente importanti, ed è importate quando si utilizza un OCR, consente ad esempio all’OCR di utilizzare gli accenti giusti, ma non solo.

3 Formato di esportazione

Ultimo passo, il terzo è scegliere il formato di esportazione. Possiamo scegliere il docx di Microsoft Word, xlsx di Microsoft Excel, o il generico doc, valido per i più comuni software per l’elaborazione di testi. Non resterà che cliccare sul pulsante “convert”

Formati testuali protetti di PDF

Abbiamo detto che con questo metodo è possibile convertire anche PDF testuali protetti. Il gioco potrebbe non sempre funzionare, se aveste dei problemi dovreste convertire prima il PDF in immagini ad esempio in JPG e poi dare le immagini in pasto a Free Online OCR. Per convertire il PDF in immagini potete utilizzare anche Adobe Acrobat Reader.

Convertire gratis normali PDF in Word

Se dovete invece convertire gratis dei normalissimi PDF in Word e in testo, è tutto molto più semplice e si possono utilizzare strumenti online gratuiti. Sul internet se ne trovano in quantità industriali. Vi cito ad esempio https://www.ilovepdf.com/pdf_to_word banalissimo da utilizzare. Basta caricare il PDF e cliccare in basso a destra su “Convert to Word” e il gioco sarà fatto.

Convertire PDF in Word
Convertire PDF in Word

Lo stesso sito offre altre funzioni molto interessanti per i PDF. Per accedere basta cliccare sul menu in alto e potremo utilizzare un compressore di PDF. Per alleggerire i nostri PDF senza perdere troppo in qualità. Oppure split o merge PDF per separare in più PDF un file unico, oppure per unire in un unico file tanti PDF.

Come potete vedere dall’immagine sotto i tools sono veramente tantissimi, quindi se lavorate spesso con il formato PDF vi consiglio di tenere ilovepdf.com fra i vostri preferiti.

ilovepdf.com tools
ilovepdf.com tools

Convertire qualsiasi file in PDF

Per completezza dell’articolo vi parlo anche di un comodo tool gratuito che personalmente utilizzo su tutti i PC e che utilizzo oramai da moltissimi anni. Si tratta di doPDF. E’ un programmino gratuito disponibile per tutti i sistemi Windows. Questo programma permette di convertire qualsiasi file (ovvero più di 400 formati) in PDF. Lo strumento opera come una stampante virtuale. Non vi allarmate, perchè è più semplice del previsto. Una volta installato doPDF per tramutare un file in PDF non dovrete fare altro che procedere come se doveste stamparlo. Ad esempio se abbiamo un file Word, selezioniamo “stampa” e quando stiamo per stampare invece si selezionare la nostra stampante basta selezionare “Stampa come PDF”, vi aggiungo sotto un’immagine.

Convertire qualsiasi file in PDF
Convertire qualsiasi file in PDF

Ho fatto l’esempio del file Word, ma è possibile utilizzare la medesima procedura per trasformare in PDF un’immagine JPG, PNG, TIFF, una pagina HTML, un Power Point o un foglio elettronico Excel. Insomma è utilissimo.

Conclusioni

Il formato PDF è oramai diventato uno standard in assoluto, o meglio sarebbe dire che lo è diventato da molto tempo. Libri, documenti, volantini, ma anche brochure e biglietti da visita per la stampa viaggiano in PDF. Chiunque operi al computer è bene che sappia adoperare questo formato ed in particolare sappia manipolarlo in tutte le sue possibile sfaccettature. In questo articolo abbiamo visto diversi strumenti gratuiti, ma in alcuni casi potrebbe essere opportuno valutare l’acquisto di software professionali come ad esempio Acrobat Pro DC, questa soluzione consente di avere tutti i tools in un unico software. A voi la scelta.

Rispondi