Extrahera text från PDF och bildfiler
Har du ett PDF-dokument som du vill ta bort all text ut ur? Vad sägs om bildfiler i ett skannat dokument som du vill konvertera till redigerbar text? Det här är några av de vanligaste problemen jag har sett på arbetsplatsen när jag arbetar med filer.
I den här artikeln talar jag om flera olika sätt att du kan försöka extrahera text från en PDF eller från en bild. Dina extraktionsresultat varierar beroende på typ och kvalitet på texten i PDF-filen eller bilden. Dina resultat varierar också beroende på vilket verktyg du använder, så det är bäst att prova så många av alternativen nedan som möjligt för att få bästa resultat.
Extrahera text från bild eller PDF
Det enklaste och snabbaste sättet att börja är att prova en online PDF-textutdragnings tjänst. Dessa är normalt gratis och kan ge dig exakt vad du söker utan att behöva installera något på din dator. Här är två som jag har använt med mycket bra till utmärkt resultat:
ExtractPDF
ExtractPDF är ett gratis verktyg för att ta bilder, text och teckensnitt ur en PDF-fil. Den enda begränsningen är att maxstorleken för PDF-filen är 10 MB. Det är lite litet; så om du har en större fil, prova några av de andra metoderna nedan. Välj din fil och klicka sedan på Skicka Fil knapp. Resultaten är normalt mycket snabba och du bör se en förhandsgranskning av texten när du klickar på fliken Text.
Det är också en bra fördel att det också extraherar bilder ur PDF-filen, bara om du behöver dem! Sammanfattningsvis fungerar verktyget online bra, men jag har stött på ett par PDF-dokument som ger mig rolig produktion. Texten extraheras bara bra, men av någon anledning kommer det att bli en radbrytning efter varje ord! Inte ett stort problem för en kort PDF-fil, men det är verkligen ett problem för filer med mycket text. Om det händer med dig, prova nästa verktyg.
Online OCR
Online OCR tenderade vanligtvis att fungera för de dokument som inte konverterade korrekt med ExtractPDF, så det är en bra idé att försöka båda tjänsterna för att se vilka som ger dig bättre resultat. Online OCR har också några trevligare funktioner som kan vara praktiska för alla med en stor PDF-fil som bara behöver konvertera text på några få sidor i stället för hela dokumentet.
Det första du vill göra är att gå vidare och skapa ett gratis konto. Det är lite irriterande, men om du inte skapar det gratis kontot konverterar det bara delvis din PDF istället för hela dokumentet. Också i stället för att bara kunna ladda upp bara ett 5 MB-dokument kan du ladda upp upp till 100 MB per fil med ett konto.
Välj först ett språk och välj sedan vilken typ av utmatningsformat du vill ha för den konverterade filen. Du har ett par alternativ och du kan välja mer än en om du vill. Under Flerdokument, du kan välja Sidnummer och välj sedan bara de sidor du vill konvertera. Då väljer du filen och klickar på Konvertera!
Efter omvandling kommer du till avsnittet Dokument (om du är inloggad) där du kan se hur många tillgängliga lediga sidor du har kvar och länkar för att ladda ner dina konverterade filer. Det verkar som om du bara har 25 sidor gratis på en dag, så om du behöver mer än så måste du antingen vänta lite eller köpa fler sidor.
Online OCR gjorde ett utmärkt jobb med att konvertera mina PDF-filer eftersom den kunde behålla textens faktiska layout. I mitt test tog jag ett Word-dokument som använde kulor, olika teckensnittstorlekar etc. och konverterade det till en PDF-fil. Sedan använde jag Online OCR för att konvertera det till Word-format och det var ungefär 95% detsamma som originalet. Det är ganska imponerande för mig.
Dessutom, om du vill konvertera en bild till text, kan Online OCR göra det lika enkelt som att extrahera text från PDF-filer.
Gratis Online OCR
Sedan pratade om bild till text OCR, låt mig nämna en annan bra hemsida som fungerar riktigt bra på bilder. Gratis online-OCR var mycket bra och mycket exakt när du extraherade text från mina testbilder. Jag tog ett par bilder från min iPhone på sidor från böcker, broschyrer, etc och jag blev förvånad över hur bra den kunde konvertera texten.
Välj din fil och klicka sedan på knappen Upload. På nästa skärm finns det några alternativ och en förhandsgranskning av bilden. Du kan beskära den om du inte vill OCR hela grejen. Klicka sedan på OCR-knappen och din konverterade text kommer att visas under bilden förhandsvisning. Det har inte heller några begränsningar, vilket är riktigt bra.
Förutom onlinetjänsterna finns det två freeware PDF-omvandlare som jag vill nämna om du behöver programvara som körs lokalt på din dator för att utföra konverteringarna. Med onlinetjänster behöver du alltid en Internetanslutning och det kanske inte är möjligt för alla. Men jag märkte att kvaliteten på konverteringarna från freeware-programmen var betydligt sämre än webbplatsernas.
A-PDF Text Extractor
A-PDF Text Extractor är freeware som gör ett ganska bra jobb med att extrahera text från PDF-filer. När du har laddat ner det och installerat det, klicka på Öppna-knappen för att välja din PDF-fil. Klicka sedan på Extrahera text för att starta processen.
Det kommer att fråga dig en plats att lagra textutdatafilen och sedan börjar den extrahera. Du kan också klicka på Alternativ knappen, som låter dig välja endast vissa sidor att extrahera och extraktionstypen. Det andra alternativet är intressant eftersom det extraherar texten i olika layouter och det är värt att försöka alla tre för att se vilka som ger dig den bästa produktionen.
PDF2Text Pilot
PDF2Text Pilot gör ett bra jobb med att extrahera text. Det har inga alternativ. du lägger bara till filer eller mappar, konverterar och hoppas på det bästa. Det fungerade bra på vissa PDF-filer, men för de flesta av dem fanns det många problem.
Klicka bara på Lägg till filer och klicka sedan på Konvertera. När konverteringen är klar klickar du på Browse för att öppna filen. Din körsträcka varierar med det här programmet, så förvänta dig inte mycket.
Det är också värt att nämna att om du befinner dig i en företagsmiljö eller kan hämta en kopia av Adobe Acrobat från jobbet, så kan du verkligen få mycket bättre resultat. Acrobat är uppenbarligen inte ledigt, men det har alternativ att konvertera PDF till Word, Excel och HTML-format. Det gör också det bästa jobbet att behålla strukturen i det ursprungliga dokumentet och konvertera komplicerad text.