(Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.
Hej!
Wiem, że temat był wałkowany wiele razy i jest na to parę sposobów: Calibre, PDF2EPUB, konwersja Amazona, brutalne potraktowanie PDFa (z tekstem, a nie obrazami) OCRem*, ale ostatnio trafiłem na coś takiego i chciałem się zapytać, czy ktoś to testował. Chodzi mianowicie o Adobe'owski Acrobat Standard albo Acrobat Pro (zamiast Readera). Nie ukrywam, że to pytanie dość akademickie, bo i tak nie mam dostępu do tych programów, ale ciekawi mnie czy to rzeczywiście działa i stąd pytanie czy ktoś miał z tym styczność lub ma możliwość przetestowania. Bo jak tak, to m.in. odpada dawny argument o tym, że z Indesigna, w którym składa i redaguje się książki, nie da się wyciągnąć później tekstu.
http://www.adobe.com/pl/products/acroba ... files.htmlhttp://www.adobe.com/pl/products/acroba ... erter.htmlhttp://www.adobe.com/pl/products/acroba ... rison.htmlA DOCa na coś "czytnikowego" przerobić już nie jest ciężko.
*To daje zadziwiająco dobre efekty, bo cyfrowo wygenerowana czcionka jest bardzo dokładna i OCR działa jak marzenie.