eKsiążki
https://forum.eksiazki.org/

(Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.
https://forum.eksiazki.org/software-i-hardware-f24/nowy-pomysl-na-wyszabrowanie-tekstu-z-pdfa-t13641.html
Strona 1 z 1

Autor:  Koovert [ 22 lip 2013 14:31:02 ]
Tytuł:  (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.

Hej!

Wiem, że temat był wałkowany wiele razy i jest na to parę sposobów: Calibre, PDF2EPUB, konwersja Amazona, brutalne potraktowanie PDFa (z tekstem, a nie obrazami) OCRem*, ale ostatnio trafiłem na coś takiego i chciałem się zapytać, czy ktoś to testował. Chodzi mianowicie o Adobe'owski Acrobat Standard albo Acrobat Pro (zamiast Readera). Nie ukrywam, że to pytanie dość akademickie, bo i tak nie mam dostępu do tych programów, ale ciekawi mnie czy to rzeczywiście działa i stąd pytanie czy ktoś miał z tym styczność lub ma możliwość przetestowania. Bo jak tak, to m.in. odpada dawny argument o tym, że z Indesigna, w którym składa i redaguje się książki, nie da się wyciągnąć później tekstu.
http://www.adobe.com/pl/products/acroba ... files.html
http://www.adobe.com/pl/products/acroba ... erter.html
http://www.adobe.com/pl/products/acroba ... rison.html
A DOCa na coś "czytnikowego" przerobić już nie jest ciężko.

*To daje zadziwiająco dobre efekty, bo cyfrowo wygenerowana czcionka jest bardzo dokładna i OCR działa jak marzenie.

Autor:  Khouri [ 23 lip 2013 8:42:53 ]
Tytuł:  Re: (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.

Da się, choć nie zawsze - pdf jest bardzo "szerokim" formatem, w którym można zaszyć wiele informacji i na wiele sposobów budować jego strukturę. Zazwyczaj tekst da się skopiować, jest nawet opcja "kopiuj z formatowaniem". Natomiast sprawa się rypie jeśli jest dużo bloków tekstowych - tekst może się kopiować, ale nie po kolei. Kolejnym problemem jest kodowanie (ale to można załatwić wyrażeniami regularnymi w wordzie), często polskie litery zamieniają się w krzaczki. No i jeśli tekst jest zamieniony na krzywe to już tylko OCR (ale teraz bardzo rzadko się tak robi, zazwyczaj teskty zostawia się jako edytowalny a nie krzywe wektorowe).
Jeśli chcesz coś przetestować to możesz podesłać jakiś plik - ale tylko dzisiaj, bo jutro wyjeżdżam na dłużej.

Autor:  Vroo [ 23 lip 2013 11:33:41 ]
Tytuł:  Re: (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.

Dawno temu bawiłem się pełną wersją Acrobata, więc mogło się coś zmienić, ale to co wtedy potrafił to zapisać PDF jako DOC/HTML, gdzie tekst osadzony był w setkach bloków, co w przypadku HTML skutecznie spowalniało otwieranie takiego tekstu... Efekty nie różniły się mocno od FineReadera.

Swoją drogą podobno nowy Office 2013 ma możliwość otwierania i edycji PDF - tak więc i zapisu w innych formatach. Ciekaw jestem jak sobie radzi.

Strona 1 z 1 Wszystkie czasy w strefie UTC + 1 [czas letni (DST)]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/