Teraz jest 28 mar 2024 23:01:56




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 3 ] 
(Nowy?) Pomysł na wyszabrowanie tekstu z PDFa. 
Autor Wiadomość
Użytkownik
Avatar użytkownika

Dołączył(a): 28 maja 2011 19:15:33
Posty: 338
eCzytnik: Kidle 3G
Post (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.
Hej!

Wiem, że temat był wałkowany wiele razy i jest na to parę sposobów: Calibre, PDF2EPUB, konwersja Amazona, brutalne potraktowanie PDFa (z tekstem, a nie obrazami) OCRem*, ale ostatnio trafiłem na coś takiego i chciałem się zapytać, czy ktoś to testował. Chodzi mianowicie o Adobe'owski Acrobat Standard albo Acrobat Pro (zamiast Readera). Nie ukrywam, że to pytanie dość akademickie, bo i tak nie mam dostępu do tych programów, ale ciekawi mnie czy to rzeczywiście działa i stąd pytanie czy ktoś miał z tym styczność lub ma możliwość przetestowania. Bo jak tak, to m.in. odpada dawny argument o tym, że z Indesigna, w którym składa i redaguje się książki, nie da się wyciągnąć później tekstu.
http://www.adobe.com/pl/products/acroba ... files.html
http://www.adobe.com/pl/products/acroba ... erter.html
http://www.adobe.com/pl/products/acroba ... rison.html
A DOCa na coś "czytnikowego" przerobić już nie jest ciężko.

*To daje zadziwiająco dobre efekty, bo cyfrowo wygenerowana czcionka jest bardzo dokładna i OCR działa jak marzenie.

_________________
Terry Pratchett napisał(a):
"Osoby używające więcej niż 3 wykrzykników lub pytajników to osoby z zaburzeniami własnej osobowości."


22 lip 2013 14:31:02
Zobacz profil
Post Re: (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.
Da się, choć nie zawsze - pdf jest bardzo "szerokim" formatem, w którym można zaszyć wiele informacji i na wiele sposobów budować jego strukturę. Zazwyczaj tekst da się skopiować, jest nawet opcja "kopiuj z formatowaniem". Natomiast sprawa się rypie jeśli jest dużo bloków tekstowych - tekst może się kopiować, ale nie po kolei. Kolejnym problemem jest kodowanie (ale to można załatwić wyrażeniami regularnymi w wordzie), często polskie litery zamieniają się w krzaczki. No i jeśli tekst jest zamieniony na krzywe to już tylko OCR (ale teraz bardzo rzadko się tak robi, zazwyczaj teskty zostawia się jako edytowalny a nie krzywe wektorowe).
Jeśli chcesz coś przetestować to możesz podesłać jakiś plik - ale tylko dzisiaj, bo jutro wyjeżdżam na dłużej.


23 lip 2013 8:42:53
SwiatCzytnikow.pl
Avatar użytkownika

Dołączył(a): 14 sie 2010 11:00:21
Posty: 1873
eCzytnik: kindle, onyx, nook, kobo, pb, ipad
Post Re: (Nowy?) Pomysł na wyszabrowanie tekstu z PDFa.
Dawno temu bawiłem się pełną wersją Acrobata, więc mogło się coś zmienić, ale to co wtedy potrafił to zapisać PDF jako DOC/HTML, gdzie tekst osadzony był w setkach bloków, co w przypadku HTML skutecznie spowalniało otwieranie takiego tekstu... Efekty nie różniły się mocno od FineReadera.

Swoją drogą podobno nowy Office 2013 ma możliwość otwierania i edycji PDF - tak więc i zapisu w innych formatach. Ciekaw jestem jak sobie radzi.

_________________
http://swiatczytnikow.pl (dawniej: Świat Kindle)
http://ebooki.swiatczytnikow.pl - (prawie) wszystkie polskie e-booki w jednym miejscu, czyli porównywarka ofert księgarni.


23 lip 2013 11:33:41
Zobacz profil WWW
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 3 ] 


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 1 gość


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron