Witam,
@muaddib2 - co do ABBYY PDF to IMO jest to tak. Program rozpoznaje pdf ze wszystkimi jego cechami, z których część jest dla ebooka niepotrzebna, a nawet wręcz przeszkadza. To co będę pisał dalej z przyczyn oczywistych nie dotyczy pdf'św, które zostały stworzone na podstawie prawidłowo zedytowanych ebooków w formacie rtf czy doc. Natomiast jeżeli chodzi o pdf zrobiony ze scanu książki, to zawiera on mnóswto elementów niepożądanych, w znacznej części wynikających z działań edytorskich i na składzie przy tworzeniu książki. Książki składa się strona po stronie - edytor (chodzi tu o człowieka, który to robi) musi maksymalnie wykorzystać powierzchnie jak najmniej naruszając spoistość formy i będąc w zgodzie z różnymi zasadami (eliminacja tzw, "wdów", "bękartów", nieprzenoszenie jednego wersu z akapitu na następną stron i jeszcze inne). W swoim "arsenale" narzędziach, którymi minimalnie może m.i n. zmniejszać czy zwiększać szerokość i światło znaków, regulować interlinie, czy akapity podwyższać czy obniżać znaki czy wręcz je skalować - tu wymienię w zasadzie tylko te, które bez trudu można znaleźć w Wordzie - edytor ma ich znacznie więcej). W książkach co do zasady nie stosuję się automatycznego dzielenia wyrazów. Nawet w Wordzie znajdziecie różnego rodzaju znaki specjalne, w tym "miękki enter" czyli ręczny podział wiersza, łącznik opcjonalny (jeżeli wyraz jest ostatni w wersie, to w tym miejscu nastąpi jego podzielnie), spację nierozdzielającą (wyrazy muszą być w jednej linii) i tak dalej. Czytając książkę wydaje nam się że wszystkie strony (chodzi o marginesy wycięcia itd) oraz znaki i odstępy są takie same, ale tak ie jest - to właśnie efekt pracy edytora w przelewaniu tekstu do makiety strony. Fakt, gołym okiem tych różnic nie widzimy - ale programy OCR je widzą. ABBYY PDF też je widzi. Jak przepuścisz przez niego taki scan, to w efekcie uzyskujesz (wyłączam tu konwersję do txt przy czcionce nieskalowanej - np Courier) plik, w którym każda strona jest sekcją o całkiem innych parametrach strony, marginesów, akapitów tabulacji światła oraz wymiarów czcionek). Wymiar stron jest w 99% niestandardowy i jak spróbujesz to zmienić na A4 (a taki wymiar przyjął się jako standard w ebookach - ewentualnie letter w anglosaskich) to wszystko zaczyna się rozjeżdżać.
Jedną z większych bolączek automatycznej konwersji jest problem z ręcznym podziałem wersów Dlaczego. To proste, jak szerokość strony się zwiększy - a w przypadku 90 % ebooków tak jest, bo książki są ca w formacie B5 - to nagle wyrazy się rozchodzą i wyglądają jak super rozstrzelone (oczywiście przy utrzymaniu justowania, ale to też jest standard). Innym efektem, który też może nawet bardzo zaburzyć odbiór samej treści, a na pewno poduje konieczność zwiększonej uwagi jest takie zjawisko, gdy akapit dialogowy zostaje połączony z następującym po nim akapitem informacyjno.opisowym. Dialogi są wyróżnione (w naszym języku) znacznikiem "-" Wyobraź sobie taki dialog:
X patrzył na Y z niedowierzaniem.
- Jesteś śmieciem - powiedział.
Y uśmiechną się z politowaniem, co u X wywołało jeszcze większe wzburzenie.
- Wielkim śmieciem?
A teraz tak
X patrzył na Y z niedowierzaniem.
- Jesteś śmieciem - powiedział. Y uśmiechną się z politowaniem, co u X wywołało jeszcze większe wzburzenie.
- Wielkim śmieciem?
Oczywiście to jest bardzo prosty i stworzony et hoc przykład, ale jeżeli masz całą stronę dialogu, albo po ostatnim zdaniu dialogu zaczyna się połączony z nim akapit informacyjno-opisowy, to już po chwili zaczynasz się zastanawiać, co kto powiedział. Jeżeli do tego dołożysz możliwość, że w tym drugim przykładzie kropka pomiędzy słowami "powiedział" i "X" zostanie zmieniona na przecinek (a mylenie znaków interpunkcyjnych to w nawet najlepszych programach OCR to standard, to sens ulega całkowitemu wypaczeniu.
Inny jeszcze problem powstaje, gdy znika nam oznaczenie rozdzielenia (od siebie) akapitów - no bo OCR rozpoznał zamiast "twardego" akapitu akapit "miękki". Z bogiem sprawa, jak sprawa dotyczy akapitów opisujących tą samą scenę, ale jeżeli między nimi nastąpiła zmiana scen. Znowu trzeba się chwilę zastanowić, o co do diabła tu chodzi, i dlaczego o całkiem różnych sprawach mowa jest w jednym akapicie ciurkiem.
Dalej: W ABBYY PDF zaszyty jest silnik OCR ze starszych ciut wersji ABBY FineReadera. Sprawdź sobie ile razy przy translacji z pdf (scanu) ten program pomylił literę "O" z cyfrą 0, ile razy zamiast "I" masz cyfrę 1 czy zamiast np. "się w" masz "siew" ile razy zamiast "ale ja" masz "aleja" idt. Takich błędów (ich rodzajów) jest dużo więcej.
Odrębną sprawą są nazwy własne i szczególnie te obce. Jak np. masz w książce Niemca z nazwiskiem lub imieniem z "u" czy "o" umlałt, to ciekawy jestem ile razy to nazwisko zostało poprawnie odczytane. Ciekaw jestem jak wyglądają zamykające znaki cudzysłowia (o otwierające dość często są dobre). Jak jest ze standardem znaku dialogatora - chodzi mi tu o ten znaczek "-" przed dialogiem, bo może to być prosty myślnik, półpauza i pauza. Niewapne który, ale w całym ebooku powinien byń taki sam - a jest? Wcięcie pierwszego wersu akapitu i odstęp pierwszej litery wyrazu od wskaźnika dialogu też jest to samo - ech, chyba nie. A co z przypisami - szczególnie dolnymi, jeżeli oczywiście
są. Czy czasem nie sął totalnie porozjeżdżane. A jak jest nie daj Boże jakaś choćby minimalna grafika przy oznaczenia rozdziałów - to co się z nią dzieję? Totalny miszasz. A znaki "!" czy czasami nie są mylone z "l" i odwrotnie.
Można by tak jeszcze długo, albo i dłużej. Konkluzja jest jedna. Nie ma naprawdę skutecznego programu do konwersji scanów zapisanych jako pdf do formatów tekstowych - wyłączam tu z tego format txt, bo to jest de facto bark formatu
oczywiście. Jedyne wyjście własna żmudna praca i stosowanie programów do OCR, które zakładają współpracę z operatorem.
ABBYY PDF został stworzony do tego, by w biurach (szczególnie na zachodzie), w których jest mnóstwo scanerów czy kopiarek umożliwiających zapis do pdf można było szybko powrotnie przerzucić zawartość pdf'a do doc czy rtf. Jedna dwie no czasem trzy czy nawet cztery strony, ale nie trzysta, czy czterysta. Przy majłej liczbie stron, nie mówiąc już o dokumencie jednostronicowym większość ww problemów istotnie traci na znaczeniu, a ilość koniecznych poprawek jest do zaakceptowania.
Żeby nie było, że o tym nie wspomnieałem to można także przyjąć, że jak jest naprawdę dobrze zrobiony pdf, a plik ma być czytany na PDA, telefonie czy innym urządzeniu, które i tak dokonuje repaginacji, to większość opisanych powyżej problemów z edycją (nie dotyczy to błędów rozpoznania) traci dość mocno na znaczeniu.
Ale ta możliwość w miarę sensownego czytania na PDA nie rozwiązuje sprawy, bo w swym podstawowym założeniu ebooki winny być tak wykonane, by łatwo i bez strat można było je odtwarzać czy konwertować na różne platformy.
Ja nie polecałem ABBYY PDF Transformera v1, co to to nie. Ja napisałem, że z kilku wykonanych przeze mnie prób zarówno z wersją 1, jak i 2 w moim subiektywnym odczuciu mniej błędów i problemów edycyjnych miałem w przypadku wersji 1. Żadnego z tych programów ie polecam do konwersji pdf'ów, szczególnie tych robionych ze bezpośrednio ze scanóww.
@Brychoo - tiaaa, no tak, te pdf'y z Biblioteki (a przynajmniej większość z nich) zostały stworzone jako... konwersja doc czy rtf do pdf'a. Mają ustawione poprawne strony kodowe, zamarkowane czcionki i mnóstwo innych metadanych, o których w przypadku pdf'ów robionych ze scanów nawet nie ma co marzyć. Wystarczy tylko nie ta strona kodowa i pdf wyświetla Ci się dobrze, a w pliku tekstowym masz "krzaki" zamiast naszych ogonków.
A, i jeszcze jedno. Na samej górze forum, już nie pamiętam w którym dokładnie wątku (Chyba błędy w ebookach) jest zgłoszenie o straszenie spapranym ebooku Lovecrafta Zew Cthulh. Jest to właśnie wręcz akademicki przykład konwersji automatycznej - zobaczcie co z tego wyszło. Zaznaczam, że nie wiem jakim programem to było OCR-owane, ale na pewno był to automat. I jeszcze jedno, jak przy tym temacie: moje doświadczenie uczy mnie, że - poza naprawdę rzadkimi wyjątkami - jak ebook jest tylko w formacie doc, to w 90 procentach jest to niezła kaszana. Jest to po prostu surowy i niepoprawiony efekt automatycznego OCR.
Późno już jest, a ja się rozpisałem. Jak się trafią jakieś literówki czy bezsensowne sformułowania, to przepraszam, bo nie ma już siły sprawdzać tego long posta
Jak jutro zauważę, to pewnie poprawię w drodze edycji.
Chesuli