Teraz jest 23 lis 2024 5:05:53




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 6 ] 
pdf->mobi znacznik <p> 
Autor Wiadomość
Użytkownik

Dołączył(a): 28 lut 2008 0:42:16
Posty: 105
eCzytnik: Kindle Paperwhite
Post pdf->mobi znacznik <p>
Przejrzałem dość pobieżnie informacje o pdf mobi w tym dziale, ale nie doszukałem się rozwiązania.
Przy konwersji daję oczywiście usuwanie odstępów między akapitami itd, ale w treści co chwila linia jest 'łamana' w połowie zdania i strony.
Podejrzałem jak to wygląda w kodzie i problem jest ze znacznikami akapitów typu <p class="calibre_8"> który obejmuje po kilka słów i roi się od tego w tekście.
Jest na to jakiś prosty sposób, bądź może ktoś ma sprytne wyrażenie regularne, które usuwa takie znaczniki akapitu i ich zakończenia nie ruszając treści między nimi i akapitów o innej klasie?
Obrazek


14 gru 2012 16:13:21
Zobacz profil
Użytkownik
Avatar użytkownika

Dołączył(a): 02 kwi 2012 22:16:03
Posty: 35
eCzytnik: Kindle Classic
Post Re: pdf->mobi znacznik <p>
No to może spróbuj innego programu po prostu, mnie ostatnio pozytywnie zaskoczył Mobipocket Creator :).
No i tak swoją drogą, łatwiej byłoby pomóc posiadając ten plik, czy tam jedną stroną tego dokumentu. Może wytnij jakimś pdfsamem jedną stronę i udostępnij?


14 gru 2012 18:33:01
Zobacz profil
Użytkownik

Dołączył(a): 27 cze 2011 10:27:50
Posty: 76
eCzytnik: Kindle 3
Post Re: pdf->mobi znacznik <p>
Przekonwertuj najpierw pdf OCR-em, czy konwerterem do jakiegoś obrabialnego formatu DOC, RTF, ODT. A jeśli wtedy będa jakieś niepotrzebne akapity w tekście, to skorzystaj z wtyczki MyTXT cleaner pod LibreOffice, on je inteligentnie usunie. Potem juz tylko ręczne poprawki i zapis do przefiltrowanego html. A html pod Calibre do mobi.

Niestety nie ma żadnego pewnego programu, który przekonwertuje pdf do idealnej postaci. Zawsze po drodze należy mniej, czy bardziej coś poprawiać.


14 gru 2012 21:08:54
Zobacz profil
Użytkownik

Dołączył(a): 16 lip 2011 14:21:10
Posty: 133
eCzytnik: Kindle 3
Post Re: pdf->mobi znacznik <p>
Ja robię tak, że konwertuję najpierw plik pdf przy domyślnych opcjach do epuba, a następnie z pliku epub do innych formatów. W Search & Replace (po polsku zapewne Szukaj & Zamień) wpisz jako wyrażenie:
Kod:
([\wąćęółńóśżź;:,—\(\)”"] ?)</p>\n?<p.*?>

a jako tekst do zamiany
Kod:
\1

To powinno pomóc jeżeli chodzi o paragrafy.
Możesz też użyć zmodyfikowanej wersji, które dodatkowo sprawdza, czy pierwsza litera nowego paragrafu jest mała.
Kod:
([\wąćęółńóśżź;:,—\(\)”"] ?)</p>\n?<p.*?>([a-ząćęółóńśżź;:,—\(\)])

Kod:
\1 \2


15 gru 2012 1:02:17
Zobacz profil
Użytkownik

Dołączył(a): 13 sty 2012 15:38:29
Posty: 18
eCzytnik: iRiver HD
Post Re: pdf->mobi znacznik <p>
Miałem dokładnie ten sam problem, w żaden sposób nie mogłem nic z tym zrobić. Dopiero jak użyłem starszej wersji Calibre 0.8.4, wszystko wyszło idealnie.

_________________
Moje książki:
http://virtualo.pl/ernest_filak/a44669/
na amazonie:
http://www.amazon.com/s/ref=la_B0085I22 ... nest+Filak


15 gru 2012 10:09:18
Zobacz profil
Użytkownik

Dołączył(a): 28 lut 2008 0:42:16
Posty: 105
eCzytnik: Kindle Paperwhite
Post Re: pdf->mobi znacznik <p>
Zaraz wszystko wypróbuję, dzięki :)
Co do wrzucenia pdf - nie ma sensu, bo to nie występuje tylko przy tym, a w zasadzie przy każdym. PDF jest tekstowy, więc OCR też zbędny.

edit:
Fenuks - dzięki bardzo, wyrażenie regularne pięknie śmiga.


16 gru 2012 23:20:36
Zobacz profil
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 6 ] 


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 2 gości


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron