eKsiążki
https://forum.eksiazki.org/

pdf->mobi znacznik <p>
https://forum.eksiazki.org/calibre-f164/pdf-mobi-znacznik-p-t12451.html
Strona 1 z 1

Autor:  gangur [ 14 gru 2012 16:13:21 ]
Tytuł:  pdf->mobi znacznik <p>

Przejrzałem dość pobieżnie informacje o pdf mobi w tym dziale, ale nie doszukałem się rozwiązania.
Przy konwersji daję oczywiście usuwanie odstępów między akapitami itd, ale w treści co chwila linia jest 'łamana' w połowie zdania i strony.
Podejrzałem jak to wygląda w kodzie i problem jest ze znacznikami akapitów typu <p class="calibre_8"> który obejmuje po kilka słów i roi się od tego w tekście.
Jest na to jakiś prosty sposób, bądź może ktoś ma sprytne wyrażenie regularne, które usuwa takie znaczniki akapitu i ich zakończenia nie ruszając treści między nimi i akapitów o innej klasie?
Obrazek

Autor:  ellox [ 14 gru 2012 18:33:01 ]
Tytuł:  Re: pdf->mobi znacznik <p>

No to może spróbuj innego programu po prostu, mnie ostatnio pozytywnie zaskoczył Mobipocket Creator :).
No i tak swoją drogą, łatwiej byłoby pomóc posiadając ten plik, czy tam jedną stroną tego dokumentu. Może wytnij jakimś pdfsamem jedną stronę i udostępnij?

Autor:  Ackbar [ 14 gru 2012 21:08:54 ]
Tytuł:  Re: pdf->mobi znacznik <p>

Przekonwertuj najpierw pdf OCR-em, czy konwerterem do jakiegoś obrabialnego formatu DOC, RTF, ODT. A jeśli wtedy będa jakieś niepotrzebne akapity w tekście, to skorzystaj z wtyczki MyTXT cleaner pod LibreOffice, on je inteligentnie usunie. Potem juz tylko ręczne poprawki i zapis do przefiltrowanego html. A html pod Calibre do mobi.

Niestety nie ma żadnego pewnego programu, który przekonwertuje pdf do idealnej postaci. Zawsze po drodze należy mniej, czy bardziej coś poprawiać.

Autor:  fenuks [ 15 gru 2012 1:02:17 ]
Tytuł:  Re: pdf->mobi znacznik <p>

Ja robię tak, że konwertuję najpierw plik pdf przy domyślnych opcjach do epuba, a następnie z pliku epub do innych formatów. W Search & Replace (po polsku zapewne Szukaj & Zamień) wpisz jako wyrażenie:
Kod:
([\wąćęółńóśżź;:,—\(\)”"] ?)</p>\n?<p.*?>

a jako tekst do zamiany
Kod:
\1

To powinno pomóc jeżeli chodzi o paragrafy.
Możesz też użyć zmodyfikowanej wersji, które dodatkowo sprawdza, czy pierwsza litera nowego paragrafu jest mała.
Kod:
([\wąćęółńóśżź;:,—\(\)”"] ?)</p>\n?<p.*?>([a-ząćęółóńśżź;:,—\(\)])

Kod:
\1 \2

Autor:  Yemoon [ 15 gru 2012 10:09:18 ]
Tytuł:  Re: pdf->mobi znacznik <p>

Miałem dokładnie ten sam problem, w żaden sposób nie mogłem nic z tym zrobić. Dopiero jak użyłem starszej wersji Calibre 0.8.4, wszystko wyszło idealnie.

Autor:  gangur [ 16 gru 2012 23:20:36 ]
Tytuł:  Re: pdf->mobi znacznik <p>

Zaraz wszystko wypróbuję, dzięki :)
Co do wrzucenia pdf - nie ma sensu, bo to nie występuje tylko przy tym, a w zasadzie przy każdym. PDF jest tekstowy, więc OCR też zbędny.

edit:
Fenuks - dzięki bardzo, wyrażenie regularne pięknie śmiga.

Strona 1 z 1 Wszystkie czasy w strefie UTC + 1 [czas letni (DST)]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/