Teraz jest 26 lis 2024 3:51:38




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 8 ] 
Jak podczas konwersji usunąć numery stron z pdf/doc ? 
Autor Wiadomość
Użytkownik

Dołączył(a): 05 gru 2009 15:55:27
Posty: 42
eCzytnik: Sony PRS-350, Kundel PW
Post Jak podczas konwersji usunąć numery stron z pdf/doc ?
Witam,
Mam taki problem - w niektórych (żeby nie napisać większości) skanów na dole każdej strony znajdują się numery stron.
Jeżeli jest to skan - wtedy BookDesigner 4.0 automatycznie je usuwa przy konwersji (ja konwertuje do formatu *.lrf -do czytania używam PRS-300). Niestety jeśli tekst jest już obrobiony (OCR) - wtedy przy konwersji numery stron pojawiają się w przerwach w tekście - co jest dość uciążliwe podczas czytania (mam nadzieję, że zrozumiecie o co mi chodzi :D ).
Czy jest jakaś automatyczna metoda umożliwiająca podczas konwersji usuwanie numerów stron z takich plików (pdf, doc, rtf, txt - bez różnicy)?
Może jakiś inny program (chociaż BookDesigner działa bez zarzutu ...)
Prośba o pomoc - może jest na to jakiś prosty sposób.
Pozdrawiam,
Wudek


13 lut 2010 23:17:18
Zobacz profil
Mod
Avatar użytkownika

Dołączył(a): 16 lip 2007 16:39:15
Posty: 693
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
Nie wiem, co konkretnie masz na myśli, pisząc o numerach stron. Jeśli dokument był wyedytowany w Wordzie i nr stron zostały dodane tam za pomocą narzędzia numeracji stron, to rozwiązanie tego problemu podane jest TUTAJ.

Jeśli natomiast chodzi Ci o usunięcie nr stron, które "dostały się" do dokumentu w wyniku skanowania i OCR'owania, to ja nie znam innej metody, jak poniższa:

1. Odpalasz dokument w Wordzie.
2. Klikasz na Edycja --> Znajdź.
3. Zaznaczasz Wyróźnij wszystkie elementy znalezione w:.
4. Zaznaczasz Użyj symboli wieloznacznych (dostępne po kliknięciu na Więcej, otwierającej opcje zaawansowane).
5. W polu Znajdź wpisujesz dokładnie to (z kwadratowymi nawiasami włącznie): [0123456789]
6. Klikasz na Znajdź wszystkie.

Zaznaczy Ci wszystkie cyfry i liczby występujące w dokumencie.

7. Zamykasz okno wyszukiwania klikając na Zamknij.
8. Wciskasz klawisz (no jaki? ;) ) Del - i usuwa Ci wszystkie liczby z dokumentu.

Metoda niedoskonała, bo usuwa poza numerami stron wszystkie liczby, ale jeśli nie czytasz zbioru zadań z matematyki, nie powinno to znacząco wpłynąć na jakość tekstu :)

W zasadzie dokumenty takie bywają sformatowane pod wyświetlanie na ekranie komputera (najczęściej pod Wordem) dlatego po procesie usuwania numerków warto jeszcze usunąć puste linie, co trochę poprawia wygląd dokumentu. Robisz to klikając na Edycja --> Znajdź. W polu Znajdź: wpisujesz ^p^p (wyszukiwanie dwukrotnych znaków końca akapitu) a w polu Zamień na ^p (scali to lekko dokument, tak, że po konwersji nie będzie miał "pustych" miejsc, lub stron zapełnionych do połowy, kończących się w pół zdania :) ) Na koniec klikasz na Zamień wszystko i... po ptokach ;)

Przy mojej, raczej laickiej, wiedzy na temat obsługi Worda, nic więcej pomóc nie mogę.

_________________
Cytuj:
"Z książkami jest tak samo jak z ludźmi: tylko niewielka część odgrywa dużą rolę, reszta gubi się w wielości."

Gregory Benford - "Zagrożenie Fundacji"


Cytuj:
"Out in the oceans of sand
I saw the future
Of a golden land
Below the plains
I've been meeting my fate
I stood the test
The universe
In the palm of my hand
Oh, am I blessed
Or cursed "


Savage Circus "Legend of Leto II"


14 lut 2010 3:01:08
Zobacz profil
Użytkownik

Dołączył(a): 05 gru 2009 15:55:27
Posty: 42
eCzytnik: Sony PRS-350, Kundel PW
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
Cytuj:
Metoda niedoskonała, bo usuwa poza numerami stron wszystkie liczby, ale jeśli nie czytasz zbioru zadań z matematyki, nie powinno to znacząco wpłynąć na jakość tekstu


Dzięki wielkie za info - to prawda - lepsze to niż nic.
Szkoda tylko właśnie, że usunie daty, liczby co też skomplikuje czytanie.
Do wyboru - albo przerzucać częściej strony poprzedzielana numerkami - albo domyślać się co dodatkowo nam się skasowało ...

Pozdr,
Wudek


14 lut 2010 14:28:17
Zobacz profil
Użytkownik

Dołączył(a): 16 lut 2009 22:43:24
Posty: 9
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
Wyszukiwanie można udoskonalić. Zwykle, przy numerach stron, będą podobnie umiejscowione białe znaki, czy inne śmieci powstałe od "oceera" (dosyć dawno z tego nie korzystałem, ale chyba jakoś tak to leciało), np:
Kod:
[^12][0123456789][^12]

Powinno odszukać wszystkie cyfry w nowych wierszach. Polecam zobaczyć jak wyglądają numery strony w edytowanym pliku (w jaki sposób łamią się wiersze, czy są jakieś spacje, tabulatury przed czy po numerze strony) i następnie dodanie tych artefaktów w odpowiednim miejscu do pola szukania. Może sposób wymaga, zwłaszcza na początku, trochę zaangażowania, ale zdobyta wiedza nie raz się przyda. Po więcej odsyłam do pomocy.


15 lut 2010 17:48:58
Zobacz profil
Użytkownik

Dołączył(a): 22 sty 2011 0:38:12
Posty: 64
Lokalizacja: Ruda Śląska
eCzytnik: Kindle 3 Wi-Fi
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
A co zrobić jeśli za numerem strony mam enter?
[kod]
Około jedenastej liczba nagłych przypadków się zmniejszyła. Zrobił obchód i sprawdził stan przyjętych pacjentów,

9

a potem wycofał się do pokoju wypoczynkowego, żeby się chwilę odprężyć. Jego dyżur kończył się o szóstej rano. Rzadko sypiał, nawet jeśli nie było żadnych nagłych przypadków, ale akurat tej nocy niemal natychmiast zapadł w drzemkę.
[/kod]

Chciałbym się tej dziewiątki i kolejnych pozbyć, ale wpisanie [0-9]^v wywala ze nie ma takich wyrażeń, tak samo jak ^#^v, jeśli natomiast za ^v wstawię ? to znajduje ale...za dużo, a wolałbym jednak zostawić daty i pozostałe liczby w książce, dlatego metoda muaddib2, mimo że skuteczna, to odpada. Nakierujcie mnie proszę, jak to usunąć, i scalić tekst?


21 lut 2011 15:44:41
Zobacz profil
Użytkownik

Dołączył(a): 03 sty 2011 23:54:34
Posty: 56
eCzytnik: Kindle 3G
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
w officowym wordzie

dla jedno znakowych
^13([0-9])^13^13
dla dwuznakowych numerów stron
^13([0-9])([0-9])^13^13
i zamieniasz na np znak spacji
żeby działało w opcjach wyszukiwania musisz mieć zaznaczone "użyj symboli wieloznacznych"

generalnie ^13 oznacza znak końca linii (enter). W wordzie włącz sobie wyświetlanie znaków formatowania to zobaczysz co gdzie jest i powyższe zapytania możesz dostosować dodając lub usuwając poszczególne składniki.

A jak zaczynasz z pdfa do prościej użyć pdfscissors, lub pdftoepub wycinając numery ustawieniem obszaru pobrania. (W abby FR też można to zrobić) ustawiając szablon bloków


21 lut 2011 22:23:40
Zobacz profil
Admin
Avatar użytkownika

Dołączył(a): 11 lip 2007 19:38:54
Posty: 3266
Lokalizacja: Kraków
eCzytnik: eClicto, iPad, K3 WiFi, K4
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
Prawdopodobnie lepszą alternatywą dla powyższego jest:
Kod:
^13[0-9]{1;6}^13^13

Przynajmniej nie trzeba się martwić wielocyfrowymi liczbami osobno (limit do 6 cyfr).

_________________
Cytuj:
Muad'Dib uczył się prędko, ponieważ najpierw przeszedł szkolenie jak się uczyć. A najpierwszą ze wszystkich otrzymał lekcję podstawowej wiary, że może się nauczyć. Szokuje odkrycie, jak wielu ludzi nie wierzy, że mogą się nauczyć, a o ile więcej uważa, że nauka jest trudna.


21 lut 2011 22:32:14
Zobacz profil WWW
Użytkownik

Dołączył(a): 22 sty 2011 0:38:12
Posty: 64
Lokalizacja: Ruda Śląska
eCzytnik: Kindle 3 Wi-Fi
Post Re: Jak podczas konwersji usunąć numery stron z pdf/doc ?
Dziękuje :) Istnieje gdzieś lista tych symboli? Bo jestem ślepy, albo w helpie brak.


21 lut 2011 22:33:58
Zobacz profil
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 8 ] 


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 1 gość


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron