Teraz jest 24 kwi 2024 3:27:01




Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 4 ] 
Zduplikowane fragmenty tekstu 
Autor Wiadomość
Użytkownik

Dołączył(a): 13 mar 2011 18:30:12
Posty: 30
Lokalizacja: Dobroń
eCzytnik: kindle 3 WiFi, Kindle Paperwhite II
Post Zduplikowane fragmenty tekstu
Biorąc pod uwagę ilość czytanych przeze mnie książek i ceny ebooków, coraz częściej muszę sięgać po książki z nie do końca legalnych źródeł. Niestety nie są one tak ładnie zredagowane jak kupne. Odpalam wtedy pluing do LibreOffice >perfectepub< i przed konwersją bawię się ustawiając tekst. Niestety ostatnio trafiłem na książkę, w której co jakiś czas powtarzają się pewne fragmenty tekstu. Czasem to wychwycę, ale niestety nie zawsze. Stąd moje pytanie. Jest może jakiś sposób na odnalezienie w tekście takich zdublowanych fragmentów?
Z góry dziękuje za pomoc.


04 lis 2016 13:39:54
Zobacz profil
Admin

Dołączył(a): 13 cze 2008 14:47:02
Posty: 2835
Lokalizacja: Gdańsk
eCzytnik: kindle
Post Re: Zduplikowane fragmenty tekstu
Coś mi się wydaje że czas i wysiłek wkładany w takie dłubaniny jest więcej wart niż opłata za abonament w Legimi :P
Tylko czytnik trzeba by zmienić...

_________________
Zgred - Rafał Ziemkiewicz napisał(a):
Dziś trzeba pisać o mieczach, czarach, toporach i wojowniczkach w blaszanych bikini, wszystko inne to już jest nisza w niszy. Albo o nastoletnich wampirach.
Porównywarka cen ebooków


04 lis 2016 22:51:04
Zobacz profil WWW
Użytkownik

Dołączył(a): 12 gru 2009 17:37:05
Posty: 24
Post Zduplikowane fragmenty tekstu
Biorąc pod uwagę ilość wypijanego przeze mnie alkoholu i ceny wódy, coraz częściej muszę sięgać po alkohol z przemytu. Niestety nie jest on tak wykwintny jak martini z filmu z Jamesem Bondem.
Nie dość, że jesteś złodziejem to jeszcze masz pretensje, że łupy są słabej jakości.
"Nie całkiem legalne źródła" to coś jak jesiotr drugiej świeżości. Nie ma czego takiego, albo coś jest legalne albo nielegalne, tertium non datur.


04 lis 2016 23:15:02
Zobacz profil
Użytkownik

Dołączył(a): 27 mar 2014 2:17:52
Posty: 540
eCzytnik: PB Mini, czasem InkBook
Post Re: Zduplikowane fragmenty tekstu
no dobra koledzy zauważyli pewne sprawy z którymi się zgadzam :)

ale żeby nie było to spróbuje
adrem
zależy jakie fragmenty
jeśli na poziomie paragrafów powtórzonych toczka w toczkę,
to można by spróbować konwersje do txt
a potem pod linuxem
cat plik.txt |sort|uniq -d
co wypisze jakie paragrafy są do odstrzelenia.

jeśli jakoś inaczej to niestety chyba łatwego sposobu nie ma.
może jeszcze spróbować
wyszukaj regex-em w trybie dotAll
([^ ]+\s+[^ ]+\s+[^ ]+).*\1
który będzie wyszukiwał 3 wyrazowe powtórki, można zwiększyć ilość wyrazów przez duplikacje frazy "[^ ]+\s+"

acz nie liczył bym za bardzo, na dobre wyniki.


ps nie mam zamiaru tłumaczyć co tu zamieściłem, jeśli jest to dla ciebie czarna magia, to kup, nie będziesz wtedy tracił czasu.
Zastrzegam też to, że gdzieś może być jakiś błąd, napisałem te regułki i polecenia z pamięci i bez sprawdzania.


05 lis 2016 14:11:38
Zobacz profil
Wyświetl posty nie starsze niż:  Sortuj wg  
Utwórz nowy wątek Odpowiedz w wątku  [ Posty: 4 ] 


Kto przegląda forum

Użytkownicy przeglądający to forum: Brak zalogowanych użytkowników i 1 gość


Nie możesz rozpoczynać nowych wątków
Nie możesz odpowiadać w wątkach
Nie możesz edytować swoich postów
Nie możesz usuwać swoich postów

Skocz do:  
cron