eKsiążki
https://forum.eksiazki.org/

Zduplikowane fragmenty tekstu
https://forum.eksiazki.org/pomocna-dlon-f17/zduplikowane-fragmenty-tekstu-t16280.html
Strona 1 z 1

Autor:  Astes [ 04 lis 2016 13:39:54 ]
Tytuł:  Zduplikowane fragmenty tekstu

Biorąc pod uwagę ilość czytanych przeze mnie książek i ceny ebooków, coraz częściej muszę sięgać po książki z nie do końca legalnych źródeł. Niestety nie są one tak ładnie zredagowane jak kupne. Odpalam wtedy pluing do LibreOffice >perfectepub< i przed konwersją bawię się ustawiając tekst. Niestety ostatnio trafiłem na książkę, w której co jakiś czas powtarzają się pewne fragmenty tekstu. Czasem to wychwycę, ale niestety nie zawsze. Stąd moje pytanie. Jest może jakiś sposób na odnalezienie w tekście takich zdublowanych fragmentów?
Z góry dziękuje za pomoc.

Autor:  t3d [ 04 lis 2016 22:51:04 ]
Tytuł:  Re: Zduplikowane fragmenty tekstu

Coś mi się wydaje że czas i wysiłek wkładany w takie dłubaniny jest więcej wart niż opłata za abonament w Legimi :P
Tylko czytnik trzeba by zmienić...

Autor:  prorok2310 [ 04 lis 2016 23:15:02 ]
Tytuł:  Zduplikowane fragmenty tekstu

Biorąc pod uwagę ilość wypijanego przeze mnie alkoholu i ceny wódy, coraz częściej muszę sięgać po alkohol z przemytu. Niestety nie jest on tak wykwintny jak martini z filmu z Jamesem Bondem.
Nie dość, że jesteś złodziejem to jeszcze masz pretensje, że łupy są słabej jakości.
"Nie całkiem legalne źródła" to coś jak jesiotr drugiej świeżości. Nie ma czego takiego, albo coś jest legalne albo nielegalne, tertium non datur.

Autor:  Artii [ 05 lis 2016 14:11:38 ]
Tytuł:  Re: Zduplikowane fragmenty tekstu

no dobra koledzy zauważyli pewne sprawy z którymi się zgadzam :)

ale żeby nie było to spróbuje
adrem
zależy jakie fragmenty
jeśli na poziomie paragrafów powtórzonych toczka w toczkę,
to można by spróbować konwersje do txt
a potem pod linuxem
cat plik.txt |sort|uniq -d
co wypisze jakie paragrafy są do odstrzelenia.

jeśli jakoś inaczej to niestety chyba łatwego sposobu nie ma.
może jeszcze spróbować
wyszukaj regex-em w trybie dotAll
([^ ]+\s+[^ ]+\s+[^ ]+).*\1
który będzie wyszukiwał 3 wyrazowe powtórki, można zwiększyć ilość wyrazów przez duplikacje frazy "[^ ]+\s+"

acz nie liczył bym za bardzo, na dobre wyniki.


ps nie mam zamiaru tłumaczyć co tu zamieściłem, jeśli jest to dla ciebie czarna magia, to kup, nie będziesz wtedy tracił czasu.
Zastrzegam też to, że gdzieś może być jakiś błąd, napisałem te regułki i polecenia z pamięci i bez sprawdzania.

Strona 1 z 1 Wszystkie czasy w strefie UTC + 1 [czas letni (DST)]
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/