Re: Zduplikowane fragmenty tekstu
no dobra koledzy zauważyli pewne sprawy z którymi się zgadzam
ale żeby nie było to spróbuje
adrem
zależy jakie fragmenty
jeśli na poziomie paragrafów powtórzonych toczka w toczkę,
to można by spróbować konwersje do txt
a potem pod linuxem
cat plik.txt |sort|uniq -d
co wypisze jakie paragrafy są do odstrzelenia.
jeśli jakoś inaczej to niestety chyba łatwego sposobu nie ma.
może jeszcze spróbować
wyszukaj regex-em w trybie dotAll
([^ ]+\s+[^ ]+\s+[^ ]+).*\1
który będzie wyszukiwał 3 wyrazowe powtórki, można zwiększyć ilość wyrazów przez duplikacje frazy "[^ ]+\s+"
acz nie liczył bym za bardzo, na dobre wyniki.
ps nie mam zamiaru tłumaczyć co tu zamieściłem, jeśli jest to dla ciebie czarna magia, to kup, nie będziesz wtedy tracił czasu.
Zastrzegam też to, że gdzieś może być jakiś błąd, napisałem te regułki i polecenia z pamięci i bez sprawdzania.