Zoom Icon

Users:lopoc/savedemauro

From UIC

é stato eliminato il dizionario De Mauro online. Vero esistono altri dizionari, forse anche più aggiornati, ma il De Mauro oltre ad avere quel nome è stato un pioniere.

Sto cercando di salvare il più alto numero possibile di lemmi (parole) del De Mauro.

L'idea è quella di scorrere tutti gli id corrispondenti ad ogni singola parola, un banale id incrementale, e dumparli dalla cache di g00gl3.

#!/bin/bash

s=`cat count`
for i in `seq $s 5000`;
        do
                wget --wait=5 --random-wait -U "Firefox on Ubuntu Gutsy: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.14) Gecko/20080418 Ubuntu/7.10 (gutsy) Firefox/2.0.0.14 " -O $i 209.85.229.132/search?q=cache:old.demauroparavia.it/$i
                echo $i > count
                if [ `du -b $i | awk '{ print $1}'` -lt 10000 ]; then
                        rm $i;
                fi
                sleep `expr $i % 59 + 3`
        done

edit 1: Ho messo un check per la dimensione del file, per eliminare tutti quei file che vengono salvati e non contegono voci...


Per iniziare a dumpare con criterio è opportuno:

scegliere uno slot di ID da scaricare ad esempio da 10000 a 11000;

si crea un file di nome count contenente ilvalore iniziale, nel nostro caso 10000;

modificare nello script il valore finale del seq nel nostro caso for i in `seq $s 11000`;

eseguire lo script.


Per evitare il ban da parte di g00gl3 è stato necessario inserire uno sleep abbastanza lungo fra ogni query. Con questo delay si ha una media di una query ogni 30 secondi, pari a 120 l'ora. Un po' lento, pertanto invito tutti quanti ad investire un po' di tempo in questo lavoro.

qui sotto è possibile inserire lo slot che si sceglie di scaricare.

1 - 5000 - Lopoc
5001 - 10000 - Lopoc
10001 - 15000 - Isazi
15001 - 20000 - cr
20000 - 24999 - wild
25000 - 29999 - wild
30000 - 34999 - lopoc
35000 - 30999 - ...

ecc ecc sono circa 144000 le voci.