[web] - bloccare bot in htaccess

Forum dedicato alla programmazione.

Moderatore: Staff

Regole del forum
1) Citare in modo preciso il linguaggio di programmazione usato.
2) Se possibile portare un esempio del risultato atteso.
3) Leggere attentamente le risposte ricevute.
4) Scrivere i messaggi con il colore di default, evitare altri colori.
5) Scrivere in Italiano o in Inglese, se possibile grammaticalmente corretto, evitate stili di scrittura poco chiari, quindi nessuna abbreviazione tipo telegramma o scrittura stile SMS o CHAT.
6) Appena registrati è consigliato presentarsi nel forum dedicato.

La non osservanza delle regole porta a provvedimenti di vari tipo da parte dello staff, in particolare la non osservanza della regola 5 porta alla cancellazione del post e alla segnalazione dell'utente. In caso di recidività l'utente rischia il ban temporaneo.
Rispondi
Avatar utente
danix
Staff
Staff
Messaggi: 3287
Iscritto il: ven 27 ott 2006, 19:32
Nome Cognome: Danilo M.
Slackware: 64 current
Kernel: 5.4.43 x86_64
Desktop: i3
Località: Siderno (RC)
Contatta:

[web] - bloccare bot in htaccess

Messaggio da danix »

Ciao a tutti,
ho notato nei log di un sito che curo che uno spider è un po' troppo invadente, il suo user agent è panscient e volevo bloccarlo in qualche modo... siccome non da retta al robots.txt ho pensato di bloccarlo con l'htaccess, ma qui mi sono un attimo impantanato (non sono un guru)...

Questa è la direttiva che ho trovato dopo un po' di google:

Codice: Seleziona tutto

SetEnvIfNoCase User-agent "Panscient"
spammer=yes
<limin GET POST PUT>
Order allow,deny
deny from env=spammer
allow from all
</limit>
Il problema è che usando questa direttiva il server mi restituisce un bel 501... :( cosa ho sbagliato??

Sullo stesso sito dove ho trovato questa c'erano anche dei suggerimenti per bloccare l'ip o il range in cui opera questo bot, ma, se possibile, vorrei evitare di bloccare degli ip per non rischiare di tagliare fuori qualcuno che con il bot non ha nulla a che vedere...



Mi date una mano??
danix
myself ha scritto:non sono molto presente sul forum, e di ciò mi scuso con tutti

Avatar utente
danix
Staff
Staff
Messaggi: 3287
Iscritto il: ven 27 ott 2006, 19:32
Nome Cognome: Danilo M.
Slackware: 64 current
Kernel: 5.4.43 x86_64
Desktop: i3
Località: Siderno (RC)
Contatta:

Re: [web] - bloccare bot in htaccess

Messaggio da danix »

Mi rispondo da solo... ho googlato ancora un po' e ho trovato sulla reference di apache alcuni esempi, ne ho adattato uno in questo modo:

Codice: Seleziona tutto

SetEnvIfNoCase User-agent "^Panscient" bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot
e sembra funzionare, nel senso che posso accedere da browser al sito... resta però da vedere se il bot riuscirà ad accedervi ancora...

Aspetto qualche conferma e poi metto risolto... ;)


Ciau
danix
myself ha scritto:non sono molto presente sul forum, e di ciò mi scuso con tutti

Avatar utente
teox99
Linux 3.x
Linux 3.x
Messaggi: 738
Iscritto il: ven 25 lug 2008, 14:54
Slackware: 13.37
Desktop: KDE - Xfce
Località: Roma[Eur]
Contatta:

Re: [web] - bloccare bot in htaccess

Messaggio da teox99 »

ciao,
scusa la curiosita'... ma in che senso e' invadente?

Avatar utente
fanfani
Linux 0.x
Linux 0.x
Messaggi: 12
Iscritto il: lun 19 gen 2009, 16:59
Nome Cognome: amintore fanfani
Slackware: 12.2
Kernel: 2.6.27.7
Desktop: KDE
Contatta:

Re: [web] - bloccare bot in htaccess

Messaggio da fanfani »

puoi fare un test cambiando la stringa useragent del browser,
se non riesci a visualizzare il sito la cosa funziona.

ad es. con links da linea di comando

Codice: Seleziona tutto

$ links -fake-user-agent Panscient http://nome.sito.dom

Avatar utente
danix
Staff
Staff
Messaggi: 3287
Iscritto il: ven 27 ott 2006, 19:32
Nome Cognome: Danilo M.
Slackware: 64 current
Kernel: 5.4.43 x86_64
Desktop: i3
Località: Siderno (RC)
Contatta:

Re: [web] - bloccare bot in htaccess

Messaggio da danix »

teox99 ha scritto:ciao,
scusa la curiosita'... ma in che senso e' invadente?
nel senso che è molto pesante in termini di richieste e poi fa delle query che non esistono anche in directory in cui non dovrebbe guardare e che io ho bloccato con il robots.txt... In ogni caso, uno spider che non rispetta quel file andrebbe bloccato a priori...

@fanfani:
grazie della dritta, adesso provo... ;)
danix
myself ha scritto:non sono molto presente sul forum, e di ciò mi scuso con tutti

Rispondi