Search Engine Spam Introduzione ed elementi di base

Pagina creata da Vincenzo Romeo
 
CONTINUA A LEGGERE
Search Engine Spam Introduzione ed elementi di base
UNIVERSITÀ               DEGLI STUDI              DI    NAPOLI – FEDERICO II
             FACOLTÀ   DI   SOCIOLOGIA - CORSO   DI   LAUREA   IN   CULTURE DIGITALI   E   DELLA COMUNICAZIONE

 Search Engine Spam
 Introduzione ed elementi di base

Elementi di informatica e web – a.a. 2012/2013                                                                   di Guido Fusco
Search Engine Spam Introduzione ed elementi di base
Le attività di SPAM                                	
  

  Per affermare il proprio brand o servizio all’interno di un sito web, si fa di tutto per
  raggiungere a tutti i costi la cima delle SERP, tentando a volta di utilizzare tecniche SEO poco
  corrette. Queste tecniche hanno il solo scopo di ingannare i motori di ricerca sfruttando le
  imprecisioni degli algoritmi di posizionamento. Lo scopo è sempre lo stesso: cercare di
  generare più traffico possibile dai motori di ricerca

                                  Il Search Engine Spam (SES) anche chiamato web spam o
                                  spamdexing riguarda l’uso di qualsiasi tecnica che cerca di
                                  ingannare i motori di ricerca allo scopo di ottenere un
                                  posizionamento migliore.

  E’ bene dunque conoscere le tecniche che bisognerebbe evitare per condurre un
  progetto SEO “pulito” i principali filtri applicati dai motori di ricerca (alcuni solo “teorici”
  senza nessuna conferma matematica) che potrebbero scaturire in una penalizzazione,
  ovvero in un declassamento di posizione di un sito web nella SERP o addirittura la rimozione
  dall’indice.
Search Engine Spam Introduzione ed elementi di base
Le panalizzazioni                                   	
  

   Per proteggere la qualità del suo indice, Google applica penalizzazioni per l’individuazione
   di pagine sospette e per il riconoscimento di tentativi di posizionamento non conformi alle
   linee guida.

   q esclusione dall’indice

       esclusione permanente: il sito è completamente escluso dall’indice con la possibilità
       di non farvi ritorno.

       esclusione temporanea: In questo caso Google può notificare ai progettisti del sito la
       temporanea rimozione e il tipo di non conformità. Il progettista, può quindi procedere
       alla correzione dei problemi rilevati.
       Il reinserimento di un sito richiede tempi variabili. La prima esclusione temporanea può
       avere una durata massimo di 30 giorni. Si ritiene che il timespam delle esclusioni si
       sviluppi secondo la progressione di 30 giorni, 60 giorni, 90 giorni
Search Engine Spam Introduzione ed elementi di base
Le panalizzazioni (II)                                   	
  

   q Penalità sulla posizione nelle SERP

        Generalmente questo tipo di penalizzazione è chiamato –N penality dove N è la
        posizione nella SERP sopra la quale il sito (o parte delle sue pagine) non compare. In
        questi termini, sono stati riconosciuti vari livelli di penality

                                             -6, -30, -60, -90, -950

         Con una penality di -30, il dominio è escluso dalle prime tre pagine dei risultati per
         qualsiasi parola chiave, anche quella del dominio stesso

    q Diminuzione del PageRank

        Infine questo tipo di penalizzazione comporta una penalizzazione (diminuzione) del
        PageRank di una o più pagine del sito
Search Engine Spam Introduzione ed elementi di base
Le panalizzazioni (II)

                         Tecniche che portano a
                             penalizzazioni
 
SES: Duplicazione dei contenuti. Shadow e mirror domain

  Per contenuti duplicati, intendiamo la possibilità di avere nel web porzioni di testo molto simili
  o addirittura identici consultabili da URL o domini differenti. Questo è uno dei problemi
  principali che affligge i motori di ricerca, in quanto è probabile che un documento
  indicizzato risulti presente sul web in un’altra forma

  motori di ricerca stanno iniziando ad adottare delle tecniche che consentono d’individuare
  l’origine del testo, al sua “età” e quindi stabilire se si tratta o meno di un contenuto duplicato

   La tecnica dello shadow domain consiste nel registrare un dominio ombra, creato
   appositamente per attirare traffico, grazie alle keyword presenti sul nome dominio stesso.
   Tale traffico viene poi ridiretto su un altro sito.
   Talvolta i contenuti dello shadow domain sono interamente replicati da quelli del dominio
   principale; in questo caso si parla di mirror domain. In entrambi i casi le sanzioni variano da
   forti penalizzazioni di rankink all’esclusione dall’indice
SEM:Keyword Stuffing                             	
  

  Il keyword stuffing, consiste nell’eccesivo ricorso alle parole chiave. Tale abuso è
  attualmente caduto in disuso rispetto al passato, quando le parole chiave venivano ripetute
  ossessivamente in ogni punto della pagina al fine di aumentare la rilevanza o addirittura
  venivano create pagine (doorway pages) con contenuto invisibile composto dalle sole
  keyword.

  L’azienda     joy    produce   camicie    di   alta   qualità.     Le   nostre   camicie
  rispettano i più alti livelli qualitativi. Camicie uniche. Camicie di
  qualsiasi colore. Produzioni di camicie. Vendiamo camicie per cerimonia.
  Camicie in lino. Camicie in tessuto. Le nostre camicie durano nel tempo.

  Il freno a tale pratica è stato posto dall’introduzione negli algoritmi di elementi che
  calcolano il keyword pattern, ovvero un’analisi testuale di valutare ila normale distanza tra
  che le     keyword devono avere l’una dall’altra per formare un testo coerente e
  semanticamente corretto.
SES: testo nascosto o troppo piccolo               	
  

   Lo scopo del testo nascosto è quello di essere perfettamente visibile agli spider dei motori di
   ricerca, ma non per i visitatori. I motori di ricerca considerano l’uso di dei testi nascosti come
   una tecnica ingannevole, in modo del tutto analoga al keyword stuffing

   Lo scrivere il testo caratteri molto piccoli è un altro modo per cercare di migliorare la densità
   delle parole chiave. Tutti i browser visualizzeranno il testo utilizzando un fonti ad esempio di 1
   px, che posizionato in particolare zone della pagina lo renderà pressappoco invisibile
   all’utente
SES: Cloaking                                      	
  

  La tecnica dello cloaking consiste nel presentare i contenuti a seconda dell’user agent che
  ne fa richiesta.

  Ovvero consiste nella presentazione agli spider della versione ottimizzata di un sito, che
  quando viene invece visualizzata dall’utente appare in modo del tutto diversa

  Per ogni agent (visitatore) che arriva sul sito che utilizza cloaking, si verifica l’indirizzo IP
  proveniente dalla richiesta http, per determinare se si tratta di uno spider o di una persona.
  A seconda della tipologia di visitatore, vien fornita una pagina specifica.

  Osservazione:
  Esistono però dei motivi del tutto legittimi per fornire contenuti differenti a seconda
  dell’indirizzo IP di provenienza della richiesta. Uno può riguardare la targhettizzazione dei
  contenuti i base all’are geografica
SES: Doorrway pages                               	
  

   La tecnica dello doorway pages consiste nella costruzione di pagine web ottimizzate per i
   motori di ricerca e non per gli utenti con lo scopo di aumentare il traffico verso un
   determinato sito.

   Il meccanismo prevede nella maggior parte dei casi, la creazione, mediante appositi tool,
   di pagine autogenerate e focalizzate su un’unica keyword o frase keyword, prive di senso
   logico e di alcuna utilità, che se cliccate ridirigono alla pagina del sito sul quale si vuole
   creare traffico. L’uso di questo termine ha assunto ormai un accezione negativa per via
   dell’indentificazione di fare cloaking

   Osservazione:

   Anche in questo caso ci sono però delle eccezioni. Ovvero è possibile creare delle doorway
   page in modo limpido, attraverso delle pagine di reale utilità per l’utente, di argomento
   attinente al sito principale. In questo modo da aumentare la link popularity del sito
Filtro contro le link farm ed eccesso di back link   	
  

   Le link farm sono delle pagine dove sono ammucchiati centinaia di link di ogni tema e
   specie.

   L’acquisto di link e la partecipazione massima a questo scambio è la maniera migliore per
   essere penalizzati. Infatti un eccesso di back link da parte di una link farm risulterebbe agli
   occhi del motore del tutto innaturale.

   Osservazione
   Per quanto riguarda la vendita di link, sono state fatte dichiarazioni da parte di Google che
   afferma che l’azienda non vuole imporre le sue regole, ma vuole dare dei consigli in merito
   alla vendita di link.

   In merito ad un banner pubblicitario (che viene considerato un link a pagamento) sarebbe
   utile di fare in modo che il banner non abbia influenza sul motore (ovvero non distribuisca
   PageRank)
Google Panda update                                                  	
  

                                           Google Panda Update (Google Farmer Update) è un nuovo algoritmo,
                                           una nuova formula, con cui Google ha deciso di cambiare le variabili
                                           con le quali stabilisce le classifiche dei siti all'interno dei suoi risultati di
                                           ricerca.

                                           L'obiettivo ufficiale dichiarato da Google e dai suoi esperti per
                                           l'avvio di questo nuovo cambiamento di algoritmo, è togliere dai
                                           risultati di ricerca tutti quei siti che forniscono contenuti "sottili",
                                           scarsi, che non danno reale valore ed utilità immediata al lettore.

     Di notevole importanza è la tempistica con cui avvengono gli update di questo
     algoritmo. Google Panda infatti non “lavora in tempo reale” ma attraverso updates
     “occasionali”.

       •    11 febbraio 2011 (Attivazione) sul mercato nordamericano
       •    11 aprile 2011 (Panda 2.0) ha esteso l'efficacia di questo algoritmo a tutti i siti del
            mondo che parlano l'inglese.
       •    12 agosto: Google Italia annuncia l’ingresso di Google Panda per i siti in Italiano
 h#p://www.seomoz.org/google-­‐algorithm-­‐change#2011	
  
Elementi Critici dell’algoritmo                        	
  

                          •   Qualità dei contenuti

                          •   Usabilità dei contenuti (layout, disposizione di contenuti e
                              dell’advertising, etc.)
                          •   Sovra-ottimizzazione SEO (es. innaturalezza dei backlinks, anchor-
                              text, ottimizzazione eccessiva on-page, etc.)

                          •   Altri fattori SEO minori (es. la velocità del sito, il bounce rate, i tempi di
                              permanenza, la qualita’ e affidabilita’ dei links esterni, etc.)

                              Google Panda Update ha rappresentato un cambiamento storico.
                              Un cambiamento che ci segnala la “direzione” dove si stanno
                              volgendo le nuove strategie dell’engine search per il futuro.
Analisi sugli algoritmi dei motori di ricerca                                                                           	
  

  Negli anni (1998 ad oggi)                                              gli algoritmi con cui i motori di ricerca (Google) hanno avuto
  numerose metamorfosi. Sostanzialmente li possiamo raggruppare i 4 grosse macro voci(1)

 q CONTENUTI E SAMANTICA (fattori di contenuto): keywords, codice HTML. Correlazione
       semantica, duplicazione contenuti…

 q LINK POPULARITY (fattori quantitativi): page rank, quantità di links, percentuali di anchor
       text…

 q TRUST & AUTORITY (fattori qualitativi): trustrank, qualità dei links, analisi storica del domino…

 q DEFANCE & PENALTY (fattori opposti): contenuti SPAM , Penalizzazioni algoritmiche

  (1)	
  h#p://www.wmtools.com/news/posizionamento-­‐motori/seo-­‐il-­‐futuro-­‐dei-­‐motori-­‐di-­‐ricerca-­‐video-­‐del-­‐webinar-­‐con-­‐gt	
  
 
Esame storico degli algoritmi dei motori di ricerca (1998-2003)

                                           •       Dal 1998 al 2000 i contenuti la fanno da padrone. Quando
                                                   si parla di contenuti s’intendeva come inserire Keywords
                                                   all’interno delle pagine, dove la tecnica di keywords
                       Fattore rilevante
                                                   stuffing la faceva da padrona.

                                               •   La link Populariry prende il volo con il brevetto
                                                   dell’algoritmo del Page Rank nel 2001 da parte di Google.
                                                   Tutti gli altri motori seguiranno questa scia

                                               •   Gli algoritmi di Trust-Autority e quelli relativi alla Defence-
                                                   Penalty sono pressoché inesistenti.

     FATTORE RILEVANTE
     Passaggio dagli algoritmi basati sui contenuti (non semantici) a quelli basati sulla links
     populariry
 
Esame storico degli algoritmi dei motori di ricerca (2003-2008)

                                                                      •    Dal 2003 al 2008 il trend
                                                                          negativo dell’importanza dei
                                                                          contenuti continua
                                                                      •   Dal 2003 al 2008 la link
                                                                          popularity non è più sufficiente
                                                                          a determinare buone posizioni
                                                                          nelle SERP, ne tantomeno
                                                                          contrastare le nuove tecniche
                                                                          di SEO Spamming

                                                                  •       Per contrastare il fenomeno si
                                                                          implementano nuovi algoritmi
                                                                          di TrustRank

 •   Essendo il fattore Trust, un elemento fondamentale, i SEO si catapultano alla caccia di siti
     scaduti (che avevano una buona autority) per iniziare a fare SPAM ENGINE. Gli algoritmi di
     Defence e Penalty iniziano a concentrarsi non più sulle keywords ma sulle matrici di links
Combating web spam with TrustRank        	
  

                     h#p://www.vldb.org/conf/2004/RS15P3.PDF	
  
 
Esame storico degli algoritmi dei motori di ricerca (2003)-2008

                                                                      •    Dal 2003 al 2008 il trend
                                                                          negativo dell’importanza dei
                                                                          contenuti continua

                                              Fattore rilevante
                                                                      •   Dal 2003 al 2008 la link
                                                                          popularity non è più sufficiente
                                                                          a determinare buone posizioni
                                                                          nelle SERP, ne tantomeno
                                                                          contrastare le nuove tecniche
                                                                          di SEO Spamming

                                                                  •       Per contrastare il fenomeno si
                                                                          implementano nuovi algoritmi
                                                                          di TrustRank

 •   Essendo il fattore Trust, un elemento fondamentale, i SEO si catapultano alla caccia di siti
     scaduti (che avevano una buona autority) per iniziare a fare SPAM ENGINE. Gli algoritmi di
     Defence e Penalty iniziano a concentrarsi non più sulle keywords ma sulle matrici di links
     FATTORE RILEVANTE
     Links popularity sempre importante, ma si inizia a concentrarsi sul trust e autority del sito
     web
 
Esame storico degli algoritmi dei motori di ricerca (2008-2011)

                                                                                        •    Dal 2008 al
                                                                                            2011 il trust e la
                                                                                            link populariry
                                                                                            r e s t a n o
                                                                                            sempre fattori
                                                                                            determinanti

                                                                                    •       Gli algoritmi di
                                                                                            p e n a l t y
                                                                                            aumentano. Le
                                                                                            penalizzazioni
                                                                                            sono all’orine
                                                                                            del giorno

     •   I contenuti (intesi quelli semantici) iniziano la loro scalata nell’importanza del ranking delle
         SERP
Fase di rifasatura                                        	
  

                                                                       Fattore RIFASATURA

                                                                          	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  

       FATTORE RIFASATURA O EQUILIBRIO
  •     contenuti (intesi quelli semantici) importanti.
   •    Algoritmi di Penalty severi e recuperare le posizioni precedenti risulta un impresa
        pressoché impossibile
Fase di rifasatura degli algoritmi di Google   	
  

                                                      Fattore RIFASATURA

                                                         	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  

     Importanza dei contenuti

     Algoritmi di defense
L’intervento fattore umano: I quality raters          	
  

                                               ALLORA??

  A parte i noti problemi già noti come: la duplicazione dei contenuti, tag excess, che
  causavano e causano ancora notevoli penalizzazioni, oggi è molto difficile giudicare la
  qualità di un sito. Serve qualcosa di più avanzato, che va ben oltre della scansione
  algoritmica.

                               Il	
  fa#ore	
  umano	
  
  Quality	
  Raters	
  
                          - Sono persone in carne ed ossa (no spiders, ne’ “bot”)
                          - Navigano nelle pagine del ns. sito per “valutarne” la “bonta’”
                          - La “bonta’” e’ decisa seguendo “precise regole” (dettate dai motori)
                          - Questi quality raters compilano precisi moduli di valutazione, seguendo
                          precisi schemi pre-confezionati

                                        La qualità viene valutata mediante una valutazione
                                        mixata (algoritmo-uomo)
Licenza Creative Commons
                                                         	
  
      Il presente materiale è pubblicato con licenza Creative Commons 3.0 Italia

              “Attribuzione - Non commerciale - Condividi allo stesso modo”

                           http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it
Puoi anche leggere