Search Engine Spam Introduzione ed elementi di base
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
UNIVERSITÀ DEGLI STUDI DI NAPOLI – FEDERICO II FACOLTÀ DI SOCIOLOGIA - CORSO DI LAUREA IN CULTURE DIGITALI E DELLA COMUNICAZIONE Search Engine Spam Introduzione ed elementi di base Elementi di informatica e web – a.a. 2012/2013 di Guido Fusco
Le attività di SPAM Per affermare il proprio brand o servizio all’interno di un sito web, si fa di tutto per raggiungere a tutti i costi la cima delle SERP, tentando a volta di utilizzare tecniche SEO poco corrette. Queste tecniche hanno il solo scopo di ingannare i motori di ricerca sfruttando le imprecisioni degli algoritmi di posizionamento. Lo scopo è sempre lo stesso: cercare di generare più traffico possibile dai motori di ricerca Il Search Engine Spam (SES) anche chiamato web spam o spamdexing riguarda l’uso di qualsiasi tecnica che cerca di ingannare i motori di ricerca allo scopo di ottenere un posizionamento migliore. E’ bene dunque conoscere le tecniche che bisognerebbe evitare per condurre un progetto SEO “pulito” i principali filtri applicati dai motori di ricerca (alcuni solo “teorici” senza nessuna conferma matematica) che potrebbero scaturire in una penalizzazione, ovvero in un declassamento di posizione di un sito web nella SERP o addirittura la rimozione dall’indice.
Le panalizzazioni Per proteggere la qualità del suo indice, Google applica penalizzazioni per l’individuazione di pagine sospette e per il riconoscimento di tentativi di posizionamento non conformi alle linee guida. q esclusione dall’indice esclusione permanente: il sito è completamente escluso dall’indice con la possibilità di non farvi ritorno. esclusione temporanea: In questo caso Google può notificare ai progettisti del sito la temporanea rimozione e il tipo di non conformità. Il progettista, può quindi procedere alla correzione dei problemi rilevati. Il reinserimento di un sito richiede tempi variabili. La prima esclusione temporanea può avere una durata massimo di 30 giorni. Si ritiene che il timespam delle esclusioni si sviluppi secondo la progressione di 30 giorni, 60 giorni, 90 giorni
Le panalizzazioni (II) q Penalità sulla posizione nelle SERP Generalmente questo tipo di penalizzazione è chiamato –N penality dove N è la posizione nella SERP sopra la quale il sito (o parte delle sue pagine) non compare. In questi termini, sono stati riconosciuti vari livelli di penality -6, -30, -60, -90, -950 Con una penality di -30, il dominio è escluso dalle prime tre pagine dei risultati per qualsiasi parola chiave, anche quella del dominio stesso q Diminuzione del PageRank Infine questo tipo di penalizzazione comporta una penalizzazione (diminuzione) del PageRank di una o più pagine del sito
SES: Duplicazione dei contenuti. Shadow e mirror domain Per contenuti duplicati, intendiamo la possibilità di avere nel web porzioni di testo molto simili o addirittura identici consultabili da URL o domini differenti. Questo è uno dei problemi principali che affligge i motori di ricerca, in quanto è probabile che un documento indicizzato risulti presente sul web in un’altra forma motori di ricerca stanno iniziando ad adottare delle tecniche che consentono d’individuare l’origine del testo, al sua “età” e quindi stabilire se si tratta o meno di un contenuto duplicato La tecnica dello shadow domain consiste nel registrare un dominio ombra, creato appositamente per attirare traffico, grazie alle keyword presenti sul nome dominio stesso. Tale traffico viene poi ridiretto su un altro sito. Talvolta i contenuti dello shadow domain sono interamente replicati da quelli del dominio principale; in questo caso si parla di mirror domain. In entrambi i casi le sanzioni variano da forti penalizzazioni di rankink all’esclusione dall’indice
SEM:Keyword Stuffing Il keyword stuffing, consiste nell’eccesivo ricorso alle parole chiave. Tale abuso è attualmente caduto in disuso rispetto al passato, quando le parole chiave venivano ripetute ossessivamente in ogni punto della pagina al fine di aumentare la rilevanza o addirittura venivano create pagine (doorway pages) con contenuto invisibile composto dalle sole keyword. L’azienda joy produce camicie di alta qualità. Le nostre camicie rispettano i più alti livelli qualitativi. Camicie uniche. Camicie di qualsiasi colore. Produzioni di camicie. Vendiamo camicie per cerimonia. Camicie in lino. Camicie in tessuto. Le nostre camicie durano nel tempo. Il freno a tale pratica è stato posto dall’introduzione negli algoritmi di elementi che calcolano il keyword pattern, ovvero un’analisi testuale di valutare ila normale distanza tra che le keyword devono avere l’una dall’altra per formare un testo coerente e semanticamente corretto.
SES: testo nascosto o troppo piccolo Lo scopo del testo nascosto è quello di essere perfettamente visibile agli spider dei motori di ricerca, ma non per i visitatori. I motori di ricerca considerano l’uso di dei testi nascosti come una tecnica ingannevole, in modo del tutto analoga al keyword stuffing Lo scrivere il testo caratteri molto piccoli è un altro modo per cercare di migliorare la densità delle parole chiave. Tutti i browser visualizzeranno il testo utilizzando un fonti ad esempio di 1 px, che posizionato in particolare zone della pagina lo renderà pressappoco invisibile all’utente
SES: Cloaking La tecnica dello cloaking consiste nel presentare i contenuti a seconda dell’user agent che ne fa richiesta. Ovvero consiste nella presentazione agli spider della versione ottimizzata di un sito, che quando viene invece visualizzata dall’utente appare in modo del tutto diversa Per ogni agent (visitatore) che arriva sul sito che utilizza cloaking, si verifica l’indirizzo IP proveniente dalla richiesta http, per determinare se si tratta di uno spider o di una persona. A seconda della tipologia di visitatore, vien fornita una pagina specifica. Osservazione: Esistono però dei motivi del tutto legittimi per fornire contenuti differenti a seconda dell’indirizzo IP di provenienza della richiesta. Uno può riguardare la targhettizzazione dei contenuti i base all’are geografica
SES: Doorrway pages La tecnica dello doorway pages consiste nella costruzione di pagine web ottimizzate per i motori di ricerca e non per gli utenti con lo scopo di aumentare il traffico verso un determinato sito. Il meccanismo prevede nella maggior parte dei casi, la creazione, mediante appositi tool, di pagine autogenerate e focalizzate su un’unica keyword o frase keyword, prive di senso logico e di alcuna utilità, che se cliccate ridirigono alla pagina del sito sul quale si vuole creare traffico. L’uso di questo termine ha assunto ormai un accezione negativa per via dell’indentificazione di fare cloaking Osservazione: Anche in questo caso ci sono però delle eccezioni. Ovvero è possibile creare delle doorway page in modo limpido, attraverso delle pagine di reale utilità per l’utente, di argomento attinente al sito principale. In questo modo da aumentare la link popularity del sito
Filtro contro le link farm ed eccesso di back link Le link farm sono delle pagine dove sono ammucchiati centinaia di link di ogni tema e specie. L’acquisto di link e la partecipazione massima a questo scambio è la maniera migliore per essere penalizzati. Infatti un eccesso di back link da parte di una link farm risulterebbe agli occhi del motore del tutto innaturale. Osservazione Per quanto riguarda la vendita di link, sono state fatte dichiarazioni da parte di Google che afferma che l’azienda non vuole imporre le sue regole, ma vuole dare dei consigli in merito alla vendita di link. In merito ad un banner pubblicitario (che viene considerato un link a pagamento) sarebbe utile di fare in modo che il banner non abbia influenza sul motore (ovvero non distribuisca PageRank)
Google Panda update Google Panda Update (Google Farmer Update) è un nuovo algoritmo, una nuova formula, con cui Google ha deciso di cambiare le variabili con le quali stabilisce le classifiche dei siti all'interno dei suoi risultati di ricerca. L'obiettivo ufficiale dichiarato da Google e dai suoi esperti per l'avvio di questo nuovo cambiamento di algoritmo, è togliere dai risultati di ricerca tutti quei siti che forniscono contenuti "sottili", scarsi, che non danno reale valore ed utilità immediata al lettore. Di notevole importanza è la tempistica con cui avvengono gli update di questo algoritmo. Google Panda infatti non “lavora in tempo reale” ma attraverso updates “occasionali”. • 11 febbraio 2011 (Attivazione) sul mercato nordamericano • 11 aprile 2011 (Panda 2.0) ha esteso l'efficacia di questo algoritmo a tutti i siti del mondo che parlano l'inglese. • 12 agosto: Google Italia annuncia l’ingresso di Google Panda per i siti in Italiano h#p://www.seomoz.org/google-‐algorithm-‐change#2011
Elementi Critici dell’algoritmo • Qualità dei contenuti • Usabilità dei contenuti (layout, disposizione di contenuti e dell’advertising, etc.) • Sovra-ottimizzazione SEO (es. innaturalezza dei backlinks, anchor- text, ottimizzazione eccessiva on-page, etc.) • Altri fattori SEO minori (es. la velocità del sito, il bounce rate, i tempi di permanenza, la qualita’ e affidabilita’ dei links esterni, etc.) Google Panda Update ha rappresentato un cambiamento storico. Un cambiamento che ci segnala la “direzione” dove si stanno volgendo le nuove strategie dell’engine search per il futuro.
Analisi sugli algoritmi dei motori di ricerca Negli anni (1998 ad oggi) gli algoritmi con cui i motori di ricerca (Google) hanno avuto numerose metamorfosi. Sostanzialmente li possiamo raggruppare i 4 grosse macro voci(1) q CONTENUTI E SAMANTICA (fattori di contenuto): keywords, codice HTML. Correlazione semantica, duplicazione contenuti… q LINK POPULARITY (fattori quantitativi): page rank, quantità di links, percentuali di anchor text… q TRUST & AUTORITY (fattori qualitativi): trustrank, qualità dei links, analisi storica del domino… q DEFANCE & PENALTY (fattori opposti): contenuti SPAM , Penalizzazioni algoritmiche (1) h#p://www.wmtools.com/news/posizionamento-‐motori/seo-‐il-‐futuro-‐dei-‐motori-‐di-‐ricerca-‐video-‐del-‐webinar-‐con-‐gt
Esame storico degli algoritmi dei motori di ricerca (1998-2003) • Dal 1998 al 2000 i contenuti la fanno da padrone. Quando si parla di contenuti s’intendeva come inserire Keywords all’interno delle pagine, dove la tecnica di keywords Fattore rilevante stuffing la faceva da padrona. • La link Populariry prende il volo con il brevetto dell’algoritmo del Page Rank nel 2001 da parte di Google. Tutti gli altri motori seguiranno questa scia • Gli algoritmi di Trust-Autority e quelli relativi alla Defence- Penalty sono pressoché inesistenti. FATTORE RILEVANTE Passaggio dagli algoritmi basati sui contenuti (non semantici) a quelli basati sulla links populariry
Esame storico degli algoritmi dei motori di ricerca (2003-2008) • Dal 2003 al 2008 il trend negativo dell’importanza dei contenuti continua • Dal 2003 al 2008 la link popularity non è più sufficiente a determinare buone posizioni nelle SERP, ne tantomeno contrastare le nuove tecniche di SEO Spamming • Per contrastare il fenomeno si implementano nuovi algoritmi di TrustRank • Essendo il fattore Trust, un elemento fondamentale, i SEO si catapultano alla caccia di siti scaduti (che avevano una buona autority) per iniziare a fare SPAM ENGINE. Gli algoritmi di Defence e Penalty iniziano a concentrarsi non più sulle keywords ma sulle matrici di links
Combating web spam with TrustRank h#p://www.vldb.org/conf/2004/RS15P3.PDF
Esame storico degli algoritmi dei motori di ricerca (2003)-2008 • Dal 2003 al 2008 il trend negativo dell’importanza dei contenuti continua Fattore rilevante • Dal 2003 al 2008 la link popularity non è più sufficiente a determinare buone posizioni nelle SERP, ne tantomeno contrastare le nuove tecniche di SEO Spamming • Per contrastare il fenomeno si implementano nuovi algoritmi di TrustRank • Essendo il fattore Trust, un elemento fondamentale, i SEO si catapultano alla caccia di siti scaduti (che avevano una buona autority) per iniziare a fare SPAM ENGINE. Gli algoritmi di Defence e Penalty iniziano a concentrarsi non più sulle keywords ma sulle matrici di links FATTORE RILEVANTE Links popularity sempre importante, ma si inizia a concentrarsi sul trust e autority del sito web
Esame storico degli algoritmi dei motori di ricerca (2008-2011) • Dal 2008 al 2011 il trust e la link populariry r e s t a n o sempre fattori determinanti • Gli algoritmi di p e n a l t y aumentano. Le penalizzazioni sono all’orine del giorno • I contenuti (intesi quelli semantici) iniziano la loro scalata nell’importanza del ranking delle SERP
Fase di rifasatura Fattore RIFASATURA FATTORE RIFASATURA O EQUILIBRIO • contenuti (intesi quelli semantici) importanti. • Algoritmi di Penalty severi e recuperare le posizioni precedenti risulta un impresa pressoché impossibile
Fase di rifasatura degli algoritmi di Google Fattore RIFASATURA Importanza dei contenuti Algoritmi di defense
L’intervento fattore umano: I quality raters ALLORA?? A parte i noti problemi già noti come: la duplicazione dei contenuti, tag excess, che causavano e causano ancora notevoli penalizzazioni, oggi è molto difficile giudicare la qualità di un sito. Serve qualcosa di più avanzato, che va ben oltre della scansione algoritmica. Il fa#ore umano Quality Raters - Sono persone in carne ed ossa (no spiders, ne’ “bot”) - Navigano nelle pagine del ns. sito per “valutarne” la “bonta’” - La “bonta’” e’ decisa seguendo “precise regole” (dettate dai motori) - Questi quality raters compilano precisi moduli di valutazione, seguendo precisi schemi pre-confezionati La qualità viene valutata mediante una valutazione mixata (algoritmo-uomo)
Licenza Creative Commons Il presente materiale è pubblicato con licenza Creative Commons 3.0 Italia “Attribuzione - Non commerciale - Condividi allo stesso modo” http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it
Puoi anche leggere