Translate

Visualizzazione post con etichetta algoritmo. Mostra tutti i post
Visualizzazione post con etichetta algoritmo. Mostra tutti i post

mercoledì 15 febbraio 2012

Algoritmi

Possiamo definire un algoritmo come un insieme di righe di codice che gli spider dei motori di ricerca interpretano per fornire i risultati di ricerca, una volta che gli utenti inseriscono una determinata parola chiave. Tali algoritmi vengono continuamente modificati, costringendo i webmaster ad aggiornarsi spesso e a sperimentare diverse soluzioni per ottimizzare le posizioni dei siti.

Google basa i propri algoritmi sul PageRank, determinato a sua volta da elementi come la qualità dei testi e le keyword in essi contenuti, e la link popularity.
Un trucco, fino a poco tempo fa molto utilizzato ma oggi da evitare, è quello di inserire parole chiave invisibili scrivendo testo con lo stesso colore dello sfondo oppure fra le righe di commento nel codice HTML.

Ai fini di una corretta indicizzazione si consiglia, invece, di compilare un codice chiaro e pulito, puntando sulla qualità dei temi trattati e allo scambio link con siti affiliati.

Di seguito i fattori principali a cui fanno riferimento gli algoritmi di Google:
  • Parole chiave contenute in title e meta tag, nei testi fra i tag H1 o in grassetto, nella descrizione dei link.
  • Nome e anzianità del dominio.
  • Quantità e qualità di link diretti verso il nome di un sito web.
 Le informazioni o siti (a parità di ricerca effettuata) che Google reputa a suo insindacabile giudizio più interessanti, appaiono nelle prime pagine di ricerca, gli altri vengono relegati nel limbo elettronico delle ultime pagine dove nessuno li consulterà.

Ma cosa è e come funziona l’algoritmo di Google? In effetti nessuno lo sa. Questo è uno dei segreti industriali meglio custoditi al mondo. Un po’ come la ricetta della Coca Cola!

Pur tuttavia esso è stato (in parte) svelato empiricamente attraverso il lavoro e l’esperienza dei professionisti che si occupano di SEO.

Ecco per la vostra curiosità, una lista parziale di quello che può modificare la popolarità di un sito (con tutta l’informazione ad esso associata):
  1. Quantità qualità dei link esterni che puntano al dominio.
  2. Differenziazione delle fonti di link.
  3. Originalità e unicità del contenuto.
  4. Diversità dei link (intesa come numero/varietà di domini unici che linkano a pagine del dominio).
  5. Architettura del sito (struttura gerarchica e chiara).
  6. Freschezza del contenuto (data di creazione della pagina).
  7. Storia della registrazione del dominio (da quanto tempo con stesso proprietario, numero di rinnovi, etc.)
  8. Tempo medio delle visite sulla pagina.
  9. Velocità di caricamento della pagina (Caffeine).
  10. Link non funzionanti.
La lista completa di circa 200 parametri la trovate quì.

Google con i suoi algoritmi reinterpreta in un certo qual modo la rete e lo fa a suo dire per fornire risultati di qualità, ma sarà veramente così?

mercoledì 8 febbraio 2012

Pertinenza di contenuti e keyword density

Per poter fornire il maggior numero di informazioni riguardante una o più parole ricercate, il motore di ricerca valuta il numero di volte in cui queste sono ripetute all’interno dei testi di una pagina (keyword density). Precisiamo che lo spider, detto anche Googlebot, è in grado di leggere e quindi indicizzare i testi in html e non contenuti multimediali quali animazioni flash, video, immagini, ecc...
Logica della Keyword density : e’ normale che se cerco la parola "mela", un sito che al suo interno contiene questa parola ripetuta più volte presumibilmente ne parlerà in maniera più approfondita rispetto ad un altro in cui questa parola è presente una sola volta. Lo stesso vale per ricerche più complesse come per esempio "come coltivare una mela". In questo caso il motore di ricerca eseguirà il match delle 4 parole ricercandole tra le pagine indicizzate e premiando presumibilmente quelle che riportano fra i contenuti la ripetizione delle parole stesse.
Data la semplicità del principio di ripetizione delle parole, Google ha messo in atto una serie di strumenti di prevenzione volti ad evitare che i testi vengano conditi con ripetizioni esagerate al solo scopo di migliorare il posizionamento su listato organico. Vediamone alcuni qui di seguito.
Qualità del testo: per poter avere buone possibilità di uscita sui motori di ricerca, una pagina web deve necessariamente seguire il principio della keyword density, ma deve anche risultare leggibile agli occhi dell’utente finale. Per garantire tale condizione Google valuta oltre alla quantità anche la qualità delle parole contenute nel testo. Pone ad esempio un limite alla keyword density di ogni pagina, oltre il quale reputa la ripetizione di una o più parole come puro escamotage di galleggiamento penalizzandola nel ranking o in casi limite rimuovendola totalmente dall’indice. La percentuale di keyword density oltre il quale un testo rischia di essere penalizzato viene indicato da più esperti SEO nel 5% del totale del testo. Questa soglia non è comunque un valore assoluto ma una stima empirica, né mai esponenti di Google l’hanno confermata o smentita.
Per chiudere l’argomento keyword density, possiamo anche affermare che in caso di ricerche specifiche con match di più parole, la vicinanza di queste all’interno del testo conta molto di più della loro ripetizione in periodi slegati del testo. Per tale motivo in una ricerca del tipo "come coltivare una mela" un testo che contenga il match esatto una sola volta avrà presumibilmente un posizionamento migliore rispetto ad un altro che ne ripete le singole parole più volte ma in frasi diverse.

Bold e colore dei testi
Navigando su internet vi sarà di certo capitato di imbattervi in siti con testi in grassetto. Questo perché, così come per un lettore, l’evidenziazione di una parola ne accentua l’importanza rispetto al resto del testo anche agli occhi dei motori di ricerca. E’ per questo importante per un testo con intenti di indicizzazione enfatizzare le parole per cui si vorrebbe uscire su Google. Ultimamente comunque pare che questo escamotage sia stato "decifrato" dai motori di ricerca che ne hanno mitigato gli effetti positivi e addirittura, testi eccessivamente nerettati potrebbero subire penalizzazioni sul listato.
Un’altra tecnica di SEO "puro" utilizzato in passato era la creazione di testi con lo stesso font dello sfondo pagina con l'obiettivo di renderli invisibili agli occhi dell'utente ma non a quelli dello spider che come sappiamo decodifica l'html. L’utilità di tale escamotage era naturalmente quella di poter inserire testi sovra ottimizzati senza doversi preoccupare della leggibilità. Dopo poco tempo però questo trucco è stato scoperto e pare che i Googlebot analizzino il grado di contrasto dei font pagina/css e del testo penalizzandone l’indicizzazione se ritenuti troppo simili.

Frequenza di rimbalzo e tempo medio sul sito
Per coloro che hanno dimestichezza con il programma di statistiche Google Analytics il termine frequenza di rimbalzo non è un mistero. Si tratta di quella percentuale di visite effettuate da utenti che entrano in una pagina e ne "fuggono" in poco tempo ritenendone i contenuti poco interessanti o non soddisfacenti i termini di ricerca.
L’algoritmo di Google è infatti intelligente ma non infallibile, è quindi plausibile che un sito risulti (involontariamente) ben posizionato per parole chiave le cui argomentazioni ed il cui intento sia diverso da quello degli utenti finali. O ancora può capitare che pagine (volontariamente) sovraottimizzate attraverso escamotage SEO, riescano a superare i parametri di qualità di Google, camuffando magari una pagina con intenti commerciali da pagina informativa. L’utente finale di internet medio, è abituato ormai ad una fruizione dei contenuti rapida e puntuale e difficilmente resta in una pagina i cui contenuti non hanno nulla a che fare con la propria ricerca. A questo punto Google sfrutta il comportamento dell’utente finale per andare a compensare le proprie mancanze e se la frequenza di rimbalzo di una pagina è elevata ed il tempo medio visita molto basso ne penalizza il posizionamento a favore di altre più attinenti.
Peso specifico di una pagina
E’ cosa risaputa che gli spider riescono a leggere un numero limitato di informazioni per pagina attraverso l’interpretazione dell’html. E’ dunque importante fare in modo che la pagina web venga alleggerita e in qualche modo ripulita di contenuti inutili e che il codice sia il più scarno possibile.
Dato che, come già detto lo spider non riesce ad interpretare i contenuti di un immagine o di un video è importante cercare di ridurne il peso il più possibile prima della messa online, esistono svariati software in grado di ottimizzare un’immagine per il web comprimendo la dimensione senza perdere troppo nella risoluzione.
Un sito con pagine leggere, magari appoggiate ad un server veloce e potente, consentirà inoltre una più rapida apertura e visualizzazione sul browser delle pagine stesse. E' infatti noto che l'utilizzatore medio di internet (abituato ad avere tutto e subito!!) sia "poco tollerante" verso i rallentamenti di visualizzazione dei contenuti ed è provato che quasi l'80% degli utenti chiude una pagina se questa non viene correttamente caricata entro 5 secondi!!! Un sito con queste scarse performance rischia dunque di avere un elevatissima frequenza di rimbalzo, con riflessi negativi sul posizionamento.
Altro aspetto importante e data la costante espansione e diffusione negli ultimi anni, oseremmo dire fondamentale, è la navigabilità del sito da telefoni cellulari di nuova generazione e palmari. Tali apparecchiature, non essendo dotate di memorie o applicazioni web performanti faticano a caricare contenuti di dimensioni elevate e una delle ultime modifiche all'algoritmo di Google pare sia stata apportata proprio per "premiare" nel posizionamento quei siti con pagine leggere facilmente navigabili o dotati di apposita interfaccia di navigazione per palmari.

I meta tag
I meta tag sono dati inseriti nel linguaggio html e non visibili dall’utente se non proprio attraverso la visualizzazione della sorgente della pagina. Si trovano nel campo Head (all’inizio del metalinguaggio della pagina) e servono prevalentemente a fornire informazioni ai motori di ricerca. Si suddividono in 3 segmenti Title (titolo), Description (descrizione) e keywords (parole chiave) e la loro importanza è da sempre oggetto di discussione fra i web master e gli esperti SEO.
In effetti in passato, dato l’elevato numero di siti in flash e le performance limitate degli spider, i meta tag erano davvero fondamentali ai fini dell’indicizzazione.
Ad oggi la loro importanza è decisamente inferiore per tre motivi:
La cattiva abitudine di alcuni web master di sovraccaricare di informazioni i meta dati, con titoli lunghissimi e/o elenchi di parole chiave infiniti con inserimento anche di parole non del tutto pertinenti con il contenuto della pagina stessa. Ad oggi tali operazioni rischiano in realtà di risultare controproducenti in quanto i motori di ricerca possono ritenerle come semplici escamotage di galleggiamento.
Il miglioramento delle prestazioni degli algoritmi di ricerca che riescono ad indicizzare molti più contenuti e a valutare ogni pagina non solo secondo i suoi contenuti ma anche sulla base di altri criteri quali la credibilità e popolarità del sito che la contiene (più avanti parleremo anche di Page Rank e Link Popularity)
La sempre maggiore importanza di siti dinamici quali blog, social network e forum in cui l’utente genera nuove pagine agendo direttamente su front-end senza interagire con il metalinguaggio e senza la necessità che ne conosca lo sviluppo.
Ma adesso valutiamo i meta tag uno per uno:

Title - il titolo è senza dubbio il più importante dei tre. Definisce in maniera inequivocabile l’argomento che viene trattato all’interno della pagina e viene visualizzato come prima riga linkabile sul listato organico del motore di ricerca. Dal punto di vista dell’indicizzazione è importante che ogni pagina di un sito abbia il proprio titolo basato sul focus.
Data l’importanza di questo elemento molti webmaster tendono a creare titoli molto lunghi ed in carattere maiuscolo. C’è da precisare a tal proposito che non abbiamo elementi per affermare che un titolo in maiuscolo sia meglio indicizzato di un altro in carattere minuscolo, possiamo però consigliare di evitare congiunzioni, virgole o parole inutili all’interno del titolo che deve rappresentare davvero una semplice anticipazione dell’argomento trattato.

Lunghezza massima consigliata: 60 battute compresi gli spazi

Description - Come dice la parola stessa, la descrizione pagina è un piccolo riassunto delle argomentazioni presenti nella pagina. Come per gli altri meta tag, ai fini dell’indicizzazione è importante che ogni pagina del sito sia dotata di descrizione propria e puntuale. Il suo sviluppo deve assolutamente essere coerente con i testi presenti nella pagina sia nella misura della quantità che della qualità delle parole da utilizzare.
Lunghezza massima consigliata: 160 battute compresi gli spazi
Keywords - le parole chiave sono oggetto di enormi discussioni. Si tratta di un elenco di parole o match di parole separate da una virgola. In passato (e ancora oggi per i webmaster meno esperti) si tendeva a "caricare" questo elenco con tutte quelle parole per cui si desiderava essere presenti sui motori di ricerca.
Se effettivamente in passato potevano giocare un ruolo rilevante nel posizionamento di un sito, da ormai svariati anni il campo keyword, se mal ponderato può rappresentare più un danno che un vantaggio. Così come per la description, consigliamo dunque di inserire un numero di parole chiave coerente con i testi sia per quantità che per qualità evitando la ripetizione esagerata di uno stesso termine.

Link popularity
Uno dei più importanti criteri di valutazione dei siti web ai fini del posizionamento nelle serp e che ha rappresentato un punto di forza per Google è la link popularity, ossia il numero di link presenti nel web che rimandano ad un determinato sito internet. Scandagliando migliaia di pagine al giorno, i Googlebot sono in grado di riconoscere e memorizzare anche il numero esatto di link attivi preseti su internet ed il loro percorso fino a quella che viene definita "landing page" (pagina di atterraggio) cui i link in questione rimandano.
Un po’ come nella vita reale avere una certa reputazione rende più semplice e automatica la visibilità, allo stesso modo se un sito viene menzionato spesso su altri siti presumibilmente significa che i suoi contenuti vengono considerati attendibili ed interessanti. Per i neofiti di internet segnaliamo che esistono parecchi siti o network di siti che offrono la vendita e/o lo scambio gratuito di link (pratica forse più "democratica"), volti a rendere maggiore la reputazione online.
Come spesso accade però, ogni volta che un meccanismo di valutazione di Google viene decifrato dagli esperti SEO, questi alza "l’asticella" di difficoltà o meglio ancora lavora su sé stesso per rendere i risultati su listato organico il meno influenzabili possibile da operazioni di ottimizzazione.
A tal proposito Google è oggi in grado di valutare non solo la quantità di link in entrata in un sito ma anche e soprattutto la loro qualità. Se infatti il solo numero fosse sufficiente a guadagnare posizioni su Google sarebbe abbastanza semplice acquistare e scambiare un numero elevato di link. E’ invece molto più importante avere link "mirati" magari da siti o portali settoriali che trattano argomenti simili alla landing page. La coerenza tra il sito di partenza e quello di destinazione è estremamente importante ed il beneficio che si può ottenere, soprattutto da un link testuale può fare la differenza. Per link testuale si intende un link formato da una parola cliccabile che riassume il contenuto di quella che sarà la landing page del sito di destinazione; per fare un esempio pratico possiamo riferirci nuovamente ad una pagina che tratta il tema: "Come coltivare una mela". In questo caso sarebbe assolutamente meglio avere un link nominato come coltivare una mela su un portale tematico sull’agricoltura che 20 link generici su siti che trattano argomenti che nulla hanno a che fare con la coltivazione delle mele.
Oltre alla pertinenza dei temi trattati è importante che il sito da cui "parte" il link sia in possesso di un buon Page Rank (concetto che verrà spiegato di seguito). Tanto maggiore è il Page Rank della pagina fonte quanto maggiore è il "peso specifico" che Google attribuisce al link. Un po’ come per il mondo giornalistico, la credibilità della fonte rappresenta una sorta di garanzia sull’attendibilità e sulla veridicità delle informazioni veicolate.
Soprattutto per siti di nuova costruzione, la presenza di un numero elevato di link in ingresso (magari poco coerenti con i contenuti delle pagine) può essere valutato da Google come un mero trucco di galleggiamento con il serio rischio di rimozione dall’indice del sito.

Prima di passare all’analisi del Page Rank, desideriamo fare una breve considerazione sui link interni ad un sito. Così come per i links da altri siti web, anche il collegamento con links testuali fra 2 o più pagine di uno stesso sito può aiutare a "veicolare" lo spider verso notizie nuove o di maggiore interesse. Dato che la Home Page è in genere la pagina più anziana di un sito e con il maggiore Page rank, ogni volta che viene aperta o aggiornata una nuova sezione è buona regola linkarla proprio in Home.

Google PageRank
Strettamente legato al concetto di link popularity è quello di  PageRank (letteralmente rango della pagina) termine la cui proprietà intellettuale appartiene a Google.
Il PageRank è un algoritmo di analisi delle pagine web che consente di stabilirne l’importanza da un punto di vista oggettivo, sulla base di una verifica quantitativa e qualitativa dei link verso di essa.
A seguito di tale analisi l’algoritmo definisce ed assegna ad ogni pagina un voto da 0 a 10, anche se solo pochissimi siti al mondo riescono ad ottenere 10/10 (Facebook è da poco tra questi).
Acquisire PageRank significa migliorare la propria reputazione online ed aumentare sensibilmente la possibilità di uscita fra le prime posizioni delle serp. Purtroppo non esistono tecniche per il miglioramento di tale valore in tempi rapidi, soprattutto per siti di nuova costruzione (a meno di rari casi di successo.. vedi Facebook), la scalata al PageRank deve essere graduale e soprattutto basata su un vero e proprio lavoro di qualità dei contenuti. L’acquisto o lo scambio di links può essere utile in tal senso, soprattutto se questi provengono da siti già con elevato PageRank, ma la differenza significativa sta nel riuscire a fornire, attraverso il proprio sito, informazioni e/o servizi davvero interessanti per il maggior numero di utenti possibili, la migliore pubblicità (come sempre) a quel punto sarà il passaparola. Infine, l’inserimento di un elevato numero di link in ingresso per un nuovo sito può risultare controproducente.

lunedì 4 aprile 2011

Google crea il suo Social Graph

Facebook il suo Algoritmo? La convergenza dei colossi.

Ieri ho aperto su web marketing forum una discussione che riguarda l'ipotetica evoluzione delle strategie di Google (e Facebook). La riporto qui perchè credo possa interessarvi.

La scorsa settimana siamo stati spettatori di un bel pò di "pesci d'aprile". Uno dei tanti annunci sembra non far parte della fauna marittima :-)

Mi riferisco a questo:



 Prima di cominciare a discutere vorrei ricordarvi anche questo (di qualche tempo fa):


















Mi piacerebbe mettessimo da parte per qualche minuto tutte le convinzioni su social e motori che ci portiamo dietro ormai da tempo, quelle che rendono più bello e simpatico Google di Facebook e viceversa.
+1 ... che roba è?

Se permettete io avanzerei un'ipotesi azzardata (ma neanche tanto): A google piacerebbe molto creare il proprio SOCIAL GRAPH. Come sappiamo il Social Graph è semplicemente una rete di connessioni che mette in relazione persone con altre persone ed "oggetti" di varia natura (interessi, prodotti, aziende, passioni, cazzate, etc.). Vi dico subito che non mi interessa discutere del "come" farà o come risolverà alcuni problemi tecnici.

Che se ne fa Google di un grafo sociale?
L'obiettivo di Google è fornire risultati di valore ai propri utenti, ipotizzavo che il valore potesse "incrementare" se gli utenti stessi in qualche modo (facevo riferimento anche a twitter e social...ma oggi le cose stanno cambiando...) potessero ESPRIMERE GRADIMENTO per alcune pagine. La condivisione di un link (come ad es. il retweet) poteva rivelarsi un'informazione importante ma non bastava.

Per questo Google cominciò ad interessarsi di "social" in maniera sempre più pressante partorendo una paio di schifezze del tutto inutili. Oggi forse ha capito che il problema non sta nel creare un vero e proprio social inteso come sito web a sè stante (o meglio, il problema non è solo quello)... il problema sta nel rendere social ciò di cui Google già dispone... il proprio database (BigDaddy... grazie Nicola Briani :-)).

Google ha capito che la vera potenzialità di Facebook non sta nelle cazzatine che scrivono sui giornali o in chi si lamenta del cazzeggio o in chi piagnucola perchè è senza fan... la vera potenzialità non si vede ... ed è nel social graph. Social Graph che Google oggi non ha.

Al contrario Facebook dispone del grafo sociale ma non della tecnologia che permette ad un motore di ricerca di fornire risultati rilevanti anche senza basarsi sulla componente sociale (ci prova con bing).

Quindi... +1?

Quindi +1 potrebbe rappresentare l'espressione di gradimento di Google. Potrebbe rappresentare lo strumento che permetterà a Google di associare Persone (fatte da nome, cognome e faccia... per intenderci) a degli "oggetti" di varia natura... proprio come fa Facebook, ma in modo diverso.

Algoritmo+Grafosociale

Cosa accade se Google riesce a creare il proprio grafo sociale ed a farlo lavorare insieme al già ottimo algoritmo? Accade che i risultati delle serp di Google presenteranno una "componente sociale" simile a quella di Bing. Cioè tra i risultati vedremo chi ha espresso gradimento (o QUANTI hanno espresso gradimento).

Non so se la componente sociale influenzerà il posizionamento (assoluto) di un sito e sinceramente me ne frega poco. Quello di cui sono certo è che la componente sociale influenzerà le azioni degli utenti nelle serp e le renderà sempre più personalizzate (cosa che fino ad oggi, diciamocelo, non è mai davvero accaduta).

Che senso avrà parlare di "posizionamento per tutti" se il posizionamento cambia da persona a persona il base alle proprie connessioni? (vedi ad esempio la home page di Facebook).

Strategie e modelli di business convergenti?

Perchè parlo di strategie convergenti? Fino a qualche giorno fa avrei mandato a quel paese chi parlava di concorrenza tra Facebook e Google, perchè tra loro troppo diversi.

Oggi sto cambiando idea...

Qual è la maggior fonte di reddito di Google? Adwords

Qual è la maggior fonte di reddito di Facebook? Facebook ADS

L'obiettivo finale di Google e Facebook è molto simile: fare in modo che ogni "impression" renda il più possibile. Per far ciò, nel modello pay per click, è necessario sforzarsi di incrementare al massimo il CTR (oltre al numero di inserzionisti concorrenti ).

Il CTR incrementa quando le inserzioni su Facebook e Google sono quanto più possibili pertinenti alle ricerche o agli interessi degli utenti. Per far ciò google e facebook fino ad oggi utilizzano modalità differenti...fino ad oggi...

Google fa oggi leva sulle INTENZIONI

Facebook fa oggi leva su INTERESSI e FIDUCIA

A Google oggi manca ciò che Facebook ha e viceversa. Se il +1 sarà utilizzato in maniera massiccia, Google conoscerà gli interessi ed influenzerà le scelte degli utenti tramite la FIDUCIA... fiducia che gli utenti hanno in chi conoscono, stimano, riconoscono come autorevole (ne ho straparlato nel modulo 2 del corso).

Va bene il +1... ma per connettere la gente?

Ciò che ancora non ho compreso è come farà Google a generare reti di persone... va bene Social CIrcle... ma chi diavolo lo conosce davvero? Se Google non mette in relazione milioni di persone non potrà introdurre la componente (riprova) sociale nelle serp (e nei siti che adottano il +1).

A pensarci bene però l'amico twitter può rivelarsi molto utile per chiudere il cerchio...