Ottimizzazione per il Knowledge Graph

Knowledge Graph

Di A.J. Kohn

articolo orginale:

Knowledge Graph Optimization
10 Marzo 2014

Qualche mese fa ho fatto uno stringato riferimento al KGO, acronimo di Knowledge Graph Optimization. Lo so cosa pensate: abbiamo bisogno di un altro acronimo come di un buco in testa! Ma nel corso dell’anno passato mi sono reso conto che potrebbero esserci una serie di tattiche, per ottimizzare il collegamento del vostro sito al grafo della conoscenza e potrebbero anche generare miglioramenti tangibili alla visibilità nelle ricerche.

Il Knowledge Graph

img1

Ecco una breve spiegazione di Google per chi non avesse familiarità con il Knowledge Graph:

“Il Knowledge Graph vi consente di cercare cose, persone o luoghi che Google conosce: punti di riferimento, celebrità, città, squadre sportive, edifici, caratteristiche geografiche, filmati, oggetti celesti, opere d’arte e altro ancora, e ottenere istantaneamente informazioni che sono rilevanti per quella ricerca. Questo è un primo passo fondamentale per realizzare la prossima generazione della ricerca, che attinge l’intelligenza collettiva del web e capisce il mondo in un modo un po’ più simile a come fa la gente”.

Si tratta di ricercare oggetti invece di stringhe, o senza la rima (“things instead of strings” – n.d.t.): si tratta di entità invece che di testi.

Prendete la ricerca ‘Golden State Warriors’: affrontandola dal punto di vista del testo di si dovrebbero cercare le singole parole chiave, che potrebbero essere fonte di confusione. E’ vero Google era diventato molto bravo a capire i termini che più frequentemente comparivano insieme, utilizzando i bigrammi e altri metodi, in modo che questa query producesse un risultato relativo alla omonima squadra di basket NBA, ma con il Knowledge Graph, Google può invece individuare ‘Golden State Warriors’ come entità (un oggetto) che ha una voce specifica nel Knowledge Graph e può quindi restituire un risultato molto più ricco.

img3

Roba davvero incredibile (forza Warriors!).

Hummingbird è stato in gran parte un aggiornamento delle infrastrutture, che ha permesso a Google di cominciare a sfruttare la tecnologia emergente delle entità. Abbiamo appena iniziato ad applicare le entità alla ricerca.

Sfidare le Entità

img4 copia

Vi basta cercare l’Entity Recognition and Disambiguation Challenge, sponsorizzato congiuntamente da Microsoft e Google, e vedere il poster attaccato al muro:

“L’obiettivo di un sistema per il riconoscimento delle entità e la disambiguazione (ERD) è quello di riconoscere riferimenti a delle entità presenti in un dato testo, disambiguarle, e mapparle sulle entità presenti in un dato archivio, o base di conoscenza”.

Si può essere più chiari? Beh, in realtà, si può.

“La sfida è composta di due filoni paralleli. Nel filone del “testo lungo” gli obiettivi sono pagine estratte mediante crawling dal web; queste contengono documenti destinati ad essere facilmente compresi dagli esseri umani. Il filone del “testo breve”, invece, è costituito dalle query della ricerca web, che sono destinate a una macchina, per cui il testo è tipicamente breve e spesso manca di un corretta punteggiatura e delle maiuscole”.

I motori di ricerca non vedono l’ora di migliorare nell’estrazione delle entità dai documenti e dalle query, così da poter restituire risultati di ricerca più pertinenti e di maggior valore per il carcatore.

Quindi …

img5

Ma cosa dovremmo fare esattamente? In giro c’è ben poco materiale di reale utilizzo pratico, che descriva come si potrebbe impostare un’ottimizzazione per questo nuovo mondo pieno di entità.

Un’eccezione poterebbe essere il post “Semantic SEO” di Aaron Bradley, anche se mescola teoria e tattica.

Ora, io amo la teoria e questo traspare chiaramente da quello che scrivo. Ma oggi voglio parlare più delle tattiche, le cose pratiche che come specialisti di marketing possiamo fare, per indurre un cambiamento nel grafo della conoscenza.

I sostantivi

img6

La prima cosa che possiamo fare è assicurarci di usare i nomi delle entità nei nostri testi. Ricordate la sfida ERD sopra? Beh, i sistemi che stanno progettando cercano di estrarre le entità dal testo, quindi, se non utilizzate i nomi delle entità (i sostantivi) nel vostro testo, allora renderete parecchio più difficile ai motori di ricerca identificare le entità, e associarle a quelle che già conoscono.

Questo non significa che vi dovete mettere sotto a infarcire il testo di tutte le possibili entità che vi vengono in mente. Scrivete con chiarezza in modo che sia gli esseri umani che motori di ricerca, sappiano di cosa diavolo state parlando.

Collegare

img7

Smettete di accumulare authority and ‘link juice’, evitando di puntare link verso altri siti. I collegamenti tra i siti e le pagine sono importanti e non solo in una formula del PageRank tradizionale.

La penso in questo modo: le entità contenute in una pagina vengono trasmesse alle pagine collegate e viceversa; le entità sono meta informazioni passate nei link.

Dati strutturati

img8

Potete rendere più facile ai motori di ricerca l’identificazione delle entity, utilizzando i markup di schema.org, insieme ad altre forme di dati strutturati. Non solo questo assicura che il numero di entità trasmesse tramite link aumentino, ma spesso gli consentono di effettuare connessioni al Knowledge Graph con una quantità molto limitata di dati.

Giocare sulle entità di Google Maps

Ecco la vera scoperta che mi sono tenuta stretto per sei mesi ed la vera forza di tutto questo post. Se si va su Google Maps e si fa una ricerca che contiene il nome di un marchio accoppiata ad una località geografica, spesso ottengono alcuni risultati molto interessanti. Prendete ‘Zillow San Diego, CA’ per esempio.

img9

Guardate tutti i risultati e i punti rossi! Non ho chiesto degli agenti immobiliari, mediatori di mutui, o periti, nella mia interrogazione. Ho semplicemente usato il termine Zillow, in combinazione con una indicazione geografica ed ho ottenuto questi risultati molto correlati e pertinenti. Google non cerca semplicemente un ufficio di Zillow a San Diego.

Bene, guardiamo i dettagli per vedere cos’è accaduto. Prenderò uno dei punti rossi e indagherò più a fondo.

img10

Perché, dunque, c’è questo soggetto sulla mappa risultati (Mesa Pacific Mortgage – n.d.t.)? Per prima cosa vado sul sito web associato.

img11

Nel sito non ci sono link a Zillow in nessun posto e il numero di telefono e l’indirizzo che ci sono qui non corrispondono a quelli su Google Maps. Però sono quelli elencati sul loro profilo di Zillow.

img12

Ora il link al loro sito, presente su Zillow, completa il collegamento, quindi non è un collegamento del tutto privo di link, ma a me pare comunque piuttosto sorprendente. E questo senza che Zillow abbia ottimizzato completamente il markup: dichiarano la tipologia della pagina come ‘organizzazione’

img13

ma non dettagliano le informazioni professionali con il markup di schema.org

img14

Utilizzano invece alcuni markup vecchia scuola, per la definizione di un elenco di termini con descrizione. Combinando questo con l’ambito dell’organizzazione, sembra che Google riesca fare uno più uno.

Google+

Nel fare la due diligence ho trovato che Mesa Pacific Mortgage ha anche una pagina su Google+ che rafforza l’indirizzo e il numero di telefono giusti. Quindi il collegamento non è così sorprendente come potrebbe sembrare, ma è ancora intrigante.

Non ho idea in che ordine queste cose abbiano avuto origine; è abbastanza chiaro che la presenza su Zillow probabilmente è arrivata per prima, in base all’anno sulla data “Membro fin dal …” sul suo profilo. Se la pagina di Google+ Local abbia avuto come effetto diretto la mappa associata all’elenco dei risultati, non è dato saperlo.

In realtà, se scaviamo più a fondo, come per esempio le informazioni che vengono presentate sulla mappa e ciò che manca, sembra che una pagina su Google+ Local sua necessaria. Tuttavia, una buona dose di questi soggetti evidenziati sono stati creati da Google. Ovviamente Google utilizza una moltitudine di fonti per creare questi elenchi di risultati. Se si riesce ad essere una di quelle fonti, tanto meglio. Ma anche se non lo siete, essere connessi a queste entità fornisce un valore a tutti i soggetti coinvolti.

Vediamo un altro risultato di Google Maps.

img15

Se si seguono i link delle recensioni si finisce sulla loro pagina di Google+.

img16

Strano che Google non si alimenti dalle recensioni di Zillow, che mostrerebbe una maggiore connessione. Le pagine Google+ Local forniscono un vasto database di entità a Google e queste si basano sui dati di Google+ oltre che da altre fonti.

img17

Qui il numero di telefono sul Zillow non corrisponde a quello su Google+, o su Google Maps. Una rapida digressione: state assistendo anche alla possibilità di creare una relazione tra Keke Jones (persona) e Pacific Sotheby’s Int’l Realty (luogo), ma sto divagando.

Al di fuori della connessione al sito Web e della corrispondenza dell’indirizzo in quella sezione ‘Informazioni professionali’, l’altro motivo per cui questo risultato viene fuori per la ricerca, è perché utilizzano prodotti Zillow sul loro sito web.

img18

Potete rifuggere da questo genere di implementazioni fondate su analisi carenti, basate su un video di Matt Cutts, se volete, ma a mio avviso sarebbe un errore.

Okay, un ultimo esempio. Facciamo uno zoom e troviamo un altro risultato.

img19

I dati relativi all’orario indicano che Roger ha probabilmente una pagina su Google+. E’ così.

img20

Ora possiamo vedere che Goolge+ porta dentro le recensioni presenti su Zillow e Roger ha un profilo su Zillow. Quindi, il motivo per cui questo risultato esce per una ricerca su Zillow + localizzazione geografica, è abbastanza evidente.

E’ interessante notare che, la ricerca ‘homethinking San Diego, CA’ su Google Maps non restituisce Roger Ma. Forse perché non dispongono di una address line 1, o perché usano solo il formato hreview-aggregate e non dichiarano un ambito schema.org (l’ho visto grazie al pratico strumento per il test dei dati strutturati bookmarklet).

Duro da accettare, ma si può capire quanto potrebbe essere importante garantirsi di aver fatto ciò che era necessario per confermare queste connessioni.

La gente parla di

img21

Ora andiamo a vedere la funzionalità “La gente parla di”. Questi termini sono generati anche da un processo (algoritmo), che analizza il testo delle recensioni e tira fuori la frasi chiave rilevanti (a seconda di chi avete chiesto).

Ora, non ho intenzione di approfondire troppo su questo tema, anche se credo sia possibile che Google utilizzi sia il testo della recensione, che la sintassi della query per creare queste frasi. Bill Slawski fatto un buon lavoro nel prendere in giro Google per come ricava i termini ‘conosciuto per’ delle entità.

Quello che conta a mio avviso, è che queste frasi chiave diventano meta informazioni che vengono passate avanti e indietro attraverso le connessioni delle entità.

Google sta assegnando a questa entità (Roger Ma) un certo gruppo di frasi chiave, tra cui ‘vendere una casa’ e ‘grande agente immobiliare’. Zillow è collegato a questa entità, come abbiamo dimostrato, il che significa che quelle frasi chiave sono, in un certo modo, associate alla pagina ed al sito di Zillow.

Ora immaginate di aggregare le frasi chiave dalle entità collegate, che fluiscono verso Zillow. Pensate che potrebbe dare a Google una idea più precisa di quando e per quali query esattamente dovrebbero restituire contenuti di Zillow?

E Google potrebbe benissimo conoscere termini che le persone utilizzano per arrivare alla pagina di Roger Ma su Zillow e le utilizzi per informare tutte le altre entità collegate. Questa è una speculazione, ma scaturisce da più di sei mesi di sperimentazione e di osservazione.

Non posso diffondere molti dei dettagli perché sono vincolati da varie NDA (accordi di riservatezza – n.d.t.), ma una volta che sviluppate queste connessioni che utilizzano i dati strutturati, sembra che ci sia una maggiore capacità ranking per i termini rilevanti.

SameAs

Va bene, abbiamo deviato un po’ verso la teoria per cui adesso torniamo alla tattica. Se avete una pagina che parla di un’entità nota vi consiglio di utilizzare la proprietà sameAs di schema.org.

img22

Se dovessi descriverla in modo semplice, direi che sameAs funge da entità canonica. Certo, è un po’ più complicato di così e ha molto a che fare con la conferma dell’identità, ma nella mia esperienza, utilizzare correttamente sameAs può essere un modo utile (e più diretto) di dire ai motori di ricerca quali entità quella pagina contiene, o rappresenta.

img23

Qui si vede che una pagina di Leonardo Di Caprio ha una proprietà sameAs che referenzia la relativa voce di Wikipedia. Ora, ovviamente, si potrebbe provare a spammare questa proprietà, ma ci sarebbero svariati modi per smascherare questo tipo di comportamento. Purtroppo, lo so che questo non fermerà alcuni di voi.

Wikipedia

img24

Che ci piaccia o no, Wikipedia è ancora una fonte di dati primaria per il Knowledge Graph. Se avete un sacco di tempo, pazienza e l’argomento può essere obiettivo e non soggettivo, potete coinvolgervi con Wikipedia per aiutare a creare profili aziendali, fornire link di riferimento (più importanti di quanto si possa immaginare) e in generale, garantire che il vostro marchio sia rappresentato in più posti legittimi possibile.

Il vostro obiettivo qui non è di fare spam su Wikipedia ma semplicemente di infrangere la natura kafkiana della moderazione di Wikipedia e fornire una rappresentazione reale del vostro sito o del vostro marchio, aggiungendo valore a tutto il corpus e a tutta la piattaforma.

Freebase

Freebase affronta un diverso tipo di sfida. Invece di redattori ostinati e drammi umani, Freebase è solo … una struttura bizantina di aggiornamenti. Le buone notizie? Ha un filo diretto con il grafo della conoscenza.

Per esempio, se si cerca Twitter, questa è la scheda del Knowledge Graph che si riceve come risultato.

img24

Non c’è una parte derivata da Google+ nella scheda, perché sotto la sezione Social Media Presence, non c’è alcun riferimento a una pagina Google+.

img25

Viene fuori che Twitter non ha una pagina Google+. Seriamente? Accidenti, datti una mossa, Twitter. Fate il confronto con StumbleUpon.

img26

Hanno informazioni di business specifiche, nonché l’integrazione con i post recenti su Google+. Perché? Su Freebase hanno una voce Google+ nella sezione ‘Social Media Presence’.

img27

Che ne dite di Foursquare?

img28

Ahi! Non tanto bene. Hanno il loro account Google+ in Freebase.

img29

Tuttavia, la sezione business della voce ‘Foursquare Labs, Inc.’ in Freebase (diversa da quella della voce standard ‘Foursquare’), è vuota.

img30

Ora, l’interazione tra la voce standard e la voce di business su Freebase può essere strana e alcune entità non hanno nemmeno bisogno di questa doppia classificazione, il che rende la comprensione come inserire i dati, molto complessa. Quindi, non siete i soli che pensano che aggiornare Freebase sia difficile, ma … ne vale la pena.

Solo per un altro esempio, guardate la scheda del Knowledge Graph di Garret Dillahunt e poi guardate i dati della sua voce in Freebase. Abbinate gli elementi che compaiono nella scheda. Convinti?

Vi chiedete perché Google metta un link a Wikipedia nelle schede del Knowledge Graph invece che a Freebase? Ma avete guardato Freebase !? E’ un sito di destinazione a cui il team di ricerca di Google non vorrebbe mandare nessun utente. Per questo motivo, e perché Wikipedia ha un marchio solido che probabilmente ha maggior risonanza fra la maggior parte degli utenti.

KGO

L’ottimizzazione per il Knowledge Graph è appena iniziata, ma qui ci sono le cose pratiche che potete fare, per iniziare a fronteggiare a questo nuovo mondo.

Usate Entità (cioè sostantivi) nei vostri testi

Rendete più facile agli utenti e ai motori di ricerca, sapere di cosa si parla, utilizzando nei vostri testi i nomi effettivi delle entità.

State connessi e puntate dei link a siti pertinenti

Smettete di accumulare link juice e mettete link a siti pertinenti, in modo che le informazioni sulle entità possano iniziare a fluire tra i siti.

Utilizzate i dati strutturati per aumentare la rilevazione delle Entità

Rendete più facile ai motori di ricerca individuare, estrarre e collegare le entità al Knowledge Graph, utilizzando vari standard di dati strutturati.

Fate un passo ulteriore e utilizzate la Proprietà sameAs

Quando è appropriato, usate sameAs per referenziare l’esatta voce di Freebase, o Wikipedia per quella entità. Pensate a sameAs come ad una entità canonica.

Rivendicate e ottimizzate la vostra presenza su Google+

Non c’è dubbio che Google si trovi in mezzo ad una buona parte del grafo della conoscenza, in particolare per i luoghi. Per cui rivendicate e ottimizzate la vostra presenza, che si estende al ricevere recensioni.

Ottenete visibilità su Wikipedia

Mettere su un po’ di musica e giocatevela con i Wikipediani, che sembrano usciti direttamente da uno sketch Argument di Monty Python, modificate il vostro profilo e aggiungete alcuni riferimenti appropriati.

Modificate e aggiornate la vostra scheda su Freebase

Aggiornate la vostra voce su Freebase e rendetela più completa possibile. Spero di avere un post più istruttivo sulla modifica di Freebase nel prossimo futuro.

La Knowledge Graph Optimization (KGO) consiste nel rendere più semplice connettersi a quante più entità pertinenti possibili, in modo che i motori di ricerca capiscano meglio il vostro sito a livello di ‘oggetto’ e possano passare importanti meta informazioni tra le entità collegate.

A.J. KohnA.J. Kohn

Traduzione di

Stampa articolo in formato PDFScarica il file in formato PDF

Post A Comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *