L’argomento del post riguarda le cose da sapere sulla indicizzazione nei motori di ricerca di una pagina od un URL. Prima di approfondire l’argomento e comprendere il significato delle due parole inglesi, dobbiamo capire cos’è il web-scraping, intendiamo anche fornire uno spunto di riflessione su come è possibile renderlo utile agli scopi di ciascuno.
Il web-scraping è una tecnica utile ad estrarre automaticamente informazioni specifiche (oppure oggetto di studio) dalle pagine pubblicate in Internet utilizzando un software che simula la navigazione; Umana.
Un valido aiuto
Il web-scraping ci aiuta ad estrarre grandi volumi di dati, da finalizzare per cercare nuovi clienti, prodotti specifici, non solo ma anche persone, indicazioni sui singoli mercati azionari, ecc.
È tutt’ora difficile ottenere questo tipo di informazioni su larga scala utilizzando metodi tradizionali di raccolta dati. In passato si spulciavano e trascrivevano gli annuari le riviste e tutti i mezzi di diffusione delle informazioni, dei quali internet ha ereditato la funzione tecnica e sociale.
Di norma si utilizzano i dati raccolti da un sito web singolo come da una specifica cerchia, oppure da uno o più portali di e-commerce, da canali social media ecc.; Per conoscere le tendenze i comportamenti e le opinioni dei potenziali clienti, i loro modelli di desiderio e di acquisto e le associazioni e gli attributi del marchio.
I motori di ricerca come Google utilizzano da tempo i cosiddetti crawler web che cercano termini definiti dall’utente su Internet. I crawler sono boot speciali che visitano i sito web singolarmente per creare da ciascuno associazioni tra termini di ricerca, per classificarli.
il primo motore di ricerca WWW
JumpStation è stato il primo motore di ricerca come oggi li intendiamo che si è comportato, ed è apparso all’utente, come fanno gli attuali motori di ricerca web. L’indicizzazione è iniziata il 12 dicembre 1993 ed è stata annunciata sulla pagina web “Novità” di Mosaic il 21 dicembre 1993. Fu ospitato presso l’ Università di Stirling in Scozia e scritto da Jonathon Fletcher di Scarborough in Inghilterra, il quale si laureò con lode in scienze informatiche nell’estate del 1992 successivamente fu anche indicato come il “padre del motore di ricerca “.
Jonathon fu impiegato come amministratore di sistema presso l’installazione della sua creatura il crawler JumpStation, lo sviluppo ovvero, gli aggiornamenti come oggi li definiamo da parte del suo creatore, si interruppero quando lasciò l’Università alla fine del 1994, infatti considerati il tempo preistorico di internet, purtroppo non riuscì a convincere nessun investitore per sostenere finanziariamente la sua idea, inclusa la facoltosa Università “privata” di Stirling. Per avere una idea su quale progetto informatico bisognava finanziare, il database aveva 275.000 voci il suo indice era distribuito su 1.500 server.
JumpStation
Ha utilizzato titoli e intestazioni dei documenti per indicizzare le pagine Web incontrate in rete utilizzando una semplice ricerca lineare e non forniva alcuna classificazione dei risultati. Tuttavia, dobbiamo notare che guarda il caso, il codice di programma che utilizzava JumpStation aveva la stessa forma di base della attuale struttura di base del software di ricerca impiegato da Google; In quanto:
- utilizzava un indice costruito esclusivamente da un robot web,
- cercava in questo indice utilizzando query di parole chiave, inserite dall’utente su un modulo web,
- la cui posizione era ben nota,
- presentava i risultati corrispondenti a tali parole chiave, sotto forma di un elenco di URL ( Uniform Resource Locator ), oggi chiamato colloquialmente indirizzo web.
Il web scraping o web harvesting è una tecnica di crawling. che nasce dall’idea di uno studente universitario d’informatica nel 1993, come tante altre conservata fino alla sua riscoperta dal solito cittadino benestante. Il quale però la utilizza a scopi speculatori e non certo di studio o pubblica diffusione.
Cerchiamo di spiegare come funziona, a cosa serve esattamente e come bloccare la sua attività se necessario sulle nostre pagine.
Va certamente rimarcato che; Il blocco del crawler comporterà la mancata indicizzazione nei motori di ricerca delle pagine.
Questa attività difensiva quindi; È indicata per contenuti finalizzati a fruitori specifici della rete, quali ad esempio i clienti od i venditori di una singola impresa commerciale. La stessa impresa provvederà però a spostare le attività di vendita on line su un secondo server al quale non è stata imposta questa protezione. Alquanto masochista per un sito di commercio elettronico.
Compresa l’attività che il motore di ricerca utilizza per rispondere ad una nostra richiesta e renderci quella pagina contenente l’elenco di link sul web.
