web scraping! cos’è ?

L’argomento del post riguarda le  cose da sapere sulla indicizzazione nei motori di ricerca di una pagina od un URL. Prima di approfondire l’argomento e comprendere il significato delle due parole inglesi, dobbiamo capire cos’è il web-scraping, intendiamo anche fornire uno spunto di riflessione su come è possibile renderlo utile agli scopi di ciascuno.

Il web-scraping è una tecnica utile ad estrarre automaticamente informazioni specifiche (oppure oggetto di studio) dalle pagine pubblicate in Internet utilizzando un software che simula la navigazione; Umana.

Un valido aiuto

Il web-scraping ci aiuta ad estrarre grandi volumi di dati, da finalizzare per cercare nuovi clienti, prodotti specifici, non solo ma anche persone, indicazioni sui singoli mercati azionari, ecc.

È tutt’ora difficile ottenere questo tipo di informazioni su larga scala utilizzando metodi tradizionali di raccolta dati. In passato si spulciavano e trascrivevano gli annuari le riviste e tutti i mezzi di diffusione delle informazioni, dei quali internet ha ereditato la funzione tecnica e sociale.

Di norma si utilizzano i dati raccolti da un sito web singolo come da una specifica cerchia, oppure da uno o più  portali di e-commerce, da canali social media ecc.; Per conoscere le tendenze i comportamenti e le opinioni dei potenziali clienti, i loro modelli di desiderio e di acquisto e le associazioni e gli attributi del marchio.

I motori di ricerca come Google utilizzano da tempo i cosiddetti crawler web che cercano termini definiti dall’utente su Internet. I crawler sono boot speciali che visitano i sito web singolarmente per creare da ciascuno associazioni tra termini di ricerca, per classificarli.

il primo motore di ricerca WWW

JumpStation è stato il primo motore di ricerca come oggi li intendiamo che si è comportato, ed è apparso all’utente, come fanno gli attuali motori di ricerca web. L’indicizzazione è iniziata il 12 dicembre 1993 ed è stata annunciata sulla pagina web “Novità” di Mosaic il 21 dicembre 1993. Fu ospitato presso l’ Università di Stirling in Scozia e scritto da Jonathon Fletcher di Scarborough in Inghilterra, il quale si laureò  con lode in scienze informatiche nell’estate del 1992 successivamente fu anche indicato come il “padre del motore di ricerca “.

Jonathon fu impiegato come amministratore di sistema presso l’installazione della sua creatura il crawler JumpStation,  lo sviluppo ovvero, gli aggiornamenti come oggi li definiamo da parte del suo creatore, si interruppero quando lasciò l’Università alla fine del 1994, infatti considerati il tempo preistorico di internet, purtroppo non riuscì a convincere nessun investitore per sostenere finanziariamente la sua idea, inclusa la facoltosa Università “privata” di Stirling. Per avere una idea su quale progetto informatico bisognava finanziare, il database aveva 275.000 voci il suo indice era distribuito su 1.500 server.

JumpStation

Ha utilizzato titoli e intestazioni dei documenti per indicizzare le pagine Web incontrate in rete utilizzando una semplice ricerca lineare e non forniva alcuna classificazione dei risultati. Tuttavia, dobbiamo notare che guarda il caso, il codice di programma che utilizzava JumpStation aveva la stessa forma di base della attuale struttura di base del software di ricerca impiegato da Google; In quanto:

  1. utilizzava un indice costruito esclusivamente da un robot web,
  2. cercava in questo indice utilizzando query di parole chiave, inserite dall’utente su un modulo web,
  3. la cui posizione era ben nota,
  4. presentava i risultati corrispondenti a tali parole chiave, sotto forma di un elenco di  URL ( Uniform Resource Locator ), oggi chiamato colloquialmente indirizzo web.

Il web scraping o web harvesting è una tecnica di crawling. che nasce dall’idea di uno studente universitario d’informatica nel 1993, come tante altre conservata fino alla sua riscoperta dal solito cittadino benestante. Il quale però la utilizza a scopi speculatori e non certo di studio o pubblica diffusione.

Cerchiamo di spiegare come funziona, a cosa serve esattamente e come bloccare la sua attività se necessario sulle nostre pagine.

Va certamente rimarcato che; Il blocco del crawler comporterà la mancata indicizzazione nei motori di ricerca delle pagine.

Questa attività difensiva quindi; È indicata per contenuti finalizzati a fruitori specifici della rete, quali ad esempio i clienti od i venditori di una singola impresa commerciale. La stessa impresa provvederà però a spostare le attività di vendita on line su un secondo server al quale non è stata imposta questa protezione. Alquanto masochista per un sito di commercio elettronico.

Compresa l’attività che il motore di ricerca utilizza per rispondere ad una nostra richiesta e renderci quella pagina contenente l’elenco di link sul web.

 

 

Web scraping: definizione

Le parole web scraping tradotte dall’inglese, scraping significa “raschiare/scalfire”. Conosciamo bene questa poco più che troglodita lingua, estremamente sintetica e poco chiara nell’attribuzione dei nomi propri e degli aggettivi, Con il termine s’intende nei paesi del Commonwealth, quando nel raschiare o scalfire appunto si estrae qualcosa da una informazione ad un minerale a seconda che si raschi nella rete o sotto terra, detto prodotto ricavato si conserva.

Così in informatica si raschiano i server e si memorizzano i dati raccolti dalle pagine web, dal suo ideatore ad oggi la novità della riscoperta è che non soltanto le pagine web sono raschiate, ma e soprattutto l’intero server e qualsiasi  NAS acronimo di Network Attached Storage, che rappresenta una serie di Hard Disks collegati alla rete amministrata da quel singolo server.

Lo scraping raccoglie molti e diversi tipi di informazione.

Ad esempio di contatto, come indirizzi di posta elettronica o numeri di telefono, ma anche tag e termini di ricerca quali le ormai famosissime key words, infine gli altri URL. Questi dati sono destinati e raccolti in database o tabelle locali. Il bello della definizione locali attribuita alle tabelle non rappresenta la collocazione fisica dei dati raccolti digitalmente, infatti qualsiasi tabella può essere distribuita su innumerevoli server nella rete internet.

 Possiamo ulteriormente sintetizzare che; Il web scraping estrae i testi dalle pagine web per ottenere e memorizzare informazioni.

È paragonabile a un processo automatico di copia e incolla. Per l’indicizzazione delle immagini, il processo è identificato con l’espressione di image scraping.

Come funziona il web/imaging scraping?

Esistono diverse tecniche di scraping, ma generalmente si distingue tra scraping manuale e automatico. Per scraping manuale s’intende il processo manuale di copia e incolla di informazioni e dati.

Questo può essere paragonato all’attività di ritaglio e raccolta di articoli di giornale.

Lo scraping manuale viene eseguito solo se si desidera trovare e memorizzare informazioni singole, ma soprattutto poche.

È un processo impegnativo che viene utilizzato raramente per grandi quantità di dati, piuttosto per pochi e meritevoli dati.

Lo scraping automatico utilizza invece un software od algoritmo che ricerca più pagine web per estrarre informazioni.

Per questo esistono software specifici, a seconda del tipo di sito web e dei contenuti ricercati.

Lo scraping automatico, si distingue con diverse tecniche applicative:

  • Parser: un parser (o traduttore) viene utilizzato per convertire il testo in una struttura nuova. Ad esempio, nell’analisi HTML, il software legge un documento HTML e memorizza le informazioni. Il parsing DOM utilizza la visualizzazione lato client del contenuto nel browser per estrarre i dati.
  • Boot: un boot è un software informatico dedicato a compiti specifici che per comodità sono automatizzati. Il web harvesting utilizza i boot per navigare automaticamente nei siti web e raccogliere dati.
  • Text: se si ha familiarità con la riga di comando, è possibile utilizzare i comandi Unix grep, per cercare termini specifici in Python o Perl direttamente dal vostro browser web. Questo è un modo molto semplice per estrarre i dati, ma richiede più lavoro rispetto all’utilizzo di un software creato ad och.

A cosa serve il web scraping?

Il web scraping viene utilizzato per diversi scopi. Ad esempio, permette di raccogliere rapidamente i dati di contatto o informazioni specifiche. Nel settore professionale, il processo di scraping viene spesso utilizzato per ottenere vantaggi competitivi rispetto ai concorrenti titolari di altri studi professionali. La raccolta dei dati, conosciuta nel settore anche come “harvesting dei dati”, consente ad un’azienda di visualizzare tutti i prodotti di un concorrente e casomai confrontarli con i propri senza che il pubblicante ne abbia contezza. Il web scraping apporta valore aggiunto anche in termini di dati finanziari: le informazioni vengono lette da un sito web esterno e trasferite sotto forma di tabella per poi essere analizzate e ulteriormente elaborate. Ovviamente è l’analisi delle interazioni tra le diverse tabelle che farà la differenza, in termini di sfruttamento dei dati raccolti.

Un buon esempio di web scraping è Google. Il motore di ricerca ad esempio utilizza questa testata tecnologia per visualizzare informazioni meteorologiche o confrontare i prezzi di hotel e voli. Anche molti portali che confrontano i prezzi utilizzano lo scraping per visualizzare le informazioni dei molti siti web proposti e dei diversi fornitori presenti.

Il web scraping è legale?

Lo scraping non sempre è legale e gli scraper (coloro che praticano lo scraping) devono innanzitutto rispettare i diritti d’autore di un sito web. Il web scraping può avere conseguenze piuttosto gravi per alcuni negozi e fornitori web, ad esempio, se questo influisce sul posizionamento del sito nei motori di ricerca tramite aggregatori.

Non è raro quindi per un’azienda querelare un portale di confronto al fine di prevenire il web scraping.

In Germania, ad esempio, la Corte d’Appello di Francoforte ha stabilito nel 2009, in un caso simile, che una compagnia aerea deve consentire lo scraping attraverso portali di confronto dal momento che le sue informazioni sono, in ultima analisi, liberamente accessibili. La compagnia aerea aveva, comunque, la possibilità di adottare misure tecniche per prevenire lo scraping.

L’orientamento giurisprudenziale

La questione è stata affrontata anche dalla Corte di Giustizia dell’Unione Europea e dal Garante per la privacy (AGCOM) in tempi più recenti, la quale ha stabilito che il sito non può esplicitamente negare nelle sue condizioni l’uso di software di scraping o crawling, chi non rispetta queste indicazioni può incorrere in sanzioni.

Lo Scraping è quindi legale se i dati estratti :

  • sono liberamente accessibili a terzi sul web,
  • non siano oggetto di speculazione,
  • siano utilizzati scopi leciti e sostenibili non per perpetrare reati o procurare danni a terzi.

Per essere al sicuro dal punto di vista legale

Quando si utilizza il web scraping è quindi necessario considerare quanto segue:

  • Verificare e rispettare i diritti d’autore. Se i dati sono protetti dal diritto d’autore, non possono essere pubblicati altrove.
  • Nel caso gli operatori del sito che ne hanno hanno il diritto installino misure tecniche che impediscono il web scraping. Non può essere cercato un metodo per aggirale.

Ciò accade di norma quando l’utilizzo dei dati su uno specifico web è correlato al login dell’utente o a un contratto di utilizzo. Questi siti infatti non devono e non possono essere sottoposti a scraping.

Non è consentito nascondere annunci pubblicitari, termini di utilizzo o disclaimer che rappresenta il discarico di responsabilità, con la tecnologia di scraping.

Sebbene lo scraping sia in molti casi consentito, può certamente essere utilizzato in modo improprio per scopi distruttivi o addirittura illegali. La tecnologia viene, ad esempio, spesso utilizzata per il famosissimo quanto odioso spam. Gli spammer se ne servono per raccogliere indirizzi e inviare a questi destinatari e-mail quotidiane di qualsiasi genere e natura. Quando non proprio veri e propri virus informatici.

Come bloccare il web scraping

I gestori di un sito web possono adottare varie misure per bloccare lo scraping. Il file robots.txt viene, ad esempio, utilizzato per bloccare i boot dei motori di ricerca. Di conseguenza, si impedisce anche lo scraping automatico da parte dei boot software. Anche i singoli indirizzi IP di provenienza dei boot possono essere bloccati. I dati di contatto e le informazioni personali possono essere nascosti in modo mirato. I dati sensibili, come i numeri di telefono, possono anche essere memorizzati sotto forma d’immagine o come CSS, contrastando lo scraping dei dati. Inoltre, ci sono numerosi fornitori a pagamento di servizi anti boot che possono configurare i firewall in maniera specifica. Anche Google Search Console può essere utilizzato per impostare notifiche che avvisano gli amministratori del sito web quando i loro dati sono stati sottoposti a scraping.

Nella speranza di aver contribuito a dare una concreta informazione su determinati aspetti che ci coinvolgono e ci espongono nella vita quotidiana.

Restiamo a disposizione, attraverso il form che segue è possibile inviare al blog quesiti sull’argomento.


[contact-form-7 id=”204″ title=”Modulo di contatto”]

tax Blogger
Author: tax Blogger

Organo di stampa on line del blogger. Dedicato ai Principal Owner presso aziende e studi Professionali; Tecnici; Legali; Tributaristi & Revisori.