If you have ten thousand regulations you destroy all respect for the law.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse nec quam vitae tellus malesuada vehicula. Mauris interdum erat non mauris commodo, eu aliquam tortor viverra. Fusce ac arcu non velit ultricies lacinia et vel libero. Aliquam vitae aliquet diam, vitae posuere felis. Donec iaculis dui sit amet purus sollicitudin, id pellentesque ex commodo. Ut nisl dui, blandit et suscipit et, suscipit eget turpis. Quisque in sapien ante. Quisque ultricies, dui et egestas cursus, nisl augue blandit tortor, ac congue ante est ut odio. Maecenas vitae eros quis tortor convallis luctus. Mauris nec elementum ante, sit amet mattis nisl. Aenean dapibus bibendum nisl ut bibendum.

Suspendisse rhoncus ultricies magna sed hendrerit. Donec nulla diam, lobortis ac blandit at, ornare a dolor. Quisque ultrices ex at odio suscipit consequat. Nunc nec tellus at justo pulvinar ultrices. Sed id pulvinar justo. Quisque odio nulla, interdum ornare pretium a, sagittis vel ligula. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. In mollis scelerisque sapien vitae iaculis.

Praesent in diam pretium, elementum augue vitae, finibus tellus. Sed sit amet mollis purus. Curabitur mollis, odio quis ultrices porttitor, tortor lacus sagittis sapien, quis cursus lorem ligula vel massa. Aliquam erat volutpat. Proin tincidunt ligula sed sapien sodales vehicula. Fusce ultrices laoreet sodales. Cras venenatis lectus eu eros pellentesque auctor. Vestibulum scelerisque cursus enim, sed rutrum massa blandit eget. Maecenas sed libero id est iaculis condimentum in id elit. Integer quis orci vulputate quam finibus volutpat quis eget risus.

Nullam tristique convallis turpis. Fusce auctor sagittis est vitae ultricies. Phasellus gravida fermentum elementum. Aenean consequat nunc sed dolor convallis ullamcorper. Sed ullamcorper venenatis vestibulum. Nam ultricies, dolor non venenatis eleifend, massa tortor feugiat mauris, vel sollicitudin ligula magna id erat. Proin porta mi eu iaculis rutrum. Praesent pretium tempus congue. Vivamus sollicitudin placerat elit, et vehicula velit.

Praesent in diam magna. Nam auctor purus vitae felis lobortis pretium imperdiet in orci. Integer sit amet molestie quam. Mauris malesuada, neque luctus feugiat bibendum, sapien lectus suscipit metus, id gravida justo massa vel mi. Proin enim felis, sollicitudin nec tincidunt at, pharetra in libero. Nam tincidunt orci nec tortor gravida, ac tempus risus efficitur. Cras sit amet nulla vel turpis imperdiet fermentum. Mauris consequat sed ante id interdum. Vivamus vulputate laoreet varius. Curabitur laoreet arcu ac rutrum interdum. Suspendisse dictum elit vel dictum pellentesque. Aenean placerat nisi leo, volutpat porttitor lectus efficitur non.

Justice? -You get justice in the next world, in this world you have the law.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse nec quam vitae tellus malesuada vehicula. Mauris interdum erat non mauris commodo, eu aliquam tortor viverra. Fusce ac arcu non velit ultricies lacinia et vel libero. Aliquam vitae aliquet diam, vitae posuere felis. Donec iaculis dui sit amet purus sollicitudin, id pellentesque ex commodo. Ut nisl dui, blandit et suscipit et, suscipit eget turpis. Quisque in sapien ante. Quisque ultricies, dui et egestas cursus, nisl augue blandit tortor, ac congue ante est ut odio. Maecenas vitae eros quis tortor convallis luctus. Mauris nec elementum ante, sit amet mattis nisl. Aenean dapibus bibendum nisl ut bibendum.

Suspendisse rhoncus ultricies magna sed hendrerit. Donec nulla diam, lobortis ac blandit at, ornare a dolor. Quisque ultrices ex at odio suscipit consequat. Nunc nec tellus at justo pulvinar ultrices. Sed id pulvinar justo. Quisque odio nulla, interdum ornare pretium a, sagittis vel ligula. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. In mollis scelerisque sapien vitae iaculis.

Praesent in diam pretium, elementum augue vitae, finibus tellus. Sed sit amet mollis purus. Curabitur mollis, odio quis ultrices porttitor, tortor lacus sagittis sapien, quis cursus lorem ligula vel massa. Aliquam erat volutpat. Proin tincidunt ligula sed sapien sodales vehicula. Fusce ultrices laoreet sodales. Cras venenatis lectus eu eros pellentesque auctor. Vestibulum scelerisque cursus enim, sed rutrum massa blandit eget. Maecenas sed libero id est iaculis condimentum in id elit. Integer quis orci vulputate quam finibus volutpat quis eget risus.

Nullam tristique convallis turpis. Fusce auctor sagittis est vitae ultricies. Phasellus gravida fermentum elementum. Aenean consequat nunc sed dolor convallis ullamcorper. Sed ullamcorper venenatis vestibulum. Nam ultricies, dolor non venenatis eleifend, massa tortor feugiat mauris, vel sollicitudin ligula magna id erat. Proin porta mi eu iaculis rutrum. Praesent pretium tempus congue. Vivamus sollicitudin placerat elit, et vehicula velit.

Praesent in diam magna. Nam auctor purus vitae felis lobortis pretium imperdiet in orci. Integer sit amet molestie quam. Mauris malesuada, neque luctus feugiat bibendum, sapien lectus suscipit metus, id gravida justo massa vel mi. Proin enim felis, sollicitudin nec tincidunt at, pharetra in libero. Nam tincidunt orci nec tortor gravida, ac tempus risus efficitur. Cras sit amet nulla vel turpis imperdiet fermentum. Mauris consequat sed ante id interdum. Vivamus vulputate laoreet varius. Curabitur laoreet arcu ac rutrum interdum. Suspendisse dictum elit vel dictum pellentesque. Aenean placerat nisi leo, volutpat porttitor lectus efficitur non.

The Law is hard, but it is the Law.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse nec quam vitae tellus malesuada vehicula. Mauris interdum erat non mauris commodo, eu aliquam tortor viverra. Fusce ac arcu non velit ultricies lacinia et vel libero. Aliquam vitae aliquet diam, vitae posuere felis. Donec iaculis dui sit amet purus sollicitudin, id pellentesque ex commodo. Ut nisl dui, blandit et suscipit et, suscipit eget turpis. Quisque in sapien ante. Quisque ultricies, dui et egestas cursus, nisl augue blandit tortor, ac congue ante est ut odio. Maecenas vitae eros quis tortor convallis luctus. Mauris nec elementum ante, sit amet mattis nisl. Aenean dapibus bibendum nisl ut bibendum.

Suspendisse rhoncus ultricies magna sed hendrerit. Donec nulla diam, lobortis ac blandit at, ornare a dolor. Quisque ultrices ex at odio suscipit consequat. Nunc nec tellus at justo pulvinar ultrices. Sed id pulvinar justo. Quisque odio nulla, interdum ornare pretium a, sagittis vel ligula. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. In mollis scelerisque sapien vitae iaculis.

Praesent in diam pretium, elementum augue vitae, finibus tellus. Sed sit amet mollis purus. Curabitur mollis, odio quis ultrices porttitor, tortor lacus sagittis sapien, quis cursus lorem ligula vel massa. Aliquam erat volutpat. Proin tincidunt ligula sed sapien sodales vehicula. Fusce ultrices laoreet sodales. Cras venenatis lectus eu eros pellentesque auctor. Vestibulum scelerisque cursus enim, sed rutrum massa blandit eget. Maecenas sed libero id est iaculis condimentum in id elit. Integer quis orci vulputate quam finibus volutpat quis eget risus.

Nullam tristique convallis turpis. Fusce auctor sagittis est vitae ultricies. Phasellus gravida fermentum elementum. Aenean consequat nunc sed dolor convallis ullamcorper. Sed ullamcorper venenatis vestibulum. Nam ultricies, dolor non venenatis eleifend, massa tortor feugiat mauris, vel sollicitudin ligula magna id erat. Proin porta mi eu iaculis rutrum. Praesent pretium tempus congue. Vivamus sollicitudin placerat elit, et vehicula velit.

Praesent in diam magna. Nam auctor purus vitae felis lobortis pretium imperdiet in orci. Integer sit amet molestie quam. Mauris malesuada, neque luctus feugiat bibendum, sapien lectus suscipit metus, id gravida justo massa vel mi. Proin enim felis, sollicitudin nec tincidunt at, pharetra in libero. Nam tincidunt orci nec tortor gravida, ac tempus risus efficitur. Cras sit amet nulla vel turpis imperdiet fermentum. Mauris consequat sed ante id interdum. Vivamus vulputate laoreet varius. Curabitur laoreet arcu ac rutrum interdum. Suspendisse dictum elit vel dictum pellentesque. Aenean placerat nisi leo, volutpat porttitor lectus efficitur non.

The more corrupt the state, the more numerous the laws.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse nec quam vitae tellus malesuada vehicula. Mauris interdum erat non mauris commodo, eu aliquam tortor viverra. Fusce ac arcu non velit ultricies lacinia et vel libero. Aliquam vitae aliquet diam, vitae posuere felis. Donec iaculis dui sit amet purus sollicitudin, id pellentesque ex commodo. Ut nisl dui, blandit et suscipit et, suscipit eget turpis. Quisque in sapien ante. Quisque ultricies, dui et egestas cursus, nisl augue blandit tortor, ac congue ante est ut odio. Maecenas vitae eros quis tortor convallis luctus. Mauris nec elementum ante, sit amet mattis nisl. Aenean dapibus bibendum nisl ut bibendum.

Suspendisse rhoncus ultricies magna sed hendrerit. Donec nulla diam, lobortis ac blandit at, ornare a dolor. Quisque ultrices ex at odio suscipit consequat. Nunc nec tellus at justo pulvinar ultrices. Sed id pulvinar justo. Quisque odio nulla, interdum ornare pretium a, sagittis vel ligula. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. In mollis scelerisque sapien vitae iaculis.

Praesent in diam pretium, elementum augue vitae, finibus tellus. Sed sit amet mollis purus. Curabitur mollis, odio quis ultrices porttitor, tortor lacus sagittis sapien, quis cursus lorem ligula vel massa. Aliquam erat volutpat. Proin tincidunt ligula sed sapien sodales vehicula. Fusce ultrices laoreet sodales. Cras venenatis lectus eu eros pellentesque auctor. Vestibulum scelerisque cursus enim, sed rutrum massa blandit eget. Maecenas sed libero id est iaculis condimentum in id elit. Integer quis orci vulputate quam finibus volutpat quis eget risus.

Nullam tristique convallis turpis. Fusce auctor sagittis est vitae ultricies. Phasellus gravida fermentum elementum. Aenean consequat nunc sed dolor convallis ullamcorper. Sed ullamcorper venenatis vestibulum. Nam ultricies, dolor non venenatis eleifend, massa tortor feugiat mauris, vel sollicitudin ligula magna id erat. Proin porta mi eu iaculis rutrum. Praesent pretium tempus congue. Vivamus sollicitudin placerat elit, et vehicula velit.

Praesent in diam magna. Nam auctor purus vitae felis lobortis pretium imperdiet in orci. Integer sit amet molestie quam. Mauris malesuada, neque luctus feugiat bibendum, sapien lectus suscipit metus, id gravida justo massa vel mi. Proin enim felis, sollicitudin nec tincidunt at, pharetra in libero. Nam tincidunt orci nec tortor gravida, ac tempus risus efficitur. Cras sit amet nulla vel turpis imperdiet fermentum. Mauris consequat sed ante id interdum. Vivamus vulputate laoreet varius. Curabitur laoreet arcu ac rutrum interdum. Suspendisse dictum elit vel dictum pellentesque. Aenean placerat nisi leo, volutpat porttitor lectus efficitur non.

Laws are like cobwebs, which may catch small flies, but let wasps and hornets break through.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse nec quam vitae tellus malesuada vehicula. Mauris interdum erat non mauris commodo, eu aliquam tortor viverra. Fusce ac arcu non velit ultricies lacinia et vel libero. Aliquam vitae aliquet diam, vitae posuere felis. Donec iaculis dui sit amet purus sollicitudin, id pellentesque ex commodo. Ut nisl dui, blandit et suscipit et, suscipit eget turpis. Quisque in sapien ante. Quisque ultricies, dui et egestas cursus, nisl augue blandit tortor, ac congue ante est ut odio. Maecenas vitae eros quis tortor convallis luctus. Mauris nec elementum ante, sit amet mattis nisl. Aenean dapibus bibendum nisl ut bibendum.

Suspendisse rhoncus ultricies magna sed hendrerit. Donec nulla diam, lobortis ac blandit at, ornare a dolor. Quisque ultrices ex at odio suscipit consequat. Nunc nec tellus at justo pulvinar ultrices. Sed id pulvinar justo. Quisque odio nulla, interdum ornare pretium a, sagittis vel ligula. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. In mollis scelerisque sapien vitae iaculis.

Praesent in diam pretium, elementum augue vitae, finibus tellus. Sed sit amet mollis purus. Curabitur mollis, odio quis ultrices porttitor, tortor lacus sagittis sapien, quis cursus lorem ligula vel massa. Aliquam erat volutpat. Proin tincidunt ligula sed sapien sodales vehicula. Fusce ultrices laoreet sodales. Cras venenatis lectus eu eros pellentesque auctor. Vestibulum scelerisque cursus enim, sed rutrum massa blandit eget. Maecenas sed libero id est iaculis condimentum in id elit. Integer quis orci vulputate quam finibus volutpat quis eget risus.

Nullam tristique convallis turpis. Fusce auctor sagittis est vitae ultricies. Phasellus gravida fermentum elementum. Aenean consequat nunc sed dolor convallis ullamcorper. Sed ullamcorper venenatis vestibulum. Nam ultricies, dolor non venenatis eleifend, massa tortor feugiat mauris, vel sollicitudin ligula magna id erat. Proin porta mi eu iaculis rutrum. Praesent pretium tempus congue. Vivamus sollicitudin placerat elit, et vehicula velit.

Praesent in diam magna. Nam auctor purus vitae felis lobortis pretium imperdiet in orci. Integer sit amet molestie quam. Mauris malesuada, neque luctus feugiat bibendum, sapien lectus suscipit metus, id gravida justo massa vel mi. Proin enim felis, sollicitudin nec tincidunt at, pharetra in libero. Nam tincidunt orci nec tortor gravida, ac tempus risus efficitur. Cras sit amet nulla vel turpis imperdiet fermentum. Mauris consequat sed ante id interdum. Vivamus vulputate laoreet varius. Curabitur laoreet arcu ac rutrum interdum. Suspendisse dictum elit vel dictum pellentesque. Aenean placerat nisi leo, volutpat porttitor lectus efficitur non.

web scraping! cos’è ?

web scraping! cos’è ?

L’argomento del post riguarda leĀ  cose da sapere sulla indicizzazione nei motori di ricerca di una pagina od un URL. Prima di approfondire l’argomento e comprendere il significato delle due parole inglesi, dobbiamo capire cos’ĆØ il web-scraping, intendiamo anche fornire uno spunto di riflessione su come ĆØ possibile renderlo utile agli scopi di ciascuno.

Il web-scraping ĆØ una tecnica utile ad estrarre automaticamente informazioni specifiche (oppure oggetto di studio) dalle pagine pubblicate in Internet utilizzando un software che simula la navigazione; Umana.

Un valido aiuto

Il web-scraping ci aiuta ad estrarre grandi volumi di dati, da finalizzare per cercare nuovi clienti, prodotti specifici, non solo ma anche persone, indicazioni sui singoli mercati azionari, ecc.

ƈ tutt’ora difficile ottenere questo tipo di informazioni su larga scala utilizzando metodi tradizionali di raccolta dati. In passato si spulciavano e trascrivevano gli annuari le riviste e tutti i mezzi di diffusione delle informazioni, dei quali internet ha ereditato la funzione tecnica e sociale.

Di norma si utilizzano i dati raccolti da un sito web singolo come da una specifica cerchia, oppure da uno o più  portali di e-commerce, da canali social media ecc.; Per conoscere le tendenze i comportamenti e le opinioni dei potenziali clienti, i loro modelli di desiderio e di acquisto e le associazioni e gli attributi del marchio.

I motori di ricerca come Google utilizzano da tempo i cosiddetti crawler web che cercano termini definiti dall’utente su Internet. I crawler sono boot speciali che visitano i sito web singolarmente per creare da ciascuno associazioni tra termini di ricerca, per classificarli.

il primoĀ motore di ricerca WWW

JumpStation ĆØ stato il primo motore di ricerca come oggi li intendiamo che si ĆØ comportato, ed ĆØ apparso all’utente, come fanno gli attuali motori di ricerca web. L’indicizzazione ĆØ iniziata il 12 dicembre 1993 ed ĆØ stata annunciata sulla pagina web “NovitĆ ” di Mosaic il 21 dicembre 1993. Fu ospitato presso l’ UniversitĆ  di Stirling in Scozia e scritto da Jonathon Fletcher di Scarborough in Inghilterra, il quale si laureò  con lode in scienze informatiche nell’estate del 1992 successivamente fu anche indicato come il “padre del motore di ricerca “.

Jonathon fu impiegato come amministratore di sistema presso l’installazione della sua creatura il crawler JumpStation,Ā  lo sviluppo ovvero, gli aggiornamenti come oggi li definiamo da parte del suo creatore, si interruppero quando lasciò l’UniversitĆ  alla fine del 1994, infatti considerati il tempo preistorico di internet, purtroppo non riuscƬ a convincere nessun investitore per sostenere finanziariamente la sua idea, inclusa la facoltosa UniversitĆ  “privata” di Stirling. Per avere una idea su quale progetto informatico bisognava finanziare, il database aveva 275.000 voci il suo indice era distribuito su 1.500 server.

JumpStation

Ha utilizzato titoli e intestazioni dei documenti per indicizzare le pagine Web incontrate in rete utilizzando una semplice ricerca lineare e non forniva alcuna classificazione dei risultati. Tuttavia, dobbiamo notare che guarda il caso, il codice di programma che utilizzava JumpStation aveva la stessa forma di base della attuale struttura di base del software di ricerca impiegato da Google; In quanto:

  1. utilizzava un indice costruito esclusivamente da un robot web,
  2. cercava in questo indice utilizzando query di parole chiave, inserite dall’utente su un modulo web,
  3. la cui posizione era ben nota,
  4. presentava i risultati corrispondenti a tali parole chiave, sotto forma di un elenco di Ā URL ( Uniform Resource Locator ), oggi chiamato colloquialmente indirizzo web.

Il web scraping o web harvesting ĆØ una tecnica di crawling. che nasce dall’idea di uno studente universitario d’informatica nel 1993, come tante altre conservata fino alla sua riscoperta dal solito cittadino benestante. Il quale però la utilizza a scopi speculatori e non certo di studio o pubblica diffusione.

Cerchiamo di spiegare come funziona, a cosa serve esattamente e come bloccare la sua attivitĆ  se necessario sulle nostre pagine.

Va certamente rimarcato che; Il blocco del crawler comporterĆ  la mancata indicizzazione nei motori di ricerca delle pagine.

Questa attività difensiva quindi; È indicata per contenuti finalizzati a fruitori specifici della rete, quali ad esempio i clienti od i venditori di una singola impresa commerciale. La stessa impresa provvederà però a spostare le attività di vendita on line su un secondo server al quale non è stata imposta questa protezione. Alquanto masochista per un sito di commercio elettronico.

Compresa l’attivitĆ  che il motore di ricerca utilizza per rispondere ad una nostra richiesta e renderci quella pagina contenente l’elenco di link sul web.

Ā 

Ā 

Web scraping: definizione

Le parole web scraping tradotte dall’inglese, scraping significa ā€œraschiare/scalfireā€. Conosciamo bene questa poco più che troglodita lingua, estremamente sintetica e poco chiara nell’attribuzione dei nomi propri e degli aggettivi, Con il termine s’intende nei paesi del Commonwealth, quando nel raschiare o scalfire appunto si estrae qualcosa da una informazione ad un minerale a seconda che si raschi nella rete o sotto terra, detto prodotto ricavato si conserva.

CosƬ in informatica si raschiano i server e si memorizzano i dati raccolti dalle pagine web, dal suo ideatore ad oggi la novitĆ  della riscoperta ĆØ che non soltanto le pagine web sono raschiate, ma e soprattutto l’intero server e qualsiasi Ā NAS acronimo di Network Attached Storage, che rappresenta una serie di Hard Disks collegati alla rete amministrata da quel singolo server.

Lo scraping raccoglie molti e diversi tipi di informazione.

Ad esempio di contatto, come indirizzi di posta elettronica o numeri di telefono, ma anche tag e termini di ricerca quali le ormai famosissime key words, infine gli altri URL. Questi dati sono destinati e raccolti in database o tabelle locali. Il bello della definizione locali attribuita alle tabelle non rappresenta la collocazione fisica dei dati raccolti digitalmente, infatti qualsiasi tabella può essere distribuita su innumerevoli server nella rete internet.

Ā Possiamo ulteriormente sintetizzare che; Il web scraping estrae i testi dalle pagine web per ottenere e memorizzare informazioni.

ƈ paragonabile a un processo automatico di copia e incolla. Per l’indicizzazione delle immagini, il processo ĆØ identificato con l’espressione di image scraping.

Come funziona il web/imaging scraping?

Esistono diverse tecniche di scraping, ma generalmente si distingue tra scraping manuale e automatico. PerĀ scraping manualeĀ s’intende il processo manuale di copia e incolla di informazioni e dati.

Questo può essere paragonato all’attivitĆ  di ritaglio e raccolta di articoli di giornale.

Lo scraping manuale viene eseguito solo se si desidera trovare e memorizzare informazioni singole, ma soprattutto poche.

ƈ un processo impegnativo che viene utilizzato raramente per grandi quantitƠ di dati, piuttosto per pochi e meritevoli dati.

Lo scraping automatico utilizza invece un software od algoritmo che ricerca più pagine web per estrarre informazioni.

Per questo esistono software specifici, a seconda del tipo di sito web e dei contenuti ricercati.

Lo scraping automatico, si distingue con diverse tecniche applicative:

  • Parser:Ā un parser (o traduttore) viene utilizzato per convertire il testo in una struttura nuova. Ad esempio, nell’analisi HTML, il software legge un documento HTML e memorizza le informazioni. Il parsingĀ DOMĀ utilizza la visualizzazione lato client del contenuto nel browser per estrarre i dati.
  • Boot: un boot ĆØ un software informatico dedicato a compiti specifici che per comoditĆ  sono automatizzati. Il web harvesting utilizza i boot per navigare automaticamente nei siti web e raccogliere dati.
  • Text: se si ha familiaritĆ  con la riga di comando, ĆØ possibile utilizzare i comandi Unix grep, per cercare termini specifici in Python o Perl direttamente dal vostro browser web. Questo ĆØ un modo molto semplice per estrarre i dati, ma richiede più lavoro rispetto all’utilizzo di un software creato ad och.

A cosa serve il web scraping?

Il web scraping viene utilizzato per diversi scopi. Ad esempio, permette di raccogliere rapidamente iĀ dati di contatto o informazioni specifiche. Nel settore professionale, il processo di scraping viene spesso utilizzato per ottenere vantaggi competitivi rispetto ai concorrenti titolari di altri studi professionali. La raccolta dei dati, conosciuta nel settore anche come ā€œharvesting dei datiā€, consente ad un’azienda di visualizzare tutti i prodotti di un concorrente e casomai confrontarli con i propri senza che il pubblicante ne abbia contezza. Il web scraping apporta valore aggiunto anche in termini di dati finanziari: le informazioni vengono lette da un sito web esterno e trasferite sotto forma di tabella per poi essere analizzate e ulteriormente elaborate. Ovviamente ĆØ l’analisi delle interazioni tra le diverse tabelle che farĆ  la differenza, in termini di sfruttamento dei dati raccolti.

Un buon esempio di web scraping ĆØĀ Google. Il motore di ricerca ad esempio utilizza questa testata tecnologia per visualizzare informazioni meteorologiche o confrontare i prezzi di hotel e voli. Anche molti portali che confrontano i prezzi utilizzano lo scraping per visualizzare le informazioni dei molti siti web proposti e dei diversi fornitori presenti.

Il web scraping ĆØ legale?

Lo scrapingĀ non sempre ĆØ legaleĀ e gli scraper (coloro che praticano lo scraping) devono innanzitutto rispettare iĀ diritti d’autore di un sito web. Il web scraping può avere conseguenze piuttosto gravi per alcuni negozi e fornitori web, ad esempio, se questo influisce sul posizionamento del sito nei motori di ricerca tramite aggregatori.

Non ĆØ raro quindi per un’azienda querelare un portale di confronto al fine di prevenire il web scraping.

In Germania, ad esempio, la Corte d’Appello di Francoforte ha stabilito nel 2009, in un caso simile, che una compagnia aerea deve consentire lo scraping attraverso portali di confronto dal momento che le sue informazioni sono, in ultima analisi, liberamente accessibili. La compagnia aerea aveva, comunque, la possibilitĆ  di adottare misure tecniche per prevenire lo scraping.

L’orientamento giurisprudenziale

La questione ĆØ stata affrontata anche dalla Corte di Giustizia dell’Unione Europea e dal Garante per la privacy (AGCOM) in tempi più recenti, la quale ha stabilito che il sito non può esplicitamente negare nelle sue condizioni l’uso di software di scraping o crawling, chi non rispetta queste indicazioni può incorrere in sanzioni.

Lo Scraping ĆØ quindi legaleĀ se i dati estrattiĀ :

  • sono liberamente accessibili a terzi sul web,
  • non siano oggetto di speculazione,
  • siano utilizzati scopi leciti e sostenibili non per perpetrare reati o procurare danni a terzi.

Per essere al sicuro dal punto di vista legale

Quando si utilizza il web scraping ĆØ quindi necessario considerare quanto segue:

  • Verificare e rispettare i diritti d’autore. Se i dati sono protetti dal diritto d’autore, non possono essere pubblicati altrove.
  • Nel caso gli operatori del sito che ne hanno hanno il diritto installino misure tecniche che impediscono il web scraping. Non può essere cercato un metodo per aggirale.

Ciò accade di norma quando l’utilizzo dei dati su uno specifico web ĆØ correlato al login dell’utente o a un contratto di utilizzo. Questi siti infatti non devono e non possono essere sottoposti a scraping.

Non ĆØ consentitoĀ nascondere annunci pubblicitari, termini di utilizzo o disclaimer che rappresenta il discarico di responsabilitĆ , con la tecnologia di scraping.

Sebbene lo scraping sia in molti casi consentito, può certamente essere utilizzato in modo improprio per scopi distruttivi o addirittura illegali. La tecnologia viene, ad esempio, spesso utilizzata per il famosissimo quanto odioso spam. Gli spammer se ne servono per raccogliere indirizzi e inviare a questi destinatari e-mail quotidiane di qualsiasi genere e natura. Quando non proprio veri e propri virus informatici.

Come bloccare il web scraping

I gestori di un sito web possono adottare varie misure per bloccare lo scraping.Ā Il fileĀ robots.txt viene, ad esempio, utilizzato per bloccare i boot dei motori di ricerca. Di conseguenza, si impedisce anche lo scraping automatico da parte dei boot software. Anche i singoli indirizzi IP di provenienza dei boot possono essere bloccati. I dati di contatto e le informazioni personali possono essere nascosti in modo mirato. I dati sensibili, come i numeri di telefono, possono anche essere memorizzati sotto forma d’immagine o come CSS, contrastando lo scraping dei dati. Inoltre, ci sono numerosi fornitori a pagamento di servizi anti boot che possono configurare i firewall in maniera specifica. Anche Google Search ConsoleĀ può essere utilizzato per impostare notifiche che avvisano gli amministratori del sito web quando i loro dati sono stati sottoposti a scraping.

Nella speranza di aver contribuito a dare una concreta informazione su determinati aspetti che ci coinvolgono e ci espongono nella vita quotidiana.

Restiamo a disposizione, attraverso il form che segue ĆØ possibile inviare al blog quesiti sull’argomento.


[contact-form-7 id=”204″ title=”Modulo di contatto”]