Come creare un campione rappresentativo di 1 miliardo di profili Instagram con solo dati pubblici

Panoramica e obiettivo:

Questo articolo descrive i passi che ho preso per creare un campione casuale di utenti Instagram di 13-17 anni che vivono nell'UE e negli Stati Uniti che sarebbero statisticamente rappresentativi in ​​modo da poter calcolare un numero minimo di bambini a cui sono mostrate le loro informazioni private .

Ci sono circa 7.000.000 di utenti di Instagram nei paesi dell'UE che hanno tra 13 e 17 anni. La caratteristica specifica che sto misurando è il numero di utenti che hanno cambiato il loro profilo Instagram personale in un account aziendale. Circa il 15% di tutti gli utenti ha apportato questa modifica al proprio profilo.

La "ovvia" ragione per cui gli utenti cambiano il loro profilo in un account aziendale è che si tratta effettivamente di un'azienda. Esistono infatti un gran numero di imprenditori individuali e lavoratori autonomi che hanno apportato questa modifica al loro profilo (se sei un dipendente di un'azienda, è estremamente improbabile che tu cambi il tuo profilo in quello del tuo datore di lavoro .

Tuttavia, ho scoperto che un gran numero di bambini ha cambiato il loro profilo in un account aziendale perché possono ricevere statistiche dettagliate su quali post vengono letti da chi e Instagram rende estremamente facile cambiare il tuo profilo in un profilo aziendale - non c'è letteralmente verifica richiesta.

Informazioni sull'account Instagram che possono essere utilizzate per il campionamento

I profili Instagram sono identificati da un'etichetta alfanumerica univoca, il "nome profilo" (esempi di nomi profilo includono "Lucy09f", "robmax" o "____ziag___")

  • Si può raccogliere un elenco di nomi di profilo dal sito Web pubblicamente disponibile di Instagram e discuterò una serie di metodi per farlo di seguito
  • Per visualizzare qualsiasi profilo Instagram su Internet, l'URL è costruito con una semplice regola: www.instagram.com/PROFILENAME (ad es. “Www.instagram.com/robmax”)
  • Non è necessario disporre di un account Instagram per poter accedere agli elementi di dati di qualsiasi profilo Instagram presente sul Web e tutti i profili Instagram hanno una propria pagina Web, utilizzando la convenzione url sopra.
  • Instagram non fornisce informazioni strutturate sull'età di un utente o sul paese di residenza.
  • I profili Instagram hanno un ID numerico # ma questo non è identificabile finché non accedi alla pagina web per un profilo specifico
  • Ciò significa che non è possibile creare una stringa di numeri ID profilo casuali utilizzando un intervallo di numeri ID profilo noti

Ad eccezione degli account impostati su "Privato", è possibile "raschiare" i nomi dei profili dei follower di un determinato utente. Questo è un po 'laborioso e richiede l'accesso a Instagram.

Ad esempio, se l'utente "robmax" ha 412 follower, posso estrarre i nomi utente di tutti quei follower e da tale estratto, accedere alle informazioni del loro profilo sulla pagina Web Instagram di ciascun utente.

Gli elementi di dati specifici che ho estratto dalla pagina Web di un profilo per la mia ricerca:

Dichiarazione biografica dell'utente:

  • Questo è il contenuto generato dall'utente che può essere presente o meno
  • La lunghezza del personaggio è piuttosto limitata
  • Gli utenti possono includere emoji nella loro dichiarazione bio
  • Ho estratto il codice sorgente HTML per la dichiarazione biografica di ciascun utente
  • Il codice sorgente HTML di ogni particolare emoji è una variabile Unicode distinta come "U + 1F600" che è un'immagine unica di una faccia sorridente. Per la mia ricerca ho ignorato le emoji nel codice sorgente, tranne se era leggibile nell'app o sul Web

Tipo di profilo

Il tipo di profilo è il livello più alto di categorizzazione degli utenti

  • Nel codice sorgente html, l'elemento di dati che identifica il tipo di un profilo è "@type"
  • Il valore "@type" per ogni profilo è contenuto in una sezione specifica del codice sorgente, in particolare la riga 193 che appare subito dopo "