25.5.2021.

Regulatorni zastoj u web scraping industriji

Foto:  Ed Webster, Pixabay
Web scraping  je upotreba visokotehnoloških metoda ekstrakcije podataka koja agencijama omogućuje učinkovito prikupljanje podataka iz web izvora treće strane. Ti se podaci često koriste u razne svrhe, uključujući ciljane oglase, poslovnu inteligenciju, upravljanje proizvodima i umjetnu inteligenciju. Međutim, zbog svoje sveprisutnosti i pristupa na više platformi, regulacija industrije struganja weba i dalje visi o koncu.

Kontroverzna intervencija konzultantske tvrtke Cambridge Analytica na američkim izborima 2016. godine izazvala je hrpu pojačanog nadzora u industriji struganja weba. Tvrtka je optužena za prikupljanje sirovih podataka od preko 87 milijuna korisnika Facebooka. Tvrtka je navodno podatke koristila za analitičku pomoć predsjedničkoj kampanji predsjednika Donalda Trumpa 2016. godine. Iako nije donesena kaznena presuda, skandal je potaknuo javni interes za pitanja vezana uz privatnost. To je postalo prekretnica u regulaciji industrije struganja i prikupljanja podataka.

Iako je široko prihvaćeno da neregulirano prikupljanje podataka može biti štetno za korisnike interneta, mnoge se prednosti etičke prakse struganja podataka ne mogu zanemariti. Postao je jedan od stupova interneta kakvog danas poznajemo.

Digitalne tvrtke poput platforma za streaming glazbe i tvrtki za e-trgovinu koriste se alatima za struganje podataka kako bi nadzirale korisničke navike i povijest kupovine da bi stvorile personalizirano iskustvo za korisnike. Tražilice ga koriste za učinkovito dostavljanje relevantnih rezultata pretraživanja na zahtjev. To je također dovelo do velikog napretka u područjima strojnog učenja i umjetne inteligencije.

Međutim, kritičari su zabrinuti što trenutno ne postoje jedinstveni međunarodni zakoni ili aktivni propisi na polju web scrapinga. Kao rezultat toga, tvrtke ne čine dovoljno da zaštite korisničke podatke od zlonamjernih aktera.  Stručnjak Karolis Toleikis, izvršni direktor tvrtke IPRoyal - najistaknutije tvrtke za umrežavanje i posredovanje u IP-u - podijelio je uvide o regulatornoj kontroverzi u tom sektoru.

Izjavljujući da bi bilo učinkovitije imati neovisno regulatorno tijelo, Toleikis je opisao razne mjere samoregulacije koje je njegova tvrtka poduzela kako bi osigurala da se struganje vrši etički i da se podaci ne koriste za zlonamjerne radnje.
"Pomno pratimo zahtjeve svih klijenata za neobičnim uzorcima", rekao je te dodao da ako primijete više zahtjeva nego obično, odmah suspendiraju račun i traže od klijenta da pruži više detalja o konkretnom slučaju. Također dodaje da se njegova praksa do sada pokazala 100% učinkovitom.

U nedostatku općeg ustavnog okvira koji upravlja ovom praksom, Toleikis smatra da se korisnici interneta trebaju bolje educirati o pravnim implikacijama aktivnosti koje provode na internetu, kao i informacijama koje dijele. Kao dobavljač aplikacija IPRoyal Pawns koji pomaže korisnicima da podijele svoju neiskorištenu propusnost, dodao je: „Uvijek molimo ljude koji žele podijeliti svoju internetsku vezu s nama da pažljivo provjere zakone svoje zemlje i osiguraju da ne čine ništa nezakonito".

Osim Facebooka, LinkedIn je još jedna platforma koja je povezana sa skandalom struganja podataka visokog profila. U rujnu 2019. start-up hiQ Labs sa sjedištem u San Franciscu dobio je sudsku zabranu kojom je potvrdio svoje pravo na prikupljanje javno dostupnih podataka iz korisničkih profila na LinkedInu. Unatoč činjenici da je prekršio LinkedIn odredbe i uvjete.
Osnivač IPRoyala objasnio je da je njegova tvrtka u stanju učinkovito izbjeći takve skandale jer su ugrađenim rezidencijalnim proxyjima prema zadanim postavkama blokirali struganje LinkedIna.

„Da bi funkcija bila omogućena, klijent mora izričito, pružiti podatke o svojoj tvrtki radi identifikacije i objasniti kako namjerava koristiti podatke. To će nam pomoći da korisnike usmjerimo na odgovarajući kanal u slučaju da imaju pritužbi”, dodao je Toleikis. Također je izjavio da platforme društvenih medija i njihovi korisnici moraju igrati ulogu u zaštiti ključnih informacija: "Svi koji objavljuju informacije na internetu i objavljuju ih trebaju razumjeti da bi ih svatko mogao koristiti".

Brojni slučajevi pozitivnog korištenja mrežnih struganja i prikupljanja podataka pokazuju da je to doista presudan dio načina na koji internet funkcionira. Pomaže stvoriti personaliziranije iskustvo za korisnike interneta na različitim platformama. Kao rezultat toga, praksa se ne može jednostavno kriminalizirati.
Dok kritičari i dalje pozivaju na stroge zakone i propise o zaštiti podataka, široka integracija struganja podataka u punom je zamahu u gotovo svim područjima interneta. Propisi se, međutim, čine neizbježnima. Omogućili bi svim tvrtkama da djeluju prema jedinstvenom zakonu i pružili bi okvir korisnicima da traže pravnu zaštitu kad god je to potrebno. (N.G.K.)