Issue 53/2018

The CEA states that the primary version is the paper one.

Łukasz Lipiński, Michał Bernardelli

Anonimowość w Internecie – identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Streszczenie
W artykule przedstawiono metodę identyfikacji płci użytkowników Internetu. Proponowana metoda wykorzystuje dane z profili użytkowników zawierających adresy stron internetowych i częstotliwość odwiedzin. Podejście to łączy w sobie analizę leksykalną słów z domen internetowych, sztuczne sieci neuronowe, wyrafinowaną matematycznie wektorową reprezentację profili użytkowników oraz regresję logistyczną jako główny klasyfikator. Analizę empiryczną przeprowadzono na podstawie 10 mln profili polskich użytkowników, osiągając skuteczność klasyfikacji na poziomie 82%. Dodatkowe korzyści z badania to stworzenie listy najczęściej odwiedzanych stron internetowych według płci w Polsce w 2017 r. oraz określenie sposobu wyszukiwania podobnych portali internetowych, który może być wykorzystany w spersonalizowanym marketingu jako źródło oszczędności w postaci zmniejszenia niepotrzebnych wydatków na źle ukierunkowaną reklamę.

***

Anonymity on the Internet – identifying the gender of users based on the history of visited websites

Abstract
In this article, a method of gender identification of Internet users was presented. The proposed method uses data from user profiles containing website addresses and the frequency of their visits. This approach combines the lexical analysis of the words from the Internet addresses, neural networks, mathematically sophisticated vector representation of the user profiles, and logistic regression as the main classifier. The empirical analysis was performed on the basis of 10 million profiles of Polish users, giving 82% of classification efficiency. Additional benefits from the study were the lists of the most preferred websites per gender in Poland in 2017, and the way of finding similar Internet portals, which can be used in personalized marketing as a source of savings in the form of reducing unnecessary expenses for badly targeted advertising.

Article: PDF

Table of contents of issue 53

Copyright © Kolegium Analiz Ekonomicznych Szkoły Głównej Handlowej w Warszawie 2011-2024   ISSN 1232-4671
sie wyburaczylo