Web Scrapping as a Data Collection Technique in the Communication Research


Kanbur Y., Eken M.

3. ULUSLARARASI MEDYA VE TOPLUM SEMPOZYUMU, İstanbul, Turkey, 24 - 26 May 2023, pp.191-192

  • Publication Type: Conference Paper / Summary Text
  • City: İstanbul
  • Country: Turkey
  • Page Numbers: pp.191-192
  • Erciyes University Affiliated: Yes

Abstract

The subject of this study, which was prepared within the scope of the "Empowering Teacher Competence in Detecting and Preventing Child Abuse" Project, with the short name ProChild, funded within the scope of the Erasmus+ Program School Education Strategic Partnerships action carried out by the Turkish National Agency, is to put forward a model for the use of the Web Scraping technique in the Communication research that will reveal Turkey's news agenda by making use of data science and thus contribute to the sustainability of the project. Considering the data to be obtained from the data collection tool as well as the contribution of the technique itself to the sustainability potential of the project, this study also has the potential to contribute to the development of communication research in Turkey. The increasing digitalization of communication has created a globally dense supply of data, significantly diversifying and intensifying the data sources that can be used in communication research. However, it can be stated that new research approaches based on the techniques of using these data sources to realize research objectives have not been sufficiently developed in communication research in Turkey. This study is motivated by this very deficiency and aims to concretize a web scraping model for communication research, which is carried out to follow the news agenda of Turkey in certain historical periods within the scope of meta-journalism research. In this context, the model, which enables the analysis of 16 internet news sites within the framework of “news content qualities” and “metadata” through a script written in Python language, is structured and presented with its stages.

Türkiye Ulusal Ajansı tarafından yürütülmekte olan Erasmus+ Programı Okul Eğitimi Stratejik Ortaklıklar eylemi kapsamında finanse edilen ProChild kısa adıyla “Çocuk İstismarını Tespit ve Önlemeye Yönelik Öğretmen Yeterliliklerinin Güçlendirilmesi” Projesi kapsamında hazırlanan bu çalışmanın konusu; veri biliminden faydalanarak Türkiye’nin haber gündemini ortaya koyacak ve böylelikle de projenin sürdürülebilirliğine katkı sunacak Web Kazıma (Web Scraping) tekniğinin İletişim araştırmalarında kullanılabilirliğine yönelik bir modelin ortaya konulmasıdır. Veri toplama motorundan elde edilecek verilerin yanı sıra uygulanan tekniğin bizatihi kendisinin projenin sürdürülebilirlik potansiyeline sunduğu katkı göz önünde bulundurularak hazırlanan bu çalışma ayrıca, Türkiye’de iletişim araştırmalarının gelişimine katkı sunma potansiyeli taşımaktadır.  İletişimin artan oranda dijitalleşmesi, küre çapında çok yoğun bir veri arzı ortaya çıkarmış, iletişim araştırmalarında kullanılabilecek veri kaynaklarını önemli ölçüde çeşitlendirmiş ve yoğunlaştırmıştır. Ancak bu veri kaynaklarının araştırma amaçlarını gerçekleştirmeye dönük kullanım tekniklerini temel alan yeni araştırma yaklaşımlarının Türkiye’de iletişim araştırmaları özelinde yeterince gelişmediği ifade edilebilir. Çalışma tam da bu eksiklikten hareket etmekte ve meta-gazetecilik araştırmaları kapsamında belirli tarihsel periyotlarda Türkiye’nin haber gündemini takip etmek amacıyla gerçekleştirilen bir web kazıma modelini iletişim araştırmaları için somutlaştırma amacı taşımaktadır. Bu kapsamda çalışmada, Python diliyle yazılan betik (script) aracılığıyla, 16 internet haber sitesinin, “haber içeriği nitelikleri” ve “üst veriler” çerçevesinde analizine olanak sağlayan model yapılandırılmış ve aşamalarıyla sunulmuştur.