Mapping News Categories: An Experiment on Louvain Community Discovery and Machine Learning


Kanbur Y., Aydın H.

JOURNAL OF ERCIYES COMMUNICATION, cilt.13, sa.1, ss.85-111, 2026 (TRDizin)

  • Yayın Türü: Makale / Tam Makale
  • Cilt numarası: 13 Sayı: 1
  • Basım Tarihi: 2026
  • Doi Numarası: 10.17680/erciyesiletisim.1761752
  • Dergi Adı: JOURNAL OF ERCIYES COMMUNICATION
  • Derginin Tarandığı İndeksler: Central & Eastern European Academic Source (CEEAS), Directory of Open Access Journals, TR DİZİN (ULAKBİM)
  • Sayfa Sayıları: ss.85-111
  • Erciyes Üniversitesi Adresli: Evet

Özet

Dijital platformlarda gündem, seçilim ve sıralama mekanizmaları üzerinden şekillenmektedir. Çalışmada bu seçilimin izlerini sayısallaştırmak için Türkçe dijital haberlerde algoritmik görünürlük ve editoryal tekilleşmeyi ölçülebilir göstergeler üzerinden inceleyen, açıklanabilir ve sözcüksel özelliklere dayalı bir akış tasarlanmıştır. Çalışmanın analitik arka planının verileri seçili haber sitelerinin ana sayfadaki slider/manşet alanında yer alan haberlerin başlık ve spot metinlerinin düzenli aralıklarla yakalanmasıyla derlenmiştir. Tekrarlayan şablon kalıplarını azaltmak ve karşılaştırılabilirliği artırmak için uygulanan temizlik adımlarının ardından veriler sayısal gömmelere (embedding) dönüştürülmüştür. Ardından üst düzey kategori sınıflandırması ve kategori içi alt etiketleme adımları uygulanmıştır. Bu sayede geniş gündem kümeleri ve kategori içindeki mikro-temalarla birlikte izlenebilir hale getirilmiştir. Alt kategoriler arasındaki yakınlık, benzerlik grafiği ve Louvain topluluk algoritmasıyla tespit edilmiştir. Topluluk sayısı ve modülarite (Q) değerleriyle de ayrışma düzeyi değerlendirilmiştir. Topluluk düzeyinde temsil edici terimler, her alt alandaki baskın söylemsel örüntüleri tanımlamakla birlikte tekilleşme dinamiklerinin incelenmesini desteklemiştir. Sonuçta sınırlı üst düzey kategorilerin ana sayfa görünürlüğünde yoğunlaştığı, bazı alanlarda daha parçalı alt topluluk yapıları görülürken, bütünleşik yapıların baskın olduğu tespit edilmiştir. Etiketleme dışında büyük dil modellerine ihtiyaç duymadan veri setlerine uygulanabilecek bu akış dijital gazetecilik araştırmaları için yöntemsel ve pratik bir çerçeve sunmaktadır.

The study designs an explainable, lexical feature–based pipeline that examines algorithmic visibility and editorial homogenization in Turkish digital news through measurable indicators. The analytical background data were compiled by capturing, at regular intervals, the headlines and standfirsts (lead texts) of news items featured in the homepage slider/headline area of selected news websites. Following cleaning steps aimed at reducing repetitive template patterns and improving comparability, the data were converted into embeddings. Next, top-level category classification and within-category sub-labeling were applied, making the data traceable in terms of broad agenda clusters as well as micro-themes within categories. Proximity among subcategories was identified using a similarity graph and the Louvain community detection algorithm. The degree of divergence was evaluated via the number of communities and modularity (Q). Community-level representative terms not only characterised dominant discursive patterns within each sub-area but also supported the examination of homogenization dynamics. Overall, the findings indicate that a limited number of top-level categories concentrate on homepage visibility; while more fragmented sub-community structures appear in some areas, integrated structures predominate. This approach, applicable to datasets that do not require large language models beyond labelling, offers a methodological and practical framework for digital journalism research.