2023 Innovations in Intelligent Systems and Applications Conference (ASYU), Sivas, Türkiye, 11 - 13 Ekim 2023, ss.1-6
Son yıllarda, bilgi teknolojilerinin gelişmesi ile birlikte çeşitli kaynaklardan toplanan eğitim verilerinin analiz edilmesi popüler hale gelmiştir. Bu verilerin analiz edilmesi, öğrencilerin eğitim başarısını ve buna etki eden unsurların tespit edilerek eğitim sürecinin iyileştirilmesine katkı sağlamaktadır. Bu anlamda, öğrenci başarısının tahmin edilmesi ve büyük hacimdeki eğitim verilerinden anlamlı modeller çıkarılmasına yönelik çalışmalar, araştırmacıların ilgi odağında olmaya devam etmektedir. Bu çalışmada, Portekiz'deki okuldan toplanan açık veri seti kullanılarak makine öğrenmesi algoritmalarından Rastgele Orman, Karar Ağacı, Destek Vektör Makineleri, XGBoost ve Lojistik Regresyon ile öğrencilerin eğitim başarıları tahmin edilmiştir. Geliştirilen modelin, tahmin performansını arttırmak için veri setindeki dengesizlik SMOTE tekniği ile giderilmiş ve Özyinelemeli Özellik Eleme yöntemi kullanılarak öğrencilerin başarısına etki eden en önemli özellikler seçilmiştir. Elde edilen sonuçlarda, XGBoost algoritmasının %97,2 doğruluk değeri ile literatürdeki çalışmalara kıyasla daha üstün olduğu görülmüştür.
With the advancement of information technologies in recent years, it has become common practice to analyze educational data gathered from a variety of sources. Analyzing these education data helps in improving the education system by identifying factors that affect students' progress and assessing their performance in school. Therefore, studies on predicting students' academic performance with high accuracy and extracting meaningful models from vast volumes of education data remain of great importance for researchers. In this study, the academic performance of students is predicted using random forest, decision tree, support vector machines, XGBoost, and logistic regression machine learning algorithms with data from Portuguese schools. In order to increase the prediction performance of the developed model, the imbalance in the dataset is eliminated with the SMOTE technique, and the most important features affecting the performance of the students are selected by using the Recursive Feature Elimination method. The results show that the XGBoost algorithm outperforms the research in the literature with an accuracy value of 97,2%.