Analysis and price prediction of secondhand vehicles in Türkiye with big data and machine learning techniques


Gülmez B., Kulluk S.

JOURNAL OF THE FACULTY OF ENGINEERING AND ARCHITECTURE OF GAZI UNIVERSITY, cilt.38, sa.4, ss.2279-2290, 2023 (SCI-Expanded) identifier identifier identifier

Özet

Türkiye’de ikinci el araç piyasası her zaman hareketli olmuştur. İkinci el araç piyasasında marka, model, yakıt türü gibi özelliklerin ne kadar yoğunlukta olduğu, ne kadar fiyata etki ettiği gibi faktörler analiz edilerek, bu bilgiler kullanışlı hale getirilebilir. Araçların çeşitli özelliklerine göre fiyatları değişmektedir. Fiyatları tahmin edebilmek için makine öğrenme teknikleri kullanılabilir ve kullanıcıların araç satarken veya alırken fiyat belirlemelerine yardımcı olabilir. Fiyat tahmini, veri madenciliğinin bir görevi olan fonksiyon tahmini veya regresyon sınıfına girmektedir. İkinci el araç sayısı oldukça fazla olduğundan dolayı bu çalışmada analizler yapılırken büyük veri sistemleri kullanılmıştır. Apache Spark ve makine öğrenme kütüphanesi bunun için oldukça kullanışlıdır. Fiyat tahmini için doğrusal regresyon, karar ağacı regresyonu, rastgele orman regresyonu, GBT regresyonu, izotonik regresyon algoritmaları kullanılmıştır. Kullanılan algoritmalar ile araçların fiyat tahmini yapılmıştır ve en yüksek başarıyı 21435,09 RMSE ve 0,887 R2 değerleriyle rastgele orman algoritması elde etmiştir. Rasgele orman algoritması ve diğer algoritmalarla elde edilen RMSE ve R2 değerleri arasında anlamlı bir farklılık olup olmadığını kontrol için yapılan istatistiksel testler sonucunda, rasgele orman algoritması ile elde edilen sonuçların daha iyi olduğu sonucuna ulaşılmıştır. Rasgele orman algoritmasının daha iyi sonuçlar vermesinin nedeni, algoritmanın birden çok karar ağacı üzerinden eğitim gerçekleştirmesi, esnekliği ve güçlü hiper parametrelere sahip olmasıdır.