Otonom araçlarda derin pekiştirmeli öğrenme yöntemleri ile sollama


KOYLU F., ATILKAN Y.

Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, cilt.13, sa.2, ss.429-439, 2024 (Hakemli Dergi) identifier

Özet

Pekiştirmeli öğrenme ile derin öğrenme yaklaşımlarını birleştiren derin pekiştirmeli öğrenme algoritmaları zorlu otonom araç görevlerinde kullanılmaktadır. Öndeki aracı geçme, içerisinde barındırdığı farklı türden alt görevler nedeni ile en zorlu otonom araç görevlerinden biridir. Literatürdeki güncel çalışmalar zorlu görevleri çözmek için müfredat öğrenme yaklaşımını derin pekiştirmeli öğrenme ile kullanmaktadır. Bu çalışmada, özgün olarak oluşturulmuş ortamda, yaygın olarak kullanılan derin Q-ağları, avantaj aktör kritik ve proksimal politika optimizasyonu algoritmaları ile yarısı müfredat öğrenme yaklaşımına uğramış 12 model eğitilmiştir. Modellerin değerlendirilmesinde modellerin eğitim süreci ve modellerin ortamda test edilmesi birlikte kullanılmıştır. Çalışmada, tüm modellerde olmasa da derin Q-ağları ve proksimal politika optimizasyonu yöntemleri ile başarılı modeller eğitilmiştir. Başarılı modeller içerisinde müfredat öğrenimi ile bir derin Q-ağları modelinin performansı artırılarak yaklaşımın olumlu etkisi görülmüştür.
Deep reinforcement algorithms that combine reinforcement learning and deep learning approaches are used in challenging autonomous vehicle tasks. Passing the vehicle in front is one of the most challenging autonomous vehicle tasks due to the different types of subtasks involved. Recent studies in the literature use the curriculum learning approach with deep reinforcement learning to solve challenging tasks. In this study, 12 models, half of which have undergone a curriculum learning approach, are trained in a uniquely constructed environment with commonly used deep Q-networks, advantage actor critic and proximal policy optimization algorithms. The evaluation of the models is based on both the training process and the testing of the models in the environment. In the study, successful models were trained with deep Q-networks and proximal policy optimization methods, although not for all models. Among the successful models, the performance of a deep Q-network model was improved with curriculum learning, showing the positive impact of the approach.