Comparative Analysis of MADQN and QMIX Multi-Agent Reinforcement-Learning Methods for Urban Traffic Signal Control

Ali, Ahmed; Köylü, FEHİM

doi:10.3390/app16105008

Comparative Analysis of MADQN and QMIX Multi-Agent Reinforcement-Learning Methods for Urban Traffic Signal Control

Ali A. O., Köylü F.

APPLIED SCIENCES, cilt.16, sa.10, ss.1-26, 2026 (SCI-Expanded, Scopus)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 16 Sayı: 10
Basım Tarihi: 2026
Doi Numarası: 10.3390/app16105008
Dergi Adı: APPLIED SCIENCES
Derginin Tarandığı İndeksler: Scopus, Science Citation Index Expanded (SCI-EXPANDED), Compendex, INSPEC, Directory of Open Access Journals
Sayfa Sayıları: ss.1-26
Erciyes Üniversitesi Adresli: Evet

Şehir bölgelerinde, araç yoğunluğunun her gün arttığı yerlerde, trafik sinyali kontrolünün iyileştirilmesi, insanların yaşam kalitesini doğrudan etkileyen önemli bir çalışma alanıdır. Böyle bir iyileştirmenin çevresel trafik yükünü azaltması ve hareketliliği artırması beklenmektedir. Ancak, trafik yükünü deterministik olarak belirleyememek sorunu karmaşıklaştırıyor. Çoklu ajan pekiştirmeli öğrenme yaklaşımları, anlık verilerden adaptif öğrenme yetenekleri sayesinde bir çözüm sunar. Bu çalışma, 16 sinyalize kavşağa sahip bir kentsel trafik ağında Multi-Agent Deep Q-Network (MADQN) algoritmasını ve QMIX değer ayrıştırma yöntemini (QMIX) değerlendirerek, bunları Sabit Zaman ve Maksimum Basınç ile karşılaştırmaktadır. Deneyler, aynı ağ geometrisi ve faz eşleştirme kuralları altında üç araç yoğunluğu seviyesinde gerçekleştirildi. Performans, bekleme süresi, seyahat süresi, hız, verimlilik, karbondioksit (CO2) emisyonları, çarpışma süresi 1 saniyenin altında (TTC < 1 s) ve ihlal sonrası süre 1 saniyenin altında (PET < 1 s) kullanılarak değerlendirildi. Tüm talep senaryolarında, her iki pekiştirmeli öğrenme kontrolörü de başarılı sonuçlar elde etti. MADQN sürekli olarak daha düşük ortalama bekleme süreleri sağlarken, QMIX sürekli olarak daha yüksek verimlilik elde etti ve bazı ayarlarda daha düşük CO2 ve daha düşük çapraz tohum varyasyonu sağladı. MADQN ve QMIX arasında istatistiksel bir üstünlük belirlenmedi. Genel olarak, sonuçlar bu test ortamında adaptif kontrolün değerini desteklemekte ve verimlilik, emisyonlar ve proxy güvenliği arasında denge gereksinimlerini göstermektedir.

In urban areas, where car congestion is increasing daily, improving traffic-signal control is a key area of study that directly affects people’s quality of life. It is expected that such improvement will reduce environmental traffic load and increase mobility. However, the inability to determine traffic load deterministically complicates the problem. Multi-agent reinforcement-learning approaches provide a solution thanks to their adaptive learning capabilities from instantaneous data. This study evaluates the Multi-Agent Deep Q-Network (MADQN) algorithm and the QMIX value decomposition method (QMIX) in an urban traffic network with 16 signalized intersections, comparing them with Fixed-Time and Max-Pressure. Experiments were conducted under three vehicle-density levels within the same network geometry and phase-matching rules. Performance was evaluated using waiting time, travel time, speed, efficiency, carbon dioxide (CO2) emissions, time to collision below 1 s (TTC < 1 s), and post-encroachment time below 1 s (PET < 1 s).. In all demand scenarios, both reinforcement-learning controllers achieved successful results. MADQN consistently provided lower average waiting times, whereas QMIX consistently achieved higher efficiency and, in some settings, lower CO2 and lower cross-seed variation. No statistical superiority between MADQN and QMIX was established. Overall, the results support the value of adaptive control in this test environment and indicate trade-offs among efficiency, emissions, and proxy safety.