Derin öğrenme ile insan edimlerinin tanınması


Doç. Dr. TAYYİP ÖZCAN

Tez Türü: Doktora

Tezin Yürütüldüğü Kurum: Erciyes Üniversitesi, Mühendislik Fakültesi, Bilgisayar Mühendisliği, Türkiye

Tez Danışmanı: Alper Baştürk

Tezin Onay Tarihi: 2020

Tezin Dili: Türkçe

Özet:

Edim; hareket, eylem kelimelerinin eş anlamlısı olarak kullanılabilirken bir diğer anlam olarak ise insan bilincinin bir amaca yönelik davranışlarını ve eylemlerini ifade eden terimdir. İnsan edimlerinin yorumlanması, veri anlamlandırma çalışmalarının önemli bir aşamasını oluşturmaktadır. İnsan edimlerini tanıma, sadece insanların günlük hareketlerinin tanınmasını kapsamaz. El hareketlerinden işaret dili tanıma, yüz mimik hareketlerinden duygu tanıma ve dudak hareketlerinden dudak okuma insan edimlerini tanıma uygulamaları olarak kabul edilebilir. Gelişen teknoloji ile derin öğrenme yöntemleri literatürdeki kullanımını yoğunlaştırmıştır. Genellikle başarılı sonuçların elde edilmesini sağlayan derin öğrenme metotlarından evrişimli sinir ağı (convolutional neural network, CNN) ve yığınlanmış özdevinimli kodlayıcılar (stacked autoencoders, SAE) insan hareketlerini tanımak için sıklıkla kullanılmaktadır. CNN ve SAE metotlarının başarılarını etkileyen önemli faktörlerden birisi bu metotlara ait hiperparametrelerin belirlenmesidir. Bu parametrelerin değer seçiminin kullanıcı deneyimine bırakılması zamansal kayba sebebiyet vermekle beraber optimum parametre seçiminin yapılabilmesi oldukça güçtür. Bu nedenlerden dolayı, bu tez çalışmasında CNN ve SAE metotlarının hiperparametlerini belirlemede global ve sezgisel optimizasyon algoritmaları kullanılmıştır. Grid arama (grid search, GS) ve rastgele arama (random search, RS) yöntemleri global arama yöntemleri olarak kullanılırken, yapay arı koloni algoritması (artificial bee colony, ABC), genetik algoritma (genetic algorithm, GA), diferansiyel gelişim algoritması (diferantial evaluation algorithm, DGA), parçacık sürü optimizasyon (particle swarm optimization, PSO) algoritması ve bu tez çalışmasında geliştirilen hibrit bir algoritma (hAbcPso) sezgisel arama yöntemleri olarak kullanılmıştır. CNN metodunun kullanıldığı çalışmalarda yeni bir CNN mimarisinin kurulmasının yanında transfer öğrenme destekli CNN metotları sunulmuştur. Böylelikle, ön eğitimli CNN modelleri kullanılarak daha etkili ve kolay bir CNN mimarisi kurulumu sağlanmıştır. Bu tez çalışmasının amacı, derin öğrenme yöntemlerinin işaret dili tanıma, insan günlük hareketi tanıma, duygu tanıma ve dudak okuma çalışmaları üzerindeki performanslarını araştırmak ve geliştirmektir. Performansların iyileştirilmesi için veri hazırlama (data preparation), imge ön işleme (image preprocessing), transfer öğrenme (transfer learning), hiperparametre optimizasyonu (hyperparameter optimization) gibi yöntemlerin bir veya bir kaçı ilgili çalışmalarda uygulanmış ve birleşik yöntemler önerilmiştir. Tez çalışmasının birinci kısmında derin öğrenme ile işaret dili tanıma gerçekleştirilmiştir. Bu amaçla rakam ve harf düzeyinde işaret dili tanıma ve hastane acil servisleri için kelime düzeyinde işaret dili tanıma uygulamaları geliştirilmiştir. Yapılan deneysel çalışmalarda harf ve rakam düzeyinde işaret dili tanıma amacıyla kullanılan veri setleri için literatürde bilinen en iyi sonuçlar elde edilmiştir. Hastane ortamında işaret dili tanıma için kelime düzeyinde yeni bir veri seti geliştirilmiş ve derin öğrenme metodu tabanlı önerilen yöntemle deneysel çalışmaları gerçekleştirilmiştir. Tez çalışmasının ikinci kısmında derin öğrenme ile günlük hareket tanıma uygulamaları geliştirilmiştir. Birinci uygulamada, hiperparametre optimizasyonu destekli SAE tabanlı geliştiren yöntemle sensör tabanlı veriler üzerinden insan hareketlerinin sınıflandırılması sağlanmıştır. Birini dışarıda bırak çapraz doğrulama (leave one out cross validation, LOOCV) test tipi kullanılarak yapılan çalışmalarda UCI Har veri seti için literatürde bilinen en iyi başarı oranı elde edilirken WISDM veri seti için literatürde bilinen en iyi sonuca yakın bir doğruluk oranı değeri elde edilmiştir. Bu uygulama için geliştirilen hAbcPso hibrit algoritması destekli SAE'nin diğer optimizasyon algoritması destekli SAE yapılarına göre daha başarılı sonuçlar verdiği istatistiksel analizlerle desteklenmiştir. Tezin bu kısmında yapılan diğer uygulamada statik imge tabanlı veriler üzerinden hareket tanıma çalışması gerçekleştirilmiştir. ABC ve transfer öğrenme destekli CNN mimarisi tabanlı önerilen yöntemle Stanford 40 veri seti üzerinde literatürde bilinen en iyi başarı oranı elde edilmiştir. Tez çalışmasının üçüncü kısmında derin öğrenme ile duygu tanıma uygulamaları gerçekleştirilmiştir. Yapılan ilk çalışmada öncelikle yeni bir veri seti oluşturulmuştur. Bu veri seti için veri toplama işlemi internet arama motorları yardımı ile gerçekleştirilmiştir. Bu uygulamada, veri ön işleme adımlarının ve veri çoğullama (data augmentation, DA) işlemlerinin sınıflandırma başarımı üzerindeki etkisi analiz edilmiştir. Diğer çalışmada genel kullanıma açmak üzere ERUFER adında yeni bir veri seti oluşturulmuştur. Bu veri seti 10 sınıf içermekte ve katılımcılar gönüllülerden oluşmaktadır. Veri ön işleme, ResNet 18, ve hiperparametre optimizasyonu destekli CNN tabanlı önerilen yöntemle ERUFER ve JAFFE veri setleri üzerinde deneysel çalışmalar gerçekleştirilmiştir. ERUFER veri seti için başarılı sonuçlar elde edilmiştir. Diğer taraftan JAFFE veri seti için literatürde bilinen en iyi başarı oranı elde edilmiştir. Tezin son kısmında derin öğrenme ile dudak okuma uygulaması geliştirilmiştir. Bu çalışmada, AvLetters veri setinde yer alan zaman serisi veriler bir araya getirilerek tekil imge haline getirilmiştir. Veri çoğullama adımları uygulanarak veri seti genişletilmiş ve başarı oranı artırılmıştır. Yapılan deneysel çalışmalarla başarılı sonuçlar elde edilip literatürde yer alan en başarılı yöntemlerle kıyaslanabilir duruma getirilmiştir.