Multivariate and fuzzy clustering approaches to dynamic classification of traffic flow states

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye

Tezin Onay Tarihi: 2015

Tezin Dili: İngilizce

Öğrenci: Mehmet Ali Silgu

Asıl Danışman (Eş Danışmanlı Tezler İçin): Hilmi Berk Çelikoğlu

Özet:

Bu tez kapsamında; makroskopik bir trafik akım modeliyle oluşturulmuş akım koşulu farklılaşmalarını belirlemek amacıyla çok değişkenli ve bulanık kümeleme yöntemlerinin başarımları araştırılmıştır. Veri toplama teknolojisindeki büyük gelişmelere rağmen ortaya çıkan gürültüyü gidermek ve geniş saçılımı kabul edilebilir düzeye getirmek amacıyla, ham trafik değişkenleri modelleme öncesi filtrelenmiştir. Trafik akımı, iki fazlı bir temel eğriyi baz alarak hesap yapan hücre geçişi modeliyle benzetilmiştir. Seçilen otoyol kesimindeki akım dinamikleri, varolan akım koşullarını belirlemek amacıyla irdelenmiştir. Temel eğri üzerinde akım koşullarının sınıflanması, kesim yoğunluk değişkeni gözetilerek kümeleme yöntemleriyle aranmıştır. Karar vericilerin kişisel görüşlerini yansıtan yoğunluk değerlerinin hizmet düzeyi belirlenmesinde ne derece doğru olduğu da tartışmalı bir konudur. Kümeleme analizi ,çok değişkenli istatistiksel analiz yöntemlerinden sınıflandırma işlemine çok benzemekle beraber, sınıflandırma işleminde sınıflar önceden belli iken kümeleme analizinde sınıflar önceden belli değildir. Verilerin hangi kümelere, hatta kaç değişik kümeye ayrılacağı eldeki verilerin birbirlerine olan benzerliğine göre belirlenir. Kümeleme analizi antropolojiden telekominikasyona kadar geniş bir yelpazede kullanım sağlar. Veri setini oluşturan her bir veri kümelere ayrılırken, uzaklık ve benzerlik kavramlarından yararlanılır. Bu, veri setindeki her bir verinin diğer bir veri ile olan benzerliği ya da her bir verinin veri setindeki diğer verilerden uzaklığı olduğu gibi oluşturulan gerçek ve aday kümeler arasındaki mesafe ve benzerliği de içerir. Akım koşullarının karşılaştırılmasında her bir hizmet düzeyi seviyesinin bir kümeyi temsil ettiği kabul edilmiştir. Buradan yola çıkarak hizmet düzeyi seviyesini belirleyen sınır değerleri aynı zamanda küme sınırlarını belirleyen sınır değerler olarak kabul edilmiştir. Çok değişkenli istatistiksel analiz yöntemlerinden biri olan kümeleme analizinde hiyerarşik olmayan küme yaklaşımı ele alınmıştır. Hiyerarşik olmayan kümeleme yöntemlerinde veri setini oluşturan veriler, önceden belirlenen küme sayısına göre ayrılır. Burada en önemli nokta, veri setini oluşturan veri sayısının belirlenen küme sayısından büyük olmasıdır. Hiyerarşik yöntemlerden en büyük farkı, küme sayısının önceden bilinmesidir. Bununla birlikte, kümeler arası en büyük ve en küçük mesafe ile benzerlik ölçütleri önceden tanımlanmalıdır. Hiyerarşik olmayan kümeleme yöntemleri, hiyerarşik olanlara göre daha hızlı çalışırlar. Çünkü hiyerarşik olmayan yöntemlerde benzerlik/ mesafe matrisi kullanımına gerek yoktur.Bundan dolayı da büyük veri setlerine hiyerarşik yöntemlere kıyasla daha uygundurlar. Çalışma kapsamında hiyerarşik olmayan kümeleme yönteminin, hiyerarşik kümeleme metoduna kıyasla tercih edilmesinin temel sebebi veri setinin büyüklüğü ve hesap süresinden tasarruftur. Hiyerarşik olmayan kümeleme yöntemlerinden biri olan ve tez kapsamında kullanılan K- ortalama yöntemi sürekli olarak kümelerin yenilendiği ve en uygun çözüme ulaşana kadar devam eden döngüsel bir yöntemdir. Çok değişkenli kümeleme analizinde, kümelerin merkezlerinin belirlenmesi için Manhattan Uzaklığı ve Öklidyen Kare uzaklığı kullanılmıştır. Aynı şekilde küme merkezi belirlenmesinde kullanılan Chebshyev uzaklığı literatürde benzer çalışma olmadığından tercih edilmemiştir. Bulanık c- ortalamalar yönteminde ise girdi ve çıktının nümerik olduğu varsayılmıştır. Bulanık c- ortalamalar yönteminde çok değişkenli istatistiksel analiz yöntemlerinin aksine küme merkezinin şekli konusunda kabul yapmak gerekmektedir. Tez kapsamında tüm küme merkezlerinin yuvarlak olduğu kabulu yapılmıştır. Bulanık c- ortalamalar yönteminde ihtiyacı hasıl olan bulanıklaştırma parametresi, kümeleme işlemine son verme parametresi ve model belirleme matrisi gibi parametrelerde seçici davranılırak, diğer yöntemlere benzetimi sağlanmıştır. Küme merkezi kavramında, merkez kümenin ortasını temsil etmesine rağmen, aslında kümenin gerçekten tam ortasında böyle bir elemanın bulunmasına gerek yoktur. Elde edilen küme merkezlerinden yola çıkılarak herbir verinin hangi kümeye ait olduğu belirlenmiş ve hız-akım diyagramı oluşturulmuştur. Bahsi geçen hız-akım diyagramında değişikliği görmek amacıyla veri setine her 4 saatte bir yeni veri akışı sağlanmış ve "Yolların Kapasitesi El Kitabı"na, K- ortalama yöntemi Öklidyen Uzaklık yaklaşımı, K- ortalama yöntemi Manhattan yaklaşımı ve bulanık c- ortalama yaklaşımı kullanılarak kümeleme işlemi yapılmıştır. Kümeleme işlemleri sonucu elde edilen küme merkezlerinden yola çıkılarak küme sınırları belirlenmiştir. Küme sınırlarının belirlenmesinde veri setindeki en büyük yoğunluk değeri F hizmet düzeyinin son sınırı olarak kabul edilmiştir. A hizmet düzeyinin belirlenmesinde ise A hizmet düzeyini temsil eden küme merkezi iki ile çarpılmış ve elde edilen değer ile sıfır arasında kalan her veri A hizmet düzeyinde kabul edilmiştir. A ve F arasında kalan tüm diğer hizmet düzeylerinin sınırlarının belirlenmesi görselleştirilerek tez kapsamında sunulmuştur. Kümeleme işlemleri sonucunda özellikle E ve F hizmet düzeylerini temsil eden bölgelerde artma ve azalma gözlemlenmiştir. Küme merkezlerinin başarısının sınanması için iki farklı durum oluşturulmuştur. Bunlardan ilki, küme merkezlerinin "Yolların Kapasitesi El Kitabında" sınırlandırılmış hizmet düzeyi sınırları kullanılarak hesaplanan statik yöntemdir. Statik yöntemde, her bir hizmet düzeyi bir küme olarak kabul edilmiş ve küme sınırları önceden bilindiği için, küme sınırını oluşturan değerler arası farkın ortalaması bulunmuştur. İkincisi ve dinamik olduğu düşünülen yöntemde ise "Yolların Kapasitesi El Kitabında"ki sınırlar arasında kalan verilerin aritmetik ortalaması hesaplanmaktadır. Veri seti büyüdükçe her seferinde tekrar hesap yapılarak küme merkezlerinin değerleri tekrar tekrar bulunmuştur. Toplamda sistem 10 defa yüklenmiş ve küme merkezlerinin değişimlerini gösteren grafikler elde edlmiştir. Çok değişkenli ve bulanık kümeleme sistemlerinin, oluşturulan iki durum karşısında nasıl davrandığını görmek amacıyla hata değerleri hesaplanmıştır. Hem çok değişkenli hem de bulanık kümeleme yaklaşımları, örnek otoyol kesimi üzerindeki ani koşul değişimlerini tespit etmeye yarayan başarılı sınıflama sonuçları vermiştir. Çok değişkenli ve bulanık kümeleme yöntemlerince izlenen prosedür, sistematik olarak dinamiktir ve temel eğri üzerinde statik bölütleme yöntemiyle elde edilen kümelere oldukça yaklaşık kümeler oluşturabilmektedir. K-ortalamalar ve bulanık c- ortalamalar yöntemiyle elde edilen sonuçlar üzerinden hesaplanmış belirlenim katsayıları, elde edilen sonuçları istatistik yönden karşılaştırmalı olarak değerlendirmek amacıyla kullanılmıştır. Çalışma kapsamında elde edilen bütün hata terimlerinde K- ortalama yöntemi Öklidyen yaklaşımı ile bulanık c- ortalamalar yönteminin birbirine yakın sonuçlar vermesinin sebebi olarak her iki yönteminde Öklidyen mesafeyi kullanarak çözüm yapması düşünülmektedir. Özellikle bulanık c-ortalamalar yönteminde bulanıklaştırıcı parametrenin uzaklık ölçütünü Öklidyen olarak ele alması için gerekli değer ortaya konmuştur. K- ortalama yöntemi Manhattan yaklaşımının bahsi geçen diğer kümeleme yaklaşımlarından özellikle ilk iki yükleme için farklılık göstermesinin temel sebebi olarak uzaklık ölçütü hesabında farklı davranması olduğu düşünülmektedir. Diğer yüklemelerde ise K- ortalama yöntemi Öklidyen yaklaşımına ve bulanık c- ortalama yöntemine benzer sonuçlar vermesinin veri seti büyüklüğüyle ilişkili olduğu düşünülmektedir. İlerleyen çalışmalarda, veri toplanmasından kümeleme işleminin sonuna kadar olan bütün işlemlerin dinamik olarak yapılabileceği öngörüsünde bulunulmaktadır. Ardışık trafik ölçüm sensörlerinden elde edilen ölçümlerin dinamik olarak filtrelenmesi, trafik akımının yine dinamik olarak, iki fazlı bir temel eğriyi baz alan ve buna göre hesap yapan hücre geçişi modeliyle benzetilmesi ve son olarak kümelenmesi işlemi düşünülmektedir. Kümeleme işleminde küme sayısının dinamik olarak belirlenmesi ve "Yolların Kapasitesi El Kitabı"na göre kıyaslanması ilerleyen çalışmaların temelini oluşturmaktadır. Küme sınırlarının belirlenmesinde farklı algoritmaların geliştirilerek geçerliliğinin belirlenmesi, kümeleme analizindeki en temel ölçüt olarak uzaklık parametrelerinin farklılaştırılması da gelecek çalışmalarda irdelenebilir.Bulanık kümeleme yönteminde girdinin sözel, çıktının ise nümerik olduğu yöntemlerin de incelenebileceği düşünülmektedir. Var olan hizmet düzeylerinin belirlenmesinde ( A ve D hizmet düzeyleri dahil olmak üzere, A'dan D'ye ) kişisel tecrübelere dayanıldığı göz önünde bulundurulursa, girdinin sözel olduğu bir durumun daha iyi sonuçlar verme ihtimali göz ardı edilmemelidir. Bütün bahsi geçen yöntemler dışında yapay sinir ağları ve genetik algoritmalar ile oluşturulacak dinamik bir sistemin performansının diğer yöntemlere kıyaslanması da gelecek çalışmaların konusu olabilir. Tez kapsamında kümeleme işleminde kullanılan MATLAB programının bu dinamik öngörüye uygun olup olmadığı da ilerleyen çalışmalarda cevabını bekleyen bir soru olarak karşımızda durmaktadır. Sonuç olarak, yapılan çalışmanın tekrarsız kaza olaylarında ve kırılmalar sonucu oluşan akımdaki anlık değişimlerin bulunmasında ne derece etkili olduğunu zaman gösterecektir. Yükleme süresinin azaltılarak sistemin tekrar tekrar yüklenmesinin ve elde edilen küme merkezlerinin "Yolların Kapasitesi El Kitabı" değerlerine yakınlığı, benzerliğinin bulunması ve yorumlanması da oldukça önem arz etmektedir.