Veri analizinde karşılaşılan en önemli konulardan birisi doğru modeli seçmektir. Veriye uygun modeli ve parametreleri seçmek düşündüğümüz kadar kolay olmamaktadır. Modelin yanlış seçilmesi analiz süresinin uzamasına ve sonuçların hatalı olmasına sebep olacaktır. Peki doğru modeli nasıl seçeceğiz? Hadi AIC ve BIC metriklerini beraber inceleyelim.
AIC ve BIC metrikleri modelin veriyi temsil etme gücünü ve karmaşıklığını birlikte değerlendiren önemli metriklerdir. AIC ve BIC, modelin kompleksliğini değerlendirirken parametre sayısını dikkate almaktadır. Bu sebeple bu yöntemler parametrik modellerde kullanılmaktadır. Bu teknikler zaman serisi analizi, tahminleme çalışmaları, kümeleme, sınıflandırma gibi pek çok alanda kullanılabilir.
AIC (Akaike Information Criterion), modelin hem veriyi açıklama hem de karmaşıklığını aynı anda değerlendiren önemli metriktir. Modelin veriyi açıklama oranı arttıkça ve modelin karmaşıklığı azaldıkça AIC değeri küçülecektir. Bu sebeple düşük AIC değeri daha iyi modeli temsil etmektedir.
Peki modelin veriyi açıklaması ne demek, modeldeki karmaşıklık nasıl anlaşılır? Haydi beraber bu kavramları inceleyelim!
Modelin veriyi açıklama düzeyi, seçilen parametreler ile verileri tahmin edebilme olasılığıdır. Ne kadar anlamlı ve doğru parametre seçersek modelimiz veriyi o kadar güzel temsil edecektir. Seçilen parametrelerin ile veriyi tahmin edebilme olasılığına Likelihood (L) denilir ve aşağıdaki formül ile temsil edilir.
AIC formülündeki ikinci kısım ise modeldeki karmaşıklıktır. Modeldeki karmaşıklık toplam serbest parametre sayısına eşittir ve k ile gösterilir. Örneğin ax + by = 0 şeklindeki bir regresyon denkleminde a ve b olmak üzere modelin yapısını belirleyen iki serbest değişken vardır. Bu sebeple örnek modelimiz için k değeri 2'ye eşittir. Modeldeki gereksiz parametre sayısı arttıkça model daha kompleks bir hale gelecek ve yorumlama yeteneğini kaybedecektir. Bu sebeple k değerinin fazla olması AIC hesaplaması yaparken modelin dezavantajınadır.
AIC metriği kullanılırken dikkat edilmesi gereken en önemli konu aşırı öğrenme sorunudur. AIC metriği gereksiz parametreleri daha az cezalandırmaktadır. Bu özelliği sebebiyle modele değil modelin veriyi temsil etme gücüne odaklanmaktadır. Veriyi ezberlemiş (overfitting) yorum yeteneğini kaybetmiş bir model de veriyi iyi temsil edecektir.Bu sebeple AIC metriği overfitting olmuş bir modeli daha iyi model olarak seçebilmektedir. Analiz sonuçlarının doğruluğu için bu durum göz önüne alınmalıdır.
AIC formülü aşağıdaki şekilde L ve k değerlerinden oluşmaktadır:
BIC (Bayesian Information Criterion) metriği de AIC metriği ile aynı mantığa sahiptir. BIC metriğindeki önemli fark modeldeki kompleksliğin (k) daha fazla cezalandırılmasıdır. Toplam serbest paramtre sayısı log(n) değeri ile çarpılarak formüle eklenir. Buradaki n değeri veri sayısını temsil etmektedir. Veri sayısı arttıkça BIC değeri de artmaktadır. Bu sebeple veri sayısındaki artışla beraber gereksiz parametre sayısı fazla olan modeller cezalandırılmaktadır. Bu özelliği sayesinde BIC metriği, daha sade modeller seçerek aşırı öğrenme sorunuyla karşılaşma ihtimalini azaltmaktadır.
BIC metriğinin formülü aşağıdaki şekildedir:
Bu iki metrik arasındaki en önemli fark modelin karmaşıklığını cezalandırılma miktarlarıdır. Parametre sayıları farklı modelleri karşılaştıracaksak ve bu durumun fazla cezalandırılmasını istemiyorsak AIC metriği tercih edilmelidir. AIC metriği bu özelliği sayesinde model seçiminde esneklik sağlamaktadır. Ek olarak karmaşık yapılı veriler daha detaylı ve kompleks modellere ihtiyaç duyabilir. AIC, modelin kompleksliğini daha az cezalandırdığı için bu tür verilerde uygun modelin seçilmesini kolaylaştırır.
BIC metriği ise daha az parametreli ve kompleks olmayan modeller ile çalışıldığında daha sık tercih edilmektedir. BIC metriği veri sayısına duyarlı olduğu için büyük veri setlerinde bu metrik ekstra önem kazanmaktadır. Ayrıca BIC metriği aşırı öğrenme sorunuyla daha iyi başa çıkmaktadır. Değişkenliğin ve belirsizliğin fazla olduğu durumlarda BIC metriği tercih edilmelidir.
Yeni çalışmalardan ve benzer içeriklerden haberdar olmak isterseniz beni aşağıdaki hesaplardan takip edebilirsiniz.
Linkedin: www.linkedin.com/in/mustafabayhan/
Medium: medium.com/@bayhanmustafa