Veri Bilimi

Veri Analizinde Model Seçimi: AIC ve BIC Nedir?

Veri analizinde model seçimi, model selection in data science, AIC and BIC

Veri analizinde karşılaşılan en önemli konulardan birisi doğru modeli seçmektir. Veriye uygun modeli ve parametreleri seçmek düşündüğümüz kadar kolay olmamaktadır. Modelin yanlış seçilmesi analiz süresinin uzamasına ve sonuçların hatalı olmasına sebep olacaktır. Peki doğru modeli nasıl seçeceğiz? Hadi AIC ve BIC metriklerini beraber inceleyelim.

AIC ve BIC metrikleri modelin veriyi temsil etme gücünü ve karmaşıklığını birlikte değerlendiren önemli metriklerdir. AIC ve BIC, modelin kompleksliğini değerlendirirken parametre sayısını dikkate almaktadır. Bu sebeple bu yöntemler parametrik modellerde kullanılmaktadır. Bu teknikler zaman serisi analizi, tahminleme çalışmaları, kümeleme, sınıflandırma gibi pek çok alanda kullanılabilir.

AIC Nedir?

AIC (Akaike Information Criterion), modelin hem veriyi açıklama hem de karmaşıklığını aynı anda değerlendiren önemli metriktir. Modelin veriyi açıklama oranı arttıkça ve modelin karmaşıklığı azaldıkça AIC değeri küçülecektir. Bu sebeple düşük AIC değeri daha iyi modeli temsil etmektedir.

Peki modelin veriyi açıklaması ne demek, modeldeki karmaşıklık nasıl anlaşılır? Haydi beraber bu kavramları inceleyelim!

Modelin veriyi açıklama düzeyi, seçilen parametreler ile verileri tahmin edebilme olasılığıdır. Ne kadar anlamlı ve doğru parametre seçersek modelimiz veriyi o kadar güzel temsil edecektir. Seçilen parametrelerin ile veriyi tahmin edebilme olasılığına Likelihood (L) denilir ve aşağıdaki formül ile temsil edilir.

Likelihood formülü, likelihood nedir?

AIC formülündeki ikinci kısım ise modeldeki karmaşıklıktır. Modeldeki karmaşıklık toplam serbest parametre sayısına eşittir ve k ile gösterilir. Örneğin ax + by = 0 şeklindeki bir regresyon denkleminde a ve b olmak üzere modelin yapısını belirleyen iki serbest değişken vardır. Bu sebeple örnek modelimiz için k değeri 2'ye eşittir. Modeldeki gereksiz parametre sayısı arttıkça model daha kompleks bir hale gelecek ve yorumlama yeteneğini kaybedecektir. Bu sebeple k değerinin fazla olması AIC hesaplaması yaparken modelin dezavantajınadır.

AIC metriği kullanılırken dikkat edilmesi gereken en önemli konu aşırı öğrenme sorunudur. AIC metriği gereksiz parametreleri daha az cezalandırmaktadır. Bu özelliği sebebiyle modele değil modelin veriyi temsil etme gücüne odaklanmaktadır. Veriyi ezberlemiş (overfitting) yorum yeteneğini kaybetmiş bir model de veriyi iyi temsil edecektir.Bu sebeple AIC metriği overfitting olmuş bir modeli daha iyi model olarak seçebilmektedir. Analiz sonuçlarının doğruluğu için bu durum göz önüne alınmalıdır.

AIC formülü aşağıdaki şekilde L ve k değerlerinden oluşmaktadır:

AIC formülü, AIC nedir?

BIC Nedir?

BIC (Bayesian Information Criterion) metriği  de AIC metriği ile aynı mantığa sahiptir. BIC metriğindeki önemli fark modeldeki kompleksliğin (k) daha fazla cezalandırılmasıdır. Toplam serbest paramtre sayısı log(n) değeri ile çarpılarak formüle eklenir. Buradaki n değeri veri sayısını temsil etmektedir. Veri sayısı arttıkça BIC değeri de artmaktadır. Bu sebeple veri sayısındaki artışla beraber gereksiz parametre sayısı fazla olan modeller cezalandırılmaktadır. Bu özelliği sayesinde BIC metriği, daha sade modeller seçerek aşırı öğrenme sorunuyla karşılaşma ihtimalini azaltmaktadır.

BIC metriğinin formülü aşağıdaki şekildedir:

BIC formülü,BIC nedir?

AIC ve BIC: Hangisini Seçmeliyiz?

Bu iki metrik arasındaki en önemli fark modelin karmaşıklığını cezalandırılma miktarlarıdır. Parametre sayıları farklı modelleri karşılaştıracaksak ve bu durumun fazla cezalandırılmasını istemiyorsak AIC metriği tercih edilmelidir. AIC metriği bu özelliği sayesinde model seçiminde esneklik sağlamaktadır. Ek olarak karmaşık yapılı veriler daha detaylı ve kompleks modellere ihtiyaç duyabilir. AIC, modelin kompleksliğini daha az cezalandırdığı için bu tür verilerde uygun modelin seçilmesini kolaylaştırır.

BIC metriği ise daha az parametreli ve kompleks olmayan modeller ile çalışıldığında daha sık tercih edilmektedir. BIC metriği veri sayısına duyarlı olduğu için büyük veri setlerinde bu metrik ekstra önem kazanmaktadır. Ayrıca BIC metriği aşırı öğrenme sorunuyla daha iyi başa çıkmaktadır. Değişkenliğin ve belirsizliğin fazla olduğu durumlarda BIC metriği tercih edilmelidir.


Yeni çalışmalardan ve benzer içeriklerden haberdar olmak isterseniz beni aşağıdaki hesaplardan takip edebilirsiniz.

Linkedin: www.linkedin.com/in/mustafabayhan/

Medium: medium.com/@bayhanmustafa


Yazar Hakkında

Mustafa Bayhan

Merhaba ben Mustafa Bayhan. Veri analizi, veri görselleştirme, raporlama ve finansal analiz gibi veriyle yakından ilgili alanlarda çalışmalar yapan bir Endüstri mühendisiyim. Verilerin analiz edilmesi ve yönetilmesi konusunda çalışmalar yapmaktayım. Veriler üzerindeki hakimiyetim farklı sektörler üzerinde projeler geliştirebilmeme olanak sağlıyor. Kendimi sürekli geliştirmeyi ve öğrendiklerimi paylaşmayı seviyorum. Yeni fikirlerle tanışmak ve bu fikirleri hayata geçirmek beni her zaman mutlu ediyor. Benimle ilgili detaylı bilgi için hakkımda sayfamı ziyaret edebilirsiniz.



0 Yorumlar


Yorum Yapmak İster misiniz?