EĞİTİMDE VERİ MADENCİLİĞİ VE ÖĞRENCİ AKADEMİK BAŞARI ÖNGÖRÜSÜNE İLİŞKİN BİR UYGULAMA

Eğitim-öğretim süreci ve bu sürece ilişkin tüm faaliyetler toplumların geleceğine yön verebilme gücüne sahiptir. Bu açıdan değerlendirildiğinde sürecin girdi, çıktı ve diğer süreç elemanları bakımından sıklıkla analiz edilmesi gerektiğini söylemek mümkündür. Her ne kadar bu analiz; mikro ve makro düzeyde başarı ölçme sınavları ile gerçekleştirilmekte olsa da, elde edilen başarının “istenilen başarıya olan yakınsaklığı”, girdi sayısı göz önüne alındığında tartışmalıdır. Bu nedenle çeşitli faktörlerle girdinin istenen başarı düzeyine sahip çıktıya dönüşüm sürecinin önceden kestirilmesi; süreçteki aksaklıklara müdahale edilmesi gereken durumların farkındalığının oluşturulması açısından önemlidir.

Tezin en genel biçimde amacı; klasik eğitim-öğretim sürecindeki, öğrenci girdisinin başarılı öğrenciye dönüşüm sürecinde literatürde yer verilen faktörlerin etkisi ışığında, başarı anlamında nasıl bir çıktı oluşturacağının öngörülmesine dayanmaktadır. Bu öngörünün oluşturulmasında, günümüzde verinin analizi açısından yararı kanıtlanmış veri madenciliği yöntemlerinden sınıflandırma teknikleri kullanılmıştır. Tezin sınırları daha özelleştirilmiş amacı ise; lise düzeyindeki öğrencilerin klasik eğitim ortamına ait akademik başarılarının, sınıflandırma teknikleri kullanılarak belirlenebilmesidir. Akademik başarıyı etkilen faktörler olarak sosyo-demografik değişkenler (yaş, cinsiyet, İstanbul’da ikamet süresi, anne-baba birlikteliği, annenin eğitim durumu, babanın eğitim durumu, annenin çalışma durumu, babanın çalışma durumu, algılanan maddi gelir düzey, günlük ortalama ders çalışma süresi, günlük ortalama internet kullanım süresi, günlük ortalama televizyon izleme süresi, eğitim hayatında sınıf tekrarı yapmış olma durumu, yükseköğretime devam etme isteği, örnek aldığı bir rol modelin varlığı, anne ile ilişki düzeyi, baba ile ilişki düzeyi vb.) ile kaygı, tükenme, akademik güdülenme, iletişimde olduğu öğretmenlerin depresyon düzeyi gibi faktörler ele alınmıştır. Bu faktörlere ek olarak okul idaresi aracılığıyla öğrencinin yılsonu başarı ortalaması ve devamsızlık bilgisi de ele alınmıştır.

İfade edilen faktörlerin tespitinde araştırmacı tarafından geliştirilen bilgi formu, izinleri alınmış/satın alınmış ölçek ve envanterler kullanılmıştır. Araştırmada kullanılan veri seti, İstanbul il sınırlarında bulunan sosyo-demografik açısından farklılara sahip ilçelerdeki lise düzeyi okullardan derlenmiştir. 2371 öğrenciden derlenen veriler değerlendirilmiş, 887’si erkek ve 819’u kadın olmak üzere 1706 öğrencinin verisinin kullanılabilir olduğu anlaşılmıştır.

Tez çalışması klasik eğitim ortamından derlenen verilere sınıflandırma teknikleri uygulanması açısından ülkemizde bir ilki temsil etmektedir. Bu nedenle araştırma boyunca gerek veri toplama sürecinde gerekse analizlerde birbirinden farklı pek çok sorun ile karşılaşılmıştır. Ancak başlangıç sorunu olması nedeniyle kritik öneme sahip olan “educational data mining” ifadesinin dilimize doğru bir biçimde çevrilmesidir. Doktora çalışmasına başlandığı süreçte kavramın karşılığının henüz literatüre girmemiş oluşu nedeniyle “eğitsel veri madenciliği, eğitimsel veri madenciliği ve eğitimde veri madenciliği” ifadelerinden hangisinin daha uygun olduğu, alanında uzman matematik eğitimcisi, dilbilimci ve veri madencileri ile görüşmeler yapılarak karara bağlanmıştır. Verilerin analizi ve sınıflandırma işlemlerinin gerçekleştirilmesinde CRISP-DM (Cross Industry Standard Process for Data Mining) süreci baz alınarak geliştirilen CRISP-EDM (Cross Industry Standard Process for Educational Data Mining) süreç modeli önerisi kullanılmıştır. Sınıflandırma tekniklerinden k-En Yakın Komşu Algoritması, Naive Bayes Sınıflandırıcı, C4.5 Karar Ağacı Algoritması, Logistik Regresyon Analizi ve Destek Vektör Makineleri kullanılarak farklı modeller oluşturulmuştur. Modellerin performansları tabakalı k-kat çapraz geçerleme ve hold out yöntemleri ile kontrol edilmiş, belirli kriterler ışığında kıyaslanmıştır. Modellerin oluşturulmasında araştırmacı, R dilinde kodlar yazmış ve yine bu dilde yazılmış hazır paketleri kullanmıştır. Kodların gerçekleştirilmesinde geliştirme aracı olarak RStudio ortamından yararlanılmıştır.

Yapılan analizler sonucunda C4.5 Karar Ağacı Algoritmasının akademik başarının öngörülmesine ilişkin daha başarılı sonuçlar ürettiği anlaşılmıştır. Kurulan model, tezin topluma katkı sağlaması beklentisiyle Shiny paket ve shinyappsio aracılığyla web ortamına aktarılmıştır.