Veri Analizi Bölüm 2 | Veri Hazırlama Ve Temizleme Teknikleri
Eksik Veri Yönetimi Nedir?
Veri analizi ve makine öğrenimi süreçlerinde karşılaşılan en yaygın problemlerden biri, eksik verilerdir. Eksik veri, bir veri setinde belirli gözlemler için mevcut olmayan veya boş bırakılan değerleri ifade eder. Örneğin, bir öğrenci anketinde bazı sorulara cevap verilmemişse, bu durum eksik veri olarak değerlendirilir.
Neden Eksik Verilerle Karşılaşırız?
Eksik verilerin oluşmasının çeşitli nedenleri vardır:
İnsan Hatası: Veri toplama sürecinde, katılımcıların bazı soruları atlaması ya da yanlışlıkla boş bırakması sonucunda eksik veriler oluşabilir.
Teknik Sorunlar: Veri toplama araçlarının arızalanması veya iletişim kesintileri gibi teknik problemler de eksik verilere yol açabilir.
Anket Tasarımı: Bazı anketlerde, belirli soruların yalnızca bazı katılımcılara yönlendirilmesi durumunda, o sorular için eksik veriler oluşabilir.
Zamanla Değişim: Zaman içinde değişen koşullar, belirli verilerin artık geçerli olmamasına neden olabilir.
ÖRNEK VERİ KÜMESİNE ULAŞMAK İÇİN TIKLAYIN
Kodlarla Eksik Veri Tespit Etme ve Yönetme Yöntemleri Konularını Pekiştirelim
Silme, Doldurma, İnterpolasyon Konularını İrdeleyelim
import pandas as pd # Pandas kütüphanesini 'pd' kısaltmasıyla kullanmak için içe aktarıyoruz
import numpy as np # numpy Kütüphanesini içe aktarıyoruz
# Veriyi okuyalım
data = pd.read_csv('Buraya Dataset Konumunuzu Giriniz')
# Yukarıdaki satırda, pandas'ın 'read_csv' fonksiyonu kullanılarak CSV formatındaki veri dosyası okunuyor
# 'data' değişkeni, bu CSV dosyasındaki tüm veriyi pandas DataFrame formatında saklıyor
# İlk birkaç satıra göz atalım
print(data.head())
# 'data.head()' fonksiyonu, verinin ilk 5 satırını ekrana yazdırıyor
# Bu, veri setindeki başlıkları ve bazı örnek satırları hızlıca gözden geçirmek için kullanışlı
# Verinin genel yapısını kontrol edelim
print(data.info())
# 'data.info()' fonksiyonu, veri setindeki sütunların isimleri, sütunlardaki veri tipleri
# ve her bir sütunda kaç tane eksik veri olup olmadığını özetleyen bir çıktı verir
# Bu, veri setinin genel yapısı hakkında hızlı bir bilgi sağlarAşağıdaki gibi bir çıktı gelecektir
Hours_Studied Attendance Parental_Involvement Access_to_Resources \
0 23 84 Low High
1 19 64 Low Medium
2 24 98 Medium Medium
3 29 89 Low Medium
4 19 92 Medium Medium
Extracurricular_Activities Sleep_Hours Previous_Scores Motivation_Level \
0 No 7 73 Low
1 No 8 59 Low
2 Yes 7 91 Medium
3 Yes 8 98 Medium
4 Yes 6 65 Medium
Internet_Access Tutoring_Sessions Family_Income Teacher_Quality \
0 Yes 0 Low Medium
1 Yes 2 Medium Medium
2 Yes 2 Medium Medium
3 Yes 1 Medium Medium
4 Yes 3 Medium High
School_Type Peer_Influence Physical_Activity Learning_Disabilities \
0 Public Positive 3 No
1 Public Negative 4 No
2 Public Neutral 4 No
3 Public Negative 4 No
4 Public Neutral 4 No
Parental_Education_Level Distance_from_Home Gender Exam_Score
0 High School Near Male 67
1 College Moderate Female 61
2 Postgraduate Near Male 74
3 High School Moderate Male 71
4 College Near Female 70
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):# Eksik verilerin kontrol edilmesi
missing_data = data.isnull().sum()
# 'isnull()' fonksiyonu her bir hücrede eksik (NaN) veri olup olmadığını kontrol eder.
# 'sum()' fonksiyonu ise her bir sütunda kaç tane eksik veri olduğunu sayar.
# Sonuç olarak, her sütundaki eksik değerlerin sayısını gösteren bir pandas Series elde edilir.
print(missing_data[missing_data > 0])
# Sadece eksik veri içeren sütunları ekrana yazdırıyoruz.
# 'missing_data > 0' ifadesi, sadece eksik veri sayısı 0'dan büyük olan sütunları filtreler.
# Bu sayede, eksik veri bulunan sütunlar ve bu sütunlardaki eksik veri miktarları gösterilir.Aşağıdaki gibi bir çıktı gelecektir
Teacher_Quality 78
Parental_Education_Level 90
Distance_from_Home 67
dtype: int64# Teacher_Quality sütunundaki veri tiplerini kontrol edelim
print(data['Teacher_Quality'].dtype)
# 'dtype' özelliği, belirtilen sütundaki verilerin türünü döndürür.
# Bu satırda 'Teacher_Quality' sütunundaki verilerin tipini (örneğin int, float, object) kontrol ediyoruz.
# Sayısal olmayan değerleri kontrol edelim
non_numeric_values = data[~data['Teacher_Quality'].apply(lambda x: str(x).replace('.', '', 1).isdigit())]
# İlk olarak, 'apply' fonksiyonu kullanarak her bir değeri kontrol ediyoruz.
# 'str(x).replace('.', '', 1)' ifadesi, sayısal değerlere izin verirken, ondalık sayıların kontrol edilmesini sağlar.
# 'isdigit()' fonksiyonu, verinin tamamen sayılardan oluşup oluşmadığını kontrol eder.
# '~' işareti, mantıksal NOT operatörüdür. Yani, sayısal olmayan değerler seçilir.
# Sayısal olmayan 'Teacher_Quality' sütunundaki değerleri yazdıralım
print(non_numeric_values['Teacher_Quality'])
# Yukarıda filtrelenen sayısal olmayan değerleri içeren satırları ekrana yazdırıyoruz.Aşağıdaki gibi bir çıktı gelecektir
object
0 Medium
1 Medium
2 Medium
3 Medium
4 High
...
6602 Medium
6603 High
6604 Medium
6605 Medium
6606 Medium
Name: Teacher_Quality, Length: 6607, dtype: object# Teacher_Quality kategorilerini sayısal değerlere dönüştürelim
quality_mapping = {'Low': 1, 'Medium': 2, 'High': 3}
# 'Teacher_Quality' sütunundaki kategorik değerleri sayısal değerlere eşliyoruz:
# 'Low' -> 1, 'Medium' -> 2, 'High' -> 3
data['Teacher_Quality'] = data['Teacher_Quality'].map(quality_mapping)
# 'map' fonksiyonu, belirtilen sözlük ('quality_mapping') kullanılarak her bir kategoriyi sayısal değere dönüştürür.
# 'Teacher_Quality' sütunundaki her bir 'Low', 'Medium' ve 'High' değeri, sırasıyla 1, 2 ve 3 olarak değiştirilir.
# Dönüştürülmüş veriyi kontrol edelim
print(data['Teacher_Quality'].head())
# Dönüştürülmüş 'Teacher_Quality' sütununun ilk 5 satırını ekrana yazdırıyoruz.
# Bu, kategorik değerlerin sayısal değerlere doğru dönüştürülüp dönüştürülmediğini hızlıca kontrol etmek için kullanılır.Aşağıdaki gibi bir çıktı gelecektir
0 2.0
1 2.0
2 2.0
3 2.0
4 3.0
Name: Teacher_Quality, dtype: float64# Orijinal Teacher_Quality sütununu tekrar kontrol edelim
print(data['Teacher_Quality'].head(10))
# İlk 10 satırdaki 'Teacher_Quality' sütununun şu anki halini ekrana yazdırıyoruz.
# Eğer kategorik değerler sayısal değerlere dönüştürüldüyse, bu aşamada sayısal sonuçlar görmeliyiz.
# Veri setini yeniden okuyarak orijinal veriyi geri getirelim
data = pd.read_csv('/kaggle/input/student-performance-factors/StudentPerformanceFactors.csv')
# CSV dosyasını yeniden okuyoruz, böylece orijinal 'Teacher_Quality' sütunu tekrar kategorik değerlerle gelir.
# Önceden yapılan değişiklikleri sıfırlamış oluyoruz.
# Orijinal Teacher_Quality sütunundaki benzersiz (unique) değerleri kontrol edelim
print(data['Teacher_Quality'].unique())
# 'unique()' fonksiyonu, 'Teacher_Quality' sütunundaki tüm benzersiz kategorik değerleri gösterir.
# Bu sayede bu sütunda hangi kategorilerin olduğunu görebiliriz (örneğin 'Low', 'Medium', 'High').Aşağıdaki gibi bir çıktı gelecektir
0 2.0
1 2.0
2 2.0
3 2.0
4 3.0
5 2.0
6 2.0
7 3.0
8 1.0
9 3.0
Name: Teacher_Quality, dtype: float64
['Medium' 'High' 'Low' nan]# Teacher_Quality kategorilerini sayısal değerlere dönüştürelim
quality_mapping = {'Low': 1, 'Medium': 2, 'High': 3}
# 'Teacher_Quality' sütunundaki kategorik değerleri sayısal değerlere eşliyoruz.
# 'Low' -> 1, 'Medium' -> 2, 'High' -> 3 şeklinde bir sözlük (mapping) oluşturuyoruz.
data['Teacher_Quality'] = data['Teacher_Quality'].map(quality_mapping)
# 'map' fonksiyonu, 'Teacher_Quality' sütunundaki her bir kategorik değeri, yukarıda tanımladığımız
# sayısal karşılıklara dönüştürüyor.
# Dönüştürülmüş veriyi kontrol edelim
print(data['Teacher_Quality'].head())
# Dönüştürülmüş 'Teacher_Quality' sütununun ilk 5 satırını ekrana yazdırıyoruz.
# Bu, kategorik değerlerin doğru bir şekilde sayısal değerlere dönüştürülüp dönüştürülmediğini kontrol etmek için kullanılır.Aşağıdaki gibi bir çıktı gelecektir
0 2.0
1 2.0
2 2.0
3 2.0
4 3.0
Name: Teacher_Quality, dtype: float64# Parental_Education_Level sütunundaki eksik verileri mod ile dolduralım
data['Parental_Education_Level'] = data['Parental_Education_Level'].fillna(data['Parental_Education_Level'].mode()[0])
# 'Parental_Education_Level' sütunundaki eksik veriler, en sık görülen değer (mod) ile dolduruluyor.
# Teacher_Quality sütunundaki eksik verileri doldurmadan önce, sütunda eksik olmayan (geçerli) verilerin olup olmadığını kontrol edelim
if data['Teacher_Quality'].notnull().sum() > 0:
# Eğer sütun tamamen boş değilse, mod (en sık görülen değer) ile doldur
data['Teacher_Quality'] = data['Teacher_Quality'].fillna(data['Teacher_Quality'].mode()[0])
else:
# Eğer sütun tamamen boşsa, varsayılan bir değer olan 'Medium' (sayı karşılığı 2) ile doldur
data['Teacher_Quality'] = data['Teacher_Quality'].fillna(2) # 2: 'Medium' kategorisinin sayısal karşılığı
# Kategorik verileri sayısal değerlere dönüştürelim (Distance_from_Home)
data['Distance_from_Home'] = data['Distance_from_Home'].map({
'Near': 1, # Yakın mesafe için 1
'Moderate': 2, # Orta mesafe için 2
'Far': 3, # Uzak mesafe için 3
'Unknown': 0 # Bilinmeyen mesafe için 0 atanıyor
})
# 'Distance_from_Home' sütunundaki kategorik değerler sayısal değerlere dönüştürülüyor.
# Distance_from_Home sütunundaki eksik verileri "Moderate" (sayı karşılığı 2) ile dolduralım
data['Distance_from_Home'] = data['Distance_from_Home'].fillna(2)
# 'Distance_from_Home' sütunundaki eksik veriler, orta mesafe ('Moderate') değeriyle dolduruluyor.
# Doluluk oranlarını kontrol edelim
teacher_fill_rate = data['Teacher_Quality'].notnull().mean() * 100
distance_fill_rate = data['Distance_from_Home'].notnull().mean() * 100
# Doluluk oranları hesaplanarak yüzdeye çevriliyor. 'notnull()' eksik olmayan verileri kontrol eder.
print(f"Teacher_Quality sütununun doluluk oranı: %{teacher_fill_rate:.2f}")
print(f"Distance_from_Home sütununun doluluk oranı: %{distance_fill_rate:.2f}")
# 'Teacher_Quality' ve 'Distance_from_Home' sütunlarının dolu hücre oranları ekrana yazdırılıyor.
# Teacher_Quality ve Distance_from_Home sütunlarındaki ilk birkaç satırı kontrol edelim
print(data['Teacher_Quality'].head())
print(data['Distance_from_Home'].head())
# 'Teacher_Quality' ve 'Distance_from_Home' sütunlarındaki ilk 5 satır ekrana yazdırılıyor.
# Eksik veri olup olmadığını tekrar kontrol edelim
print(data.isnull().sum())
# Tüm veri setinde eksik (NaN) değer olup olmadığını kontrol ediyoruz.Aşağıdaki gibi bir çıktı gelecektir
Teacher_Quality sütununun doluluk oranı: %100.00
Distance_from_Home sütununun doluluk oranı: %100.00
0 2.0
1 2.0
2 2.0
3 2.0
4 3.0
Name: Teacher_Quality, dtype: float64
0 1.0
1 2.0
2 1.0
3 2.0
4 1.0
Name: Distance_from_Home, dtype: float64
Hours_Studied 0
Attendance 0
Parental_Involvement 0
Access_to_Resources 0
Extracurricular_Activities 0
Sleep_Hours 0
Previous_Scores 0
Motivation_Level 0
Internet_Access 0
Tutoring_Sessions 0
Family_Income 0
Teacher_Quality 0
School_Type 0
Peer_Influence 0
Physical_Activity 0
Learning_Disabilities 0
Parental_Education_Level 0
Distance_from_Home 0
Gender 0
Exam_Score 0
dtype: int64Neler Yaptık?
Şu ana kadar yazdığımız kod, öğrenci performansını etkileyen faktörleri incelemek için verileri hazırlama ve temizleme işlerini kapsıyor. İlk önce veri setini okuduk ve içindeki eksik değerleri kontrol ettik. Eksik olan yerleri doldurmak için en sık görülen değerleri (mod) kullandık, böylece verimizdeki boşlukları doldurduk. Kategorik verileri sayısal değerlere dönüştürdük, böylece makine öğrenimi modellerinde kullanmaya uygun hale getirdik. Tüm bu adımlar, verimizi daha sağlıklı ve anlamlı hale getirdi. Son olarak, her işlemin ardından verimizin doluluk oranlarını kontrol ettik ki eksik değer sorunu kalmadığından emin olalım. Şimdi analiz yapmaya veya model oluşturmaya geçebiliriz!
Aykırı Değer Analizi ve Tespiti
Aykırı değer analizleri, verilerde normalden sapmalar olup olmadığını anlamak için yapılan bir işlemdir. Günlük hayatımızda bu, anormal veya beklenmedik bir durumu fark etmek gibidir. Mesela, bir öğrenci sürekli ortalama 60–70 alırken bir sınavda 10 alıyorsa, bu bir aykırı değer olabilir. Aykırı değerler, analiz sırasında önemli bilgiler verebilir; örneğin bir hata, ölçümde bir sorun ya da gerçekten farklı bir durum olduğunu gösterebilir. Bu yüzden, verilerdeki bu uç noktaları bulup analiz etmek, doğru sonuçlar elde etmek ve yanlış yönlendirmelerden kaçınmak için çok önemlidir. Kodlamaya geçerek bu konuyu daha iyi anlayabiliriz
İlk adım olarak IQR yöntemini uygulayacağız:
IQR (Interquartile Range) Yöntemi: Bu yöntem, verilerin %25'lik ve %75'lik dilimlerini kullanarak aykırı değerleri tespit eder.
IQR (Interquartile Range), veri setindeki yayılımı ölçmek için kullanılan bir yöntemdir ve özellikle aykırı değerleri tespit etmekte işe yarar. IQR, verilerin ortasında kalan %50'lik bölümünün dağılımını gösterir ve “çeyrekler arası aralık” olarak bilinir.
IQR’yi bulmak için önce veriyi dört eşit parçaya ayırırız:
- Q1 (Birinci Çeyrek): Verilerin en küçük %25'lik kısmının sınırını gösterir. Diğer bir deyişle, verilerin %25'i bu değerin altında, %75'i bu değerin üstündedir.
- Q3 (Üçüncü Çeyrek): Verilerin %75'lik kısmının sınırını gösterir. Yani, verilerin %75'i bu değerin altında, %25'i bu değerin üstündedir.
Hours_Studied, Exam_Score, Previous_Scores sütunlarını kullanarak aykırı değer analizlerimizi oluşturalım
# IQR (Interquartile Range) yöntemiyle aykırı değerleri tespit eden fonksiyon
def detect_outliers_iqr(data, column):
# 1. çeyrek (Q1) değerini hesapla
Q1 = np.percentile(data[column], 25)
# 3. çeyrek (Q3) değerini hesapla
Q3 = np.percentile(data[column], 75)
# IQR'yi (Q3 - Q1) hesapla
IQR = Q3 - Q1
# Aykırı değerlerin alt sınırını hesapla (Q1 - 1.5 * IQR)
lower_bound = Q1 - 1.5 * IQR
# Aykırı değerlerin üst sınırını hesapla (Q3 + 1.5 * IQR)
upper_bound = Q3 + 1.5 * IQR
# Aykırı değerler: sütundaki değerlerin alt veya üst sınırı aşanlarını seç
outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
# Aykırı değerleri geri döndür
return outliers
# Hours_Studied sütunundaki aykırı değerleri IQR yöntemi ile tespit edelim
outliers_hours_studied = detect_outliers_iqr(data, 'Hours_Studied')
# Tespit edilen aykırı değerlerin ilk 5 sonucunu yazdır
print("IQR Yöntemi ile Hours_Studied Aykırı Değerler:")
print(outliers_hours_studied.head())
# Exam_Score sütunundaki aykırı değerleri IQR yöntemi ile tespit edelim
outliers_exam_score = detect_outliers_iqr(data, 'Exam_Score')
# Tespit edilen aykırı değerlerin ilk 5 sonucunu yazdır
print("IQR Yöntemi ile Exam_Score Aykırı Değerler:")
print(outliers_exam_score.head())Aşağıdaki gibi bir çıktı gelecektir
IQR Yöntemi ile Hours_Studied Aykırı Değerler:
Hours_Studied Attendance Parental_Involvement Access_to_Resources \
209 43 86 High Medium
262 1 69 High Medium
478 38 86 Low High
1061 3 85 Low High
1101 3 62 Medium Low
Extracurricular_Activities Sleep_Hours Previous_Scores \
209 Yes 7 97
262 Yes 6 97
478 Yes 7 79
1061 No 8 73
1101 No 6 67
Motivation_Level Internet_Access Tutoring_Sessions Family_Income \
209 Medium Yes 2 Medium
262 Medium Yes 1 Low
478 Low Yes 3 Low
1061 Low Yes 2 Low
1101 Medium Yes 1 Low
Teacher_Quality School_Type Peer_Influence Physical_Activity \
209 High Public Positive 1
262 Medium Public Positive 3
478 Medium Public Negative 3
1061 Medium Private Neutral 3
1101 Medium Public Negative 3
Learning_Disabilities Parental_Education_Level Distance_from_Home \
209 No High School Near
262 No High School Near
478 No High School Near
1061 No High School Near
1101 No High School Near
Gender Exam_Score
209 Female 78
262 Female 61
478 Male 73
1061 Male 62
1101 Male 55
IQR Yöntemi ile Exam_Score Aykırı Değerler:
Hours_Studied Attendance Parental_Involvement Access_to_Resources \
94 18 89 High Medium
106 31 100 Medium Medium
113 35 99 High High
209 43 86 High Medium
217 19 70 Medium Low
Extracurricular_Activities Sleep_Hours Previous_Scores Motivation_Level \
94 Yes 4 73 Medium
106 No 7 59 Medium
113 Yes 7 85 Low
209 Yes 7 97 Medium
217 No 7 54 High
Internet_Access Tutoring_Sessions Family_Income Teacher_Quality \
94 Yes 3 High Medium
106 Yes 2 High High
113 Yes 2 Medium High
209 Yes 2 Medium High
217 Yes 0 Medium Medium
School_Type Peer_Influence Physical_Activity Learning_Disabilities \
94 Private Positive 2 No
106 Public Positive 5 No
113 Private Neutral 2 No
209 Public Positive 1 No
217 Public Positive 2 Yes
Parental_Education_Level Distance_from_Home Gender Exam_Score
94 College Near Female 100
106 Postgraduate Moderate Male 76
113 Postgraduate Near Female 79
209 High School Near Female 78
217 High School Moderate Male 89 Yaptığımız IQR yöntemi ile aykırı değer analizine göre:
1. Hours_Studied için Aykırı Değerler:
Aykırı değer olarak tespit edilen veriler şunlar:
- 209: 43 saat çalışma, yüksek katılım, yüksek ebeveyn katılımı, yüksek motivasyon seviyesi.
- 262: 1 saat çalışma, yüksek katılım, düşük ebeveyn katılımı, düşük motivasyon seviyesi.
- 478: 38 saat çalışma, düşük ebeveyn katılımı, yüksek motivasyon seviyesi.
- 1061: 3 saat çalışma, düşük ebeveyn katılımı, düşük motivasyon seviyesi.
- 1101: 3 saat çalışma, düşük ebeveyn katılımı, düşük motivasyon seviyesi.
Yorum:
- Aykırı değer olarak tespit edilen bu öğrencilerin çalışma süreleri (özellikle 1 saat ve 3 saat olanlar) genellikle normal dağılım dışına çıkıyor.
- Özellikle 262 ve 1101 numaralı veriler, düşük çalışma süreleriyle birlikte diğer parametrelerde de düşük motivasyon veya ebeveyn katılımı sergiliyor. Bu durum, bu öğrencilerin akademik başarılarını olumsuz etkileyebilir.
Genel Değerlendirme:
Aykırı Değerler ve Dağılım:
Hours_Studied:
- Aykırı değer olarak tespit edilen öğrencilerin çalışma süreleri geniş bir yelpazeye yayılıyor. Özellikle 1 ve 3 saat çalışma süreleri, geleneksel olarak başarılı olması beklenen bir öğrencinin çalışma süresinin çok altında.
- 262 ve 1101 numaralı veriler, düşük ebeveyn katılımı ve düşük motivasyon seviyeleriyle ilişkilendiriliyor. Bu durum, bu öğrencilerin akademik başarıları üzerinde olumsuz bir etki yaratıyor olabilir.
- Diğer yandan, 209 numaralı veri, yüksek çalışma süresi (43 saat) ve yüksek motivasyon ile güçlü bir başarı gösteriyor, ancak bu durumun genel bir eğilim olup olmadığını anlamak için daha fazla veri noktası gereklidir.
Exam_Score:
- Aykırı değer olarak tespit edilenler arasında 100 puan alan 94 numaralı veri dikkat çekiyor. Bu, düşük çalışma saatlerine rağmen yüksek bir başarı göstermekte.
- Bu durum, motivasyon, ebeveyn desteği ve kaynaklara erişim gibi faktörlerin sınav başarısını nasıl etkilediğini göstermektedir.
- 217 numaralı veri, 19 saat çalışma ile 89 puan almış. Bu, düşük çalışma saatlerinin yüksek puanlarla ilişkili olabileceğini, ancak yeterli motivasyon ve kaynakların varlığının kritik bir rol oynadığını göstermektedir.
2. İlişkilendirme Analizi:
- Ebeveyn Katılımı: Aykırı değerler arasında, ebeveyn katılımı düşük olan öğrencilerin (örneğin, 262 ve 478) düşük motivasyon ve akademik başarı gösterdiği görülüyor. Ebeveyn katılımı, öğrencinin eğitim başarısını önemli ölçüde etkileyebilir.
- Motivasyon Seviyesi: Yüksek motivasyon seviyesine sahip öğrenciler (örneğin, 94 ve 209) genellikle daha iyi puanlar alıyor. Motivasyonun artırılması, düşük performans gösteren öğrenciler için bir çözüm olabilir.
- Okul Türü ve Öğretmen Kalitesi: Aykırı değerlerde genellikle Public okul türü ve Medium öğretmen kalitesi ile ilişkilendirilmiş veriler var. Bu durum, okul ortamının ve öğretmen kalitesinin öğrenci başarısını nasıl etkilediğini gösteriyor.
3. Eğitim Stratejileri:
- Düşük çalışma süreleri ile düşük başarılar arasında bir ilişki olduğu gözlemleniyor. Eğitimciler, düşük süreli çalışan öğrenciler için çalışma sürelerini artırma konusunda stratejiler geliştirmeli.
- Aile desteği ve ebeveyn katılımı artırılmalı. Ailelerin eğitime daha fazla dahil edilmesi, öğrencilerin motivasyonunu ve başarılarını artırabilir.
- Okul türü ve öğretmen kalitesi üzerine daha fazla analiz yapılarak, belirli okulların veya öğretmenlerin öğrenciler üzerindeki etkileri değerlendirilebilir. Özellikle düşük performans gösteren gruplar üzerinde daha fazla çalışılmalı.
Sonuç:
- Aykırı değer analizi, öğrencilerin genel performansını etkileyen önemli faktörlerin belirlenmesine yardımcı olur. Elde edilen bulgular, eğitim sisteminin iyileştirilmesi için önemli veriler sunmaktadır. Bu tür verilerin düzenli analizi, eğitim politikalarının gözden geçirilmesi ve gerekli müdahalelerin yapılabilmesi için kritik öneme sahiptir. Eğitimciler ve yöneticiler, öğrenci başarısını artırmak için bu verileri kullanmalıdır.
Z Skoru
Bir veri setindeki bir verinin ortalamadan ne kadar uzakta olduğunu anlamamıza yardımcı olan bir istatistiksel ölçüttür. Başka bir deyişle, verinin ne kadar “standart sapma” uzağında olduğunu gösterir. Z skoru, veri noktasının ortalamanın altında mı yoksa üstünde mi olduğunu ve ne kadar uzak olduğunu belirlememizi sağlar.
Eğer Z skoru 2 veya daha büyükse, bu veri noktası ortalamadan 2 standart sapma uzaklıkta demektir. Genellikle Z skoru yüksek olan veriler “aykırı değer” olarak kabul edilir, çünkü bu veriler genelde setin geneli ile uyumsuzluk gösterir.
Z skoru analizi aykırı değerlerin tespitinde sıkça kullanılır çünkü bu yöntem, verilerin normal dağılım gösterip göstermediğine bakmaksızın uygulanabilir.
# Z-skoru hesaplama fonksiyonu
def z_score_outliers(data, column, threshold=3):
# Z-skorunu hesapla: (Veri - Ortalama) / Standart Sapma
z_scores = (data[column] - data[column].mean()) / data[column].std()
# Aykırı değerleri tespit et: Z-skoru mutlak değeri eşik değerinden büyük olanları seç
outliers = data[np.abs(z_scores) > threshold]
return outliers # Aykırı değerleri içeren DataFrame'i döndür
# Hours_Studied için aykırı değerleri bul
hours_outliers = z_score_outliers(data, 'Hours_Studied') # 'Hours_Studied' sütunu için aykırı değerleri bul
print("Z Skoru ile Hours_Studied Aykırı Değerler:") # Aykırı değerlerin başlığı
print(hours_outliers) # Aykırı değerleri ekrana yazdır
# Exam_Score için aykırı değerleri bul
exam_outliers = z_score_outliers(data, 'Exam_Score') # 'Exam_Score' sütunu için aykırı değerleri bul
print("Z Skoru ile Exam_Score Aykırı Değerler:") # Aykırı değerlerin başlığı
print(exam_outliers) # Aykırı değerleri ekrana yazdırAşağıdaki gibi bir çıktı gelecektir (Çıktı biraz uzun)
Z Skoru ile Hours_Studied Aykırı Değerler:
Hours_Studied Attendance Parental_Involvement Access_to_Resources \
209 43 86 High Medium
262 1 69 High Medium
478 38 86 Low High
1591 2 84 Low High
1615 39 95 Medium High
1957 39 97 High High
1971 2 96 Low High
2024 2 98 Low High
2305 39 92 Medium Medium
2506 38 63 Medium High
2521 38 86 High Medium
2895 44 68 High Low
2947 2 67 Medium Medium
3454 2 99 Medium Low
3716 39 90 High High
3982 39 75 Medium High
4198 2 98 High Medium
4725 1 81 Medium Medium
4779 1 88 Medium High
4870 38 90 High Medium
4997 39 67 High High
5157 38 82 Medium Low
5224 38 80 High Medium
5796 39 78 Medium Medium
5846 38 98 Low Medium
Extracurricular_Activities Sleep_Hours Previous_Scores \
209 Yes 7 97
262 Yes 6 97
478 Yes 7 79
1591 No 8 54
1615 Yes 9 54
1957 Yes 10 91
1971 Yes 9 77
2024 Yes 7 80
2305 No 9 73
2506 No 8 52
2521 No 6 88
2895 No 9 75
2947 No 6 73
3454 Yes 9 52
3716 No 8 92
3982 Yes 6 82
4198 No 4 64
4725 Yes 8 66
4779 Yes 4 72
4870 Yes 4 60
4997 Yes 5 76
5157 No 6 97
5224 No 5 78
5796 No 6 73
5846 No 6 94
Motivation_Level Internet_Access Tutoring_Sessions Family_Income \
209 Medium Yes 2 Medium
262 Medium Yes 1 Low
478 Low Yes 3 Low
1591 Low Yes 3 Low
1615 High Yes 2 Medium
1957 Medium Yes 2 Low
1971 Medium Yes 3 Medium
2024 High Yes 2 Low
2305 Medium Yes 1 Medium
2506 High Yes 1 Medium
2521 High Yes 1 Low
2895 Low Yes 3 Medium
2947 Low Yes 1 Low
3454 Low Yes 0 Medium
3716 High Yes 2 Medium
3982 High Yes 1 High
4198 Medium Yes 1 Low
4725 Medium Yes 1 Low
4779 High Yes 3 Medium
4870 Low Yes 2 Low
4997 Medium No 2 Medium
5157 Low Yes 2 Low
5224 Medium Yes 1 Low
5796 Medium Yes 0 Low
5846 Medium Yes 2 Low
Teacher_Quality School_Type Peer_Influence Physical_Activity \
209 High Public Positive 1
262 Medium Public Positive 3
478 Medium Public Negative 3
1591 Low Public Positive 4
1615 Medium Private Positive 3
1957 Medium Public Positive 3
1971 NaN Public Neutral 2
2024 High Public Neutral 1
2305 Medium Public Negative 4
2506 Medium Private Positive 3
2521 High Public Negative 4
2895 High Private Negative 2
2947 Medium Private Positive 2
3454 Medium Public Neutral 4
3716 High Private Neutral 1
3982 Low Public Negative 3
4198 High Private Neutral 2
4725 Medium Public Negative 2
4779 Medium Private Negative 2
4870 Medium Public Neutral 4
4997 Medium Private Negative 4
5157 Medium Private Negative 3
5224 Medium Public Positive 4
5796 Medium Public Positive 2
5846 Low Public Negative 4
Learning_Disabilities Parental_Education_Level Distance_from_Home \
209 No High School Near
262 No High School Near
478 No High School Near
1591 No NaN Near
1615 No High School Moderate
1957 No High School Moderate
1971 No High School Far
2024 No High School Near
2305 No Postgraduate Moderate
2506 No College Moderate
2521 No High School Moderate
2895 No High School Moderate
2947 No College Moderate
3454 No High School Near
3716 No High School Near
3982 No College Near
4198 No High School Near
4725 No College Near
4779 No College Near
4870 No College Moderate
4997 No NaN Near
5157 No College Near
5224 No College Far
5796 No College Far
5846 No Postgraduate Near
Gender Exam_Score
209 Female 78
262 Female 61
478 Male 73
1591 Male 62
1615 Male 77
1957 Female 79
1971 Female 65
2024 Male 66
2305 Male 75
2506 Male 69
2521 Female 74
2895 Female 71
2947 Male 58
3454 Male 62
3716 Female 78
3982 Male 73
4198 Female 65
4725 Male 60
4779 Male 92
4870 Male 74
4997 Female 71
5157 Male 72
5224 Female 72
5796 Male 70
5846 Female 75
Z Skoru ile Exam_Score Aykırı Değerler:
Hours_Studied Attendance Parental_Involvement Access_to_Resources \
94 18 89 High Medium
113 35 99 High High
217 19 70 Medium Low
404 17 77 Low High
529 15 83 Medium Medium
558 22 70 Low Medium
560 22 71 Low High
637 20 65 Medium Low
770 24 96 Low High
836 29 76 Medium Medium
919 21 74 High Medium
1099 22 75 Medium Low
1101 3 62 Medium Low
1107 14 77 Low High
1109 31 69 Medium Medium
1351 9 61 High Medium
1525 27 98 Low Medium
1607 30 98 Medium Low
1844 21 92 High High
1863 10 76 Medium Low
1957 39 97 High High
2076 24 77 High Medium
2292 21 70 High High
2421 27 90 Low Medium
2425 23 83 High High
2513 18 86 High Medium
2595 7 69 Medium High
2687 11 71 Low Medium
2904 11 62 High Medium
2954 14 75 Medium Medium
3124 19 90 Medium High
3141 7 63 High High
3364 16 76 Medium High
3457 18 93 Medium Medium
3579 14 90 High High
3924 18 87 Low Low
3932 25 66 High Medium
4192 28 90 Low Medium
4254 21 74 High Low
4297 21 67 Medium Medium
4355 24 70 Medium High
4405 25 98 Medium Medium
4531 26 69 High High
4583 25 73 Medium Medium
4666 16 71 Low Low
4779 1 88 Medium High
5125 16 82 Medium Medium
5966 25 99 Medium Medium
5989 18 61 Medium Low
6347 28 96 High Low
6393 16 83 Low Medium
6522 18 90 High High
Extracurricular_Activities Sleep_Hours Previous_Scores \
94 Yes 4 73
113 Yes 7 85
217 No 7 54
404 Yes 5 53
529 No 7 97
558 No 7 53
560 Yes 9 56
637 Yes 7 62
770 No 6 93
836 No 8 96
919 No 6 94
1099 Yes 5 66
1101 No 6 67
1107 No 6 75
1109 No 7 52
1351 Yes 6 77
1525 Yes 6 93
1607 Yes 9 93
1844 Yes 9 58
1863 No 6 76
1957 Yes 10 91
2076 Yes 7 57
2292 No 9 66
2421 No 9 52
2425 Yes 4 89
2513 No 8 60
2595 Yes 8 54
2687 Yes 8 55
2904 Yes 7 76
2954 Yes 5 95
3124 Yes 5 90
3141 Yes 10 90
3364 Yes 6 63
3457 No 7 76
3579 Yes 8 86
3924 No 8 79
3932 Yes 7 55
4192 Yes 9 91
4254 Yes 8 64
4297 Yes 6 88
4355 Yes 9 52
4405 Yes 7 90
4531 No 7 95
4583 Yes 7 56
4666 Yes 6 59
4779 Yes 4 72
5125 No 7 56
5966 Yes 7 77
5989 Yes 6 91
6347 Yes 4 98
6393 Yes 8 92
6522 Yes 6 54
Motivation_Level Internet_Access Tutoring_Sessions Family_Income \
94 Medium Yes 3 High
113 Low Yes 2 Medium
217 High Yes 0 Medium
404 Medium Yes 2 High
529 Medium Yes 2 Low
558 Low Yes 1 Low
560 High Yes 1 Low
637 High Yes 0 Medium
770 Medium Yes 2 Low
836 Low Yes 2 Low
919 Medium Yes 1 Low
1099 Low Yes 2 Low
1101 Medium Yes 1 Low
1107 Medium Yes 1 Medium
1109 Medium No 2 High
1351 Low No 1 High
1525 Low No 5 High
1607 Medium Yes 1 Low
1844 Medium Yes 2 High
1863 Medium Yes 1 High
1957 Medium Yes 2 Low
2076 Medium Yes 3 Medium
2292 Medium Yes 1 Medium
2421 Low No 2 Low
2425 Low Yes 1 Medium
2513 Medium Yes 2 Low
2595 High Yes 1 Medium
2687 Medium Yes 1 Low
2904 High Yes 3 High
2954 Medium Yes 0 Medium
3124 Low Yes 0 Low
3141 Medium Yes 0 Low
3364 High Yes 0 Low
3457 Low Yes 2 Medium
3579 Medium Yes 4 Medium
3924 High Yes 1 Low
3932 Medium Yes 4 Medium
4192 Medium Yes 0 Medium
4254 Medium Yes 3 Low
4297 Medium Yes 1 Low
4355 High Yes 1 Low
4405 High Yes 1 High
4531 Low No 0 Medium
4583 Medium Yes 2 High
4666 High Yes 1 Low
4779 High Yes 3 Medium
5125 Low Yes 0 High
5966 Medium Yes 0 High
5989 High Yes 3 Medium
6347 High Yes 1 High
6393 Low Yes 2 High
6522 Low Yes 1 Medium
Teacher_Quality School_Type Peer_Influence Physical_Activity \
94 Medium Private Positive 2
113 High Private Neutral 2
217 Medium Public Positive 2
404 Medium Public Neutral 3
529 High Private Neutral 2
558 Medium Public Positive 3
560 High Public Neutral 3
637 Medium Public Neutral 0
770 Medium Public Neutral 2
836 Medium Public Positive 2
919 High Public Positive 1
1099 Medium Public Positive 2
1101 Medium Public Negative 3
1107 High Public Neutral 4
1109 Low Public Neutral 5
1351 Medium Private Neutral 2
1525 High Public Positive 3
1607 Low Private Positive 3
1844 Medium Public Neutral 5
1863 High Public Negative 2
1957 Medium Public Positive 3
2076 High Public Positive 2
2292 Low Public Neutral 4
2421 High Public Positive 2
2425 Medium Public Negative 3
2513 High Private Neutral 1
2595 High Public Positive 2
2687 Medium Public Negative 3
2904 Medium Private Neutral 3
2954 Medium Public Positive 3
3124 Medium Public Neutral 2
3141 Medium Private Positive 2
3364 Medium Public Positive 1
3457 Medium Private Neutral 4
3579 Medium Private Negative 2
3924 High Public Negative 4
3932 Medium Public Neutral 2
4192 Medium Public Positive 2
4254 Low Public Neutral 1
4297 Medium Private Positive 5
4355 Medium Public Positive 2
4405 Low Public Neutral 4
4531 Medium Public Negative 3
4583 Medium Public Neutral 4
4666 High Public Positive 3
4779 Medium Private Negative 2
5125 High Private Negative 1
5966 High Public Neutral 3
5989 High Public Positive 3
6347 High Public Positive 3
6393 High Public Positive 4
6522 High Public Negative 3
Learning_Disabilities Parental_Education_Level Distance_from_Home \
94 No College Near
113 No Postgraduate Near
217 Yes High School Moderate
404 No College Near
529 No High School Near
558 No High School Near
560 Yes College Near
637 Yes Postgraduate Near
770 No High School Moderate
836 No Postgraduate Moderate
919 No High School Near
1099 No High School Far
1101 No High School Near
1107 Yes High School Near
1109 No College Far
1351 No High School Near
1525 No High School Moderate
1607 No High School Near
1844 No High School Moderate
1863 No Postgraduate Near
1957 No High School Moderate
2076 No College Far
2292 No College Moderate
2421 Yes College Near
2425 No High School Far
2513 No College Near
2595 No High School Far
2687 No College Near
2904 Yes High School Moderate
2954 No College Moderate
3124 No College Far
3141 Yes High School Moderate
3364 No High School Near
3457 No High School Near
3579 No High School Near
3924 No College Near
3932 Yes High School Moderate
4192 No College Moderate
4254 No College Far
4297 No Postgraduate Near
4355 No Postgraduate Moderate
4405 No Postgraduate Near
4531 No Postgraduate Near
4583 No High School Near
4666 No Postgraduate Near
4779 No College Near
5125 Yes High School Far
5966 No High School Near
5989 No College Moderate
6347 No High School Near
6393 No Postgraduate Near
6522 No High School Near
Gender Exam_Score
94 Female 100
113 Female 79
217 Male 89
404 Male 86
529 Female 97
558 Female 83
560 Female 84
637 Male 80
770 Female 94
836 Male 94
919 Male 97
1099 Male 80
1101 Male 55
1107 Female 89
1109 Male 92
1351 Male 82
1525 Female 101
1607 Male 88
1844 Female 89
1863 Male 80
1957 Female 79
2076 Male 84
2292 Male 91
2421 Male 86
2425 Male 99
2513 Male 88
2595 Male 87
2687 Female 87
2904 Male 88
2954 Male 82
3124 Female 94
3141 Male 86
3364 Female 86
3457 Female 96
3579 Female 99
3924 Male 82
3932 Female 84
4192 Female 98
4254 Male 80
4297 Female 95
4355 Male 85
4405 Male 94
4531 Female 93
4583 Female 93
4666 Male 82
4779 Male 92
5125 Female 79
5966 Male 97
5989 Female 80
6347 Male 98
6393 Female 98
6522 Female 95 Öğrenme Engelleri:
- Öğrenme engeli olan öğrenciler (örn. 217, 560, 2904) arasında farklı başarı seviyeleri gözlemleniyor. 217 numaralı öğrenci, öğrenme engeli olmasına rağmen 89 puan alırken, diğer bazı öğrenciler daha düşük puanlar elde ediyor. Bu, öğrenme engelinin etkilerinin bireysel farklılıklara göre değişebileceğini gösteriyor.
Ebeveyn Eğitim Düzeyi:
- Öğrencilerin ebeveyn eğitim düzeyinin başarı ile ilişkisi önemli bir faktör. Postgraduate olan ebeveynlere sahip öğrenciler (örn. 113, 637) genellikle daha yüksek puanlar almış. Bu, aile eğitiminin, öğrencinin akademik başarısı üzerindeki etkisini vurguluyor.
Evden Uzaklık:
- Uzaklık durumunun (Near, Moderate, Far) başarı üzerindeki etkisi de dikkat çekici. Far mesafede yaşayan öğrenciler arasında başarı düzeyi genellikle daha düşük. Örneğin, 1099 numaralı öğrenci Far mesafede olmasına rağmen 80 puan alıyor. Ulaşım zorlukları ve evden uzakta olmanın motivasyon üzerindeki etkisi göz önünde bulundurulmalı.
Cinsiyet:
- Cinsiyet dağılımı da başarıda belirleyici olabilir. Her iki cinsiyetin de yüksek başarı gösterdiği öğrenciler bulunmakta, ancak bazı cinsiyet gruplarının belirli alanlarda daha önde olduğu görülebilir. Örneğin, Female öğrencilerin bazıları (örn. 94 ve 1525) 100 ve üzeri puanlar alarak dikkat çekiyor.
Sonuç:
- Z-skoru ile tespit edilen aykırı değerler, öğrenme engeli, ebeveyn eğitim durumu, ev mesafesi ve cinsiyet gibi değişkenlerin öğrencilerin akademik başarıları üzerindeki etkilerini göstermektedir. Eğitim politikalarının, öğrenme engeli olan öğrencileri desteklemek, ebeveyn eğitimini teşvik etmek ve ulaşım sorunlarını azaltmak için stratejiler geliştirmesi gerekmektedir. Aşağıda daha detaylı yorumları bulabiliriz
Z-skoru ile Aykırı Değer Analizi:
- Z-skoru Değerleri: Z-skoru hesaplandığında, genellikle ±2 veya ±3'ten büyük olan değerler aykırı değer olarak kabul edilir. Bu durumda, z-skoru 2'den büyük olan öğrenci başarıları dikkate alınarak, bu öğrencilerin özellikleri incelenebilir.
2. Akademik Başarı ve Z-skorları:
- Exam_Score (Sınav Puanı): Z-skoru analizi, öğrencilerin sınav puanlarının ne kadar standart sapma ile ortalamadan uzaklaştığını gösterir. Örneğin, z-skoru +2 olan bir öğrenci, sınavda beklenenin çok üzerinde bir performans sergilemiştir. Bu tür öğrencilerin çalışma alışkanlıkları, fiziksel aktivite düzeyleri ve diğer değişkenleri göz önünde bulundurularak daha ayrıntılı analiz yapılabilir.
3. Uyku ve Çalışma Süreleri:
- Sleep_Hours ve Hours_Studied: Z-skorları, bu iki değişkenin ortalama değerlerinin dışında kalan öğrenci gruplarını belirlemede yardımcı olur. Örneğin, az uyuyarak yüksek z-skoru alan öğrenciler (yani başarılı olanlar), uyku eksikliğine rağmen iyi performans gösteriyor olabilirler. Bu, kişisel motivasyon veya etkin çalışma yöntemlerinin varlığına işaret edebilir.
4. Ebeveyn Eğitimi ve Sosyal Destek:
- Parental_Education_Level ve Aykırı Değerler: Ebeveyn eğitimi düzeyi yüksek olan öğrenciler, z-skorlarına göre ortalamanın çok üzerinde puanlar alabilirler. Ebeveyn desteği ile birlikte, sosyal çevrenin (peer influence) de z-skorları açısından olumlu bir etkiye sahip olduğu gözlemlenebilir. Bu durum, öğrenci başarısının sosyal ve ailevi destekle nasıl şekillendiğini gösterir.
5. Cinsiyet ve Z-skoru:
- Cinsiyetin z-skoru analiziyle birlikte incelenmesi, erkek ve kadın öğrenciler arasındaki performans farklılıklarını daha net bir şekilde ortaya koyabilir. Cinsiyetler arasında belirgin z-skoru farklılıkları varsa, bu durum eğitici stratejilerin ve destek programlarının nasıl tasarlanması gerektiği konusunda bilgi sağlayabilir.
6. Fiziksel Aktivite ve Motivasyon Düzeyi:
- Physical_Activity ve Motivation_Level: Z-skorları, bu iki faktörün öğrenci performansındaki rolünü daha iyi anlamamıza yardımcı olabilir. Yüksek z-skoru ile iyi bir fiziksel aktivite düzeyine sahip öğrencilerin, motivasyon düzeyleri incelenerek başarılarındaki etkenler belirlenebilir.
Genel Değerlendirme
Z-skoru analizi, verilerin normal dağılımı hakkında bilgi edinmek ve aykırı değerleri tanımlamak için güçlü bir yöntemdir. Elde edilen Z-skorları, her bir gözlemin ortalamadan ne kadar uzak olduğunu standardize bir ölçü ile ifade eder. Genelde, Z-skoru 3'ten büyük olan değerler aykırı kabul edilirken, -3'ten küçük olanlar da dikkate alınabilir.
Veri setimizde elde edilen Z-skorları üzerinden yapılan analizlerde, belirli gözlemler belirgin şekilde ortalamadan uzaklaşmaktadır. Bu durum, gözlemlerin performansı ve öğrenim düzeyleri hakkında önemli ipuçları sağlamaktadır. Örneğin, 100 puan alan bir öğrencinin Z-skoru 2.62 olarak hesaplanmış, bu durum onun genel öğrenci grubundan oldukça başarılı olduğunu göstermektedir. Diğer taraftan, düşük Z-skorlarına sahip öğrenciler, özellikle 1 ve -1 arasındaki değerler, genel öğrenci grubunun altında performans gösteriyor. Bu durum, öğretim ve kaynak kullanımında belirli bir strateji değişikliği gerektirebilir.
Ayrıca, Z-skorlarıyla birlikte, öğrencilerin çeşitli özellikleri (örneğin, öğrenim süreleri, aile gelir düzeyleri, okul türü gibi) ile ilgili korelasyon analizi yapılarak, başarıyı etkileyen faktörler üzerinde derinlemesine bir analiz yapılabilir. Örneğin, öğretmen kalitesi ile öğrenci başarısı arasında güçlü bir pozitif ilişki bulunmuşken, fiziksel aktivite ve ders dışı etkinliklerin etkisi sınırlı görünmektedir.
Eksik Verilerin Önemi
Eksik veriler, veri analizi ve makine öğrenimi modelleme süreçlerinde çeşitli olumsuz etkilere neden olabilir:
- Analiz Doğruluğu: Eksik veriler, analizlerin doğruluğunu etkileyebilir. Örneğin, bir grup öğrenci üzerinde yapılan bir çalışma, eksik veriler nedeniyle yanlış sonuçlar verebilir.
- Model Performansı: Makine öğrenimi modelleri, eksik verilere karşı hassastır. Eksik veriler, modelin öğrenme sürecini olumsuz yönde etkileyebilir, bu da tahminlerin kalitesini düşürür.
- Yanlış Karar Alma: Analiz ve modelleme süreçlerinde eksik verilerin göz ardı edilmesi, yanlış kararların alınmasına neden olabilir. Bu da organizasyonlar için büyük maliyetler ve kayıplar doğurabilir.
Sonuç olarak, eksik veri yönetimi, veri analizi ve makine öğrenimi süreçlerinde önemli bir rol oynamaktadır. Eksik verilerin doğru bir şekilde yönetilmesi, veri setinin kalitesini artırır ve analizlerin doğruluğunu sağlar. Herkesin anlayabileceği basit bir dil kullanarak, eksik veri yönetiminin temel kavramlarını ve önemini açıklamak, veri bilimi ve analitiği alanında çalışan bireyler için kritik bir adımdır.


