BLOG'A DÖN
Veri

Veri Analizi Bölüm 2

Fehu-Zone
Fehu-Zone2 Ocak 2026 10 DK OKUMA
Veri Analizi Bölüm 2

Veri Analizi Bölüm 2 | Veri Hazırlama Ve Temizleme Teknikleri


Eksik Veri Yönetimi Nedir?

Veri analizi ve makine öğrenimi süreçlerinde karşılaşılan en yaygın problemlerden biri, eksik verilerdir. Eksik veri, bir veri setinde belirli gözlemler için mevcut olmayan veya boş bırakılan değerleri ifade eder. Örneğin, bir öğrenci anketinde bazı sorulara cevap verilmemişse, bu durum eksik veri olarak değerlendirilir.

Neden Eksik Verilerle Karşılaşırız?

Eksik verilerin oluşmasının çeşitli nedenleri vardır:

İnsan Hatası: Veri toplama sürecinde, katılımcıların bazı soruları atlaması ya da yanlışlıkla boş bırakması sonucunda eksik veriler oluşabilir.

Teknik Sorunlar: Veri toplama araçlarının arızalanması veya iletişim kesintileri gibi teknik problemler de eksik verilere yol açabilir.

Anket Tasarımı: Bazı anketlerde, belirli soruların yalnızca bazı katılımcılara yönlendirilmesi durumunda, o sorular için eksik veriler oluşabilir.

Zamanla Değişim: Zaman içinde değişen koşullar, belirli verilerin artık geçerli olmamasına neden olabilir.

ÖRNEK VERİ KÜMESİNE ULAŞMAK İÇİN TIKLAYIN

Kodlarla Eksik Veri Tespit Etme ve Yönetme Yöntemleri Konularını Pekiştirelim
Silme, Doldurma, İnterpolasyon Konularını İrdeleyelim
python
import pandas as pd  # Pandas kütüphanesini 'pd' kısaltmasıyla kullanmak için içe aktarıyoruz
import numpy as np   # numpy Kütüphanesini içe aktarıyoruz
# Veriyi okuyalım
data = pd.read_csv('Buraya Dataset Konumunuzu Giriniz')

# Yukarıdaki satırda, pandas'ın 'read_csv' fonksiyonu kullanılarak CSV formatındaki veri dosyası okunuyor
# 'data' değişkeni, bu CSV dosyasındaki tüm veriyi pandas DataFrame formatında saklıyor

# İlk birkaç satıra göz atalım
print(data.head())  
# 'data.head()' fonksiyonu, verinin ilk 5 satırını ekrana yazdırıyor
# Bu, veri setindeki başlıkları ve bazı örnek satırları hızlıca gözden geçirmek için kullanışlı

# Verinin genel yapısını kontrol edelim
print(data.info())  
# 'data.info()' fonksiyonu, veri setindeki sütunların isimleri, sütunlardaki veri tipleri
# ve her bir sütunda kaç tane eksik veri olup olmadığını özetleyen bir çıktı verir
# Bu, veri setinin genel yapısı hakkında hızlı bir bilgi sağlar
Aşağıdaki gibi bir çıktı gelecektir

code
 Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
0             23          84                  Low                High   
1             19          64                  Low              Medium   
2             24          98               Medium              Medium   
3             29          89                  Low              Medium   
4             19          92               Medium              Medium   

  Extracurricular_Activities  Sleep_Hours  Previous_Scores Motivation_Level  \
0                         No            7               73              Low   
1                         No            8               59              Low   
2                        Yes            7               91           Medium   
3                        Yes            8               98           Medium   
4                        Yes            6               65           Medium   

  Internet_Access  Tutoring_Sessions Family_Income Teacher_Quality  \
0             Yes                  0           Low          Medium   
1             Yes                  2        Medium          Medium   
2             Yes                  2        Medium          Medium   
3             Yes                  1        Medium          Medium   
4             Yes                  3        Medium            High   

  School_Type Peer_Influence  Physical_Activity Learning_Disabilities  \
0      Public       Positive                  3                    No   
1      Public       Negative                  4                    No   
2      Public        Neutral                  4                    No   
3      Public       Negative                  4                    No   
4      Public        Neutral                  4                    No   

  Parental_Education_Level Distance_from_Home  Gender  Exam_Score  
0              High School               Near    Male          67  
1                  College           Moderate  Female          61  
2             Postgraduate               Near    Male          74  
3              High School           Moderate    Male          71  
4                  College               Near  Female          70  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
python
# Eksik verilerin kontrol edilmesi
missing_data = data.isnull().sum()  
# 'isnull()' fonksiyonu her bir hücrede eksik (NaN) veri olup olmadığını kontrol eder.
# 'sum()' fonksiyonu ise her bir sütunda kaç tane eksik veri olduğunu sayar.
# Sonuç olarak, her sütundaki eksik değerlerin sayısını gösteren bir pandas Series elde edilir.

print(missing_data[missing_data > 0])  
# Sadece eksik veri içeren sütunları ekrana yazdırıyoruz.
# 'missing_data > 0' ifadesi, sadece eksik veri sayısı 0'dan büyük olan sütunları filtreler.
# Bu sayede, eksik veri bulunan sütunlar ve bu sütunlardaki eksik veri miktarları gösterilir.
Aşağıdaki gibi bir çıktı gelecektir

code
Teacher_Quality             78
Parental_Education_Level    90
Distance_from_Home          67
dtype: int64
python
# Teacher_Quality sütunundaki veri tiplerini kontrol edelim
print(data['Teacher_Quality'].dtype)
# 'dtype' özelliği, belirtilen sütundaki verilerin türünü döndürür.
# Bu satırda 'Teacher_Quality' sütunundaki verilerin tipini (örneğin int, float, object) kontrol ediyoruz.

# Sayısal olmayan değerleri kontrol edelim
non_numeric_values = data[~data['Teacher_Quality'].apply(lambda x: str(x).replace('.', '', 1).isdigit())]
# İlk olarak, 'apply' fonksiyonu kullanarak her bir değeri kontrol ediyoruz.
# 'str(x).replace('.', '', 1)' ifadesi, sayısal değerlere izin verirken, ondalık sayıların kontrol edilmesini sağlar.
# 'isdigit()' fonksiyonu, verinin tamamen sayılardan oluşup oluşmadığını kontrol eder.
# '~' işareti, mantıksal NOT operatörüdür. Yani, sayısal olmayan değerler seçilir.

# Sayısal olmayan 'Teacher_Quality' sütunundaki değerleri yazdıralım
print(non_numeric_values['Teacher_Quality'])
# Yukarıda filtrelenen sayısal olmayan değerleri içeren satırları ekrana yazdırıyoruz.
Aşağıdaki gibi bir çıktı gelecektir

code
object
0       Medium
1       Medium
2       Medium
3       Medium
4         High
         ...  
6602    Medium
6603      High
6604    Medium
6605    Medium
6606    Medium
Name: Teacher_Quality, Length: 6607, dtype: object
python
# Teacher_Quality kategorilerini sayısal değerlere dönüştürelim
quality_mapping = {'Low': 1, 'Medium': 2, 'High': 3}
# 'Teacher_Quality' sütunundaki kategorik değerleri sayısal değerlere eşliyoruz:
# 'Low' -> 1, 'Medium' -> 2, 'High' -> 3

data['Teacher_Quality'] = data['Teacher_Quality'].map(quality_mapping)
# 'map' fonksiyonu, belirtilen sözlük ('quality_mapping') kullanılarak her bir kategoriyi sayısal değere dönüştürür.
# 'Teacher_Quality' sütunundaki her bir 'Low', 'Medium' ve 'High' değeri, sırasıyla 1, 2 ve 3 olarak değiştirilir.

# Dönüştürülmüş veriyi kontrol edelim
print(data['Teacher_Quality'].head())
# Dönüştürülmüş 'Teacher_Quality' sütununun ilk 5 satırını ekrana yazdırıyoruz.
# Bu, kategorik değerlerin sayısal değerlere doğru dönüştürülüp dönüştürülmediğini hızlıca kontrol etmek için kullanılır.
Aşağıdaki gibi bir çıktı gelecektir
code
0    2.0
1    2.0
2    2.0
3    2.0
4    3.0
Name: Teacher_Quality, dtype: float64
python
# Orijinal Teacher_Quality sütununu tekrar kontrol edelim
print(data['Teacher_Quality'].head(10))
# İlk 10 satırdaki 'Teacher_Quality' sütununun şu anki halini ekrana yazdırıyoruz.
# Eğer kategorik değerler sayısal değerlere dönüştürüldüyse, bu aşamada sayısal sonuçlar görmeliyiz.

# Veri setini yeniden okuyarak orijinal veriyi geri getirelim
data = pd.read_csv('/kaggle/input/student-performance-factors/StudentPerformanceFactors.csv')
# CSV dosyasını yeniden okuyoruz, böylece orijinal 'Teacher_Quality' sütunu tekrar kategorik değerlerle gelir.
# Önceden yapılan değişiklikleri sıfırlamış oluyoruz.

# Orijinal Teacher_Quality sütunundaki benzersiz (unique) değerleri kontrol edelim
print(data['Teacher_Quality'].unique())
# 'unique()' fonksiyonu, 'Teacher_Quality' sütunundaki tüm benzersiz kategorik değerleri gösterir.
# Bu sayede bu sütunda hangi kategorilerin olduğunu görebiliriz (örneğin 'Low', 'Medium', 'High').
Aşağıdaki gibi bir çıktı gelecektir

code
0    2.0
1    2.0
2    2.0
3    2.0
4    3.0
5    2.0
6    2.0
7    3.0
8    1.0
9    3.0
Name: Teacher_Quality, dtype: float64
['Medium' 'High' 'Low' nan]
python
# Teacher_Quality kategorilerini sayısal değerlere dönüştürelim
quality_mapping = {'Low': 1, 'Medium': 2, 'High': 3}
# 'Teacher_Quality' sütunundaki kategorik değerleri sayısal değerlere eşliyoruz.
# 'Low' -> 1, 'Medium' -> 2, 'High' -> 3 şeklinde bir sözlük (mapping) oluşturuyoruz.

data['Teacher_Quality'] = data['Teacher_Quality'].map(quality_mapping)
# 'map' fonksiyonu, 'Teacher_Quality' sütunundaki her bir kategorik değeri, yukarıda tanımladığımız
# sayısal karşılıklara dönüştürüyor.

# Dönüştürülmüş veriyi kontrol edelim
print(data['Teacher_Quality'].head())
# Dönüştürülmüş 'Teacher_Quality' sütununun ilk 5 satırını ekrana yazdırıyoruz.
# Bu, kategorik değerlerin doğru bir şekilde sayısal değerlere dönüştürülüp dönüştürülmediğini kontrol etmek için kullanılır.
Aşağıdaki gibi bir çıktı gelecektir

code
0    2.0
1    2.0
2    2.0
3    2.0
4    3.0
Name: Teacher_Quality, dtype: float64
python
# Parental_Education_Level sütunundaki eksik verileri mod ile dolduralım
data['Parental_Education_Level'] = data['Parental_Education_Level'].fillna(data['Parental_Education_Level'].mode()[0])
# 'Parental_Education_Level' sütunundaki eksik veriler, en sık görülen değer (mod) ile dolduruluyor.

# Teacher_Quality sütunundaki eksik verileri doldurmadan önce, sütunda eksik olmayan (geçerli) verilerin olup olmadığını kontrol edelim
if data['Teacher_Quality'].notnull().sum() > 0:
    # Eğer sütun tamamen boş değilse, mod (en sık görülen değer) ile doldur
    data['Teacher_Quality'] = data['Teacher_Quality'].fillna(data['Teacher_Quality'].mode()[0])
else:
    # Eğer sütun tamamen boşsa, varsayılan bir değer olan 'Medium' (sayı karşılığı 2) ile doldur
    data['Teacher_Quality'] = data['Teacher_Quality'].fillna(2)  # 2: 'Medium' kategorisinin sayısal karşılığı

# Kategorik verileri sayısal değerlere dönüştürelim (Distance_from_Home)
data['Distance_from_Home'] = data['Distance_from_Home'].map({
    'Near': 1,       # Yakın mesafe için 1
    'Moderate': 2,   # Orta mesafe için 2
    'Far': 3,        # Uzak mesafe için 3
    'Unknown': 0     # Bilinmeyen mesafe için 0 atanıyor
})
# 'Distance_from_Home' sütunundaki kategorik değerler sayısal değerlere dönüştürülüyor.

# Distance_from_Home sütunundaki eksik verileri "Moderate" (sayı karşılığı 2) ile dolduralım
data['Distance_from_Home'] = data['Distance_from_Home'].fillna(2)
# 'Distance_from_Home' sütunundaki eksik veriler, orta mesafe ('Moderate') değeriyle dolduruluyor.

# Doluluk oranlarını kontrol edelim
teacher_fill_rate = data['Teacher_Quality'].notnull().mean() * 100
distance_fill_rate = data['Distance_from_Home'].notnull().mean() * 100
# Doluluk oranları hesaplanarak yüzdeye çevriliyor. 'notnull()' eksik olmayan verileri kontrol eder.

print(f"Teacher_Quality sütununun doluluk oranı: %{teacher_fill_rate:.2f}")
print(f"Distance_from_Home sütununun doluluk oranı: %{distance_fill_rate:.2f}")
# 'Teacher_Quality' ve 'Distance_from_Home' sütunlarının dolu hücre oranları ekrana yazdırılıyor.

# Teacher_Quality ve Distance_from_Home sütunlarındaki ilk birkaç satırı kontrol edelim
print(data['Teacher_Quality'].head())
print(data['Distance_from_Home'].head())
# 'Teacher_Quality' ve 'Distance_from_Home' sütunlarındaki ilk 5 satır ekrana yazdırılıyor.

# Eksik veri olup olmadığını tekrar kontrol edelim
print(data.isnull().sum())
# Tüm veri setinde eksik (NaN) değer olup olmadığını kontrol ediyoruz.
Aşağıdaki gibi bir çıktı gelecektir

code
Teacher_Quality sütununun doluluk oranı: %100.00
Distance_from_Home sütununun doluluk oranı: %100.00
0    2.0
1    2.0
2    2.0
3    2.0
4    3.0
Name: Teacher_Quality, dtype: float64
0    1.0
1    2.0
2    1.0
3    2.0
4    1.0
Name: Distance_from_Home, dtype: float64
Hours_Studied                 0
Attendance                    0
Parental_Involvement          0
Access_to_Resources           0
Extracurricular_Activities    0
Sleep_Hours                   0
Previous_Scores               0
Motivation_Level              0
Internet_Access               0
Tutoring_Sessions             0
Family_Income                 0
Teacher_Quality               0
School_Type                   0
Peer_Influence                0
Physical_Activity             0
Learning_Disabilities         0
Parental_Education_Level      0
Distance_from_Home            0
Gender                        0
Exam_Score                    0
dtype: int64

Neler Yaptık?

Şu ana kadar yazdığımız kod, öğrenci performansını etkileyen faktörleri incelemek için verileri hazırlama ve temizleme işlerini kapsıyor. İlk önce veri setini okuduk ve içindeki eksik değerleri kontrol ettik. Eksik olan yerleri doldurmak için en sık görülen değerleri (mod) kullandık, böylece verimizdeki boşlukları doldurduk. Kategorik verileri sayısal değerlere dönüştürdük, böylece makine öğrenimi modellerinde kullanmaya uygun hale getirdik. Tüm bu adımlar, verimizi daha sağlıklı ve anlamlı hale getirdi. Son olarak, her işlemin ardından verimizin doluluk oranlarını kontrol ettik ki eksik değer sorunu kalmadığından emin olalım. Şimdi analiz yapmaya veya model oluşturmaya geçebiliriz!

Aykırı Değer Analizi ve Tespiti

Aykırı değer analizleri, verilerde normalden sapmalar olup olmadığını anlamak için yapılan bir işlemdir. Günlük hayatımızda bu, anormal veya beklenmedik bir durumu fark etmek gibidir. Mesela, bir öğrenci sürekli ortalama 60–70 alırken bir sınavda 10 alıyorsa, bu bir aykırı değer olabilir. Aykırı değerler, analiz sırasında önemli bilgiler verebilir; örneğin bir hata, ölçümde bir sorun ya da gerçekten farklı bir durum olduğunu gösterebilir. Bu yüzden, verilerdeki bu uç noktaları bulup analiz etmek, doğru sonuçlar elde etmek ve yanlış yönlendirmelerden kaçınmak için çok önemlidir. Kodlamaya geçerek bu konuyu daha iyi anlayabiliriz

İlk adım olarak IQR yöntemini uygulayacağız:

IQR (Interquartile Range) Yöntemi: Bu yöntem, verilerin %25'lik ve %75'lik dilimlerini kullanarak aykırı değerleri tespit eder.

IQR (Interquartile Range), veri setindeki yayılımı ölçmek için kullanılan bir yöntemdir ve özellikle aykırı değerleri tespit etmekte işe yarar. IQR, verilerin ortasında kalan %50'lik bölümünün dağılımını gösterir ve “çeyrekler arası aralık” olarak bilinir.

IQR’yi bulmak için önce veriyi dört eşit parçaya ayırırız:

  • Q1 (Birinci Çeyrek): Verilerin en küçük %25'lik kısmının sınırını gösterir. Diğer bir deyişle, verilerin %25'i bu değerin altında, %75'i bu değerin üstündedir.
  • Q3 (Üçüncü Çeyrek): Verilerin %75'lik kısmının sınırını gösterir. Yani, verilerin %75'i bu değerin altında, %25'i bu değerin üstündedir.

Hours_Studied, Exam_Score, Previous_Scores sütunlarını kullanarak aykırı değer analizlerimizi oluşturalım

python
# IQR (Interquartile Range) yöntemiyle aykırı değerleri tespit eden fonksiyon
def detect_outliers_iqr(data, column):
    # 1. çeyrek (Q1) değerini hesapla
    Q1 = np.percentile(data[column], 25)
    
    # 3. çeyrek (Q3) değerini hesapla
    Q3 = np.percentile(data[column], 75)
    
    # IQR'yi (Q3 - Q1) hesapla
    IQR = Q3 - Q1
    
    # Aykırı değerlerin alt sınırını hesapla (Q1 - 1.5 * IQR)
    lower_bound = Q1 - 1.5 * IQR
    
    # Aykırı değerlerin üst sınırını hesapla (Q3 + 1.5 * IQR)
    upper_bound = Q3 + 1.5 * IQR
    
    # Aykırı değerler: sütundaki değerlerin alt veya üst sınırı aşanlarını seç
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    
    # Aykırı değerleri geri döndür
    return outliers

# Hours_Studied sütunundaki aykırı değerleri IQR yöntemi ile tespit edelim
outliers_hours_studied = detect_outliers_iqr(data, 'Hours_Studied')

# Tespit edilen aykırı değerlerin ilk 5 sonucunu yazdır
print("IQR Yöntemi ile Hours_Studied Aykırı Değerler:")
print(outliers_hours_studied.head())

# Exam_Score sütunundaki aykırı değerleri IQR yöntemi ile tespit edelim
outliers_exam_score = detect_outliers_iqr(data, 'Exam_Score')

# Tespit edilen aykırı değerlerin ilk 5 sonucunu yazdır
print("IQR Yöntemi ile Exam_Score Aykırı Değerler:")
print(outliers_exam_score.head())
Aşağıdaki gibi bir çıktı gelecektir

text
IQR Yöntemi ile Hours_Studied Aykırı Değerler:
      Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
209              43          86                 High              Medium   
262               1          69                 High              Medium   
478              38          86                  Low                High   
1061              3          85                  Low                High   
1101              3          62               Medium                 Low   

     Extracurricular_Activities  Sleep_Hours  Previous_Scores  \
209                         Yes            7               97   
262                         Yes            6               97   
478                         Yes            7               79   
1061                         No            8               73   
1101                         No            6               67   

     Motivation_Level Internet_Access  Tutoring_Sessions Family_Income  \
209            Medium             Yes                  2        Medium   
262            Medium             Yes                  1           Low   
478               Low             Yes                  3           Low   
1061              Low             Yes                  2           Low   
1101           Medium             Yes                  1           Low   

     Teacher_Quality School_Type Peer_Influence  Physical_Activity  \
209             High      Public       Positive                  1   
262           Medium      Public       Positive                  3   
478           Medium      Public       Negative                  3   
1061          Medium     Private        Neutral                  3   
1101          Medium      Public       Negative                  3   

     Learning_Disabilities Parental_Education_Level Distance_from_Home  \
209                     No              High School               Near   
262                     No              High School               Near   
478                     No              High School               Near   
1061                    No              High School               Near   
1101                    No              High School               Near   

      Gender  Exam_Score  
209   Female          78  
262   Female          61  
478     Male          73  
1061    Male          62  
1101    Male          55  
IQR Yöntemi ile Exam_Score Aykırı Değerler:
     Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
94              18          89                 High              Medium   
106             31         100               Medium              Medium   
113             35          99                 High                High   
209             43          86                 High              Medium   
217             19          70               Medium                 Low   

    Extracurricular_Activities  Sleep_Hours  Previous_Scores Motivation_Level  \
94                         Yes            4               73           Medium   
106                         No            7               59           Medium   
113                        Yes            7               85              Low   
209                        Yes            7               97           Medium   
217                         No            7               54             High   

    Internet_Access  Tutoring_Sessions Family_Income Teacher_Quality  \
94              Yes                  3          High          Medium   
106             Yes                  2          High            High   
113             Yes                  2        Medium            High   
209             Yes                  2        Medium            High   
217             Yes                  0        Medium          Medium   

    School_Type Peer_Influence  Physical_Activity Learning_Disabilities  \
94      Private       Positive                  2                    No   
106      Public       Positive                  5                    No   
113     Private        Neutral                  2                    No   
209      Public       Positive                  1                    No   
217      Public       Positive                  2                   Yes   

    Parental_Education_Level Distance_from_Home  Gender  Exam_Score  
94                   College               Near  Female         100  
106             Postgraduate           Moderate    Male          76  
113             Postgraduate               Near  Female          79  
209              High School               Near  Female          78  
217              High School           Moderate    Male          89  

Yaptığımız IQR yöntemi ile aykırı değer analizine göre:

1. Hours_Studied için Aykırı Değerler:

Aykırı değer olarak tespit edilen veriler şunlar:

  • 209: 43 saat çalışma, yüksek katılım, yüksek ebeveyn katılımı, yüksek motivasyon seviyesi.
  • 262: 1 saat çalışma, yüksek katılım, düşük ebeveyn katılımı, düşük motivasyon seviyesi.
  • 478: 38 saat çalışma, düşük ebeveyn katılımı, yüksek motivasyon seviyesi.
  • 1061: 3 saat çalışma, düşük ebeveyn katılımı, düşük motivasyon seviyesi.
  • 1101: 3 saat çalışma, düşük ebeveyn katılımı, düşük motivasyon seviyesi.

Yorum:

  • Aykırı değer olarak tespit edilen bu öğrencilerin çalışma süreleri (özellikle 1 saat ve 3 saat olanlar) genellikle normal dağılım dışına çıkıyor.
  • Özellikle 262 ve 1101 numaralı veriler, düşük çalışma süreleriyle birlikte diğer parametrelerde de düşük motivasyon veya ebeveyn katılımı sergiliyor. Bu durum, bu öğrencilerin akademik başarılarını olumsuz etkileyebilir.

Genel Değerlendirme:

Aykırı Değerler ve Dağılım:

Hours_Studied:

  • Aykırı değer olarak tespit edilen öğrencilerin çalışma süreleri geniş bir yelpazeye yayılıyor. Özellikle 1 ve 3 saat çalışma süreleri, geleneksel olarak başarılı olması beklenen bir öğrencinin çalışma süresinin çok altında.
  • 262 ve 1101 numaralı veriler, düşük ebeveyn katılımı ve düşük motivasyon seviyeleriyle ilişkilendiriliyor. Bu durum, bu öğrencilerin akademik başarıları üzerinde olumsuz bir etki yaratıyor olabilir.
  • Diğer yandan, 209 numaralı veri, yüksek çalışma süresi (43 saat) ve yüksek motivasyon ile güçlü bir başarı gösteriyor, ancak bu durumun genel bir eğilim olup olmadığını anlamak için daha fazla veri noktası gereklidir.

Exam_Score:

  • Aykırı değer olarak tespit edilenler arasında 100 puan alan 94 numaralı veri dikkat çekiyor. Bu, düşük çalışma saatlerine rağmen yüksek bir başarı göstermekte.
  • Bu durum, motivasyon, ebeveyn desteği ve kaynaklara erişim gibi faktörlerin sınav başarısını nasıl etkilediğini göstermektedir.
  • 217 numaralı veri, 19 saat çalışma ile 89 puan almış. Bu, düşük çalışma saatlerinin yüksek puanlarla ilişkili olabileceğini, ancak yeterli motivasyon ve kaynakların varlığının kritik bir rol oynadığını göstermektedir.

2. İlişkilendirme Analizi:

  • Ebeveyn Katılımı: Aykırı değerler arasında, ebeveyn katılımı düşük olan öğrencilerin (örneğin, 262 ve 478) düşük motivasyon ve akademik başarı gösterdiği görülüyor. Ebeveyn katılımı, öğrencinin eğitim başarısını önemli ölçüde etkileyebilir.
  • Motivasyon Seviyesi: Yüksek motivasyon seviyesine sahip öğrenciler (örneğin, 94 ve 209) genellikle daha iyi puanlar alıyor. Motivasyonun artırılması, düşük performans gösteren öğrenciler için bir çözüm olabilir.
  • Okul Türü ve Öğretmen Kalitesi: Aykırı değerlerde genellikle Public okul türü ve Medium öğretmen kalitesi ile ilişkilendirilmiş veriler var. Bu durum, okul ortamının ve öğretmen kalitesinin öğrenci başarısını nasıl etkilediğini gösteriyor.

3. Eğitim Stratejileri:

  • Düşük çalışma süreleri ile düşük başarılar arasında bir ilişki olduğu gözlemleniyor. Eğitimciler, düşük süreli çalışan öğrenciler için çalışma sürelerini artırma konusunda stratejiler geliştirmeli.
  • Aile desteği ve ebeveyn katılımı artırılmalı. Ailelerin eğitime daha fazla dahil edilmesi, öğrencilerin motivasyonunu ve başarılarını artırabilir.
  • Okul türü ve öğretmen kalitesi üzerine daha fazla analiz yapılarak, belirli okulların veya öğretmenlerin öğrenciler üzerindeki etkileri değerlendirilebilir. Özellikle düşük performans gösteren gruplar üzerinde daha fazla çalışılmalı.

Sonuç:

  • Aykırı değer analizi, öğrencilerin genel performansını etkileyen önemli faktörlerin belirlenmesine yardımcı olur. Elde edilen bulgular, eğitim sisteminin iyileştirilmesi için önemli veriler sunmaktadır. Bu tür verilerin düzenli analizi, eğitim politikalarının gözden geçirilmesi ve gerekli müdahalelerin yapılabilmesi için kritik öneme sahiptir. Eğitimciler ve yöneticiler, öğrenci başarısını artırmak için bu verileri kullanmalıdır.

Z Skoru

Bir veri setindeki bir verinin ortalamadan ne kadar uzakta olduğunu anlamamıza yardımcı olan bir istatistiksel ölçüttür. Başka bir deyişle, verinin ne kadar “standart sapma” uzağında olduğunu gösterir. Z skoru, veri noktasının ortalamanın altında mı yoksa üstünde mi olduğunu ve ne kadar uzak olduğunu belirlememizi sağlar.

Eğer Z skoru 2 veya daha büyükse, bu veri noktası ortalamadan 2 standart sapma uzaklıkta demektir. Genellikle Z skoru yüksek olan veriler “aykırı değer” olarak kabul edilir, çünkü bu veriler genelde setin geneli ile uyumsuzluk gösterir.

Z skoru analizi aykırı değerlerin tespitinde sıkça kullanılır çünkü bu yöntem, verilerin normal dağılım gösterip göstermediğine bakmaksızın uygulanabilir.

python
# Z-skoru hesaplama fonksiyonu
def z_score_outliers(data, column, threshold=3):
    
    # Z-skorunu hesapla: (Veri - Ortalama) / Standart Sapma
    z_scores = (data[column] - data[column].mean()) / data[column].std()
    
    # Aykırı değerleri tespit et: Z-skoru mutlak değeri eşik değerinden büyük olanları seç
    outliers = data[np.abs(z_scores) > threshold]
    
    return outliers  # Aykırı değerleri içeren DataFrame'i döndür

# Hours_Studied için aykırı değerleri bul
hours_outliers = z_score_outliers(data, 'Hours_Studied')  # 'Hours_Studied' sütunu için aykırı değerleri bul
print("Z Skoru ile Hours_Studied Aykırı Değerler:")  # Aykırı değerlerin başlığı
print(hours_outliers)  # Aykırı değerleri ekrana yazdır

# Exam_Score için aykırı değerleri bul
exam_outliers = z_score_outliers(data, 'Exam_Score')  # 'Exam_Score' sütunu için aykırı değerleri bul
print("Z Skoru ile Exam_Score Aykırı Değerler:")  # Aykırı değerlerin başlığı
print(exam_outliers)  # Aykırı değerleri ekrana yazdır
Aşağıdaki gibi bir çıktı gelecektir (Çıktı biraz uzun)

code
Z Skoru ile Hours_Studied Aykırı Değerler:
      Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
209              43          86                 High              Medium   
262               1          69                 High              Medium   
478              38          86                  Low                High   
1591              2          84                  Low                High   
1615             39          95               Medium                High   
1957             39          97                 High                High   
1971              2          96                  Low                High   
2024              2          98                  Low                High   
2305             39          92               Medium              Medium   
2506             38          63               Medium                High   
2521             38          86                 High              Medium   
2895             44          68                 High                 Low   
2947              2          67               Medium              Medium   
3454              2          99               Medium                 Low   
3716             39          90                 High                High   
3982             39          75               Medium                High   
4198              2          98                 High              Medium   
4725              1          81               Medium              Medium   
4779              1          88               Medium                High   
4870             38          90                 High              Medium   
4997             39          67                 High                High   
5157             38          82               Medium                 Low   
5224             38          80                 High              Medium   
5796             39          78               Medium              Medium   
5846             38          98                  Low              Medium   

     Extracurricular_Activities  Sleep_Hours  Previous_Scores  \
209                         Yes            7               97   
262                         Yes            6               97   
478                         Yes            7               79   
1591                         No            8               54   
1615                        Yes            9               54   
1957                        Yes           10               91   
1971                        Yes            9               77   
2024                        Yes            7               80   
2305                         No            9               73   
2506                         No            8               52   
2521                         No            6               88   
2895                         No            9               75   
2947                         No            6               73   
3454                        Yes            9               52   
3716                         No            8               92   
3982                        Yes            6               82   
4198                         No            4               64   
4725                        Yes            8               66   
4779                        Yes            4               72   
4870                        Yes            4               60   
4997                        Yes            5               76   
5157                         No            6               97   
5224                         No            5               78   
5796                         No            6               73   
5846                         No            6               94   

     Motivation_Level Internet_Access  Tutoring_Sessions Family_Income  \
209            Medium             Yes                  2        Medium   
262            Medium             Yes                  1           Low   
478               Low             Yes                  3           Low   
1591              Low             Yes                  3           Low   
1615             High             Yes                  2        Medium   
1957           Medium             Yes                  2           Low   
1971           Medium             Yes                  3        Medium   
2024             High             Yes                  2           Low   
2305           Medium             Yes                  1        Medium   
2506             High             Yes                  1        Medium   
2521             High             Yes                  1           Low   
2895              Low             Yes                  3        Medium   
2947              Low             Yes                  1           Low   
3454              Low             Yes                  0        Medium   
3716             High             Yes                  2        Medium   
3982             High             Yes                  1          High   
4198           Medium             Yes                  1           Low   
4725           Medium             Yes                  1           Low   
4779             High             Yes                  3        Medium   
4870              Low             Yes                  2           Low   
4997           Medium              No                  2        Medium   
5157              Low             Yes                  2           Low   
5224           Medium             Yes                  1           Low   
5796           Medium             Yes                  0           Low   
5846           Medium             Yes                  2           Low   

     Teacher_Quality School_Type Peer_Influence  Physical_Activity  \
209             High      Public       Positive                  1   
262           Medium      Public       Positive                  3   
478           Medium      Public       Negative                  3   
1591             Low      Public       Positive                  4   
1615          Medium     Private       Positive                  3   
1957          Medium      Public       Positive                  3   
1971             NaN      Public        Neutral                  2   
2024            High      Public        Neutral                  1   
2305          Medium      Public       Negative                  4   
2506          Medium     Private       Positive                  3   
2521            High      Public       Negative                  4   
2895            High     Private       Negative                  2   
2947          Medium     Private       Positive                  2   
3454          Medium      Public        Neutral                  4   
3716            High     Private        Neutral                  1   
3982             Low      Public       Negative                  3   
4198            High     Private        Neutral                  2   
4725          Medium      Public       Negative                  2   
4779          Medium     Private       Negative                  2   
4870          Medium      Public        Neutral                  4   
4997          Medium     Private       Negative                  4   
5157          Medium     Private       Negative                  3   
5224          Medium      Public       Positive                  4   
5796          Medium      Public       Positive                  2   
5846             Low      Public       Negative                  4   

     Learning_Disabilities Parental_Education_Level Distance_from_Home  \
209                     No              High School               Near   
262                     No              High School               Near   
478                     No              High School               Near   
1591                    No                      NaN               Near   
1615                    No              High School           Moderate   
1957                    No              High School           Moderate   
1971                    No              High School                Far   
2024                    No              High School               Near   
2305                    No             Postgraduate           Moderate   
2506                    No                  College           Moderate   
2521                    No              High School           Moderate   
2895                    No              High School           Moderate   
2947                    No                  College           Moderate   
3454                    No              High School               Near   
3716                    No              High School               Near   
3982                    No                  College               Near   
4198                    No              High School               Near   
4725                    No                  College               Near   
4779                    No                  College               Near   
4870                    No                  College           Moderate   
4997                    No                      NaN               Near   
5157                    No                  College               Near   
5224                    No                  College                Far   
5796                    No                  College                Far   
5846                    No             Postgraduate               Near   

      Gender  Exam_Score  
209   Female          78  
262   Female          61  
478     Male          73  
1591    Male          62  
1615    Male          77  
1957  Female          79  
1971  Female          65  
2024    Male          66  
2305    Male          75  
2506    Male          69  
2521  Female          74  
2895  Female          71  
2947    Male          58  
3454    Male          62  
3716  Female          78  
3982    Male          73  
4198  Female          65  
4725    Male          60  
4779    Male          92  
4870    Male          74  
4997  Female          71  
5157    Male          72  
5224  Female          72  
5796    Male          70  
5846  Female          75  
Z Skoru ile Exam_Score Aykırı Değerler:
      Hours_Studied  Attendance Parental_Involvement Access_to_Resources  \
94               18          89                 High              Medium   
113              35          99                 High                High   
217              19          70               Medium                 Low   
404              17          77                  Low                High   
529              15          83               Medium              Medium   
558              22          70                  Low              Medium   
560              22          71                  Low                High   
637              20          65               Medium                 Low   
770              24          96                  Low                High   
836              29          76               Medium              Medium   
919              21          74                 High              Medium   
1099             22          75               Medium                 Low   
1101              3          62               Medium                 Low   
1107             14          77                  Low                High   
1109             31          69               Medium              Medium   
1351              9          61                 High              Medium   
1525             27          98                  Low              Medium   
1607             30          98               Medium                 Low   
1844             21          92                 High                High   
1863             10          76               Medium                 Low   
1957             39          97                 High                High   
2076             24          77                 High              Medium   
2292             21          70                 High                High   
2421             27          90                  Low              Medium   
2425             23          83                 High                High   
2513             18          86                 High              Medium   
2595              7          69               Medium                High   
2687             11          71                  Low              Medium   
2904             11          62                 High              Medium   
2954             14          75               Medium              Medium   
3124             19          90               Medium                High   
3141              7          63                 High                High   
3364             16          76               Medium                High   
3457             18          93               Medium              Medium   
3579             14          90                 High                High   
3924             18          87                  Low                 Low   
3932             25          66                 High              Medium   
4192             28          90                  Low              Medium   
4254             21          74                 High                 Low   
4297             21          67               Medium              Medium   
4355             24          70               Medium                High   
4405             25          98               Medium              Medium   
4531             26          69                 High                High   
4583             25          73               Medium              Medium   
4666             16          71                  Low                 Low   
4779              1          88               Medium                High   
5125             16          82               Medium              Medium   
5966             25          99               Medium              Medium   
5989             18          61               Medium                 Low   
6347             28          96                 High                 Low   
6393             16          83                  Low              Medium   
6522             18          90                 High                High   

     Extracurricular_Activities  Sleep_Hours  Previous_Scores  \
94                          Yes            4               73   
113                         Yes            7               85   
217                          No            7               54   
404                         Yes            5               53   
529                          No            7               97   
558                          No            7               53   
560                         Yes            9               56   
637                         Yes            7               62   
770                          No            6               93   
836                          No            8               96   
919                          No            6               94   
1099                        Yes            5               66   
1101                         No            6               67   
1107                         No            6               75   
1109                         No            7               52   
1351                        Yes            6               77   
1525                        Yes            6               93   
1607                        Yes            9               93   
1844                        Yes            9               58   
1863                         No            6               76   
1957                        Yes           10               91   
2076                        Yes            7               57   
2292                         No            9               66   
2421                         No            9               52   
2425                        Yes            4               89   
2513                         No            8               60   
2595                        Yes            8               54   
2687                        Yes            8               55   
2904                        Yes            7               76   
2954                        Yes            5               95   
3124                        Yes            5               90   
3141                        Yes           10               90   
3364                        Yes            6               63   
3457                         No            7               76   
3579                        Yes            8               86   
3924                         No            8               79   
3932                        Yes            7               55   
4192                        Yes            9               91   
4254                        Yes            8               64   
4297                        Yes            6               88   
4355                        Yes            9               52   
4405                        Yes            7               90   
4531                         No            7               95   
4583                        Yes            7               56   
4666                        Yes            6               59   
4779                        Yes            4               72   
5125                         No            7               56   
5966                        Yes            7               77   
5989                        Yes            6               91   
6347                        Yes            4               98   
6393                        Yes            8               92   
6522                        Yes            6               54   

     Motivation_Level Internet_Access  Tutoring_Sessions Family_Income  \
94             Medium             Yes                  3          High   
113               Low             Yes                  2        Medium   
217              High             Yes                  0        Medium   
404            Medium             Yes                  2          High   
529            Medium             Yes                  2           Low   
558               Low             Yes                  1           Low   
560              High             Yes                  1           Low   
637              High             Yes                  0        Medium   
770            Medium             Yes                  2           Low   
836               Low             Yes                  2           Low   
919            Medium             Yes                  1           Low   
1099              Low             Yes                  2           Low   
1101           Medium             Yes                  1           Low   
1107           Medium             Yes                  1        Medium   
1109           Medium              No                  2          High   
1351              Low              No                  1          High   
1525              Low              No                  5          High   
1607           Medium             Yes                  1           Low   
1844           Medium             Yes                  2          High   
1863           Medium             Yes                  1          High   
1957           Medium             Yes                  2           Low   
2076           Medium             Yes                  3        Medium   
2292           Medium             Yes                  1        Medium   
2421              Low              No                  2           Low   
2425              Low             Yes                  1        Medium   
2513           Medium             Yes                  2           Low   
2595             High             Yes                  1        Medium   
2687           Medium             Yes                  1           Low   
2904             High             Yes                  3          High   
2954           Medium             Yes                  0        Medium   
3124              Low             Yes                  0           Low   
3141           Medium             Yes                  0           Low   
3364             High             Yes                  0           Low   
3457              Low             Yes                  2        Medium   
3579           Medium             Yes                  4        Medium   
3924             High             Yes                  1           Low   
3932           Medium             Yes                  4        Medium   
4192           Medium             Yes                  0        Medium   
4254           Medium             Yes                  3           Low   
4297           Medium             Yes                  1           Low   
4355             High             Yes                  1           Low   
4405             High             Yes                  1          High   
4531              Low              No                  0        Medium   
4583           Medium             Yes                  2          High   
4666             High             Yes                  1           Low   
4779             High             Yes                  3        Medium   
5125              Low             Yes                  0          High   
5966           Medium             Yes                  0          High   
5989             High             Yes                  3        Medium   
6347             High             Yes                  1          High   
6393              Low             Yes                  2          High   
6522              Low             Yes                  1        Medium   

     Teacher_Quality School_Type Peer_Influence  Physical_Activity  \
94            Medium     Private       Positive                  2   
113             High     Private        Neutral                  2   
217           Medium      Public       Positive                  2   
404           Medium      Public        Neutral                  3   
529             High     Private        Neutral                  2   
558           Medium      Public       Positive                  3   
560             High      Public        Neutral                  3   
637           Medium      Public        Neutral                  0   
770           Medium      Public        Neutral                  2   
836           Medium      Public       Positive                  2   
919             High      Public       Positive                  1   
1099          Medium      Public       Positive                  2   
1101          Medium      Public       Negative                  3   
1107            High      Public        Neutral                  4   
1109             Low      Public        Neutral                  5   
1351          Medium     Private        Neutral                  2   
1525            High      Public       Positive                  3   
1607             Low     Private       Positive                  3   
1844          Medium      Public        Neutral                  5   
1863            High      Public       Negative                  2   
1957          Medium      Public       Positive                  3   
2076            High      Public       Positive                  2   
2292             Low      Public        Neutral                  4   
2421            High      Public       Positive                  2   
2425          Medium      Public       Negative                  3   
2513            High     Private        Neutral                  1   
2595            High      Public       Positive                  2   
2687          Medium      Public       Negative                  3   
2904          Medium     Private        Neutral                  3   
2954          Medium      Public       Positive                  3   
3124          Medium      Public        Neutral                  2   
3141          Medium     Private       Positive                  2   
3364          Medium      Public       Positive                  1   
3457          Medium     Private        Neutral                  4   
3579          Medium     Private       Negative                  2   
3924            High      Public       Negative                  4   
3932          Medium      Public        Neutral                  2   
4192          Medium      Public       Positive                  2   
4254             Low      Public        Neutral                  1   
4297          Medium     Private       Positive                  5   
4355          Medium      Public       Positive                  2   
4405             Low      Public        Neutral                  4   
4531          Medium      Public       Negative                  3   
4583          Medium      Public        Neutral                  4   
4666            High      Public       Positive                  3   
4779          Medium     Private       Negative                  2   
5125            High     Private       Negative                  1   
5966            High      Public        Neutral                  3   
5989            High      Public       Positive                  3   
6347            High      Public       Positive                  3   
6393            High      Public       Positive                  4   
6522            High      Public       Negative                  3   

     Learning_Disabilities Parental_Education_Level Distance_from_Home  \
94                      No                  College               Near   
113                     No             Postgraduate               Near   
217                    Yes              High School           Moderate   
404                     No                  College               Near   
529                     No              High School               Near   
558                     No              High School               Near   
560                    Yes                  College               Near   
637                    Yes             Postgraduate               Near   
770                     No              High School           Moderate   
836                     No             Postgraduate           Moderate   
919                     No              High School               Near   
1099                    No              High School                Far   
1101                    No              High School               Near   
1107                   Yes              High School               Near   
1109                    No                  College                Far   
1351                    No              High School               Near   
1525                    No              High School           Moderate   
1607                    No              High School               Near   
1844                    No              High School           Moderate   
1863                    No             Postgraduate               Near   
1957                    No              High School           Moderate   
2076                    No                  College                Far   
2292                    No                  College           Moderate   
2421                   Yes                  College               Near   
2425                    No              High School                Far   
2513                    No                  College               Near   
2595                    No              High School                Far   
2687                    No                  College               Near   
2904                   Yes              High School           Moderate   
2954                    No                  College           Moderate   
3124                    No                  College                Far   
3141                   Yes              High School           Moderate   
3364                    No              High School               Near   
3457                    No              High School               Near   
3579                    No              High School               Near   
3924                    No                  College               Near   
3932                   Yes              High School           Moderate   
4192                    No                  College           Moderate   
4254                    No                  College                Far   
4297                    No             Postgraduate               Near   
4355                    No             Postgraduate           Moderate   
4405                    No             Postgraduate               Near   
4531                    No             Postgraduate               Near   
4583                    No              High School               Near   
4666                    No             Postgraduate               Near   
4779                    No                  College               Near   
5125                   Yes              High School                Far   
5966                    No              High School               Near   
5989                    No                  College           Moderate   
6347                    No              High School               Near   
6393                    No             Postgraduate               Near   
6522                    No              High School               Near   

      Gender  Exam_Score  
94    Female         100  
113   Female          79  
217     Male          89  
404     Male          86  
529   Female          97  
558   Female          83  
560   Female          84  
637     Male          80  
770   Female          94  
836     Male          94  
919     Male          97  
1099    Male          80  
1101    Male          55  
1107  Female          89  
1109    Male          92  
1351    Male          82  
1525  Female         101  
1607    Male          88  
1844  Female          89  
1863    Male          80  
1957  Female          79  
2076    Male          84  
2292    Male          91  
2421    Male          86  
2425    Male          99  
2513    Male          88  
2595    Male          87  
2687  Female          87  
2904    Male          88  
2954    Male          82  
3124  Female          94  
3141    Male          86  
3364  Female          86  
3457  Female          96  
3579  Female          99  
3924    Male          82  
3932  Female          84  
4192  Female          98  
4254    Male          80  
4297  Female          95  
4355    Male          85  
4405    Male          94  
4531  Female          93  
4583  Female          93  
4666    Male          82  
4779    Male          92  
5125  Female          79  
5966    Male          97  
5989  Female          80  
6347    Male          98  
6393  Female          98  
6522  Female          95  

Öğrenme Engelleri:

  • Öğrenme engeli olan öğrenciler (örn. 217, 560, 2904) arasında farklı başarı seviyeleri gözlemleniyor. 217 numaralı öğrenci, öğrenme engeli olmasına rağmen 89 puan alırken, diğer bazı öğrenciler daha düşük puanlar elde ediyor. Bu, öğrenme engelinin etkilerinin bireysel farklılıklara göre değişebileceğini gösteriyor.

Ebeveyn Eğitim Düzeyi:

  • Öğrencilerin ebeveyn eğitim düzeyinin başarı ile ilişkisi önemli bir faktör. Postgraduate olan ebeveynlere sahip öğrenciler (örn. 113, 637) genellikle daha yüksek puanlar almış. Bu, aile eğitiminin, öğrencinin akademik başarısı üzerindeki etkisini vurguluyor.

Evden Uzaklık:

  • Uzaklık durumunun (Near, Moderate, Far) başarı üzerindeki etkisi de dikkat çekici. Far mesafede yaşayan öğrenciler arasında başarı düzeyi genellikle daha düşük. Örneğin, 1099 numaralı öğrenci Far mesafede olmasına rağmen 80 puan alıyor. Ulaşım zorlukları ve evden uzakta olmanın motivasyon üzerindeki etkisi göz önünde bulundurulmalı.

Cinsiyet:

  • Cinsiyet dağılımı da başarıda belirleyici olabilir. Her iki cinsiyetin de yüksek başarı gösterdiği öğrenciler bulunmakta, ancak bazı cinsiyet gruplarının belirli alanlarda daha önde olduğu görülebilir. Örneğin, Female öğrencilerin bazıları (örn. 94 ve 1525) 100 ve üzeri puanlar alarak dikkat çekiyor.

Sonuç:

  • Z-skoru ile tespit edilen aykırı değerler, öğrenme engeli, ebeveyn eğitim durumu, ev mesafesi ve cinsiyet gibi değişkenlerin öğrencilerin akademik başarıları üzerindeki etkilerini göstermektedir. Eğitim politikalarının, öğrenme engeli olan öğrencileri desteklemek, ebeveyn eğitimini teşvik etmek ve ulaşım sorunlarını azaltmak için stratejiler geliştirmesi gerekmektedir. Aşağıda daha detaylı yorumları bulabiliriz

Z-skoru ile Aykırı Değer Analizi:

  • Z-skoru Değerleri: Z-skoru hesaplandığında, genellikle ±2 veya ±3'ten büyük olan değerler aykırı değer olarak kabul edilir. Bu durumda, z-skoru 2'den büyük olan öğrenci başarıları dikkate alınarak, bu öğrencilerin özellikleri incelenebilir.

2. Akademik Başarı ve Z-skorları:

  • Exam_Score (Sınav Puanı): Z-skoru analizi, öğrencilerin sınav puanlarının ne kadar standart sapma ile ortalamadan uzaklaştığını gösterir. Örneğin, z-skoru +2 olan bir öğrenci, sınavda beklenenin çok üzerinde bir performans sergilemiştir. Bu tür öğrencilerin çalışma alışkanlıkları, fiziksel aktivite düzeyleri ve diğer değişkenleri göz önünde bulundurularak daha ayrıntılı analiz yapılabilir.

3. Uyku ve Çalışma Süreleri:

  • Sleep_Hours ve Hours_Studied: Z-skorları, bu iki değişkenin ortalama değerlerinin dışında kalan öğrenci gruplarını belirlemede yardımcı olur. Örneğin, az uyuyarak yüksek z-skoru alan öğrenciler (yani başarılı olanlar), uyku eksikliğine rağmen iyi performans gösteriyor olabilirler. Bu, kişisel motivasyon veya etkin çalışma yöntemlerinin varlığına işaret edebilir.

4. Ebeveyn Eğitimi ve Sosyal Destek:

  • Parental_Education_Level ve Aykırı Değerler: Ebeveyn eğitimi düzeyi yüksek olan öğrenciler, z-skorlarına göre ortalamanın çok üzerinde puanlar alabilirler. Ebeveyn desteği ile birlikte, sosyal çevrenin (peer influence) de z-skorları açısından olumlu bir etkiye sahip olduğu gözlemlenebilir. Bu durum, öğrenci başarısının sosyal ve ailevi destekle nasıl şekillendiğini gösterir.

5. Cinsiyet ve Z-skoru:

  • Cinsiyetin z-skoru analiziyle birlikte incelenmesi, erkek ve kadın öğrenciler arasındaki performans farklılıklarını daha net bir şekilde ortaya koyabilir. Cinsiyetler arasında belirgin z-skoru farklılıkları varsa, bu durum eğitici stratejilerin ve destek programlarının nasıl tasarlanması gerektiği konusunda bilgi sağlayabilir.

6. Fiziksel Aktivite ve Motivasyon Düzeyi:

  • Physical_Activity ve Motivation_Level: Z-skorları, bu iki faktörün öğrenci performansındaki rolünü daha iyi anlamamıza yardımcı olabilir. Yüksek z-skoru ile iyi bir fiziksel aktivite düzeyine sahip öğrencilerin, motivasyon düzeyleri incelenerek başarılarındaki etkenler belirlenebilir.

Genel Değerlendirme

Z-skoru analizi, verilerin normal dağılımı hakkında bilgi edinmek ve aykırı değerleri tanımlamak için güçlü bir yöntemdir. Elde edilen Z-skorları, her bir gözlemin ortalamadan ne kadar uzak olduğunu standardize bir ölçü ile ifade eder. Genelde, Z-skoru 3'ten büyük olan değerler aykırı kabul edilirken, -3'ten küçük olanlar da dikkate alınabilir.

Veri setimizde elde edilen Z-skorları üzerinden yapılan analizlerde, belirli gözlemler belirgin şekilde ortalamadan uzaklaşmaktadır. Bu durum, gözlemlerin performansı ve öğrenim düzeyleri hakkında önemli ipuçları sağlamaktadır. Örneğin, 100 puan alan bir öğrencinin Z-skoru 2.62 olarak hesaplanmış, bu durum onun genel öğrenci grubundan oldukça başarılı olduğunu göstermektedir. Diğer taraftan, düşük Z-skorlarına sahip öğrenciler, özellikle 1 ve -1 arasındaki değerler, genel öğrenci grubunun altında performans gösteriyor. Bu durum, öğretim ve kaynak kullanımında belirli bir strateji değişikliği gerektirebilir.

Ayrıca, Z-skorlarıyla birlikte, öğrencilerin çeşitli özellikleri (örneğin, öğrenim süreleri, aile gelir düzeyleri, okul türü gibi) ile ilgili korelasyon analizi yapılarak, başarıyı etkileyen faktörler üzerinde derinlemesine bir analiz yapılabilir. Örneğin, öğretmen kalitesi ile öğrenci başarısı arasında güçlü bir pozitif ilişki bulunmuşken, fiziksel aktivite ve ders dışı etkinliklerin etkisi sınırlı görünmektedir.

Eksik Verilerin Önemi

Eksik veriler, veri analizi ve makine öğrenimi modelleme süreçlerinde çeşitli olumsuz etkilere neden olabilir:

  • Analiz Doğruluğu: Eksik veriler, analizlerin doğruluğunu etkileyebilir. Örneğin, bir grup öğrenci üzerinde yapılan bir çalışma, eksik veriler nedeniyle yanlış sonuçlar verebilir.
  • Model Performansı: Makine öğrenimi modelleri, eksik verilere karşı hassastır. Eksik veriler, modelin öğrenme sürecini olumsuz yönde etkileyebilir, bu da tahminlerin kalitesini düşürür.
  • Yanlış Karar Alma: Analiz ve modelleme süreçlerinde eksik verilerin göz ardı edilmesi, yanlış kararların alınmasına neden olabilir. Bu da organizasyonlar için büyük maliyetler ve kayıplar doğurabilir.

Sonuç olarak, eksik veri yönetimi, veri analizi ve makine öğrenimi süreçlerinde önemli bir rol oynamaktadır. Eksik verilerin doğru bir şekilde yönetilmesi, veri setinin kalitesini artırır ve analizlerin doğruluğunu sağlar. Herkesin anlayabileceği basit bir dil kullanarak, eksik veri yönetiminin temel kavramlarını ve önemini açıklamak, veri bilimi ve analitiği alanında çalışan bireyler için kritik bir adımdır.

İLGİNİZİ ÇEKEBİLİR

Fehu-Zone
YAZAR HAKKINDA

Fehu-Zone

Teknoloji ve stratejiyi bir araya getiren, projelerini bir adım öteye taşımak için sürekli yeni yöntemler keşfeden bir dijital uygulayıcı. Dijital süreçleri merakla takip ediyor ve faydalı çözümler üretmek için çalışıyor

Dijital gelecek
rastgele inşa edilmez.

Her adımı düşünülmüş, her detayı anlamlı
dijital yapılar için.