aistpo
Yazılım test süreçlerinin yapay zeka ile optimizasyonu üzerine keşifsel veri analizi (EDA). CI/CD pipeline hata logları ve software observability veri setleri üzerinde kapsamlı istatistiksel analiz, görselleştirme ve akademik raporlama.
AISTPO — Yazılım Test Sürecinin Optimizasyonu İçin Yapay Zeka Yöntemleri
Bu repo, Yazılım Test Sürecinin Optimizasyonu İçin Yapay Zeka Yöntemleri dersi kapsamında hazırlanan keşifsel veri analizi (EDA) ödevini içermektedir.
İki farklı Kaggle veri seti üzerinde kapsamlı yapısal, istatistiksel ve görsel analizler gerçekleştirilmiştir.
Veri Setleri
Veri setleri boyut ve lisans nedeniyle repoya dahil edilmemiştir. Aşağıdaki linklerden indirilerek datasets/ klasörüne yerleştirilmelidir.
| Veri Seti | Boyut | Kaynak |
|---|---|---|
| CI/CD Pipeline Failure Logs | ~15 MB | Kaggle |
| Software Observability Dataset | ~3.1 GB | Kaggle |
Klasör Yapısı
datasets/
├── CICDPipelineFailuresDataset/
│ └── ci_cd_pipeline_failure_logs_dataset.csv
└── SoftwareObservabilityDataset/
├── BHRAMARI Generated/
├── OBSERVER Generated/
└── Utility Generated/
Yapılan Analizler
Her iki veri seti için aşağıdaki analizler gerçekleştirilmiştir:
- Yapısal Analiz — Dosya yapısı, satır/sütun sayıları, veri tipleri
- Betimleyici İstatistikler — Ortalama, medyan, std sapma, çarpıklık, basıklık
- Dağılım Analizi — Histogram, boxplot, outlier tespiti (IQR)
- Bağımlı–Bağımsız Değişken Analizi — Pearson korelasyonu, Chi-Square, ANOVA
- Sınıf Dengesi — Imbalance kontrolü, SMOTE gereksinim değerlendirmesi
- PCA Boyut Analizi — Scree plot, kümülatif varyans, 2D scatter
- Multicollinearity (VIF) — Çoklu doğrusal bağıntı kontrolü
- Veri Kalitesi — Missing values, duplikasyonlar, feature scaling
Proje Yapısı
.
├── analysis_cicd.py # CI/CD veri seti analiz kodu
├── analysis_observability.py # Observability veri seti analiz kodu
├── charts_cicd/ # CI/CD grafikleri (27 adet)
├── charts_observability/ # Observability grafikleri (17 adet)
├── report_cicd.md # CI/CD analiz raporu
├── report_observability.md # Observability analiz raporu
├── report_cicd.pdf # CI/CD raporu (PDF)
├── report_observability.pdf # Observability raporu (PDF)
├── report_versus.pdf # Karşılaştırma raporu (PDF)
├── requirements.txt # Python bağımlılıkları
├── ODEV.txt # Ödev gereksinimleri
└── datasets/ # Veri setleri (git-ignored)
Kurulum ve Çalıştırma
# Sanal ortam oluştur
python -m venv venv
# Sanal ortamı aktifleştir
# Windows:
venv\Scripts\activate
# Linux/macOS:
source venv/bin/activate
# Bağımlılıkları yükle
pip install -r requirements.txt
# Veri setlerini yukarıdaki Kaggle linklerinden indirip datasets/ klasörüne koy
# Analizleri çalıştır
python analysis_cicd.py
python analysis_observability.py
Teknolojiler
- Python 3
- pandas, numpy — Veri işleme
- matplotlib, seaborn — Görselleştirme
- scipy — İstatistiksel testler
- scikit-learn — PCA analizi
- statsmodels — VIF hesaplama
Lisans
Bu proje MIT Lisansı ile lisanslanmıştır.
Veri setleri kendi Kaggle lisanslarına tabidir.
cagatayuresin