Veri HazırlamaFeature EngineeringVeri KalitesiML
AI Projelerinde Veri Hazırlama
"Garbage in, garbage out" - Veri kalitesi, model başarısının %80'ini belirler.
## Veri Yaşam Döngüsü
### 1. Veri Toplama
Kaynaklar:
- İç sistemler (CRM, ERP, log)
- Dış API'ler
- Web scraping
- Satın alma
- Crowdsourcing
### 2. Veri Keşfi (EDA)
- Dağılım analizi
- Missing value kontrolü
- Outlier tespiti
- Korelasyon analizi
- Target leakage kontrolü
### 3. Veri Temizleme
Yaygın Sorunlar:
- Eksik değerler
- Duplicate kayıtlar
- Inconsistent formatlar
- Typo'lar ve hatalar
- Outlier'lar
Çözümler:
- Imputation stratejileri
- Deduplication
- Standardizasyon
- Validation rules
### 4. Feature Engineering
Teknikler:
- Numerical: Scaling, binning, log transform
- Categorical: One-hot, target encoding, embedding
- Text: TF-IDF, word embeddings, BERT
- Time: Lag features, rolling windows
- Interaction features
### 5. Data Augmentation
Görüntü:
- Rotation, flip, crop
- Color jittering
- Mixup, CutOut
Text:
- Back-translation
- Synonym replacement
- Random insertion/deletion
## Labeling Stratejileri
### Manual Labeling
- Uzman annotator'lar
- Inter-annotator agreement
- Kalite kontrol
### Semi-Automated
- Active learning
- Weak supervision
- Self-training
### Tools
- Label Studio
- Labelbox
- Scale AI
- Amazon MTurk
## Veri Versiyonlama
- DVC (Data Version Control)
- Delta Lake
- LakeFS
## Best Practices
1. Veri kalitesi metriklerini izleyin
2. Data lineage takibi yapın
3. Versiyonlama kullanın
4. Dokümantasyon tutun
5. Automated validation pipelines kurun
## Sonuç
Model geliştirmeden önce veri hazırlamaya yeterli zaman ayırın. Bu yatırım, kat kat geri döner.
MD
Yazar Hakkında
Mehmet Demir
Veri Bilimci
YZ Ajansı ekibinde Veri Bilimci olarak görev yapıyor. Yapay zeka ve teknoloji alanında uzmanlaşmış içerikler üretiyor.