Veri analizi, günümüzün en önemli alanlarından biridir. Özellikle yapay zekâ, makine öğrenmesi ve büyük veri teknolojilerinin yükselişiyle birlikte veriyle çalışabilmek, bir yazılımcının en değerli becerilerinden biri haline geldi. Python dili, sahip olduğu zengin kütüphane ekosistemi sayesinde bu alanda öne çıkıyor. Bu yazıda Python’da veri analizi için en çok kullanılan iki kütüphaneyi, Pandas ve NumPy’yi inceleyeceğiz.
NumPy Nedir?
NumPy (Numerical Python), Python’da sayısal hesaplamalar için kullanılan temel bir kütüphanedir. Matrisler, çok boyutlu diziler ve matematiksel işlemler için optimize edilmiş fonksiyonlar sunar. Veri biliminin temel taşı sayılabilecek NumPy, Pandas ve birçok başka kütüphanenin de altyapısını oluşturur.
NumPy’ın Öne Çıkan Özellikleri
- Çok boyutlu diziler (ndarray) ile hızlı hesaplama.
- Matematiksel fonksiyonlar (sin, cos, log, sqrt vb.).
- Lineer cebir, istatistik ve Fourier dönüşümleri desteği.
- Python listelerine göre çok daha hızlı işlem yapabilme.
import numpy as np
# NumPy array oluşturma
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2) # [2 4 6 8 10]
Yukarıdaki örnekte görüldüğü gibi, NumPy ile diziler üzerinde toplu işlemler yapmak oldukça kolaydır.
Pandas Nedir?
Pandas, veri analizi ve veri manipülasyonu için geliştirilmiş bir Python kütüphanesidir. NumPy üzerinde inşa edilmiştir ve özellikle tablo benzeri veriler üzerinde güçlü fonksiyonlar sunar. Veri bilimcilerin günlük işlerinde en çok kullandığı araçlardan biridir.
Pandas’ın Öne Çıkan Özellikleri
DataFrame
veSeries
veri yapıları.- CSV, Excel, SQL gibi farklı formatlardan veri okuma/yazma.
- Eksik verileri kolayca yönetme.
- Veri filtreleme, gruplayarak analiz etme ve görselleştirme.
import pandas as pd
# Basit DataFrame oluşturma
data = {
'İsim': ['Ali', 'Ayşe', 'Mehmet'],
'Yaş': [25, 30, 22],
'Şehir': ['İstanbul', 'Ankara', 'İzmir']
}
df = pd.DataFrame(data)
print(df)
Bu örnekte bir tabloya benzeyen DataFrame yapısını görebilirsiniz. Pandas sayesinde CSV dosyaları veya SQL veritabanlarından gelen veriler üzerinde bu şekilde çalışabilirsiniz.
NumPy ve Pandas Arasındaki Farklar
Özellik | NumPy | Pandas |
---|---|---|
Veri Yapısı | Çok boyutlu array (ndarray) | DataFrame ve Series |
Kullanım Alanı | Sayısal hesaplamalar | Veri analizi ve manipülasyonu |
Performans | Daha hızlı sayısal işlemler | Daha esnek veri işleme |
Veri Analizinde Kullanım Senaryoları
- NumPy: Matematiksel modelleme, istatistiksel hesaplamalar, makine öğrenmesi için veri ön işleme.
- Pandas: Veri temizleme, eksik verilerin doldurulması, raporlama ve görselleştirme öncesi veri hazırlığı.
Gerçek Dünya Örneği
Bir e-ticaret firmasının satış verilerini düşünelim. Pandas kullanarak hangi ürünlerin daha çok satıldığını, hangi şehirlerde daha fazla gelir elde edildiğini analiz edebilirsiniz. Ardından NumPy ile istatistiksel hesaplamalar yaparak ortalama satış, standart sapma ve korelasyon gibi ölçümleri bulabilirsiniz.
İpuçları ve En İyi Uygulamalar
- Veri boyutu büyükse
dtypes
’ı kontrol ederek bellek kullanımını azaltın. - Gereksiz sütunları düşürerek performansı artırın.
- Pandas ile analiz yaparken görselleştirme için
matplotlib
veyaseaborn
kullanabilirsiniz. - NumPy dizileri ile Pandas DataFrame’leri birlikte çalıştırarak güçlü veri manipülasyonu elde edebilirsiniz.
Sonuç
Python veri analizi için Pandas ve NumPy en temel kütüphanelerdir. NumPy hızlı sayısal işlemler için, Pandas ise verilerin düzenlenmesi ve analiz edilmesi için idealdir. Bu iki kütüphaneyi öğrenmek, veri bilimi ve makine öğrenmesi alanında kariyer yapmak isteyen herkes için büyük bir adımdır.
Ek Kaynaklar
- Resmi NumPy Dokümantasyonu: https://numpy.org/doc/
- Resmi Pandas Dokümantasyonu: https://pandas.pydata.org/docs/
- Kaggle – Veri Analizi Projeleri