Python’da Veri Analizi: Pandas ve NumPy Rehberi

Veri analizi, günümüzün en önemli alanlarından biridir. Özellikle yapay zekâ, makine öğrenmesi ve büyük veri teknolojilerinin yükselişiyle birlikte veriyle çalışabilmek, bir yazılımcının en değerli becerilerinden biri haline geldi. Python dili, sahip olduğu zengin kütüphane ekosistemi sayesinde bu alanda öne çıkıyor. Bu yazıda Python’da veri analizi için en çok kullanılan iki kütüphaneyi, Pandas ve NumPy’yi inceleyeceğiz.

NumPy Nedir?

NumPy (Numerical Python), Python’da sayısal hesaplamalar için kullanılan temel bir kütüphanedir. Matrisler, çok boyutlu diziler ve matematiksel işlemler için optimize edilmiş fonksiyonlar sunar. Veri biliminin temel taşı sayılabilecek NumPy, Pandas ve birçok başka kütüphanenin de altyapısını oluşturur.

NumPy’ın Öne Çıkan Özellikleri

  • Çok boyutlu diziler (ndarray) ile hızlı hesaplama.
  • Matematiksel fonksiyonlar (sin, cos, log, sqrt vb.).
  • Lineer cebir, istatistik ve Fourier dönüşümleri desteği.
  • Python listelerine göre çok daha hızlı işlem yapabilme.
import numpy as np

# NumPy array oluşturma
arr = np.array([1, 2, 3, 4, 5])
print(arr * 2)  # [2 4 6 8 10]

Yukarıdaki örnekte görüldüğü gibi, NumPy ile diziler üzerinde toplu işlemler yapmak oldukça kolaydır.

Pandas Nedir?

Pandas, veri analizi ve veri manipülasyonu için geliştirilmiş bir Python kütüphanesidir. NumPy üzerinde inşa edilmiştir ve özellikle tablo benzeri veriler üzerinde güçlü fonksiyonlar sunar. Veri bilimcilerin günlük işlerinde en çok kullandığı araçlardan biridir.

Pandas’ın Öne Çıkan Özellikleri

  • DataFrame ve Series veri yapıları.
  • CSV, Excel, SQL gibi farklı formatlardan veri okuma/yazma.
  • Eksik verileri kolayca yönetme.
  • Veri filtreleme, gruplayarak analiz etme ve görselleştirme.
import pandas as pd

# Basit DataFrame oluşturma
data = {
    'İsim': ['Ali', 'Ayşe', 'Mehmet'],
    'Yaş': [25, 30, 22],
    'Şehir': ['İstanbul', 'Ankara', 'İzmir']
}

df = pd.DataFrame(data)
print(df)

Bu örnekte bir tabloya benzeyen DataFrame yapısını görebilirsiniz. Pandas sayesinde CSV dosyaları veya SQL veritabanlarından gelen veriler üzerinde bu şekilde çalışabilirsiniz.

NumPy ve Pandas Arasındaki Farklar

Özellik NumPy Pandas
Veri Yapısı Çok boyutlu array (ndarray) DataFrame ve Series
Kullanım Alanı Sayısal hesaplamalar Veri analizi ve manipülasyonu
Performans Daha hızlı sayısal işlemler Daha esnek veri işleme

Veri Analizinde Kullanım Senaryoları

  • NumPy: Matematiksel modelleme, istatistiksel hesaplamalar, makine öğrenmesi için veri ön işleme.
  • Pandas: Veri temizleme, eksik verilerin doldurulması, raporlama ve görselleştirme öncesi veri hazırlığı.

Gerçek Dünya Örneği

Bir e-ticaret firmasının satış verilerini düşünelim. Pandas kullanarak hangi ürünlerin daha çok satıldığını, hangi şehirlerde daha fazla gelir elde edildiğini analiz edebilirsiniz. Ardından NumPy ile istatistiksel hesaplamalar yaparak ortalama satış, standart sapma ve korelasyon gibi ölçümleri bulabilirsiniz.

İpuçları ve En İyi Uygulamalar

  • Veri boyutu büyükse dtypes’ı kontrol ederek bellek kullanımını azaltın.
  • Gereksiz sütunları düşürerek performansı artırın.
  • Pandas ile analiz yaparken görselleştirme için matplotlib veya seaborn kullanabilirsiniz.
  • NumPy dizileri ile Pandas DataFrame’leri birlikte çalıştırarak güçlü veri manipülasyonu elde edebilirsiniz.

Sonuç

Python veri analizi için Pandas ve NumPy en temel kütüphanelerdir. NumPy hızlı sayısal işlemler için, Pandas ise verilerin düzenlenmesi ve analiz edilmesi için idealdir. Bu iki kütüphaneyi öğrenmek, veri bilimi ve makine öğrenmesi alanında kariyer yapmak isteyen herkes için büyük bir adımdır.

Ek Kaynaklar

Yorum Gönder

Daha yeni Daha eski