PDF'den Veri Filtreleme: Tabloyu Excel'e Çevirmeden Doğrudan Süzmek
PDF'deki tabloyu önce Excel'e dönüştürüp sonra filtrelemeye gerek yok. PDF'den veriyi çıkarıp aranabilir, sıralanabilir, tıklayarak filtrelenebilir hale getirmenin pratik yolu.
PDF'deki tablo neden bu kadar zor?
Bir tedarikçi fiyat listesi, banka ekstresi ya da stok raporu çoğu zaman PDF olarak gelir. İçinde düzgün bir tablo görürsün ama o tabloyu filtreleyemezsin: "sadece şu kalite", "şu tarihten sonrası", "stoğu sıfır olmayanlar" diye süzmek istersin, PDF buna izin vermez. PDF bir görüntü gibidir; satır-sütun yapısı senin için orada değildir.
Klasik çözüm iki adımlıdır: önce PDF'i Excel'e çevir, sonra Excel'de filtrele. Bu yazıda bu iki adımı tek adıma indiren daha hızlı bir yol var.
Klasik yol: PDF'i Excel'e dönüştürmek
iLovePDF, Adobe Acrobat ya da SodaPDF gibi araçlar PDF'i .xlsx dosyasına çevirir. İşe yarar ama üç sürtünme noktası vardır:
- Veri sunucuya gider. Dosyayı yüklersin; içinde fiyat, cari, müşteri verisi varsa bu bir gizlilik sorunudur.
- Filtreleme ayrı bir iştir. Çevrilen dosyayı indirip Excel'de açman, sonra filtreyi kurman gerekir.
- Düzen bazen bozulur. Özellikle çok sütunlu, iç içe tablolarda hizalama kayabilir.
Sadece bir kez dönüştürüp arşivleyecekseniz bu yöntem yeterli. Ama amaç "şu veriyi hızlıca süzmek"se, dosya üretmek gereksiz bir ara adımdır.
Hızlı yol: çıkar ve aynı yerde filtrele
Daha pratik olan yaklaşım: PDF'i yükle, veri tarayıcıda tabloya dönüşsün ve hemen oracıkta filtrele. Tablo Çevirici tam olarak bunu yapar:
- PDF'i sürükle-bırak (ya da tıklayıp seç).
- Metin parçalarının sayfadaki konumlarından satır ve sütunlar yeniden kurulur.
- Çıkan tabloda anında ara, başlığa tıklayıp sırala, bir sütun için dilimleyici açıp değerlere tıklayarak süz.
- İstersen filtrelenmiş halini CSV olarak indir.
Hiçbir dosya yüklemen ya da indirmen gerekmez; tüm işlem senin tarayıcında olur, veri makineden çıkmaz.
Metin PDF mi, taranmış PDF mi?
Burada kritik bir ayrım var:
- Metin tabanlı PDF (bilgisayarda üretilmiş, yazıyı seçebiliyorsan) → veri doğrudan, yüksek doğrulukla çıkar.
- Taranmış PDF (tarayıcıdan/fotoğraftan, yazı aslında resim) → içinde seçilebilir metin yoktur. Bu durumda sayfanın görüntüsünü resim olarak verip OCR ile okutmak gerekir. Bunu görüntüden veri filtreleme yazısında anlattım.
Emin değilsen basit bir test: PDF'te bir hücrenin metnini fareyle seçebiliyorsan metin tabanlıdır.
Hizalama bozulursa ne yapmalı?
PDF'te "tablo" diye bir veri yapısı olmadığı için, çıkarım metnin koordinatlarına bakan sezgisel bir işlemdir. Çok düzgün tablolarda kusursuza yakın çalışır; sütunların ortak hizası olmayan karmaşık düzenlerde hücreler kayabilir. Böyle bir durumda:
- "İlk satır başlık" seçeneğini açıp kapatarak başlık satırını düzelt.
- Gerekirse CSV olarak indirip son rötuşu Excel'de yap.
Önemli olan, aracın yanlış veriyi sessizce doğruymuş gibi göstermemesi; hizalama riskli olduğunda uyarı verir.
Özet
PDF'ten veriyi kullanmak istiyorsan asıl ihtiyacın "bir Excel dosyası" değil, filtrelenebilir bir tablo. Dönüştür-indir-aç-filtrele döngüsü yerine, PDF'i doğrudan aranabilir bir tabloya çevirip tarayıcıda süzmek hem daha hızlı hem daha güvenli.
Denemek için: Tablo Çevirici.
İlgili rehberler: Excel'den veri filtreleme · Görüntüden veri filtreleme · Web/e-posta tablosunu kopyalayıp filtreleme
Bu yazıda bahsedilen araç
Tablo Çevirici
Excel/PDF/resmi tarayıcıda filtrelenebilir tabloya çevir.