Co robi to narzędzie
PDF Text Extractor odczytuje PDF w przeglądarce i pobiera tekst, który jest już zaznaczalny w dokumencie. Wynik to zwykły tekst, który możesz skopiować lub pobrać jako plik TXT do notatek, indeksowania wyszukiwania, przeglądu danych albo dalszego przetwarzania.
Dobre zastosowania
- Kopiowanie tekstu z raportów, umów, wyciągów, instrukcji lub naukowych plików PDF bez otwierania desktopowego edytora PDF.
- Sprawdzenie, czy dokument ma rzeczywisty osadzony tekst przed wysłaniem go do indeksu wyszukiwania, procesu tłumaczenia, przeglądu dostępności lub zadania automatyzacji.
- Wyodrębnienie lekkiej kopii TXT do zgłoszeń pomocy technicznej, audytów dokumentów, porządkowania treści lub szybkiego porównania z inną wersją.
- Wykrywanie stron, które mogą być skanami, ponieważ zawierają obraz, ale nie mają zaznaczalnego tekstu.
Uwagi o prywatności
PDF jest przetwarzany lokalnie w przeglądarce i nie jest przesyłany przez to narzędzie. Wyodrębniony tekst nadal może zawierać dane osobowe, warunki umów, numery kont, ukryte nagłówki lub inne poufne treści. Sprawdź wynik przed udostępnieniem go albo wklejeniem do innej usługi.
Ograniczenia
To narzędzie nie jest silnikiem OCR. Zeskanowane strony, sfotografowane strony, spłaszczone pliki PDF zawierające tylko obrazy oraz niektóre zaszyfrowane lub uszkodzone pliki mogą dawać niewiele tekstu albo nie dawać go wcale. Układ jest normalizowany do zwykłego tekstu, więc kolumny, tabele, przypisy i kolejność czytania mogą różnić się od widocznej strony. Użyj dedykowanego narzędzia OCR lub naprawy PDF, gdy dokument źródłowy nie zawiera zaznaczalnego tekstu.