Công cụ này làm gì
PDF Text Extractor đọc PDF trong trình duyệt của bạn và lấy ra văn bản đã có thể chọn bên trong tài liệu. Kết quả là văn bản thuần túy mà bạn có thể sao chép hoặc tải xuống dưới dạng tệp TXT để ghi chú, lập chỉ mục tìm kiếm, rà soát dữ liệu, hoặc xử lý tiếp theo.
Trường hợp nên dùng
- Sao chép văn bản từ báo cáo, hợp đồng, sao kê, hướng dẫn sử dụng, hoặc PDF nghiên cứu mà không cần mở trình chỉnh sửa PDF trên máy tính.
- Kiểm tra xem tài liệu có văn bản nhúng thật hay không trước khi gửi đến chỉ mục tìm kiếm, quy trình dịch thuật, rà soát khả năng tiếp cận, hoặc tác vụ tự động hóa.
- Trích xuất một bản TXT gọn nhẹ cho phiếu hỗ trợ, kiểm tra tài liệu, dọn dẹp nội dung, hoặc so sánh nhanh với phiên bản khác.
- Nhận diện các trang có thể là bản quét vì chúng chứa nội dung hình ảnh nhưng không có văn bản có thể chọn.
Ghi chú về quyền riêng tư
PDF được xử lý cục bộ trong trình duyệt của bạn và không được công cụ này tải lên. Văn bản đã trích xuất vẫn có thể chứa dữ liệu cá nhân, điều khoản hợp đồng, số tài khoản, tiêu đề ẩn, hoặc nội dung nhạy cảm khác. Hãy kiểm tra kết quả trước khi chia sẻ hoặc dán vào dịch vụ khác.
Giới hạn
Công cụ này không phải là OCR engine. Trang quét, trang chụp ảnh, PDF chỉ có hình ảnh đã được làm phẳng, và một số tệp được mã hóa hoặc bị hỏng có thể cho ra rất ít hoặc không có văn bản. Bố cục được chuẩn hóa thành văn bản thuần túy, vì vậy cột, bảng, chú thích cuối trang, và thứ tự đọc có thể khác với trang hiển thị. Hãy dùng công cụ OCR hoặc sửa PDF chuyên dụng khi tài liệu nguồn không chứa văn bản có thể chọn.