Hướng dẫn loại bỏ siêu dữ liệu trong file PDF

735
17-03-2018
Hướng dẫn loại bỏ siêu dữ liệu trong file PDF

Chắc chắn rất ít người dùng, trong đó có bạn chưa từng thắc mắc rằng: có bao nhiêu siêu dữ liệu (thẻ metadata) xuất hiện trong các tệp PDF mà bạn vẫn hay đính kèm trong email hoặc chia sẻ với người khác? Bài viết này sẽ hướng dẫn bạn cụ thể hai nội dung chính sau đây: 

- Làm thế nào để làm sạch siêu dữ liệu (metadata) từ các tệp PDF trước khi chia sẻ chúng với những người khác?

- Làm thế nào để bảo vệ toàn bộ file PDF của bạn? 

Bài viết này Bizfly Cloud  sẽ hướng dẫn bạn cách bảo mật và làm sạch các metadata của file PDF.

LƯU Ý: Nếu bạn đang sử dụng phương pháp copy, paste, hãy bỏ qua phần dưới cùng của bài viết này nhé!

1. Điều kiện tiên quyết trước khi tiến hành loại bỏ siêu dữ liệu trong file PDF

Nếu bạn đang sử dụng Ubuntu hoặc một hệ điều hành Debian OS, hãy chắc chắn rằng bạn đã cài đặt ba công cụ sau đây:
- apt install exiftool
- apt install qpdf
- apt install pdftk

2. Làm sạch siêu dữ liệu từ tệp PDF

Bắt đầu chạy lệnh sau cho một tài liệu PDF:

$ exiftool -all My_Secrect_Document.pdf

Mục đích nhằm kiểm tra xem siêu dữ liệu nào thực sự có trong tệp PDF của bạn. Lệnh này được chạy rất an toàn trên bất kì file PDF nào.

Tiếp theo, sử dụng ví dụ PDF và những lệnh đầu ra dưới đây. Các siêu dữ liệu gần đây nhất liên quan tới file pdf sẽ được hiển thị:

Hướng dẫn loại bỏ siêu dữ liệu trong file PDF - Ảnh 1.

Lúc này, bạn sẽ nhận thấy các siêu dữ liệu trong tập tin PDF chứa những thông tin, bao gồm:

- Dấu thời gian để tạo và thay đổi tệp tin

- Ngôn ngữ sử dụng

- Múi giờ máy tính được thiết lập

- Ứng dụng đã được sử dụng để tạo ra tệp và số phiên bản. Như trong trường hợp ví dụ này là Microsoft Word

- Tên sử dụng để đăng ký tài khoản Microsoft Word

Các siêu dữ liệu trên cung cấp cho chúng ta tất cả về thông tin liên qua đến file PDF. Chính vì nhờ những thông tin cụ thể như thế mà những kẻ tấn công có thể khai thác các ứng dụng Word mà bạn đã sử dụng , giúp cho hacker tiết kiệm thời gian hơn, dành thời gian tập trung khai thác tấn công vào những ứng dụng mà bạn đang sử dụng.

3. qpdf và exiftool – hai công cụ làm giảm siêu dữ liệu website

Hai công cụ rất hưu hiệu trong việc giúp giảm bớt các siêu dữ liệu web là qpdf và exiftool.

– Qpdf: cho phép bạn linearize một file PDF. Theo truyền thống, Qpdf sẽ tạo các tệp PDF được tối ưu hóa trên web, file này sẽ được tải xuống và xem nhanh hơn.
– Exifool: cho phép bạn xem và cập nhật siêu dữ liệu cho các tập tin. Exiftool không chỉ giới hạn trong các tệp PDF.

LƯU Ý: các công cụ này chỉ loại bỏ siêu dữ liệu loại thông thường khỏi một tệp PDF, không loại bỏ tất cả, một số siêu dữ liệu vẫn sẽ tồn tại trong tệp bao gồm siêu dữ liệu font chữ và siêu dữ liệu đối tượng.

Đầu tiên, chúng ta sẽ bắt đầu với qpdf để linearize PDF và dải metadata

qpdf My_Secrect_Document.pdf My_Secrect_Document_CLEAN.pdf

Hãy so sánh những thông tin ở bảng dưới đây so với bảng ở phía trên, bạn đã nhận ra chũng được lược khá nhiều thông tin rồi đúng không:

Hướng dẫn loại bỏ siêu dữ liệu trong file PDF - Ảnh 2.

Khi bạn đã sử dụng qpdf, bạn có thể chạy exiftool trên tệp. 

Trong lệnh dưới đây, exiftool được dùng để loại bỏ tất cả các trường siêu dữ liệu mà có thể thay thế bằng null. Thao tác này sẽ loại bỏ trường siêu dữ liệu khỏi bị truy vấn.

exiftool -all:all= My_Secrect_Document_CLEAN.pdf

Khi chạy exiftool, bạn chỉ cần truy vấn các siêu dữ liệu trong tập tin, và đây là kết quả:

Hướng dẫn loại bỏ siêu dữ liệu trong file PDF - Ảnh 3.

Bạn sẽ nhận thấy ở đầu ra đã thực sự thay đổi và trở nên đặc biệt hơn, lí do là đã không còn siêu dữ liệu XMP trong tài liệu PDF này. Mình khuyên bạn nên sử dụng cả qpdf và exiftool cùng nhau bởi vì mỗi công cụ lại có một chức năng riêng biệt, exiftool loại bỏ tất cả siêu dữ liệu XMP, còn qpdf đã giúp tối ưu hóa tệp.

Chúc các bạn thao tác thành công!

Theo Bizfly Cloud chia sẻ

>> Xem thêm: Cách chỉnh khoảng cách giữa các dòng trong word

SHARE