Chuyển đổi PDF sang CSV tự động

Đôi khi, bạn sẽ cần chuyển đổi pdf dữ liệu thành dữ liệu CSV (giá trị được phân tách bằng dấu phẩy) để bạn có thể sử dụng dữ liệu đó để phân tích thêm. Trong những trường hợp đó, tập lệnh này có thể hữu ích.

import tabula

filename = input("Enter File Path: ")
df = tabula.read_pdf(filename, encoding='utf-8', spreadsheet=True, pages='1')

df.to_csv('output.csv')

Bạn sẽ cần cài đặt tabula thư viện bằng cách sử dụng pip để chạy mã này. Sau khi cài đặt, bạn có thể chuyển tệp vào dự án của mình.

Thư viện đi kèm với một chức năng read_pdf() lấy tệp và đọc nó. Bạn hoàn thành quá trình tự động hóa bằng cách sử dụng to_csv() chức năng chuyển đổi đầu ra thành CSV .