Vì vậy, tôi đã gặp phải một vấn đề vào ngày khác khi tôi phải sao chép một số văn bản từ tệp PDF và dán nó vào bản trình bày mà tôi đang làm. Vấn đề là tôi không thể sao chép văn bản! Hmm, tôi nghĩ, phải có điều gì đó ngu ngốc tôi đang làm vì tôi khá chắc chắn rằng tôi đã sao chép văn bản từ một tệp PDF trước đó.
May mắn thay, tôi đã không ngu ngốc như vậy, vì cuối cùng, tệp PDF có một số trang được quét các tệp bitmap đã được chèn vào tệp PDF. Vì vậy, nó không phải là văn bản thực tế ở nơi đầu tiên. Thứ hai, nơi có văn bản thực tế thường có thể được sao chép, tệp PDF này có một số loại quyền bảo mật được đặt trên đó để sao chép nội dung không được phép! Grrrr!
Tôi vẫn cần văn bản đó và tôi sẽ tìm ra cách để có được nó. Trong bài viết này, tôi sẽ hướng dẫn cách đơn giản để sao chép văn bản hoạt động nếu tài liệu không được bảo vệ và văn bản không phải là hình ảnh được quét. Tôi cũng sẽ xem xét những gì cần làm trong kịch bản kẻ lừa đảo mà bạn không được phép sao chép văn bản. Đây không phải là một giải pháp lý tưởng, nhưng tốt hơn là không có gì, đặc biệt nếu bạn phải sao chép nhiều văn bản. Ngay cả khi bạn có thể tự cứu mình khỏi việc gõ 80% bằng tay, điều đó thật tuyệt!
Chọn văn bản trong PDF
Trong Adobe Reader, nếu văn bản có khả năng sao chép, thì tất cả những gì bạn phải làm là chọn nó và nhấp chuột phải và chọn Sao chép .
Trong các chương trình xem PDF khác như Foxit, bạn phải nhấp vào Công cụ và sau đó Chọn Văn bản .
Rõ ràng, nếu bạn có thể làm điều này, bạn sẽ không đọc bài viết này! Nhưng chỉ trong trường hợp, đó là cách bạn chọn văn bản. Bây giờ là vấn đề khó khăn hơn trong việc sao chép văn bản từ hình ảnh hoặc tệp PDF được bảo mật.
Sử dụng OCR để sao chép văn bản PDF
Bạn có thể nhanh chóng kiểm tra xem liệu tệp PDF có được bảo mật trong Adobe Reader hay không bằng cách tra cứu trên thanh tiêu đề và tìm từ được BẢO MẬT .
Bạn có thể thấy các quyền cụ thể bằng cách nhấp vào Chỉnh sửa và sau đó nhấp vào Bảo vệ và sau đó Thuộc tính bảo mật .
Trong các phiên bản mới hơn của Adobe Reader và Acrobat, bạn phải nhấp vào Bảo vệ trong khung bên phải để hiển thị các tùy chọn bảo vệ.
Sau đó, nhấp vào Tùy chọn khác và bạn sẽ thấy Thuộc tính bảo mật.
Như bạn có thể thấy bên dưới, sao chép nội dung không được phép và bảo mật được bảo vệ bằng mật khẩu. Nếu bạn biết mật khẩu, thì bạn có thể xóa bảo mật và sao chép tất cả những gì bạn muốn.
Trừ khi bạn là một hacker, phá mật khẩu không phải là một lựa chọn. Vì vậy, điều khác duy nhất bạn có thể làm là chụp ảnh màn hình của văn bản và sau đó chạy nó thông qua chương trình OCR. Nghe có vẻ như quá nhiều công việc, nhưng nó thực sự không. Bạn có thể chụp ảnh màn hình trên máy Mac hoặc PC mà không cần phần mềm bổ sung.
Mac - Chỉ cần nhấn Command + Shift + 4 trên bàn phím
Windows - Chỉ cần sử dụng Windows Snipping Tool
Ngoài ra, nếu bạn tình cờ sở hữu Adobe Acrobat, bạn có thể sử dụng nó để tự động chuyển đổi văn bản hình ảnh thành văn bản có thể chỉnh sửa. Tất cả bạn phải làm là mở tệp PDF và nhấp vào công cụ Chỉnh sửa PDF trong khung bên phải. Nó sẽ tự động quét toàn bộ tài liệu bằng OCR và chuyển đổi nó thành một tài liệu có thể chỉnh sửa hoàn toàn.
Nếu bạn có một hình ảnh với văn bản, hãy sao chép nó vào bảng tạm và sau đó mở Adobe Acrobat và chọn Tệp - Tạo - PDF từ Clipboard.
Chỉ cần nhấp vào Chỉnh sửa PDF trong khung bên phải và nó sẽ chuyển đổi hình ảnh thành văn bản có thể chỉnh sửa.
Đây là một ảnh chụp màn hình tôi chụp một số văn bản mà tôi không thể sao chép từ tệp PDF được bảo mật:
Lưu ý rằng khi bạn chụp ảnh màn hình, hãy đảm bảo thu phóng tài liệu được đặt thành 100% để văn bản rõ nét và rõ ràng. Khi bạn có ảnh chụp màn hình, sau đó tải xuống chương trình OCR miễn phí. Có nhiều lựa chọn ngoài kia và kết quả sẽ khác nhau giữa các chương trình, vì vậy bạn sẽ phải thử một vài. Đây là hai cái mà tôi đã sử dụng trong quá khứ:
//doad.cnet.com/FreeOCR/3000-10743_4-10717191.html
//www.simple nob.com/OCR-Freeware
Lưu ý rằng bạn cũng có thể sử dụng Microsoft OneNote vì nó có chức năng OCR tích hợp. Rõ ràng, nếu bạn đã có phần mềm OCR, thì chỉ cần sử dụng chương trình đó để thay thế.
Chương trình FreeOCR hoạt động tốt, bạn chỉ cần đảm bảo rằng khi bạn cài đặt nó, bạn không chấp nhận bất kỳ phần mềm nào khác mà Wap cung cấp, sẽ chỉ cài đặt rác trên máy tính của bạn. Nhưng miễn là bạn làm điều đó, phần mềm không có phần mềm gián điệp hoặc bất cứ thứ gì tương tự. Nó cũng được thử nghiệm bởi CNET để đảm bảo điều này.
Dù sao, khi bạn đã cài đặt chương trình, nhấp vào nút Mở lớn và chọn hình ảnh của bạn.
Nó sẽ hiển thị cho bạn bản xem trước của hình ảnh trong khung bên trái. Sau đó bấm vào OCR và bắt đầu quá trình OCR .
Đó là nó! Bây giờ văn bản sẽ hiển thị ở phía bên tay phải và bạn có thể sao chép nó vào bảng tạm hoặc xuất nó sang Microsoft Word.
Nhìn chung, chương trình đã làm rất tốt với một vài lỗi nhỏ ở đây và đó. Nó giúp tôi tiết kiệm rất nhiều thời gian mặc dù không phải gõ thủ công tất cả văn bản đó. Hy vọng, điều này sẽ giúp bạn sao chép văn bản bạn cần từ tài liệu PDF. Gửi bất kỳ ý kiến hoặc câu hỏi và tôi sẽ trả lời. Thưởng thức!