hjc, hình như ko anh ah
mà em tìm dc cách này, anh test thử xem nha :
Chuyển đổi file pdf thành Word với một văn bản tiếng Anh là không khó
khi có sự trợ giúp đắc lực của các phần mềm như Solid Converter PDF to
Word, Free PDF to Word Doc Converter... Nhưng với một file pdf tiếng
Việt thì việc sử dụng những phần mềm nêu trên là không hiệu quả, font
chữ sẽ bị lỗi rất nhiều và việc sửa lỗi còn mất nhiều thời gian hơn là
ngồi gõ lại. Bài viết này xin trình bày cách phối hợp 3 phần mềm là:
IrfanView 4.1, PDF Converter XP và VnDocr 4.0 để chuyển một file pdf
tiếng Việt sang định dạng doc quen thuộc.
1. Download và cài đặt các chương trình lên máy tính:Bộ cài đặt bao gồm tất cả các phần mềm kể trên.
Link down :
[You must be registered and logged in to see this link.]
2. Chuyển file pdf thành file ảnh:- Mở chương trình PDF Converter XP lên, chuyển qua tab
Pdf > Image.
- Chọn
Add files..., sẽ có 1 hộp thoại xuất hiện yêu cầu bạn nhập file pdf.
- Chọn file pdf xong, hãy bấm vào nút
Convert now! Một hộp
thoại mới xuất hiện, yêu cầu xác định nơi lưu file ảnh xuất ra, độ phân
giải của ảnh. Bạn nên chọn độ phân giải là 300 dpi để việc nhận dạng ký
tự được chính xác hơn.
3. Chuyển định dạng ảnh về đen trắng (2 color):Việc chuyển thành ảnh đen trắng này nhằm để cho chương trinh VnDocr 4.0 có thể làm việc được.
- Mở chương trình IrfanView 4.1, chọn
File > Batch conversion/rename. Một hộp thoại xuất hiện. Trong phần
Look in bạn chọn dường dẫn tới nơi bạn đã lưu file ảnh ở bước 2. Chọn tất cả hình cần rồi bấm
Add.
- Bấm chọn vào
Use advanced options > Advanced > Change color depth > 2 color (black/white) (1BPP) > OK.- Chọn nơi lưu file trong mục
Output directory for result files, chọn
Batch để chương trình bắt đầu làm việc.
4. Sử dụng phần mềm VnDocr 4.0 để nhận dạng văn bản:- Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh đã lưu ở bước 3, bấm
Open.
- Bấm chọn nút nhận dạng trên menu, trong bước này ta cần xác định chính
xác vùng chọn là văn bản, ảnh hay là bảng biểu, bằng cách bấm chuột
phải vào vùng đó và chọn định dạng phù hợp (lưu ý là chương trình thường
nhầm lẫn giữa dịnh dạng ảnh và bảng).
- Sau khi đã chỉnh định dạng các vùng, bấm vào nút Nhận dạng để chương trình làm việc.
5. Copy qua Word văn bản đã được nhận dạng:Vì bản demo của chương trình VNDocr 4.0 không cho phép ta lưu văn bản nhận dạng được nên cần phải copy qua Word để lưu.
- Mở một file Word mới và để dưới taskbar.
- Trong VnDocr 4.0, quét chọn vùng văn bản cần dùng, bấm giữ chuột trái
vào vùng đã chọn và kéo rê thả vào Word ở dưới thanh taskbar.
Tới đây bạn đã hoàn thành việc chuyển văn bản. Các phần mềm giới thiệu ở
trên đều có thể làm việc với nhiều file một lúc, giúp bạn đỡ tốn thời
gian để hoàn thành công việc. Kinh nghiệm cho thấy, chuyển một file pdf
10 trang toàn chữ thành Word chỉ mất chưa tới 5 phút, chắc chắn là đỡ
mất công hơn nhiều so với việc ngồi gõ lại 10 trang này.