大家好,怎么把PDF格式 的文件轉(zhuǎn)換成TXT文件,想把中醫(yī)書籍轉(zhuǎn)成TXT格式的,可以在手機(jī)里看,那樣文件可以變小,主要是書的內(nèi)容,PDF格式的文件的書皮,那些彩色圖案可以不要,主要是文字,大家說說,大家是怎么做的,用什么軟件,什么方式,
-----------第一種方法:用SnagIt工具進(jìn)行文字提取。
首先使用SnagIt的文字捕捉功能將文字提取出來。SnagIt當(dāng)前版本為7.02,大小為8903KB,下載地址可以在http://www。skycn。com/soft/2290.html 找到,漢化補(bǔ)丁可以在http://www。skycn。com/soft/2291.html 找到。啟動(dòng)SnagIt,選擇菜單“輸入/區(qū)域”,選擇菜單“工具/文字捕獲”,然后我們打開要捕捉的文件窗口,按下捕捉快捷鍵,選定捕捉區(qū)域即可捕捉到文字。
接著用相應(yīng)工具重排文字。此時(shí)我們發(fā)現(xiàn)提取的文字可能會(huì)有很多空格或段落錯(cuò)亂等現(xiàn)象,而且字號(hào)、字體等不合自己的心意。這時(shí)我們可以用熟悉的WPS或Word軟件進(jìn)行重新編排。我們以WPSOffice2003為例看看如何對(duì)付提取后文章的編排。
用WPSOffice2003打開提取文章;然后選擇“工具”菜單下的“文字”/“段落重排”,這時(shí)你會(huì)看到提取文章重新進(jìn)行排版;接下來選擇“工具”菜單下的“文字”/“刪除段首空格”命令,使得文章的每段參差不齊的行首空格被刪除;再選擇“工具”菜單下的“文字”/“增加段首空格”,文章變?yōu)檎5臅鴮懜袷;提取文章一般都留有空段,為刪除這些空段,繼續(xù)選擇“工具”菜單下的“文字”/“刪除空段”命令,這時(shí)文章完全變?yōu)槲覀兯男问;用你熟悉的界面任意編輯文章吧?
第二種方法:用屏幕截圖然后讓OCR軟件識(shí)別。
打開帶有文字的圖片或電子書籍,翻到你希望提取的頁面,點(diǎn)擊鍵盤上的打印屏幕鍵(PrintScreen)進(jìn)行屏幕捕獲;打開Windows自帶的畫圖工具,將剛才捕獲的屏幕截圖,粘貼進(jìn)去,保存為一個(gè).bmp文件;接著打開剛才保存的文件,在編輯器中進(jìn)行修正,根據(jù)你所要提取的文字進(jìn)行裁剪,盡量去除不要的部分;最后啟動(dòng)OCR軟件,在OCR中打開剛才保存的修改文件,進(jìn)行文字識(shí)別,然后可隨心所欲進(jìn)行編輯。
-----------實(shí)在不行,有專門的將pdf的文件轉(zhuǎn)成word的軟件,再貼到txt里去吧
-----------這個(gè)問題分2種情況:
1、如果pdf文件里面的內(nèi)容是圖像,比如掃描書形成的pdf文檔,那就只能用OCR軟件去識(shí)別,效果不會(huì)太好。
2、如果是文字的,那從網(wǎng)上下載個(gè)pdf 轉(zhuǎn)txt格式的軟件轉(zhuǎn)就可以了。
怎么看是那種格式的,通常掃描出來的文字邊緣比較毛糙。
-----------就是那種掃描書形式的PDF文件,難以處理,怎么做啊,我找了半天,很廠時(shí)間了,都沒有找到,請(qǐng)大家說說,詳細(xì)點(diǎn),尤其是1、如果pdf文件里面的內(nèi)容是圖像,比如掃描書形成的pdf文檔,那就只能用OCR軟件去識(shí)別,效果不會(huì)太好。,,,,這個(gè)方法說點(diǎn)詳細(xì)點(diǎn),謝謝大家
-----------[介紹使用Microsoft Office 2003識(shí)別超星格式(其它圖像格式電子文檔相同)一法:使用超星自帶的文字識(shí)別模塊識(shí)別的亂碼很多,本文使用Microsoft Office 2003識(shí)別,效果不錯(cuò)。具體說明如下:Microsoft Office 2003安裝后生成一個(gè)名為Microsoft Office Document Image Writer的打印機(jī),將超星文件打印到此打印機(jī)中會(huì)生成一個(gè)文件,可以用Microsoft Office Document Imaging直接打開,然后點(diǎn)工具→使用OCR識(shí)別文本→“頁面范圍”選所有頁面,即開始識(shí)別,識(shí)別完畢后點(diǎn)工具→將文本發(fā)送到Word,一切OK,還能保持文檔格式,不用刪多余的換行符了。]
...