如何抓取網頁製作製作 mdx 格式詞典

一個簡單得不能再簡單的網頁抓取然後製作mdx教程

工具/原料

作業系統:Windows 7 旗艦版64位
抓取工具:wget
文本處理:EditPlus, UltraEdit, TextForever

方法/步驟

獲取網站 index,新建一個txt,內容為要抓取的所有詞條的URL。

txt命名為download.txt。我把這個download.txt和wget.exe(如果你下載的wget是wget+版本號.exe,不妨重命名為wget.exe),這倆文件都放在D:\DOPF下。cmd.exe->CD/D D:\DOPF->wget -i download.txt

下載處理後,得到一共16698個連結。

抓取內容同樣的,wget -i download.txt把上面那N個html都抓下來,然後就很簡單了

文本提取觀察可知,詞典條目內容在第一個<h1>和<div class="source">之間。

利用TextForever來提取文本。

提取完畢,合併得到的16695個html,這本詞典的製作過程中,我思考了下,不用在「文件內容前加注文件名」,有的情況下,是需要這樣做的,以方便提取keywords,經過測試,還是要在「文件內容後加空行」。

得到dopf-src.txt,對這個txt進行操作,得到可build為mdx的txt。

製作mdx合併後的文本長這樣:

詞典是xml,由於MDict PC版不支持xml+css(除非升級內核),我們要把xml標籤替換為html標籤。經過下面一系列的操作。處理後最終的文本是這樣:

寫css。

中途遇到些小問題,一個個解決,最後,成品:

是不是比在線的稍微順眼點呢?

注意事項

過程有些 tricky,多嘗試就明白了

本文內容整理自網絡, 文中所有觀點看法不代表淘大白的立場