提取URL地址


通過使用正規表示式從文字檔案實現URL提取。表示式在文字與模式匹配的任何位置獲取文字。 只有re模組用於此目的。

我們可以將輸入檔案包含一些URL並通過以下程式處理它以提取URL。 findall()函式用於查詢與正規表示式匹配的所有範例。

輸入的文字檔案

顯示的是下面的輸入檔案。 其中包含幾個URL。

Now a days you can learn almost anything by just visiting http://www.google.com. But if you are completely new to computers or internet then first you need to leanr those fundamentals. Next
you can visit a good e-learning site like - https://www.tw511.com to learn further on a variety of subjects.

現在,當獲取上述輸入檔案並通過以下程式處理它時,我們得到所需的輸出,也就是從檔案中提取出來URL地址。

import re

with open("path\url_example.txt") as file:
        for line in file:
            urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', line)
            print(urls)

執行上面範例程式碼,得到以下結果 -

['http://www.google.com.']
['https://www.tw511.com']