
在爬蟲開發中,我們進場要使用urllib中的urlopen()和request.get()方法請求或獲取一個網頁的內容。Urliopen打開的UIR網址,url參數可以是一個字符創url或者是一個request對象,返回的網頁內容實際上市沒有被解碼的。下面就具體為大家分享一下urlopen()的內容吧。
Urlopen介紹
urllib.request.urlopen()函數用于實現對目標url的訪問。其函數原型如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
其中url是需要打開的網址;data是Post提交的數據;timeout:設置網站的訪問超時時間。同時需要說明的是直接用urllib.request模塊的urlopen()獲取頁面,page的數據格式為bytes類型,需要decode()解碼,轉換成str類型。
函數參數介紹
1. url 參數:目標資源在網路中的位置。可以是一個表示URL的字符串(如:https://www.boxuegu.com);也可以是一個urllib.request對象。
2. data參數:data用來指明發往服務器請求中的額外的參數信息(如:在線翻譯,在線答題等提交的內容),data默認是None,此時以GET方式發送請求;當用戶給出data參數的時候,改為POST方式發送請求。
3. cafile、capath、cadefault 參數:用于實現可信任的CA證書的HTTP請求。(基本上很少用)
4. context參數:實現SSL加密傳輸。(基本上很少用)
返回處理方法詳解
urlopen返回對象提供方法:
read() , readline() ,readlines() , fileno() , close() :對HTTPResponse類型數據進行操作。
info():返回HTTPMessage對象,表示遠程服務器返回的頭信息。
getcode():返回Http狀態碼。如果是http請求,200請求成功完成;404網址未找到。
geturl():返回請求的url。
版本區別
python2和python3在導入urlrequest的方式是不一樣的。
python2中:import urllib2,而python3里面把urllib分開了,分成了urlrequest和urlerror,在這里我們只需導入urlrequest即可。from urllib.request import urlopen
以上就是為大家介紹的python爬蟲開發中的urlopen()的介紹。現在python編程語言應用率越來越高,也因此越來越多的朋友加入到python的學習之中。Python具有極其廣泛的應用:人工智能、數據分析、爬蟲、全站開發、自動化運維、自動化測試等等。 注:尊重原創文章,轉載請注明出處和鏈接 http://m.dedgn.cn/news-id-17496.html 違者必究!部分文章來源于網絡由培訓無憂網編輯部人員整理發布,內容真實性請自行核實或聯系我們,了解更多相關資訊請關注python培訓頻道查看更多,了解相關專業課程信息您可在線咨詢也可免費申請試課。關注官方微信了解更多:150 3333 6050