您現(xiàn)在的位置：首頁 > IT資訊 > 軟件研發(fā) > 如何使用python進行網(wǎng)頁爬取？

如何使用python進行網(wǎng)頁爬取？

2020-08-06 14:37:57　|　來源：中培企業(yè)IT培訓網(wǎng)

今天將使用python抓取一個股票市場數(shù)據(jù)的重要來源。我們將為此編寫一個刮板。使用該刮板，您將可以從一個平臺上刮刮任何公司的股票數(shù)據(jù)。如您所知，想使事情變得簡單，為此還將使用網(wǎng)絡(luò)刮板，這將提高您的刮板效率。為什么使用這個工具？該工具將幫助我們使用數(shù)百萬個旋轉(zhuǎn)代理來抓取動態(tài)網(wǎng)站，以免被阻止。它還提供了驗證碼清除功能。它使用無標題的chrome抓取動態(tài)網(wǎng)站。

　　要求

通常，網(wǎng)頁抓取分為兩個部分：

通過發(fā)出HTTP請求獲取數(shù)據(jù)通過解析HTMLDOM提取重要數(shù)據(jù)

　　庫和工具

BeautifulSoup是一個Python庫，用于從HTML和XML文件中提取數(shù)據(jù)。通過請求，?您可以非常輕松地發(fā)送HTTP請求。網(wǎng)絡(luò)抓取工具以提取目標網(wǎng)址的HTML代碼。

　　建立

我們的設(shè)置非常簡單。只需創(chuàng)建一個文件夾并安裝BeautifulSoup和請求即可。要創(chuàng)建文件夾并安裝庫，請在給定命令下方鍵入。我假設(shè)您已經(jīng)安裝了Python3.x。

mkdirscraper

pipinstallbeautifulsoup4

pipinstallrequests

現(xiàn)在，使用您喜歡的任何名稱在該文件夾中創(chuàng)建一個文件。我正在使用scraping.py。

首先，您必須注冊scrapingdogAPI。它將為您提供1000個免費積分。然后，只需在文件中導入BeautifulSoup和請求即可。像這樣。

frombs4importBeautifulSoupimportrequests

我們要抓的東西

這是我們將提取的字段列表：

1.上一個收盤價

2.打開

3.競標

4.問

5.天的范圍

6.52周范圍

7.音量

8.平均卷

9.市值

10.Beta

11.市盈率

12.每股收益

13.收益率

14.預(yù)期股息和收益率

15.除息日

16.1y目標EST

準備階段

現(xiàn)在，由于我們具備了準備刮板的所有要素，因此我們應(yīng)該對目標URL進行GET請求以獲取原始HTML數(shù)據(jù)。如果您不熟悉抓取工具，請敦促您仔細閱讀其文檔。現(xiàn)在，我們將使用請求庫抓取YahooFinance的財務(wù)數(shù)據(jù)，如下所示。

r=requests.get.text

這將為您提供該目標URL的HTML代碼。

現(xiàn)在，您必須使用BeautifulSoup解析HTML。

soup=BeautifulSoup(r,’html.parser’)

現(xiàn)在，在整個頁面上，我們有四個“tbody”標簽。我們對前兩個感興趣，因為我們目前不需要第三和第四個“tbody”標簽中的可用數(shù)據(jù)。

首先，我們將使用變量“湯”找出所有這些“身體”標簽。

alldata=soup.find_all(“tbody”)

如您所見，前兩個“tbody”具有8個“tr”標簽，每個“tr”標簽具有兩個“td”標簽。

try:

table1=alldata[0].find_all(“tr”)except:

table1=Nonetry:

table2=alldata[1].find_all(“tr”)except:

table2=None

現(xiàn)在，每個“tr”標簽都有兩個“td”標簽。第一個td標記由屬性的名稱組成，另一個具有該屬性的值。這有點像鍵值對。

此時，我們將在開始for循環(huán)之前聲明一個列表和一個字典。

l={}

u=list()

為了簡化代碼，我將為每個表運行兩個不同的“for”循環(huán)。首先是“table1”

foriinrange(0,len(table1)):

try:

table1_td=table1[i].find_all(“td”)

except:

table1_td=None

l[table1_td[0].text]=table1_td[1].text

u.append(l)

l={}

現(xiàn)在，我們要做的是將所有td標簽存儲在變量“table1_td”中。然后，我們將第一個和第二個td標簽的值存儲在“字典”中。然后，我們將字典推入列表。由于我們不想存儲重復的數(shù)據(jù)，因此我們將在最后將字典設(shè)為空。對于“table2”，將遵循類似的步驟。

foriinrange(0,len(table2)):

try:

table2_td=table2[i].find_all(“td”)

except:

table2_td=None

l[table2_td[0].text]=table2_td[1].text

u.append(l)

l={}

　　然后，當您打印列表“u”時，您將得到一個JSON響應(yīng)。

{

“Yahoofinance”:[

{

“PreviousClose”:“2,317.80”

{

“Open”:“2,340.00”

{

“Bid”:“0.00x1800”

{

“Ask”:“2,369.96x1100”

{

“Day’sRange”:“2,320.00–2,357.38”

{

“52WeekRange”:“1,626.03–2,475.00”

{

“Volume”:“3,018,351”

{

“Avg.Volume”:“6,180,864”

{

“MarketCap”:“1.173T”

{

“Beta(5YMonthly)”:“1.35”

{

“PERatio(TTM)”:“112.31”

{

“EPS(TTM)”:“20.94”

{

“EarningsDate”:“Jul23,2020—Jul27,2020”

{

“ForwardDividend&Yield”:“N/A(N/A)”

{

“Ex-DividendDate”:“N/A”

{

“1yTargetEst”:“2,645.67”

}

]

}

沒那么神奇。我們僅在5分鐘的設(shè)置過程中就刮掉了Yahoo財務(wù)。我們有一個python對象數(shù)組，其中包含某公司的財務(wù)數(shù)據(jù)。這樣，我們可以從任何網(wǎng)站上抓取數(shù)據(jù)。

以上即是關(guān)于如何使用python進行網(wǎng)頁爬取的全部內(nèi)容介紹，想了解更多關(guān)于python的信息，請繼續(xù)關(guān)注中培偉業(yè)。

標簽： python爬蟲，軟件研發(fā)

上一篇：Python實時對象檢測入門指南
下一篇：機器學習項目的編程語言

伊人99re_av日韩成人_91高潮精品免费porn_色狠狠色婷婷丁香五月_免费看的av_91亚色网站

一站式企業(yè)數(shù)字化人才培養(yǎng)提供商

如何使用python進行網(wǎng)頁爬取？

相關(guān)閱讀

網(wǎng)絡(luò)安全技術(shù)與攻防實戰(zhàn)

PMP項目管理國際認證

國家軟考高級-系統(tǒng)分析師

ITSS-IT服務(wù)項目經(jīng)理認證

ITSS-IT服務(wù)工程師認證

AI重塑辦公-Deepseek助力職場辦公效能提升全攻略

TOGAF?EA理論與實踐鑒定級認證

DeepSeek大模型應(yīng)用開發(fā)最佳實踐

國家注冊信息安全專業(yè)人員CISP認證

國際注冊信息系統(tǒng)審計師CISA認證

數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)設(shè)計及數(shù)據(jù)標準化方法

AI賦能項目管理-從需求到管理落地，對標巨頭實戰(zhàn)

業(yè)務(wù)需求分析及產(chǎn)品設(shè)計實戰(zhàn)

云原生架構(gòu)與容器化部署實戰(zhàn)訓練營

全國報名服務(wù)熱線

熱門課程咨詢

微信公眾號