国产精品入口麻豆免费看,曰韩无码无遮挡A级毛片777

使用Selenium簡單收集知乎的話題數(shù)據(jù)

作者：鄧旭東發(fā)布時(shí)間：[ 2017/3/21 11:00:18 ] 推薦標(biāo)簽：功能測試 Selenium Python

　　當(dāng)你在知乎上搜索一個(gè)話題，如王寶強(qiáng)的時(shí)候，搜索結(jié)果頁面的底部有個(gè)“更多”按鈕，如下圖

　　遇到這個(gè)坑爹了，因?yàn)槟惆l(fā)現(xiàn)點(diǎn)擊“更多”按鈕后，網(wǎng)址部分沒有變化，但頁面卻加載了新的數(shù)據(jù)。怎么辦？？？？
　　沒法按照之前的有規(guī)律的網(wǎng)址&page=number ，通過for循環(huán)依次遍歷網(wǎng)頁。
　　在這里我不講抓包，分析請求包。咱們用生硬的方法，破解這問題。在這里我使用了selenium庫，并且要安裝一個(gè)火狐瀏覽器（firefox36）。輕松破解該問題。
　　selenium教程，建議大家網(wǎng)上買《selenium 2自動(dòng)化測試實(shí)戰(zhàn)-基于python語言》這本書閱讀相關(guān)知識。當(dāng)然也可以根據(jù)本代碼，在網(wǎng)上查相關(guān)selenium的知識。
import re
import csv
import time
import urllib.parse as parse
from selenium import webdriver
from bs4 import BeautifulSoup
# keyword話題名，filename保存數(shù)據(jù)的文件名，page_num收集多少頁
def topic_title_spider(keyword='王寶強(qiáng)'， filename = 'wangbaoqiang'， page_num = 10):
start = time.time()
# 建立一個(gè)收集數(shù)據(jù)的csv文件
csvFile = open(r'E:\%s.csv'% filename， 'a+'， newline='')
writer = csv.writer(csvFile)
writer.writerow(('title'， 'review_num'))
# 將關(guān)鍵詞轉(zhuǎn)換為十六進(jìn)制格式，填入到鏈接中
kw = parse.quote(keyword)
driver = webdriver.Firefox()
driver.get('https://www.zhihu.com/search?type=content&q=%s' % kw)
# 正則表達(dá)式，用來匹配標(biāo)題，評論數(shù)
reg_title = re.compile(r'<a class="js-title-link" href=.*?" target="_blank">(.*?)</a>')
reg_li = re.compile(r'item clearfix.*?')
reg_num = re.compile(r'<a class="zm-item-vote-count hidden-expanded js-expand js-vote-count" data-bind-votecount="">(.*?)</a>')
# 先循環(huán)點(diǎn)擊頁面底部“更多”，加載盡可能多的頁面數(shù)據(jù)
for i in range(1， page_num， 1):
driver.find_element_by_link_text("更多").click()
duration = time.time()-start
print('%s小爬蟲已經(jīng)跑到第%d頁了，運(yùn)行時(shí)間%.2f秒，好累啊'%(keyword， i， duration))
time.sleep(5)
soup = BeautifulSoup(driver.page_source， 'lxml')
li_s = soup.find_all('li'， {'class': reg_li})
for li in li_s:
li = str(li)
try:
title = re.findall(reg_title， li)[0]
title = title.replace('<em>'， '')
title = title.replace('</em>'， '')
review_num = re.findall(reg_num， li)[0]
except:
continue
writer.writerow((title， review_num))
print(title， review_num)
csvFile.close()
driver.quit()
　　代碼在我這里運(yùn)行成功，不過在你那里需要注意拷貝代碼后，要調(diào)整代碼，因?yàn)橛械拇a一行太長了，被知乎調(diào)整到第二行了，這樣可能會(huì)出錯(cuò)。
　　該方法缺點(diǎn)是運(yùn)行速度慢，不過對于小數(shù)據(jù)需求的小白們來說，還是可以接受的。

關(guān)鍵詞閱讀

測試熱點(diǎn)文章

技術(shù)專題

活動(dòng)專題

【獲獎(jiǎng)名單公布】加入Alltesting眾測免費(fèi)領(lǐng)取新發(fā)行測試書籍
加入Alltesting眾測免費(fèi)領(lǐng)取新發(fā)行書籍《京東質(zhì)量團(tuán)隊(duì)轉(zhuǎn)型實(shí)踐從測試到測試開發(fā)的蛻變》
【Alltesting眾測2典】0元測試體驗(yàn)+100元現(xiàn)金券+免費(fèi)性能測試
先測試后付費(fèi)-Alltesting眾測超級福利
2000元性能測試服務(wù)，安全生產(chǎn)，穩(wěn)定運(yùn)行，為您的系統(tǒng)保駕護(hù)航�。�！
在線性能測試工具（WebPR）培訓(xùn)與技術(shù)交流（第二期）
Alltesting眾測平臺全新功能已開啟��！
生命周期管理軟件ALM-本地安裝版本正式發(fā)布�。�！