前沿拓展:
網(wǎng)頁登陸qq空間
你必須在這個IP上,長時間登入、 在QQ軟件上保存信息:
request 獲取相冊列表所需的請求信息,包括請求鏈接和參數(shù)response 數(shù)據(jù)包包含的所有相冊的信息,是每個相冊所含照片對應(yīng)的請求包參數(shù)的數(shù)據(jù)來源
先看請求包:
# url
https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/fcg_list_album_v3
# args
g_tk: 477819917
callback: shine0_Callback
t: 691481346
hostUin: 123456789
uin: 123456789
appid: 4
inCharset: utf-8
outCharset: utf-8
source: qzone
plat: qzone
format: jsonp
notice: 0
filter: 1
handset: 4
pageNumModeSort: 40
pageNumModeClass: 15
needUserInfo: 1
idcNum: 4
callbackFun: shine0
_: 1551788226819
其中hostUin, uin都是QQ號,g_tk是必須的且每次重新登錄都會更新(后面有講如何獲?。渌行﹨?shù)不是必須的,我嘗試后整理出如下請求參數(shù):
query = {
‘g_tk’: self.g_tk,
‘hostUin’: self.username,
‘uin’: self.username,
‘appid’: 4,
‘inCharset’: ‘utf-8’,
‘outCharset’: ‘utf-8’,
‘source’: ‘qzone’,
‘plat’: ‘qzone’,
‘format’: ‘jsonp’
}
接下來看jsonp格式的跨域響應(yīng)包:
shine0_Callback({
“code”:0,
“subcode”:0,
“message”:””,
“default”:0,
“data”:
{
“albumListModeSort” : [
{
“allowAccess” : 1,
“anonymity” : 0,
“bitmap” : “10000000”,
“classid” : 106,
“comment” : 11,
“createtime” : 1402661881,
“desc” : “”,
“handset” : 0,
“id” : “V13LmPKk0JLNRY”,
“lastuploadtime” : 1402662103,
“modifytime” : 1408271987,
“name” : “畢業(yè)季”,
“order” : 0,
“pre” : “http://b171.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!/a/dIY29GUbJgAA”,
“priv” : 1,
“pypriv” : 1,
“total” : 4,
“viewtype” : 0
},
shine0_Callback是請求包的callbackFun參數(shù)決定的,如果沒這個參數(shù),響應(yīng)包會以_Callback作為默認名,當(dāng)然這都不重要。所有相冊信息以json格式存入albumListModeSort中,上面僅截取了一個相冊的信息。
相冊信息中,name代表相冊名稱,id作為唯一標(biāo)識可用于請求該相冊內(nèi)的照片信息,而pre僅僅是一個預(yù)覽縮略圖的鏈接,無關(guān)緊要。
分析單個相冊
與獲取相冊信息類似,進入某一相冊,使用cgi_list過濾數(shù)據(jù)包,找到該相冊的照片信息
photo list
同樣的道理,根據(jù)數(shù)據(jù)包可以獲取照片列表信息的請求包和響應(yīng)信息,先看請求:
# url
https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_list_photo
# args
g_tk: 477819917
callback: shine0_Callback
t: 952444063
mode: 0
idcNum: 4
hostUin: 123456789
topicId: V13LmPKk0JLNRY
noTopic: 0
uin: 123456789
pageStart: 0
pageNum: 30
skipCmtCount: 0
singleurl: 1
batchId:
notice: 0
appid: 4
inCharset: utf-8
outCharset: utf-8
source: qzone
plat: qzone
outstyle: json
format: jsonp
json_esc: 1
question:
answer:
callbackFun: shine0
_: 1551790719497
其中有幾個關(guān)鍵參數(shù):
g_tk – 與相冊列表參數(shù)一致topicId – 與相冊列表參數(shù)中的id一致pageStart – 本次請求照片的起始編號pageNum – 本次請求的照片數(shù)量
為了一次性獲取所有照片,可以將pageStart設(shè)為0,pageNum設(shè)為所有相冊所含照片的最大值。
同樣可以對上面的參數(shù)進行簡化,在相冊列表請求參數(shù)的基礎(chǔ)上添加topicId,pageStart和pageNum三個參數(shù)即可。
下面來看返回的照片列表信息:
shine0_Callback({
“code”:0,
“subcode”:0,
“message”:””,
“default”:0,
“data”:
{
“limit” : 0,
“photoList” : [
{
“batchId” : “1402662093402000”,
“browser” : 0,
“cameratype” : ” “,
“cp_flag” : false,
“cp_x” : 455,
“cp_y” : 388,
“desc” : “”,
“exif” : {
“exposureCompensation” : “”,
“exposureMode” : “”,
“exposureProgram” : “”,
“exposureTime” : “”,
“flash” : “”,
“fnumber” : “”,
“focalLength” : “”,
“iso” : “”,
“len**odel” : “”,
“make” : “”,
“meteringMode” : “”,
“model” : “”,
“originalTime” : “”
},
“forum” : 0,
“frameno” : 0,
“height” : 621,
“id” : 0,
“is_video” : false,
“is_weixin_mode” : 0,
“i**ultiup” : 0,
“lloc” : “NDN0sggyKs3**lOg6eYgh**0ZR**AAA!”,
“modifytime” : 1402661792,
“name” : “QQ圖片20140612104616”,
“origin” : 0,
“origin_upload” : 0,
“origin_url” : “”,
“owner” : “123456789”,
“ownername” : “123456789”,
“photocubage” : 91602,
“phototype” : 1,
“picmark_flag” : 0,
“picrefer” : 1,
“platformId” : 0,
“platformSubId” : 0,
“poiName” : “”,
“pre” : “http://b171.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!/a/dIY29GUbJgAA&bo=pANtAgAAAAABCeY!”,
“raw” : “http://r.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!/r/dIY29GUbJgAA”,
“raw_upload” : 1,
“rawshoottime” : 0,
“shoottime” : 0,
“shorturl” : “”,
“sloc” : “NDN0sggyKs3**lOg6eYgh**0ZR**AAA!”,
“tag” : “”,
“uploadtime” : “2014-06-13 20:21:33”,
“url” : “http://b171.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfSk58K2rQY!/b/dIY29GUbJgAA&bo=pANtAgAAAAABCeY!”,
“width” : 932,
“yurl” : 0
},
// …
]
“t” : “952444063”,
“topic” : {
“bitmap” : “10000000”,
“browser” : 0,
“classid” : 106,
“comment” : 1,
“cover_id” : “NDN0sggyKs3**lOg6eYgh**0ZR**AAA!”,
“createtime” : 1402661881,
“desc” : “”,
“handset” : 0,
“id” : “V13LmPKk0JLNRY”,
“is_share_album” : 0,
“lastuploadtime” : 1402662103,
“modifytime” : 1408271987,
“name” : “畢業(yè)季”,
“ownerName” : “707922098”,
“ownerUin” : “707922098”,
“pre” : “http://b171.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!/a/dIY29GUbJgAA”,
“priv” : 1,
“pypriv” : 1,
“share_album_owner” : 0,
“total” : 4,
“url” : “http://b171.photo.store.qq.com/p**?/V13LmPKk0JLNRY/eSAslg*mYWaytEtLysg*Q*5Km91gIWfGuwSk58K2rQY!/b/dIY29GUbJgAA”,
“viewtype” : 0
},
“totalInAlbum” : 4,
“totalInPage” : 4
}
返回的照片信息都存于photoList, 上面同樣只截取了一張照片的信息,后面一部分返回的是當(dāng)前相冊的一些基本信息。totalInAlbum, totalInPage存儲了當(dāng)前相冊總共包含的照片數(shù)及本次返回的照片數(shù)。而我們需要下載的圖片鏈接則是url!
OK, 到此,所有請求和響應(yīng)數(shù)據(jù)都分析清楚了,接下來便是coding的時候了。
確定爬取方案
創(chuàng)建qqzone類,初始化用戶信息使用Selenium模擬登錄獲取Cookies和g_tk使用requests獲取相冊列表信息遍歷相冊,獲取照片列表信息并下載照片
創(chuàng)建qqzone類
class qqzone(object):
“””QQ空間相冊爬蟲”””
def __init__(self, user):
self.username = user[‘username’]
self.password = user[‘password’]
模擬登錄
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import WebDriverExceptio
# …
def _login_and_get_args(self):
“””登錄QQ,獲取Cookies和g_tk”””
opt = webdriver.ChromeOptions()
opt.set_headless()
driver = webdriver.Chrome(chrome_options=opt)
driver.get(‘https://i.qq.com/’)
# time.sleep(2)
logging.info(‘User {} login…’.format(self.username))
driver.switch_to.frame(‘login_frame’)
driver.find_element_by_id(‘switcher_plogin’).click()
driver.find_element_by_id(‘u’).clear()
driver.find_element_by_id(‘u’).send_keys(self.username)
driver.find_element_by_id(‘p’).clear()
driver.find_element_by_id(‘p’).send_keys(self.password)
driver.find_element_by_id(‘login_button’).click()
time.sleep(1)
driver.get(‘https://user.qzone.qq.com/{}’.format(self.username))
此處需要注意的是:
使用selenium需要安裝對應(yīng)的webdriver可以通過webdriver.Chrome()指定瀏覽器位置,否則默認從環(huán)境變量定義的路徑查找如果電腦打開瀏覽器較慢,可能需要在driver.get后sleep幾秒
獲取 Cookies
使用selenium獲取Cookies非常方便
self.cookies = driver.get_cookies()
獲取 g_tk
獲取g_tk最開始可以說是本爬蟲最大的難點,因為從網(wǎng)頁中根本找不到直接寫明的數(shù)值,只有各種函數(shù)調(diào)用。為此我全局搜索,發(fā)現(xiàn)好多地方都有其獲取方式。
g_tk
最后選擇了其中一處,通過selenium執(zhí)行腳本的功能成功獲取到了g_tk!
self.g_tk = driver.execute_script(‘return QZONE.FP.getACSRFToken()’)
到此,selenium的使命就完成了,剩下的將通過requests來完成。
初始化 request.Session
接下來需要逐步生成請求第二獲取數(shù)據(jù)。但是為方便起見,這里使用會話的方式請求數(shù)據(jù),配置好cookie和headers,省的每次請求都設(shè)置一遍。
def _init_session(self):
self.session = requests.Session()
for cookie in self.cookies:
self.session.cookies.set(cookie[‘name’], cookie[‘value’])
self.session.headers = {
‘Referer’: ‘https://qzs.qq.com/qzone/photo/v7/page/photo.html?init=photo.v7/module/albumList/index&navBar=1’,
‘User-Agent’: ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36’
}
請求相冊信息
獲取相冊信息,需要先封裝好請求參數(shù),第二通過session.get爬取數(shù)據(jù),再通過正則匹配以json格式讀取jsonp數(shù)據(jù),最后解析所需的name和id。
def _get_ablum_list(self):
“””獲取相冊的列表信息”””
album_url = ‘{}{}’.format(
‘https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/fcg_list_album_v3?’,
self._get_query_for_request())
logging.info(‘Getting ablum list id…’)
resp = self.session.get(album_url)
data = self._load_callback_data(resp)
album_list = {}
for item in data[‘data’][‘albumListModeSort’]:
album_list[item[‘name’]] = item[‘id’]
return album_list
其中的參數(shù)組合來自下面的函數(shù)_get_query_for_request函數(shù)。
def _get_query_for_request(self, topicId=None, pageStart=0, pageNum=100):
“””獲取請求相冊信息或照片信息所需的參數(shù)
Args:
topicId: 每個相冊對應(yīng)的唯一標(biāo)識符
pageStart: 請求某個相冊的照片列表信息所需的起始頁碼
pageNum: 單次請求某個相冊的照片數(shù)量
Returns:
一個組合好所有請求參數(shù)的字符串
“””
query = {
‘g_tk’: self.g_tk,
‘hostUin’: self.username,
‘uin’: self.username,
‘appid’: 4,
‘inCharset’: ‘utf-8’,
‘outCharset’: ‘utf-8’,
‘source’: ‘qzone’,
‘plat’: ‘qzone’,
‘format’: ‘jsonp’
}
if topicId:
query[‘topicId’] = topicId
query[‘pageStart’] = pageStart
query[‘pageNum’] = pageNum
return ‘&’.join(‘{}={}’.format(key, val) for key, val in query.items())
其中的jsonp解析函數(shù)如下,主體部分就是一個正則匹配,非常簡單。
def _load_callback_data(self, resp):
“””以json格式解析返回的jsonp數(shù)據(jù)”””
try:
resp.encoding = ‘utf-8′
data = loads(re.search(r’.*?(({.*}).*?).*’, resp.text, re.S)[1])
return data
except ValueError:
logging.error(‘Invalid input’)
解析并下載照片
獲取相冊列表后,逐個請求照片列表信息,進而逐一下載
def _get_photo(self, album_name, album_id):
“””獲取單個相冊的照片列表信息,并下載該相冊所有照片”””
photo_list_url = ‘{}{}’.format(
‘https://h5.qzone.qq.com/proxy/domain/photo.qzone.qq.com/fcgi-bin/cgi_list_photo?’,
self._get_query_for_request(topicId=album_id))
logging.info(‘Getting photo list for album {}…’.format(album_name))
resp = self.session.get(photo_list_url)
data = self._load_callback_data(resp)
if data[‘data’][‘totalInPage’] == 0:
return None
file_dir = self.get_path(album_name)
for item in data[‘data’][‘photoList’]:
path = ‘{}/{}.jpg’.format(file_dir, item[‘name’])
logging.info(‘Downloading {}-{}’.format(album_name, item[‘name’]))
self._download_image(item[‘url’], path)
下載圖片也是通過request,記得設(shè)置超時時間。
def _download_image(self, url, path):
“””下載單張照片”””
try:
resp = self.session.get(url, timeout=15)
if resp.status_code == 200:
open(path, ‘wb’).write(resp.content)
except requests.exceptions.Timeout:
logging.warning(‘get {} timeout’.format(url))
except requests.exceptions.ConnectionError as e:
logging.error(e.__str__)
finally:
pass
爬取測試
爬取過程
capturing
爬取結(jié)果
downloaded photos
寫在最后
如果將請求參數(shù)中的format由jsonp改成json,則可以直接獲取json數(shù)據(jù)本用例并未使用多進程或多線程,所以速率不算快,還有待優(yōu)化的地方
拓展知識:
原創(chuàng)文章,作者:九賢生活小編,如若轉(zhuǎn)載,請注明出處:http://cxzzxj.cn/47309.html