python爬取淘宝商品价格_python爬取淘宝商品资源-CSDN文库

共1个文件

py：1个

python

需积分: 5 21 浏览量 2023-07-26 13:21:06 上传评论 1 收藏 2KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

python爬取淘宝商品价格.zip （1个子文件）

python爬取淘宝商品价格

CrawTaobaoPrice.py 3KB

import requests import re def getHTMLText(url): #获得页面函数,淘宝需要登录验证，暂时访问不了 try: header={ 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', 'cookie':'cookie2=11c16410d3a6142b1fdd7a16015dd03d; t=09f34aa2c73f130d6c7184f5df19318f; _tb_token_=387eb33dee36b; cna=3M6cFtwvoFgCAXLchLEf1mZd; v=0; unb=2015695879; uc3=vt3=F8dBxdkOfjJ3eDeXSSI%3D&lg2=V32FPkk%2Fw0dUvg%3D%3D&nk2=tacC1tKNp%2Flo&id2=UUjQnXynNxyppA%3D%3D; csg=0b016f75; lgc=%5Cu6731%5Cu5B5C%5Cu8F69zzx; cookie17=UUjQnXynNxyppA%3D%3D; dnk=%5Cu6731%5Cu5B5C%5Cu8F69zzx; skt=24b614735d33b345; existShop=MTU3ODQ5MjE0MA%3D%3D; uc4=nk4=0%40txMJ9z03E8Z3GRFQEHZ3NdNLHdU%3D&id4=0%40U2oyV9BEdCasU86z%2Bh8TF2rESQec; tracknick=%5Cu6731%5Cu5B5C%5Cu8F69zzx; _cc_=VT5L2FSpdA%3D%3D; tg=0; _l_g_=Ug%3D%3D; sg=x9b; _nk_=%5Cu6731%5Cu5B5C%5Cu8F69zzx; cookie1=WvNAaZtZc3obpDNGHdQ%2BnDNUGwSycqAEVFI5i3CFl8A%3D; enc=X7yKcnL4fJK1gvtDWpQOSrrhkUDEK2b7LCvDjfkAvZWuuLMgw%2B0Vzt2z4QhhY%2F5mRjiWsTiRjqSKN34mjIJsfw%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; uc1=cookie16=VFC%2FuZ9az08KUQ56dCrZDlbNdA%3D%3D&cookie21=UtASsssmeW6lpyd%2BB%2B3t&cookie15=UtASsssmOIJ0bQ%3D%3D&existShop=false&pas=0&cookie14=UoTbldZgIdco1w%3D%3D&tag=8&lng=zh_CN; mt=ci=0_1; thw=cn; JSESSIONID=E85E6E6772327F04DA28C3EEB6B007EE; l=dBL71UGcQTh-dKBCBOfIKEPu0pQ9qBOb4sPy3z80uICP9Q5p-D4NWZDWy289CnGVH62vR3PBVv73BeYBqCmWfdW22j-la7ijndC..; isg=BLa23G0l9BSdP4BwsNSxjifQB-y41_oRfLPT6SCY9xk0Y1b9iGfLIR0Ze3-qS_Ip' } r=requests.get(url,headers=header,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding # print(r.text) return r.text except: return "" def parsePage(ilt,html): #解析获得的页面 try: plt=re.findall(r'\"view_price\"\:\"[\d\.]*"',html) tlt=re.findall(r'\"raw_title\"\:\".*?"',html) for i in range(len(plt)): price=eval(plt[i].split(':')[1]) title=eval(tlt[i].split(':')[1]) ilt.append([price,title]) except: print("") def printGoodlist(ilt): #输出结果信息到屏幕 tplt="{:4}\t{:8}\t{:16}" print(tplt.format("序号","价格","商品名称")) count=0 for g in ilt: count=count+1 print(tplt.format(count,g[0],g[1])) def main(): #主函数 goods='书包' depth=2 #下一页深度 start_url='https://s.taobao.com/search?q=' + goods indolist=[] #输出结果 for i in range(depth): try: url=start_url + '&s=' + str(44*i) html=getHTMLText(url) parsePage(indolist,html) except: continue printGoodlist(indolist) main()

评论收藏

内容反馈