• 大小: 1.77MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-09-02
  • 语言: 其他
  • 标签: python  ppt  学习  jiaoliu  

资源简介

具有py程序和相应的PPT教学辅导,代码简单清晰,ppt讲解详细,非常适合初学者的一次实战体验和学习。

资源截图

代码片段和文件信息

# urllib2的使用:注意在python3.3后urllib2已经不能再用,只能用urllib.request来代替
#  
# import urllib.request
# import re
# data = urllib.request.urlopen(‘https://blog.csdn.net/‘).read().decode(“utf-8“)
# pat=“tle>(.*?)tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])


# # 通过设置header头,伪装浏览器用户
# import urllib.request
# import re
# posturl = ‘https://blog.csdn.net/‘
# headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
# req = urllib.request.Request(posturlheaders=headers)
# data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
# pat=“tle>(.*?)tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])



# post请求带参数
# import urllib.request
# import urllib.parse
# import re
# posturl = ‘https://blog.csdn.net/‘
# postdata = urllib.parse.urlencode({
#       ‘name‘:‘ceo@txk7.com‘
#       ‘pass‘:‘kjsahajkashg‘
# }).encode(“utf-8“)
# headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
# #进行post,就需要使用urllib.request下面的Request(真实post地址,post数据)
# req = urllib.request.Request(posturlpostdataheaders=headers)
# data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)

# pat=“tle>(.*?)tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])


‘‘‘
import urllib.request
import re
posturl = ‘https://list.jd.com/list.html?cat=9987653655‘
headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
req = urllib.request.Request(posturlheaders=headers)
data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
pat=‘
plist=re.compile(pat).findall(data)
for i in range(0len(plist)):
    img = plist[i]
    imgurl = “https:“+img
    urllib.request.urlretrieve(imgurlfilename=“./imgs/“+str(i)+“.jpg“)
    print(str(i)+“.jpg“)
‘‘‘

# 采用lxml的xpath: 先安装lxml: pip install lxml
# XPath 是一门在 xml 文档中查找信息的语言。XPath 可用来在 xml 文档中对元素和属性进行遍历
import urllib.request
from lxml import etree #导入xpath的使用
import re
posturl = ‘https://list.jd.com/list.html?cat=9987653655‘
headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
req = urllib.request.Request(posturlheaders=headers)
data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
#pat=‘
#plist=re.compile(pat).findall(data)
html = etree.HTML(data)
plist = html.xpath(‘//img[@width=“220“]/@data-lazy-img‘)
for i in range(0len(plist)):
    img = plist[i]
    imgurl = “https:“+img
    urllib.request.urlretrieve(imgurlfilename=“./imgs/“+str(i)+“.jpg“)
    print(str(i)+“.jpg“)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件           0  2018-03-23 05:04  缃戠粶鐖櫕鐨勫垵娆′綋楠?
     文件        2834  2018-03-22 18:47  缃戠粶鐖櫕鐨勫垵娆′綋楠?1.py
     文件         368  2018-03-22 18:56  缃戠粶鐖櫕鐨勫垵娆′綋楠?2.py
     文件         401  2018-03-22 19:14  缃戠粶鐖櫕鐨勫垵娆′綋楠?3.py
     文件         716  2018-03-22 21:00  缃戠粶鐖櫕鐨勫垵娆′綋楠?demo.py
     目录           0  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\
     文件       21100  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\20.jpg
     文件       30234  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\21.jpg
     文件        5693  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\210.jpg
     文件       32736  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\211.jpg
     文件       16459  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\212.jpg
     文件       15277  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\213.jpg
     文件       34232  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\214.jpg
     文件       32354  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\215.jpg
     文件       27350  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\216.jpg
     文件       39443  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\217.jpg
     文件       26389  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\218.jpg
     文件       39005  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\219.jpg
     文件       20432  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\22.jpg
     文件        9938  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\220.jpg
     文件       43432  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\221.jpg
     文件       34232  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\222.jpg
     文件        9192  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\223.jpg
     文件       10083  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\224.jpg
     文件       25156  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\225.jpg
     文件       43295  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\226.jpg
     文件       24499  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\227.jpg
     文件        9716  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\228.jpg
     文件       25577  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\229.jpg
     文件       20105  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\23.jpg
     文件       20417  2018-03-22 21:03  缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\230.jpg
............此处省略26个文件信息

评论

共有 条评论