资源简介
具有py程序和相应的PPT教学辅导,代码简单清晰,ppt讲解详细,非常适合初学者的一次实战体验和学习。
![](http://www.nz998.com/pic/51882.jpg)
代码片段和文件信息
# urllib2的使用:注意在python3.3后urllib2已经不能再用,只能用urllib.request来代替
#
# import urllib.request
# import re
# data = urllib.request.urlopen(‘https://blog.csdn.net/‘).read().decode(“utf-8“)
# pat=“tle>(.*?) tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])
# # 通过设置header头,伪装浏览器用户
# import urllib.request
# import re
# posturl = ‘https://blog.csdn.net/‘
# headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
# req = urllib.request.Request(posturlheaders=headers)
# data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
# pat=“tle>(.*?) tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])
# post请求带参数
# import urllib.request
# import urllib.parse
# import re
# posturl = ‘https://blog.csdn.net/‘
# postdata = urllib.parse.urlencode({
# ‘name‘:‘ceo@txk7.com‘
# ‘pass‘:‘kjsahajkashg‘
# }).encode(“utf-8“)
# headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
# #进行post,就需要使用urllib.request下面的Request(真实post地址,post数据)
# req = urllib.request.Request(posturlpostdataheaders=headers)
# data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
# pat=“tle>(.*?) tle>“
# rst=re.compile(pat).findall(data)
# print(rst[0])
‘‘‘
import urllib.request
import re
posturl = ‘https://list.jd.com/list.html?cat=9987653655‘
headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
req = urllib.request.Request(posturlheaders=headers)
data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
pat=‘
‘
plist=re.compile(pat).findall(data)
for i in range(0len(plist)):
img = plist[i]
imgurl = “https:“+img
urllib.request.urlretrieve(imgurlfilename=“./imgs/“+str(i)+“.jpg“)
print(str(i)+“.jpg“)
‘‘‘
# 采用lxml的xpath: 先安装lxml: pip install lxml
# XPath 是一门在 xml 文档中查找信息的语言。XPath 可用来在 xml 文档中对元素和属性进行遍历
import urllib.request
from lxml import etree #导入xpath的使用
import re
posturl = ‘https://list.jd.com/list.html?cat=9987653655‘
headers={“User-Agent“:“Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)“}
req = urllib.request.Request(posturlheaders=headers)
data = urllib.request.urlopen(req).read().decode(‘utf-8‘‘ignore‘)
#pat=‘
‘
#plist=re.compile(pat).findall(data)
html = etree.HTML(data)
plist = html.xpath(‘//img[@width=“220“]/@data-lazy-img‘)
for i in range(0len(plist)):
img = plist[i]
imgurl = “https:“+img
urllib.request.urlretrieve(imgurlfilename=“./imgs/“+str(i)+“.jpg“)
print(str(i)+“.jpg“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 0 2018-03-23 05:04 缃戠粶鐖櫕鐨勫垵娆′綋楠?
文件 2834 2018-03-22 18:47 缃戠粶鐖櫕鐨勫垵娆′綋楠?1.py
文件 368 2018-03-22 18:56 缃戠粶鐖櫕鐨勫垵娆′綋楠?2.py
文件 401 2018-03-22 19:14 缃戠粶鐖櫕鐨勫垵娆′綋楠?3.py
文件 716 2018-03-22 21:00 缃戠粶鐖櫕鐨勫垵娆′綋楠?demo.py
目录 0 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\
文件 21100 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\20.jpg
文件 30234 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\21.jpg
文件 5693 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\210.jpg
文件 32736 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\211.jpg
文件 16459 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\212.jpg
文件 15277 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\213.jpg
文件 34232 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\214.jpg
文件 32354 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\215.jpg
文件 27350 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\216.jpg
文件 39443 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\217.jpg
文件 26389 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\218.jpg
文件 39005 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\219.jpg
文件 20432 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\22.jpg
文件 9938 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\220.jpg
文件 43432 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\221.jpg
文件 34232 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\222.jpg
文件 9192 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\223.jpg
文件 10083 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\224.jpg
文件 25156 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\225.jpg
文件 43295 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\226.jpg
文件 24499 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\227.jpg
文件 9716 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\228.jpg
文件 25577 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\229.jpg
文件 20105 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\23.jpg
文件 20417 2018-03-22 21:03 缃戠粶鐖櫕鐨勫垵娆′綋楠?imgs\230.jpg
............此处省略26个文件信息
相关资源
- Pythonamp;课堂amp;笔记(高淇amp;400;集第
- scratch 第1课 翻跟斗的小猫(入门)
- Python中Numpy库最新教程
- 用python编写的移动彩信的发送程序
- Python全栈学习笔记面向对象大作业:
- python实现的ftp自动上传、下载脚本
- vrml学习实例
- 组态软件IFIX 学习 教程
- JM阅读笔记(学习H264)
- 清华大学 c 郑莉 ppt课件
- 题库管理系统(包括11页的论文,PP
- 茶叶网站源码茶叶仅供学习
- C51单片机汇编指令查询、学习工具集
- 电子商务安全导论课件ppt(1-12章)
- 数据结构课件(北邮)
- VHDL学习及实例(100个例子)
- 郭永康 光学教材ppt
- 日语助词详解(对于初级中级学习者
- 大学物理光学部分的PPT
- Python版的A*寻路算法
- 机械制造工艺学 ppt
- IronPython IDE
- 北京大学操作系统PPT课件,陈向群
- Linux操作系统课件PPT
- 《操作系统原理及应用Linux》PPT
- 学习强国auto.js
- ARM64 完整指令集,学习必备
- ppt 机器学习.ppt
- 云计算概述PPT128419
- halcon-ocr训练及识别
评论
共有 条评论