资源简介
python实现对于整个网页内容的爬取,简单易写,非常适合对python爬虫的学习。
代码片段和文件信息
import urllib.request
import re
path=“https://www.ittime.com.cn/news/chuangxin.shtml“
def getData(path):
content=urllib.request.urlopen(path).read().decode(“UTF-8““ignore“)
# print(content)
imgRe=re.compile(r‘src=“(.*?\.jpg)“‘)
imagePaths=imgRe.findall(content)
print(“长度:“imagePaths.__len__())
for imagePath in imagePaths:
print(“https://www.ittime.com.cn“+imagePath)
titleRe=re.compile(r‘(.*?)
‘)
titles=titleRe.findall(content)
print(“标题长度:“titles.__len__())
for title in titles:
print(title)
for i in range(210):
getData(f“https://www.ittime.com.cn/news/chuangxin_{i}.shtml“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-11-10 10:42 GetITNews\
目录 0 2018-11-10 10:42 GetITNews\.idea\
文件 478 2018-11-10 10:18 GetITNews\.idea\GetITNews.iml
目录 0 2018-11-10 10:18 GetITNews\.idea\inspectionProfiles\
文件 306 2018-11-10 10:18 GetITNews\.idea\misc.xm
文件 277 2018-11-10 10:18 GetITNews\.idea\modules.xm
文件 9301 2018-11-10 10:42 GetITNews\.idea\workspace.xm
文件 724 2018-11-10 10:37 GetITNews\Test.py
目录 0 2018-11-10 10:42 GetITNews\venv\
目录 0 2018-11-10 10:18 GetITNews\venv\Include\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\
文件 55 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\easy-install.pth
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\
文件 1 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\dependency_li
文件 98 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\entry_points.txt
文件 2 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\not-zip-safe
文件 2972 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\PKG-INFO
文件 74 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\requires.txt
文件 12502 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\SOURCES.txt
文件 4 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\top_level.txt
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\
文件 14014 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
文件 8764 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
文件 2773 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\build_env.py
文件 7023 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cache.py
文件 16679 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cmdoptions.py
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\
文件 1500 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\check.py
............此处省略375个文件信息
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论