资源简介
python实现对于整个网页内容的爬取,简单易写,非常适合对python爬虫的学习。

代码片段和文件信息
import urllib.request
import re
path=“https://www.ittime.com.cn/news/chuangxin.shtml“
def getData(path):
content=urllib.request.urlopen(path).read().decode(“UTF-8““ignore“)
# print(content)
imgRe=re.compile(r‘src=“(.*?\.jpg)“‘)
imagePaths=imgRe.findall(content)
print(“长度:“imagePaths.__len__())
for imagePath in imagePaths:
print(“https://www.ittime.com.cn“+imagePath)
titleRe=re.compile(r‘(.*?)
‘)
titles=titleRe.findall(content)
print(“标题长度:“titles.__len__())
for title in titles:
print(title)
for i in range(210):
getData(f“https://www.ittime.com.cn/news/chuangxin_{i}.shtml“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-11-10 10:42 GetITNews\
目录 0 2018-11-10 10:42 GetITNews\.idea\
文件 478 2018-11-10 10:18 GetITNews\.idea\GetITNews.iml
目录 0 2018-11-10 10:18 GetITNews\.idea\inspectionProfiles\
文件 306 2018-11-10 10:18 GetITNews\.idea\misc.xm
文件 277 2018-11-10 10:18 GetITNews\.idea\modules.xm
文件 9301 2018-11-10 10:42 GetITNews\.idea\workspace.xm
文件 724 2018-11-10 10:37 GetITNews\Test.py
目录 0 2018-11-10 10:42 GetITNews\venv\
目录 0 2018-11-10 10:18 GetITNews\venv\Include\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\
文件 55 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\easy-install.pth
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\
文件 1 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\dependency_li
文件 98 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\entry_points.txt
文件 2 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\not-zip-safe
文件 2972 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\PKG-INFO
文件 74 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\requires.txt
文件 12502 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\SOURCES.txt
文件 4 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\EGG-INFO\top_level.txt
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\
文件 14014 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
文件 8764 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\ba
文件 2773 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\build_env.py
文件 7023 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cache.py
文件 16679 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\cmdoptions.py
目录 0 2018-11-10 10:42 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\
文件 1500 2018-11-10 10:18 GetITNews\venv\Lib\site-packages\pip-10.0.1-py3.7.egg\pip\_internal\commands\check.py
............此处省略375个文件信息
相关资源
- Python-BDD100K大规模多样化驾驶视频数据
- Instant Pygame for Python Game Development How
- Biopython Tutorial
- Think Python 2nd
- 一个小小的表白程序(python)
- Python课堂笔记(高淇400集第一季)
- 二级考试python试题12套(包括选择题和
- pywin32_python3.6_64位
- python+ selenium教程
- PycURL(Windows7/Win32)Python2.7安装包 P
- 英文原版-Scientific Computing with Python
- 7.图像风格迁移 基于深度学习 pyt
- 基于Python的学生管理系统
- A Byte of Python(简明Python教程)(第
- Python实例174946
- Python 人脸识别
- Python 人事管理系统
- 一个多线程智能爬虫,爬取网站小说
- 基于python-flask的个人博客系统
- 计算机视觉应用开发流程
- python 调用sftp断点续传文件
- python socket游戏
- 基于Python爬虫爬取天气预报信息
- python函数编程和讲解
- 顶点小说单本书爬虫.py
- Python开发的个人博客
- 基于python的三层神经网络模型搭建
- python实现自动操作windows应用
- python人脸识别(opencv)
- python 绘图(方形、线条、圆形)
评论
共有 条评论