资源简介
wenku_test.py
代码片段和文件信息
#Python3.5
#2018/2/14
#参考教程:http://blog.csdn.net/c406495762/article/details/72331737#31-selenium
#待改进:中文字体;代码的通用性;无法爬取图片
from selenium import webdriver #webdriver用来打开网页
from bs4 import BeautifulSoup #用来爬取内容
import time #用来等待完全加载
from docx import Document #新建文档
from docx.enum.text import WD_ALIGN_PARAGRAPH #用来居中显示标题
def find_doc(driver i):
time.sleep(3)
html = driver.page_source
soup1 = BeautifulSoup(html ‘html.parser‘)
result = soup1.find(‘div‘ attrs = {‘class‘:‘doc-title‘} )
doc_title = result.get_text() ###得到文档标题
try:
elem = driver.find_element_by_xpath(“//div[@data-flod-fun=‘continue-read‘]“)
elem.click()
global doc_content_list
doc_content_list = []
except:
pass
result2 = soup1.find_all(‘p‘ attrs = {‘class‘:‘txt‘} )
for each in result2:
text2 = each.get_text()
if ‘ ‘ in text2:
text3 = text2.replace( ‘ ‘ ‘‘ )
else:
text3 = text2
doc_content_list.append(text3) ###得到正文内容
try:
elem = driv
- 上一篇:进程管理实验
- 下一篇:python采集阿里云监控sdk数据
相关资源
- python+ selenium教程
- 英文原版-Scientific Computing with Python
- CpuMemSets在Linux操作系统中的实现
- Python学习全系列教程永久可用
- 蓝奏云批量上传工具.zip
- python书籍 PDF
- 老男孩python项目实战
- Python.rar99111
- decision_tree_v2.py
- Python绝技运用Python成为顶级黑客.pdf
- python小波包文档及论文.zip
- Python黑帽子(黑客与渗透测试编程之
- FlaskWeb开发:基于Python的Web应用开发实
- Python基础教程第3版中英文源码.rar
- python数据结构与算法中文版.zip
- Python-冲顶大会芝士超人西瓜视频头脑
- time_series_forecasting_with_python.zip
- Python基础教程第三版PDF高清可复制.
- python编程从入门到实践.zip237878
- FlaskWeb开发:Python基于Web应用开发实战
- pythonBCRMDSJ.mobi
- 量化交易之路用Python做股票量化分析
- PYTHON自然语言处理中文版.pdf
- Python基础教程(第3版).rar
- GRAYHATPYTHON高清.英文.书签版.pdf
- Python简明教程第四版.rar
- Python编程:从入门到实践带书签完整
- Python基础教程(第3版).pdf109608
- vamei-从Python开始学编程.pdf
- 利用Python进行数据分析.pdf
评论
共有 条评论