资源简介
wenku_test.py
代码片段和文件信息
#Python3.5
#2018/2/14
#参考教程:http://blog.csdn.net/c406495762/article/details/72331737#31-selenium
#待改进:中文字体;代码的通用性;无法爬取图片
from selenium import webdriver #webdriver用来打开网页
from bs4 import BeautifulSoup #用来爬取内容
import time #用来等待完全加载
from docx import Document #新建文档
from docx.enum.text import WD_ALIGN_PARAGRAPH #用来居中显示标题
def find_doc(driver i):
time.sleep(3)
html = driver.page_source
soup1 = BeautifulSoup(html ‘html.parser‘)
result = soup1.find(‘div‘ attrs = {‘class‘:‘doc-title‘} )
doc_title = result.get_text() ###得到文档标题
try:
elem = driver.find_element_by_xpath(“//div[@data-flod-fun=‘continue-read‘]“)
elem.click()
global doc_content_list
doc_content_list = []
except:
pass
result2 = soup1.find_all(‘p‘ attrs = {‘class‘:‘txt‘} )
for each in result2:
text2 = each.get_text()
if ‘ ‘ in text2:
text3 = text2.replace( ‘ ‘ ‘‘ )
else:
text3 = text2
doc_content_list.append(text3) ###得到正文内容
try:
elem = driv
- 上一篇:进程管理实验
- 下一篇:python采集阿里云监控sdk数据
相关资源
- 《Python3网络爬虫开发实战》中文PDF
-
unti
tled2.py - 疯狂Python讲义习题答案.rar
- 传智播客Python就业班2018.zip
- prepro.py
- python视频教程.txt
- python网盘.txt
- Python学习路线Python课程大纲Python视频
- 实现火车票查询python.zip
- python.txt
- Violent-Python-Source.zip
- Python学习教程哈工大、嵩天.txt
- python视频资料.zip
- python从入门到精通视频全60集百度云链
- 小甲鱼零基础入门学习Python全套源码
- vgg_easy.py
- scel2txt.py
- 小甲鱼Python零基础免费全套视频教学
- 传智播客python最新视频.txt
- Python升级3.6强力Django杀手级Xadmin打造
- shuake.py
- 51Job.py
- python3网络爬虫与开发实战崔庆才PDF百
- python300G视频书籍教程.zip
- 5652华尔街见闻.py
- hulk.py
- 麦子学院Python视频.txt
- python核心基础.txt
- 仿真3D版本.py
- Python零基础10天进阶班.rar
评论
共有 条评论