资源简介
Python爬虫--抓取百度百科的前1000个页面的实现。
代码片段和文件信息
# coding:UTF8
from bs4 import BeautifulSoup
import re
html_doc = “““
tle>The Dormouse‘s story tle>
tle“>The Dormouse‘s story
Once upon a time there were three little sisters; and their names were
nk1“>Elsie
nk2“>Lacie and
nk3“>Tillie;
and they lived at the bottom of a well.
...
“““
soup = BeautifulSoup(html_doc ‘html.parser‘ from_encoding=‘utf-8‘)
print ‘get all links‘
links = soup.find_all(‘a‘)
for link in links:
print link.name link[‘href‘] link.get_text()
print ‘\nget lacie link‘
link_node = soup.find(‘a‘ href=“http://example.com/lacie“)
print link_node.name link_node[‘href‘] link_node.get_text()
print ‘\nre‘
link_node = soup.find(‘a‘ href=re.compile(r“ill“))
print link_node.name link_node[‘href‘] link_node.get_text()
print ‘\np‘
p_node = soup.find(‘p‘ class_=“title“)
print p_node.namep_node.get_text()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 1161 2016-10-30 13:31 reptile\test_bs4.py
文件 0 2016-10-30 13:20 reptile\__init__.py
目录 0 2016-10-30 13:21 reptile
----------- --------- ---------- ----- ----
1161 3
- 上一篇:nlp肯定句与否定句判断
- 下一篇:python简单实现-中国象棋
相关资源
- Python爬虫相关书籍.zip
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- 一套最新价值1680元的python爬虫实战全
- 11-Python爬虫工程师-App抓取进阶
- 法律判决文书python爬虫、以及数据处
- Python爬虫、Flask框架与ECharts实现数据
- Python爬虫入门到实战 (二花) PDF版
- 学习python爬虫看一篇就足够了之爬取
- 基于Python智联招聘牌爬虫+本科毕业论
- Python爬虫开源项目代码
- 《Python爬虫-开发与项目实战》源码
- Python爬虫爬取智联招聘
- Python爬虫入门:如何爬取招聘网站并
- 基于selenium模拟天眼查登录并爬取企业
- python爬虫爬取杭州市幼儿园信息
- 《零基础:21天搞定Python分布爬虫》课
- python爬虫爬取豆瓣评分数据
- 利用python做的一个简单爬虫程序,可
- Python爬虫教学PPT
- Python爬虫开发与项目实战.mobi
- (一)python爬虫验证码识别去除干扰
- 全套从零开始学Python网络爬虫教学以
- python爬虫项目
- Python爬虫抓取东方财富网股票数据并
- Python爬虫自学书籍入门到精通PDF.7z
- Python爬虫开发与项目源代码
- python知网爬虫
- Python-爬取百度百科中文页面抽取三元
- 完整python项目,python爬虫 爬取今日头
评论
共有 条评论