python爬虫之BeautifulSoup库的基本使用

import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {}
values['name'] = 'Michael Foord'
values['location'] = 'Northampton'
values['language'] = 'Python'

创新互联专注为客户提供全方位的互联网综合服务，包含不限于网站设计制作、成都网站制作、红岗网络推广、微信小程序、红岗网络营销、红岗企业策划、红岗品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联为所有大学生创业者提供红岗建站搭建服务，24小时服务热线：18980820575，官方网址：www.cdcxhl.com

data = urllib.urlencode(values) #数据进行编码生成get方式的请求字段
req = urllib2.Request(url,data) #作为data参数传递到Request对象中 POST方式访问
response = urllib2.urlopen(req) 返回一个类文件对象
the_page = response.read()
soup = BeautifulSoup(the_page，"html.parser") 通过类文件the_page 创建beautifulsoup对象，soup的内容就是页面的源码内容
soup.prettify() 格式化后soup内容
构造好BeautifulSoup对象后，借助find()和find_all()这两个函数，可以通过标签的不同属性轻松地把繁多的html内容过滤为你所想要的
url_name = line.get('href') 获取a标签的url信息
Title = line.get_text().strip() 获取a标签的文本内容
Beautiful Soup支持Python标准库中的HTML解析器
BeautifulSoup(markup, “html.parser”)
BeautifulSoup(markup, “lxml”)
BeautifulSoup(markup, “html5lib”)
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象
soup.p.attrs 获取标签p的属性信息
find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件
1.name 参数
传字符串:soup.find_all('b') 查找文档中所有的标签
传正在表达式 import re for tag in soup.find_all(re.compile("^b")) 正则表达式的 match() 来匹配内容
传列表 soup.find_all(["a", "b"])
传True for tag in soup.find_all(True) 查找到所有的tag
传方法
def has_class_but_no_id(tag):
return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(has_class_but_no_id('p'))
2.keyword 参数
soup.find_all(id='link2')
soup.find_all(href=re.compile("elsie"))
soup.find_all(href=re.compile("elsie"), id='link1')
soup.findall("a", class="sister") 用 class 过滤, class 是 python 的关键词，加个下划线就可以
data_soup.find_all(attrs={"data-foo": "value"}) 特殊属性用attrs 组成字典进行查询

3.text 参数
soup.find_all(text="Elsie")
soup.find_all(text=["Tillie", "Elsie", "Lacie"])
soup.find_all(text=re.compile("Dormouse"))
4.limit 参数
soup.find_all("a", limit=2)
5.recursive 参数
soup.html.find_all("title", recursive=False)

find() 与find_all()的区别是，find()直接返回结果
find_all() 和 find() 只搜索当前节点的所有子节点,孙子节点等. find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容
find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点
find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点, find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点
find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点
find_all_previous() 方法返回所有符合条件的节点, find_previous()方法返回第一个符合条件的节点

CSS选择器
1.通过标签名查找
print soup.select('title')
print soup.select('a')
2.通过类名查找
print soup.select('.sister')
3.通过 id 名查找
print soup.select('#link1')
4.组合查找
print soup.select('p #link1')
5.属性查找
print soup.select('a[class="sister"]')
print soup.select('a[href="http://example.com/elsie"]')
print soup.select('p a[href="http://example.com/elsie"]')
select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容
soup.a.attrs) # 获取a标签的所有属性(注意到格式是字典)

新闻名称：python爬虫之BeautifulSoup库的基本使用
网站链接：http://kswjz.com/article/ppjdpe.html

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

其他资讯

公司用windows系统的简单介绍
关于windows先后系统的信息
python画微分函数图,python中的画图函数
oracle如何修改字段精度,oracle怎么修改字段长度
关于html5,关于HTML5说法正确的是

行业动态

企业网站建设的重要性！

现在虽然是移动互联网时代，但企业网站依然重要，包含PC站点，移动站。可以说企业网站关系企业的未来发展和前途，尤其对中小企业更是如此，一些中小企业老板，对自己的名片很在乎，因为这是个门面。...

服务项目

网站建设

查看详情

移动端/APP

查看详情

微信/小程序

查看详情

技术支持

查看详情

其它服务

查看详情

更多服务项目

用我们的专业和诚信赢得您的信赖，从PC到移动互联网均有您想要的服务！
获取更多

联系吧在百度地图上找到我们

电话：13518219792

如遇占线或暂未接听请拨：136xxx98888

业务咨询技术咨询售后服务

网站设计

阿坝网站设计
成都网站设计
成都品牌网站设计
四川成都网站设计

网站制作

成都网站制作
手机网站制作设计
广安网站制作公司
手机网站制作

联系我们

电话：13518219792

邮箱：631063699@qq.com

地址：成都青羊区锦天国际1002号

网址：www.kswjz.com

网站建设

成都网站建设哪家好
温江网站建设
高端品牌网站建设
响应式网站建设

微信二维码

友情链接

小谭网创广告
营销型网站建设
宣传册设计
西部信息服务器托管
百度关键词排名
wap网站制作
卖友情链接
建站定制开发
网站快速收录
四川广汉锦华

Copyright © 2002-2023 www.kswjz.com 快上网建站品牌 QQ：244261566 版权所有 备案号：蜀ICP备19037934号

在线咨询

13518219792

微信二维码

移动版官网

python爬虫之BeautifulSoup库的基本使用

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧 在百度地图上找到我们

电话：13518219792

联系吧在百度地图上找到我们