python爬取准备一了解HTML

网页源码

创新互联主要从事成都做网站、网站建设、外贸营销网站建设、网页设计、企业做网站、公司建网站等业务。立足成都服务新宁,10余年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

打开网页，按快捷键【Ctrl+U】打开源码页面
python爬取准备一了解HTML

HTML
HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的

常见的标签如下：

.. 表示标记中间的元素是网页
.. 表示用户可见的内容
.. 表示框架
.. 表示段落
..表示列表
..表示图片
..表示标题
..表示超链接

HTML
html示例
本地超链接可以为相对路径，也可以为绝对路径。
图片的地址可以为相对路径，也可以为绝对路径。

    
    
          这是HTML测试页面的主题
    
    
             
              这是标题   
              这是正文   
           
              
                   
                  这是一个列表       
                  这是一个网络超链接
                  这是一个本地超链接      
                  下面这个是一张图片

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"，效果如下：

python爬取准备一了解HTML

爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

python爬取准备一了解HTML

允许部分爬虫访问它的部分路径，而对于没有得到允许的，则全部禁止爬取

当前文章：python爬取准备一了解HTML
当前地址：http://kswjz.com/article/gojsjj.html

扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

python爬取准备一了解HTML

..

这是标题

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧在百度地图上找到我们

电话：13518219792

python爬取准备一了解HTML

..

这是标题

扫二维码与项目经理沟通

其他资讯

行业动态

企业网站建设的重要性！

服务项目

网站建设

移动端/APP

微信/小程序

技术支持

其它服务

更多服务项目

联系吧 在百度地图上找到我们

电话：13518219792

联系吧在百度地图上找到我们