锐单电子商城 , 一站式电子元器件采购平台!
  • 电话:400-990-0325

Python爬虫之BeautifulSoup

时间:2022-10-02 00:00:01 继电器添加20d15dn31b7c控制继电器

目录

  • BeautifulSoup介绍
  • BeautifulSoup安装
  • 使用
    • 简单使用
    • 标签选择器
      • 获取整个标签,包括内容和标签本身
    • 获取标签名称
    • 获取标签属性
    • 获取标签内容
    • 获取嵌套标签
    • 获取子节点
      • 获取列表形式
      • 获取迭代器形式
    • 获取所有子孙节点
    • 获取父节点
    • 获取祖先节点
    • 获取兄弟节点
  • 标准选择器
    • 通过标签名(name) 查找
    • 通过属性(attrs)查找
    • 搜索传入式选择器
    • 通过内容(text)选择
  • 通过css样式选择
    • select 获取标签
  • 总结:


BeautifulSoup介绍

Beautiful Soup是python库的主要功能是从网页上捕获数据。官方解释如下:
Beautiful Soup提供一些简单的,python该函数用于处理导航、搜索、修改分析树等功能。它是一个工具箱,通过分析文档为用户提供需要捕获的数据,因为它很简单,所以写一个完整的应用程序不需要太多的代码。Beautiful Soup输入文档自动转换为输入文档Unicode编码,输出文档转换为utf-8编码。除非文档没有指定编码方法,否则不需要考虑编码方法,Beautiful Soup编码方法无法自动识别。

BeautifulSoup安装

  • 安装BeautifulSoup

Beautiful Soup 3 已停止开发,建议在当前项目中使用Beautiful Soup 但是它已经移植到了BS也就是说,我们需要导入 import bs4 。

pip install beautifulsoup4
  • 安装lxml解析器

Beautiful Soup支持Python标准库中的HTML如果我们不安装它,分析器还支持一些第三方分析器 Python 会使用 Python默认分析器,lxml 建议安装分析器更强、更快。

pip install lxml 

使用

简单使用

import requests from bs4 import BeautifulSoup html = requests.get("https://book.douban.com").text #获取html代码 soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象 soup.prettify() #自动补充缺省html代码 print(soup.title.string) #获取title内容
    豆瓣读书 

标签选择器

获取整个标签,包括内容和标签本身

获得标签时,返回第一个标签

import requests from bs4 import BeautifulSoup html = requests.get("https://book.douban.com").text #获取html代码 soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象 soup.prettify() #自动补充缺省html代码 print(soup.title) #获取title标签 print(type(soup.title)) #查看soup.title返回的类型 print(soup.head) #获取head标签  print(soup.p) #获取p标签
     豆瓣读书                    豆瓣读书    












豆瓣

获取标签名字

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.title.name) #获取title内容
title

获取标签属性

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.a['href']) #获取title内容
https://www.douban.com/accounts/login?source=book

获取标签内容

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.a.string) #获取a内容
登录

嵌套标签获取

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.head.title.string) #获取a内容
    豆瓣读书

获取子节点

列表形式获取

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.p.contents) #获取子节点
['登录']

迭代器形式获取

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.p.children) #获取子节点
for i,child in enumerate (soup.p.children):
    print(i,child)

0 豆瓣

获取所有子孙节点

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.p.descendants) #获取子孙节点
for i,child in enumerate (soup.p.descendants):
    print(i,child)

0 豆瓣

获取父节点

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
print(soup.a.parent) #获取a的父标签

获取祖先节点

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
# soup.prettify() #自动补全缺省的html代码
# for i,child in enumerate (soup.a.parents):
# print(i,child)

获取兄弟节点

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
for i,child in enumerate (soup.a.next_siblings): #获取下面的兄弟节点
    print(i,child)
for i,child in enumerate (soup.a.previous_siblings):#获取上面的兄弟节点
    print(i,child)
0 

1 注册
2 

0 

标准选择器

可以根据标签 内容,属性查找

原型:

find_all(name,attrs,recursive,text,**kwargs)

通过标签名(name) 查找

import requests
from bs4 import BeautifulSoup
html = requests.get("https://book.douban.com").text #获取html代码
soup=BeautifulSoup(html,'lxml') #使用lxml解析器生成soup对象
soup.prettify() #自动补全缺省的html代码
# print(soup.find_all('ul'))

for ul in soup.find_all('ul'):
    print(ul.find_all('li'))
[
  • 豆瓣
  • ,
  • 读书
  • ,
  • 电影
  • ,
  • 音乐
  • ,
  • 同城
  • ,
  • 小组
  • ,
  • 阅读
  • ,
  • FM
  • ,
  • 时间
  • ,
  • 豆品
  • ,
  • 更多
  • ] [
  • 购书单
  • ,
  • 电子图书
  • ,
  • 豆瓣书店
  • ,
  • 2017年度榜单
  • ,
  • 2017读书报告
  • ,
  • 购物车
  • ] [
  • 推荐
    [美] 伊沛霞

    宋徽宗

    [美] 伊沛霞 / 2018-8 / 理想国 | 广西师范大学出版社

    【本书看点】 ★ 以现代史家之眼,还原宋徽宗的真实生命历程——抛开中国传统史学符号化的道德指责,伊沛霞教授以“了解之同情”的现代学术立场与现代政治观点,从宋徽宗自己的视角出发,再现了北宋末期的历史与时代风貌。 ★ 北宋末期,中国的艺术水平究竟取得了多高的成就?——作为历史上屈指可数天赋极高的艺术家皇帝,在书法、绘画、诗词、茶道、建筑等多个领域,...

  • ,
  • 推荐
    [俄] 赫尔岑

    往事与随想

    [俄] 赫尔岑 / 2018-8 / 后浪丨四川人民出版社

    俄国文学的伟大纪念碑 在历史激流中把握命运,伸张人的善与自由 ◎ 编辑推荐 ◆ 赫尔岑是俄国反沙皇专制的伟大斗士,影响了俄国、欧洲乃至世界上一代又一代的思想者与革命者。 ◆ 全书所述历史含括广泛,拿破仑一世、亚历山大一世、尼古拉一世、别林 斯基、恰达耶夫、巴枯宁、马志尼 、蒲鲁东、拿破仑三世等人物纷纷登场,鲜活生动,妙趣横生。 ◆ 本书不仅讲述历史,剖析人...

  • ,
  • 推荐
    [马来西亚]维申·拉克雅礼(Vishen Lakhiani)

    生而不凡

    [马来西亚]维申·拉克雅礼(Vishen Lakhiani) / 2018-8 / 机械工业出版社

    当今个人成长领域最具影响力的专家之一维申·拉克雅礼,融合积极心理学、计算机思维、整体理论、现代灵性、进化生物学等内容,再加上对特斯拉创始人埃隆·马斯克、维珍品牌创始人理查德·布兰森等全球50位卓越人士超过200个小时的采访,以及通过创办的互联网公司Mindvalley所接触到的150万用户,总结了一套完整的知识框架,提出10个颠覆性思维: 1. 超越普世原则; 2. ...

  • ,
  • 推荐
    石玉 / 刘东炎

    用一朵花改变世界

    石玉 / 刘东炎 / 2018-6 / 中国友谊出版公司

    这样一个生活节奏飞快的时代,有一群人,他们的生活方式令人十分羡慕。他们和鲜花为伍,会走访非洲草原、挪威森林,寻找zui奇特的植物,分享zui美的花艺,让我们能观赏到鲜花的盛宴。这本书呈现的正是这样一群人的生活。 本书灵魂人物,刘东炎是中赫时尚国际花艺联盟的召集人,他希望中国花艺界可以和国际花艺圈更好的交流和容纳。过去十年间,他走访世界各地,拜访早...

  • ,
  • 推荐
    日本NHK特别节目录制组

    老后破产

    日本NHK特别节目录制组 / 2018-8-1 / 上海译文出版社

    《老后破产:所谓“长寿”的噩梦》是NHK特别节目录制组的采访过程全记录,也是已经有良好口碑的“译文纪实”系列的第28本。NHK特别节目录制组以“金钱问题”为主轴,揭露“老后破产”在居住、生活、医疗、人际关系等面向中的各种影响。“老后破产”在日本是热门话题,中国已经进入老龄化社会,如何养老也成为避不开的话题。 有存款,有房子,有年金,为什么还会“...

  • ,
  • [英] 伊恩·麦克尤恩

    坚果壳

    [英] 伊恩·麦克尤恩 / 2018-8 / 上海译文出版社

    《坚果壳》是伊恩•麦克尤恩的最新作品,小说以一个未出生婴儿的视角重述了一个现代版《哈姆雷特》的故事。特鲁迪背叛了丈夫约翰,与丈夫的弟弟克劳德勾搭成奸。与此同时,身怀六甲的特鲁迪还居住在约翰的祖宅中,却将丈夫拒之门外。特鲁迪与克劳德密谋杀害约翰,从而霸占这栋豪宅,但一切都被特鲁迪腹中九个月大的婴儿所洞悉……

  • ,
  • [英] 理查德•霍加特

    识字的用途

    [英] 理查德•霍加特 / 2018-8-1 / 上海人民出版社

    当一个社会变得更富裕时,它会失去其他价值吗?教育和识字能力使数百万人浪费在消费流行文化上吗?媒体是否强迫我们进入表象和物质的世界,抑或这一切都充盈美好? 本书提出这些问题时,英国正在经历20世纪中期巨大的社会变革,然而作者具有里程碑意义的工作今天却没有失去其针对性和力量。作者对英格兰北部消失的工人阶级社区的价值观提供了迷人的洞见,并将其与他...

  • ,
  • 王XX

    总觉得有哪里不错

    王XX / 2018-8-20 / 上海文艺出版社

    这是一部又丧又治愈的海豹生活纪录片,海豹依旧在她的世界里遇到各种各样的豹生难题,有时候会因为没钱了所以不得不熬夜去工作,喝酒了之后会想起不怎么样的鲨鱼前男友,委屈又难过,就连宅在家里也会莫名情绪低落,不过事情的发展好像也没有那么糟糕,毕竟超级爱海豹的小章鱼总会陪在她身边,生活在夹缝中也能看到不错的风景。 ◆继《喜欢我也没关系》之后,海豹故事...

  • ,
  • [美] 克里斯·克劳利 / 亨利·洛奇

    明年更年轻:运动赋能篇

    [美] 克里斯·克劳利 / 亨利·洛奇 / 2018-9 / 后浪丨北京联合出版公司

    风靡全球的《明年更年轻》配套训练手册 70%的疾病源自不健康的生活方式,通过运动就能轻松摆脱 ◎ 编辑推荐 ☆ 基于科学界关于衰老的认知革命,由美国顶级私人教练精心设计的运动日程! ☆ 长期稳居《纽约时报》《华尔街日报》《华盛顿邮报》《今日美国》畅销榜惠及全球数千万读者,超过80%读者给予五星好评! ☆ 每周6天,每天45~60分钟的运动,就能逆转70%的衰退! ☆ ...

  • ,
  • 孟晖 / 燕王WF

    盂兰变

    孟晖 / 燕王WF / 2018-8-8 / 北京出版社

    ● 作家孟晖经典长篇历史小说,燕王WF特绘精美彩插,并附定制藏书票。 ● 百余张精美彩插,还原小说中铺陈的繁华颓靡,赋予虚构以真实轮廓。 ● 一段政治、伦理纠缠的宫闱传奇,一卷武皇治下大唐浮世绘。 ● 以工艺器物为切入点,重建唐代贵族日常生活点滴,描绘特属唐代的历史风采、审美情态。 《盂兰变》以武则天即位后的数年为背景,写出了一段惊心动魄的宫闱故事。武...

  • ] [
  • [美]尼娜·麦克劳林

    木匠手记

    [美]尼娜·麦克劳林 / 2018-9 / 九州出版社·阳光博客

    ◎文学不过是木工……这两者都是艰难的工作,都是在和现实打交道。现实这种材料和木头一样坚硬。——马尔克斯 ◎ 英文原版获4.5星高分评价,引发无数共鸣与向往! ◎ 特邀青年插画师冠楠创作二十余幅版画,生动地呈现木匠生活细节! ◎ 女主编到女木匠的变形记,如何才能找到生活的真实感—— “生活比一块2 × 4 的木板更加宽容。” “你要比工具更聪明,最重要的是知道什...

  • ,
  • [日]手冢治虫

    火鸟

    [日]手冢治虫 / 2018-10 / 后浪丨北京联合出版公司

    手冢治虫历时三十四年巅峰之作 日本漫画界至高经典 首部简体中文版 《COM》《漫画少年》不同版本一并追加 《休息篇》《大地篇》《火鸟》舞台剧特别收录 ◎ 编辑推荐 ★ 大师手冢治虫的巅峰之作,历时三十四年,用尽半生谱写的生命之歌 从1954年首次创作《黎明篇》起,到19 88年《太阳篇》连载结束,手冢治虫一共用了三十四年的时间去创作《火鸟》。整部连载作品贯穿了作者...

  • ,
  • [英] 朱利安·罗森斯坦 / [英] 坎迪亚·麦克威廉 / [英] 梅尔·古丁 编著

    失明的摄影师

    [英] 朱利安·罗森斯坦 / [英] 坎迪亚·麦克威廉 / [英] 梅尔·古丁 编著 / 2018-8-1 / 新星出版社

    多年前,“感觉之眼”盲人教育机构在墨西哥成立,那时,没人想过会有如此之多的盲人开始摄影,更没人想到他们的摄影能让视力健全的人感动。 他们只是将相机稳稳地放到盲人的手中,让盲人在拍摄的过程中放下失去的沮丧,在更多的交流与反馈中,冲破自身的生存困境。 现在,我们看到了盲人们拍摄的照片:青草为春天散发的芳香,窗帘边带刺花束的形状,西瓜清凉甜腻的味道...

  • ,
  • [伊拉克] 艾哈迈德·萨达维

    弗兰肯斯坦在巴格达

    [伊拉克] 艾哈迈德·萨达维 / 2018-8-1 / 中信出版集团

    冲突不断的巴格达,几乎每天都有袭击发生,本书的故事就在这样的背景下展开。作者套用玛丽•雪莱《弗兰肯斯坦》中的经典角色,讲述了一个发生在伊拉克的奇特故事。 伊拉克战争后的2005年,巴格达由美军占领接管,拾荒者哈迪把爆炸遇难者的残肢收集在一起,重新缝合成一具新的身体。当一个孤独飘荡的灵魂入驻这具身体的时候,一个新的生命诞生了。哈迪称它为“无名氏...

  • ,
  • [美] 濮德培 (Peter C. Perdue)

    万物并作

    [美] 濮德培 (Peter C. Perdue) / 2018-8-1 / 生活·读书·新知三联书店

    《万物并作》是著名新清史学者濮德培于2012年夏天为复旦大学历史地理研究中心所作的四场报告的基础上编撰而成。本书十分简明扼要而条分缕析地了讲述环境史的源流和中国环境史的发展,并通过丰富的例子来讨论环境史的研究方法,具有很强的操作性。书中不时闪现一些真知灼见和贯穿始终的史学理念,给人以无限的启迪和想象。《万物并作》是一部优秀的环境史入门著作,...

  • ,
  • [日] 藤泽周平

    隐剑孤影抄

    [日] 藤泽周平 / 2018-8 / 译林出版社

    刀剑无眼,却可以有情。八柄秘剑——邪剑龙尾、怯剑松风、黑剑虎眼、必死剑鸟刺、无形剑鬼爪、雌剑细波、厄运剑刈芦、宿命剑鬼奔,八段不太寻常的情爱。秘剑抵挡得住挑衅的刀锋、诡诈的权谋,抵挡不住一个个坚强得让人心疼的女子。刀法缭乱,心思却明白;决斗落幕,有几段缘分能得到安放……刀光剑影须臾闪过,绵绵无绝人世哀欢。藤泽周平“隐剑”短篇系列第一部,值...

  • ,
  • [日] 奥野宣之

    旅行手帐完全指南

    [日] 奥野宣之 / 2018-8-1 / 九州出版社

    * 日本手帐书风潮引领者奥野宣之,旅行手帐技巧全公开!他的一系列手帐技巧类作品在日本累计销量超过50万册,成为日本广受好评的手帐达人。 * 手帐达人阿怪、Susie宝作序推荐!“重要的是以笔记录的精神,以及永远别丢失感受乐趣的能力!” * 从行前规划,到归来总结,一本全搞定! 好的旅行手帐是如何做出来的? 第一步:旅行前,在手帐本上搜集目的地,规划路线 → 构建...

  • ,
  • [日]本谷有希子

    异类婚姻谭

    [日]本谷有希子 / 2018-8 / 上海译文出版社

    《异类婚姻谭》由四篇短篇小说组成,其中首篇《异类婚姻谭》为2016年第154届芥川奖获奖作。此书以“某天,忽然留意到自己的脸和丈夫的脸变得一模一样”开篇,这并不是一个夫妻在一起久了便有夫妻相的轻松故事,而是主人公在婚后逐渐丧失个体独立性、险些被所谓的丈夫拖进“非人”泥沼中的故事。 “我”起初并未太在意,直到有一日发现丈夫的脸部器官竟然移位,对此...

  • ,
  • [奥]让·埃默里

    独自迈向生命的尽头

    [奥]让·埃默里 / 2018-8 / 三辉图书/鹭江出版社

    ◆奥地利著名哲学家、奥斯维辛幸存者、“大屠杀亚文化中的圣人”让·埃默里 自杀前的最后一部著作 ◆出版30年内再版逾13次,被译为英、法、意、西等多种语言 ◆“有把叫作死亡的刃。每个人都可以拿起死神的巨镰挥向自己。” ··· 【内容简介】 宗教和社会对自杀的谴责使其好像一桩罪行,一种不自然、极荒唐的举动,但这些观念和偏见是否传达出一种虚假的客观性?让·埃...

  • ,
  • 王稼骏

    推理作家的信条

    王稼骏 / 2018-8 / 新星出版社

    “ 从你翻开书的正文,阅读第一行文字开始,你就已经成了我的共犯。” 精心布置的案发现场,除了一般刑事案件常见的尸体之外,还散落着最新出版的推理小说集——没错,凶手就是“我”。一起跨越二维空间和现实世界的杀人案,这或许是“我”成为推理作家以来最大胆的构思了。 从影子写手到神秘读者,从记忆迷失到机器人行凶,“我”已备好六篇各具特色的推理短篇。你,...

  • ] [
  • [美] 朱迪丝·N.施克莱

    平常的恶

    [美] 朱迪丝·N.施克莱 / 2018-8 / 上海人民出版社

    在西方的基督教教义中指出人的七宗罪——贪食、色欲、贪婪、伤悲、暴怒、懒惰、傲慢,是人类性格的深渊面,而施克莱在本书中提出了“平常的恶”的概念,认为残酷、虚伪、傲慢、背叛和愤世嫉俗等,不过是浅滩暗礁,以充满活力和野蛮的方式成为人类性格的瑕疵。 施克莱从一批伟大的作家的作品 的解读——莫利哀和狄更斯的虚伪,简•奥斯汀的势利,莎士比亚和孟德斯鸠的...

  • ,
  • [日] 上田早夕里

    华龙之宫

    [日] 上田早夕里 / 2018-8-1 / 化学工业出版社

    第32回日本科幻小说大赏获奖作 2010年代日本科幻小说金字塔 宫部美雪、贵志祐介、冲方丁联名赞誉! 数百年后的25世纪,南太平洋超级地幔柱上升,导致海底隆起260米,地球大部分陆地被海水淹没,人类文明遭到毁灭性破坏。 为了让人类这一物种存续下去,世界各国做出决定:允许对地球上的一切生物进行人为改造。 人类艰难地渡过了前所未有的危机,分化为陆上民和海上民。...

  • ,
  • 元器件数据手册、IC替代型号,打造电子元器件IC百科大全!
  • 相关文章