免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3792 | 回复: 1
打印 上一主题 下一主题

BeautifulSoup 能否根据url关键字过滤出链接 [复制链接]

论坛徽章:
1
操作系统版块每日发帖之星
日期:2016-06-12 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2016-06-25 23:03 |只看该作者 |倒序浏览

  1. from bs4 import BeautifulSoup



  2. html='''

  3. <a class="vip_class fl font14" href="/site/baidu" target="_blank">baidu</a>
  4. <a href="/site/google/
  5. " target="_blank">google</a>
  6. <a href="/mobile/list/?" target="_blank">android</a>
  7. <a href="/mobile/list/?" target="_blank">ios</a>
  8. '''


  9. soup = BeautifulSoup(html,'lxml')

  10. alls=soup.findAll("a")
  11. print(all)
复制代码
比如只想找到 href对链接中有mobile关键字的 链接, 有没有办法在findAll这一步中就取出来?

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
2 [报告]
发表于 2016-06-27 14:13 |只看该作者
本帖最后由 reb00t 于 2016-06-27 14:13 编辑

回复 1# yakczh_cu


  1. import re
  2. from bs4 import BeautifulSoup



  3. html='''

  4. <a class="vip_class fl font14" href="/site/baidu" target="_blank">baidu</a>
  5. <a href="/site/google/
  6. " target="_blank">google</a>
  7. <a href="/mobile/list/?" target="_blank">android</a>
  8. <a href="/mobile/list/?" target="_blank">ios</a>
  9. '''


  10. soup = BeautifulSoup(html,'lxml')

  11. alls=soup.findAll("a", href=re.compile('mobile'))
  12. print(alls)

  13. 结果
  14. [<a href="/mobile/list/?" target="_blank">android</a>, <a href="/mobile/list/?" target="_blank">ios</a>]
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP