web爬虫-用RoboBrowser登录和抓取数据
摘要:区块链爬虫RoboBrowser是一个简单的Python库,用于在没有独立Web浏览器的情况下浏览Web。RoboBrowser可以获取页面,单击链接和按钮,然后填写并提交表单。如果您需要与没有API的Web服务进行交互,RoboBrowser可以提供很好的帮助。接下来看一个例子,使用前需要pip
RoboBrowser是一个简洁的Python库,用以在沒有单独Web电脑浏览器的情形下访问Web。RoboBrowser可以获取网页页面,点击连接和按键,随后填好并提交表单。假如您必须与沒有API的Web服务开展互动,RoboBrowser可以带来不错的协助。
下面看一个事例,应用前必须pip install robobrowser安装这一库:
import refrom robobrowser import RoboBrowser#建立RoboBrowserbr = RoboBrowser()#开启datacoup登录详细地址br.open("https://datacoup.com/signin")#获取登录的表单form = br.get_form()#填好表单中的油箱和登陆密码form['email'] = "FILL_USERNAME_IN"form['password'] = "FILL_PASSWORD_IN"#提交表单br.submit_form(form)#获取登录后的网页页面结论回到信息src = str(br.parsed())#配对开始与结束的部位htmlstart = 'Earned: 'end = ''#应用正则表达式开展配对 回到结论result = re.search('%s(.*)%s' % (start, end), src).group(1)print(result)
第二个事例,浏览一个音乐平台,仿真模拟查看歌曲信息:
import refrom robobrowser import RoboBrowser#访问Rap Genius网址browser = RoboBrowser(history=True)browser.open('http://rapgenius.com/')#获取表单form = browser.get_form(action='/search')print(form) ##键入查看关键字queen 提交表单form['q'].value = 'queen'browser.submit_form(form)#查看第一首歌曲songs = browser.select('.song_name')#浏览歌曲联接详细地址browser.follow_link(songs[0])#搜索款式lyrics的文字信息lyrics = browser.select('.lyrics')print(lyrics[0].text) # [Intro]Is this the real life...#回到查询记录网页页面browser.back()# 查看我最喜欢的歌曲browser.follow_link('death on two legs')# 还可以应用正则表达式开展搜索lyrics = browser.find(class_=re.compile(r'\blyrics\b'))lyrics.text
今日的RoboBrowser学习培训到这儿,一二节见!
下边的就是我的公众号二维码照片,热烈欢迎
- 免责声明
- 世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
- 风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
- 世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:juu3644。