ニクニクドットミー

カッコいいおっさんを目指すエンジニアの厳かなブログ

BeautifulSoupを使ってみた

pythonサードパーティでBeautifulSoupというのがありまして、それを使ってtumblrスクレイピングしてみました。

まずはBeautifulSoupのインストール

$ pip install beautifulsoup

んで、コード。

#!/usr/bin/python
#-*- encoding: utf-8 -*-

import urllib
import BeautifulSoup
import json

url = "http://www.tumblr.com/tagged/猫"

soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read())

for detailsrc in soup.findAll("div", {"class":"stage"}):
    for timesrc in detailsrc.findAll("img"):
        print timesrc['src']

tumblrでタグの検索が出来るのですが、上のコードでは猫と検索した結果のhtmlをスクレイピングしています。 ちょっとjQueryっぽく扱える感じです。

ちなみに実行すると画像のパスを抜き取るようになってます。

もうすこし手を加えてjsonで結果を返すようにしようと思ってます。

しょうもないコードですが、githubにあげておきます。 maaaato / beautifulsoup