pythonのサードパーティでBeautifulSoupというのがありまして、それを使ってtumblrをスクレイピングしてみました。
まずはBeautifulSoupのインストール
$ pip install beautifulsoup
んで、コード。
#!/usr/bin/python #-*- encoding: utf-8 -*- import urllib import BeautifulSoup import json url = "http://www.tumblr.com/tagged/猫" soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url).read()) for detailsrc in soup.findAll("div", {"class":"stage"}): for timesrc in detailsrc.findAll("img"): print timesrc['src']
tumblrでタグの検索が出来るのですが、上のコードでは猫と検索した結果のhtmlをスクレイピングしています。 ちょっとjQueryっぽく扱える感じです。
ちなみに実行すると画像のパスを抜き取るようになってます。
もうすこし手を加えてjsonで結果を返すようにしようと思ってます。
しょうもないコードですが、githubにあげておきます。 maaaato / beautifulsoup