«前の日記(2004-10-01) 最新 次の日記(2004-10-03)» 編集

おこたの国


2004-10-02

_ [MANGA] 買い物リストが壊れてた…

元データが、まんが王倶楽部の発売リストであり、あれはかなりいいかげんな HTML であり(たとえば今月のはこれになる)、ちょくちょく表現形式を変更してくれるので、データ抽出スクリプトが parse に失敗するですよ。どこかに、最初からデータとして提供してくれるところがないか探してるんだけど、これだ! ってのがあまりない。まんが王倶楽部自体は、CSV形式も提供してくれているのだが、HTML 版と違って、発売日の変更や延期、題名や作者名の修正などが反映されないので、使えないのだ。

ちょっと対策を考えよう。元 HTML を XHTML 化し、xml parser に喰わせて入り口側の防御率(?)を上げ、フォーマット変更に気付けるようにしょうか。今は lynx の -dump 出力を適当にイジっているだけで、markup 部分を見るのを避けてるのだ。HTML でそんなことするのはシンドイので。

どうにせよ、ISBN が付いてないので、本格的に何かができるわけではないのだが…

本日のツッコミ(全4件) [ツッコミを入れる]
_ ed (2004-10-03 00:35)

めちゃくちゃかもしんないけど、<br><br>LANG=ja_JP.EUC-JP w3m http://www.mangaoh.co.jp/list_product/list_comic_month_pub.php?&i_year=2004&i_month=10&i_category=comic' >foo<br><br>とでもして、foo を '|' で split すれば良いのでは?

_ ed (2004-10-03 00:36)

おや? 妙なところに改行が…。<br>w3m からの 3 行は 1 行だと思ってくだされ。

_ (2004-10-03 01:55)

長いタイトルだと改行されてしまうので、そこの処理がめんどうかな?<br>lynx -dump だと、各エントリの終了条件さえ外さなければ、<br>td element ごと改行されるので、parse し易いですよ。

_ ed (2004-10-03 05:33)

`├' をマーカーとして使えばたいして面倒でもないような…。<br>まー、だったら HTML そのものを parse するプログラム書いたって良いわけだが。


2002|10|
2003|10|12|
2004|01|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|05|07|08|09|10|11|12|
2009|02|06|08|09|
2010|02|08|
2011|08|
2012|07|
2013|01|06|09|10|
2019|07|10|
2020|07|
2022|08|