FC2ブログから記事を収集するスクリプト
概要
入門ソーシャルデータ7章,8章向けに、学んだ内容について日本語を対象に試したかったので、FC2ブログの記事をスクレイピング・SQLiteに保存して日本語コーパスを作るスクリプト書いたので、晒してみる。(記事のデータはhtmlのままつっこむだけ.)
注意事項
短時間での、アクセス過多により、ブロックされるかもしれません。実行の際は自己責任でお願いします。
スクリプト概要
- [ランキングページ]全カテゴリー一覧(カテゴリー名 & URL)を取得.
- [ランキングページ]ランキングのトップページに載っているブログ情報(user名, blog url)を取得.
- [RSS FEED]user名から、FEEDURLを生成して、RSS FEEDを見に行く。最近の記事URL一覧を取得.
- [記事ページ]記事のhtmlをまるごと保存する.
※ 1回の実行で、記事8,000件くらい取れた。ブログ情報を取得するフェーズで次ページ・次次ページ...までと取得するユーザの情報を増やせば、増やしたページ数倍の記事数を取得できるはず。
スクリプト置き場(Google Code)
http://code.google.com/p/k-koshikawa/source/browse/trunk/Tool/making_fc2_blog_corpus/
FC2 ブログを選んだ理由
各ブログはあらかじめブログ登録時にオーナー側でカテゴリー分けられているので、全ドキュメント(記事)を対象に類似文章を探した時に、どのくらいの精度で同じカテゴリーの記事が表れるのかなと思い、あらかじめラベル付されているから、評価しやすいのでは?という観点から、FC2をコーパスに選びました。
※ オーナーがカテゴリーを選んでいるかは定かではありません。
最後に
FC2さん大量にアクセスしてゴメンナサイ m(_ _)m