Subscribed unsubscribe Subscribe Subscribe

Empty

2013年4月から社会人になりました。

FC2ブログから記事を収集するスクリプト

Programming

概要

入門ソーシャルデータ7章,8章向けに、学んだ内容について日本語を対象に試したかったので、FC2ブログの記事をスクレイピングSQLiteに保存して日本語コーパスを作るスクリプト書いたので、晒してみる。(記事のデータはhtmlのままつっこむだけ.)

注意事項

短時間での、アクセス過多により、ブロックされるかもしれません。実行の際は自己責任でお願いします。

スクリプト概要

  1. [ランキングページ]全カテゴリー一覧(カテゴリー名 & URL)を取得.
  2. [ランキングページ]ランキングのトップページに載っているブログ情報(user名, blog url)を取得.
  3. [RSS FEED]user名から、FEEDURLを生成して、RSS FEEDを見に行く。最近の記事URL一覧を取得.
  4. [記事ページ]記事のhtmlをまるごと保存する.

※ 1回の実行で、記事8,000件くらい取れた。ブログ情報を取得するフェーズで次ページ・次次ページ...までと取得するユーザの情報を増やせば、増やしたページ数倍の記事数を取得できるはず。

FC2 ブログを選んだ理由

各ブログはあらかじめブログ登録時にオーナー側でカテゴリー分けられているので、全ドキュメント(記事)を対象に類似文章を探した時に、どのくらいの精度で同じカテゴリーの記事が表れるのかなと思い、あらかじめラベル付されているから、評価しやすいのでは?という観点から、FC2をコーパスに選びました。

※ オーナーがカテゴリーを選んでいるかは定かではありません。

最後に

FC2さん大量にアクセスしてゴメンナサイ m(_ _)m