7行でできる!簡単テーブルスクレイピング
pandasとは
データ解析を簡単にできるライブラリ
pandasで提供されているread_htmlでテーブルデータだけ簡単にスクレイピング
ができる
事前準備
pandasがインストールされていないPCではpipでインストールをしよう
code:powershell
pip install pandas
jupyter-labを使いたい人はこちらも
code:powershell
pip install jupyter-lab
早速テーブルをスクレイピングしてみよう!
今回は将棋連盟の棋⼠紹介ページをスクレイピングするよ。(このままアクセスすると403が出ます) code:python
# ライブラリのインポート
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd
ここからある有名棋⼠の紹介ページをスクレイピングしていくよ!
将棋連盟の個⼈ごとの棋⼠紹介は
code:url
のような形になっている。
なので、今回は棋士番号175番の情報を取得してみるよ!
code:python
pd.read_html(url+"175.html")
結果
https://scrapbox.io/files/62b57618a4a083001de0bd37.png
複数テーブルがあることもあるため、リストで渡されている。
0番⽬のテーブルを指定してみよう
code:python
pd.read_html(url+"175.html")0 結果
https://scrapbox.io/files/62b576660db416001d85a436.png
このサイトには基本情報以外のテーブルもあるよ。
0番⽬以外の要素を指定してどんな情報が出てくるか試してみよう!
この棋士は結局誰でしょうか?結果から予測して回答のページにアクセスしてみよう!