上位5件の URL に対してスクレイピング

ここは AI でいう「識別」のような部分。当初、アクセスした結果を適当に使っていたが、クラスタ分けの部分(予測)で精度が出ず。使える元ネタを取得するべく、ユーザエージェントを指定、pdf は除外、p タグに限定するように工夫。スクレイピングでおなじみ BeautifulSoup を使用。

more ...