【Python】スクレイピングで問題発生。面倒臭い。
スクレイピングの基礎を習得し、早速データ収集に明け暮れていた私だったが、早速問題が発生。
前提として、訓練に使うカラムと答えのカラムはそれぞれ違うデータを扱っている。
それらを複合したデータをプログラムに食わせて学習させていたのだが、正解率がなぜか激減。
ついにはエラーコードさえでた。
なんだ?と思いデータ数を確認してみる。
見てみると200ほどデータ数が違うことに気がついた。
不思議に思い、参照元のサイトを覗いてみる。
ここであることに気がついた。
もしレースが中止になってしまった場合、レースが開催される前に公開されていたデータは残されるが、レースは行っていないため、ここでデータのずれが生じることがわかった。
これを改善するプログラムを作る技術は私には無い。
なので少しずつ確認する作業を行っている。
スクレイピングを学んで、作業時間が短縮されたはずが、思わぬハプニングによって作業時間が伸びてしまった。
まぁでも、コピペして収集するよりは断然にはやいので、我慢して改善していこう。
追記
結論からいうとこの問題は解決した。
訓練用データに本日(4/17)のデータが入っていたのだ。
今日のデータはすべてのレース終了後に更新されるため、答えデータの中に含まれていなかったのだ。
盲点。