AIで楽して稼げたらいいのに

独学でプログラミングを学んでいる大学生です。忘れないために備忘録としてここに残すことにします

【Python】スクレイピングで問題発生。面倒臭い。

f:id:gorilland_k:20200417102805p:plain スクレイピングの基礎を習得し、早速データ収集に明け暮れていた私だったが、早速問題が発生。




前提として、訓練に使うカラムと答えのカラムはそれぞれ違うデータを扱っている。


それらを複合したデータをプログラムに食わせて学習させていたのだが、正解率がなぜか激減。


ついにはエラーコードさえでた。 


なんだ?と思いデータ数を確認してみる。


見てみると200ほどデータ数が違うことに気がついた。


不思議に思い、参照元のサイトを覗いてみる。


ここであることに気がついた。


もしレースが中止になってしまった場合、レースが開催される前に公開されていたデータは残されるが、レースは行っていないため、ここでデータのずれが生じることがわかった。


これを改善するプログラムを作る技術は私には無い。


なので少しずつ確認する作業を行っている。


スクレイピングを学んで、作業時間が短縮されたはずが、思わぬハプニングによって作業時間が伸びてしまった。


まぁでも、コピペして収集するよりは断然にはやいので、我慢して改善していこう。


f:id:gorilland_k:20200417102809p:plain

追記

結論からいうとこの問題は解決した。


訓練用データに本日(4/17)のデータが入っていたのだ。


今日のデータはすべてのレース終了後に更新されるため、答えデータの中に含まれていなかったのだ。


盲点。