JRA-VAN Datalabで得られるデータ数と特徴数
前回はPC-KEIBAを利用してエラーを回避しながらフルセットアップを終えたので、今回はそのテーブルを見ていこうと思います。
DLをやるかそうでないかを判断するときに、重要な指標が特徴数とデータ数だと思います。
CourseraのAndrew Ng先生もMachineLearningの授業で
というような事を仰っていました。
馬毎レース情報のデータ数
mysql> select count(*) from jvd_umagoto_race_joho; +----------+ | count(*) | +----------+ | 2244591 | +----------+
224万4591件!
だいたいDLやるときには100万件以上のデータがあると好ましいとNg先生が仰っていたのですが、これだけのデータ数があれば十分ではないでしょうか。
DB全体でのカラム数
カラム数計測は、以下のメタフィールドを各テーブルの検索から除外の上で行いました。
・レコード種別ID
・データ区分
・データ作成年月日
・開催年
・開催月日
・競馬場コード
・開催回
・開催日目
・レース番号
・レコード作成時のタイムスタンプ
・レコード更新時のタイムスタンプ
SQLはこちら
select table_name, column_name, column_type, is_nullable, column_key, column_default, extra from information_schema.columns where table_schema='pckeiba' and column_name not in ('INSERT_TIMESTAMP', 'UPDATE_TIMESTAMP', 'RECORD_SHUBETSU_ID', 'DATA_KUBUN', 'DATA_SAKUSEI_NENGAPPI', 'RACE_CODE', 'KAISAI_NENGAPPI', 'KEIBAJO_CODE', 'KAISAI_KAIJI', 'KAISAI_NICHIJI', 'RACE_BANGO');
2857 rows in set (0.01 sec)
3000弱の特徴数でした!