JRA-VAN Datalabで得られるデータ数と特徴数

前回はPC-KEIBAを利用してエラーを回避しながらフルセットアップを終えたので、今回はそのテーブルを見ていこうと思います。

DLをやるかそうでないかを判断するときに、重要な指標が特徴数とデータ数だと思います。

CourseraのAndrew Ng先生もMachineLearningの授業で

「NNやるときは特徴数増やして過学習気味のモデルをビッグデータでちょうどいいところに持っていくのが一番精度が出る。」

というような事を仰っていました。

馬毎レース情報のデータ数

mysql> select count(*) from jvd_umagoto_race_joho;
+----------+
| count(*) |
+----------+
| 2244591 |
+----------+

224万4591件！

だいたいDLやるときには100万件以上のデータがあると好ましいとNg先生が仰っていたのですが、これだけのデータ数があれば十分ではないでしょうか。

DB全体でのカラム数

カラム数計測は、以下のメタフィールドを各テーブルの検索から除外の上で行いました。
・レコード種別ID
・データ区分
・データ作成年月日
・開催年
・開催月日
・競馬場コード
・開催回
・開催日目
・レース番号
・レコード作成時のタイムスタンプ
・レコード更新時のタイムスタンプ

SQLはこちら

select
table_name, 
column_name, 
column_type, 
is_nullable, 
column_key, 
column_default, 
extra
from
information_schema.columns
where
table_schema='pckeiba'
and
column_name not in ('INSERT_TIMESTAMP',
'UPDATE_TIMESTAMP',
'RECORD_SHUBETSU_ID',
'DATA_KUBUN',
'DATA_SAKUSEI_NENGAPPI',
'RACE_CODE',
'KAISAI_NENGAPPI',
'KEIBAJO_CODE',
'KAISAI_KAIJI',
'KAISAI_NICHIJI',
'RACE_BANGO');

2857 rows in set (0.01 sec)

3000弱の特徴数でした！