訓練データ(Training Data)とは、機械学習モデルのパラメータを学習するために使用するデータのことです。モデルはこのデータからパターンや規則性を抽出し、予測能力を獲得します。
訓練データの品質
「Garbage In, Garbage Out」という格言が示すように、訓練データの品質がモデルの性能を決定します。ラベルの正確性、データの多様性、代表性、十分な量など、高品質な訓練データの確保は機械学習プロジェクトの成否を左右します。
データの分割
データセット全体を訓練データ、検証データ、テストデータの3つに分割して使用するのが一般的です。訓練データでモデルを学習し、検証データでハイパーパラメータを調整し、テストデータで最終評価を行います。