記述統計とは
記述統計(Descriptive Statistics)とは、手元にあるデータの特徴を要約し、数値やグラフで表現する統計手法です。推測統計がサンプルから母集団の特性を推定するのに対し、記述統計はデータそのものの性質を記述することに焦点を置きます。
代表値(中心傾向の指標)
データの中心的な傾向を表す指標として、平均値(Mean)、中央値(Median)、最頻値(Mode)があります。平均値は外れ値の影響を受けやすいため、データの分布に偏りがある場合は中央値がより適切な指標となることがあります。
散布度(ばらつきの指標)
データのばらつきを表す指標には、分散(Variance)、標準偏差(Standard Deviation)、範囲(Range)、四分位範囲(IQR)などがあります。標準偏差はデータが平均値からどの程度散らばっているかを示し、データの変動性を理解するうえで重要な指標です。
分布の形状を表す指標
歪度(Skewness)はデータの非対称性を、尖度(Kurtosis)はデータの尖り具合を表します。これらの指標により、データが正規分布からどの程度逸脱しているかを定量的に評価できます。記述統計はEDAの基礎であり、あらゆるデータ分析の出発点です。