ヒストグラム

ヒストグラム（英語: histogram^[1]）とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱状図、柱状グラフ、度数分布図ともいう^[1]。

Thumb — ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数（＝度数）を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。

工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。

語源

histogram （ヒストグラム）の語源は、定かではないが、古代ギリシャ語で「なにかを直立にする」（帆船のマスト、織機のバー、ヒストグラムの縦棒など）という意味の ἱστός （istos、イストス）と、「描いたり、記録したり、書いたりすること」という意味の γράμμα （gramma、グラマ）を合わせた用語だといわれている。この用語は、イギリスの統計学者カール・ピアソンが1891年に historical diagram から創案したともいわれている^[2]。

定義

要約

視点

日本工業規格 JIS Z 8101-1:2015 （国際規格 ISO 3534-1:2006 と同等）の「1.61 ヒストグラム」では、次のとおりに規定している^[3]。

底辺の長さが級の幅（1.58）に等しく，その面積が級の度数に比例する近接する長方形からなる度数分布（1.60）のグラフ表現。

注記 1　級の幅が不均一な場合には，注意が必要である。級の幅が不均一な場合には，級の面積を級の度数に比例させるとよい。

注記 2　全ての級の幅を等しくし，長方形の高さを級の度数に比例させるのが一般的である。

ヒストグラム

ヒストグラムは、各々が互いに素である区間・階級（カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱（棒）のこと）に分類できる、観察結果の数を図にしたもの。計算する関数 $m i$ である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある（後述）^[4]。基準点も０を含む場合には０を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 $n$ とすべての階級の数 $k$ 、ヒストグラム $m i$ を与えて、これらには以下の式の関係が成り立つ。

n=\sum _{i=1}^{k}{m_{i}}.

累積度数図

累積度数図（英: cumulative histogram）は、特定の階級までのすべての階級に含む観察結果の累積数を記入する。累積度数関数と $M i$ はヒストグラム関数 $m j$ を用いて以下の式のように定義できる。

M_{i}=\sum _{j=1}^{i}{m_{j}}.

なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している^[5]。

Remove ads

具体例

ウィキペディア日本語版の記事「ヒストグラム」（当記事）の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである^[6]。

さらに見る 日, 閲覧回数 ...

日	閲覧回数	日	閲覧回数
1	78	16	625
2	126	17	606
3	156	18	483
4	231	19	377
5	215	20	370
6	304	21	587
7	484	22	667
8	544	23	643
9	566	24	756
10	545	25	505
11	478	26	436
12	258	27	399
13	225	28	611
14	373	29	679
15	620	30	575
		31	565

[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。

これを集計すると、次のようになる。上述の通り、階級の数と幅の設定には諸説あるが、ここでは階級の数を 8、幅を 100 とした。

さらに見る 閲覧回数, その回数を記録した日数 ...

閲覧回数	その回数を記録した日数
0 - 99	1
100 - 199	2
200 - 299	4
300 - 399	5
400 - 499	4
500 - 599	7
600 - 699	7
700 - 799	1

[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。

したがって、これをヒストグラムにすると、図1のようになる。

階級の個数と幅

要約

視点

階級の個数についての最良の値はなく、階級の大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適な階級の個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまな階級幅が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある^[7]。

階級の幅 $h$ は、直接的に与えられるか、下で示される階級の個数 $k$ から次式で与えられる。

h=\left\lceil {\frac {\max x-\min x}{k}}\right\rceil .

上式の大括弧は天井関数を示す。

平方根選択（英: Square-root choice）: $k={\sqrt {n}},\,$; 標本中のデータ数の平方根をとるものである^[8]。
スタージェスの公式（英: Sturges' formula）^[9]: $k=\lceil \log _{2}n+1\rceil ,\,$; この式は階級の大きさに暗黙の仮定を置いている。そのため、n < 30 (階級数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
スコットの選択（英: Scott's choice）^[10]: $h={\frac {3.5\,\sigma }{n^{1/3}}},$; ここで $σ$ は標本の標準偏差である。
フリードマン・ダイアコニスの選択（英: Freedman–Diaconis' choice）^[11]: $h=2\,{\frac {\operatorname {IQR} (x)}{n^{1/3}}},$; IQR で示される四分位範囲に基づく。
$L 2$ 危険関数推定の最小化に基づく選択^[12]: ${\underset {h}{\operatorname {arg\,min} }}{\frac {2\,{\bar {m}}-v}{h^{2}}}$; ここで $m$ と $v$ は、階級の幅が $h$ であるヒストグラムの平均値および標本分散である。つまり、 $m = .mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}1/k ∑ki = 1 mi$ であり、 $v = 1 / k \sum k i = 1 (m i - m) 2$ である。

Remove ads

種類

次の4種類に分けられる。

U字型分布
均一分布
山型分布
歪曲分布次の2種類に分類できる。
1. 左歪曲分布
2. 右歪曲分布

以下の項目を例を用いて説明する。

U字型分布

最初の区間から徐々に下がっていき、中間（ほとんどの場合）で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。階級の数を 10、幅を 10 とする。

さらに見る 点数, この点数をとった学生の数 ...

点数	この点数をとった学生の数
0.5-10.5	10
10.5-21.5	8
21.5-31.5	6
31.5-41.5	4
41.5-51.5	2
51.5-61.5	0
61.5-71.5	2
71.5-81.5	4
81.5-91.5	6
91.5-101.5	8

均一分布

→詳細は「連続一様分布」、「離散一様分布」、および「一様分布」を参照

すべての区間の数が等しいとき、または、近いとき（だいたい差が 2 以下）、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。

連続一様分布 (Continuous uniform distribution)
離散一様分布 (Discrete uniform distibution)

山型分布

中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。

歪曲分布

スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。左から下がっていくのを右歪曲分布 (right-skewed distribution)、右へ上がっていくのを左歪曲分布 (left-skewed sidtribution) という。

Remove ads

脚注

Loading content...

参考文献

Loading content...

外部リンク

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

語源

定義

ヒストグラム

累積度数図

具体例

階級の個数と幅

種類

U字型分布

均一分布

山型分布

歪曲分布

脚注

参考文献

関連項目

外部リンク