トップQs
タイムライン
チャット
視点
予測分析
ウィキペディアから
Remove ads
予測分析(よそくぶんせき、英: predictive analytics)は、データマイニング、予測的モデリング、機械学習などのさまざまな統計手法を包含しており、現在および過去の事実を分析して、将来または未知のイベントについて予測を行う[1][2]。ビジネスにおいては、予測モデルは、履歴データや取引データに見られるパターンを利用して、リスクと機会を特定する。予測モデルは、多くの要因間の関係を把握することで、特定の条件集合に関連したリスクや可能性の評価を可能にし、取引候補の意思決定を導く[3]。
これらの技術的アプローチの定義的な効果のねらいは、マーケティング、信用リスク評価、不正検出、製造、ヘルスケア、法執行機関を含む政府の業務など、多数の個人にまたがる組織プロセスを決定、情報提供、影響を与えるために、予測分析が各個体(顧客、従業員、医療患者、製品SKU、車両、コンポーネント、機械、またはその他の組織単位)に対して予測スコア(確率)を提供することである。
予測分析は、保険数理[4]、 マーケティング[5]、 経営管理、スポーツ/ファンタジースポーツ[6]、 保険、電気通信[7]、 小売[8]、 旅行[9]、 経済的流動性[10]、 ヘルスケア[11]、児童保護[12][13]、 医薬品[14]、 キャパシティプランニング[15]、 ソーシャルネットワーキング[16]などの分野で使用される。
最もよく知られている応用例の1つは、ビジネス管理全体で使用されるクレジットスコアリング[1]である。スコアリングモデルは、顧客の信用履歴、ローン申請、顧客データなどを処理して、将来のクレジット支払いを予定どおりに行う可能性によって個人をランク付けする。
Remove ads
定義
予測分析は、データから情報を抽出し、それを使用して傾向と行動パターンを予測することを扱う統計学の一分野である。予測Web分析の強化により、オンラインで将来のイベントの統計的確率が計算される。予測分析の統計手法には、データモデリング、機械学習、 人工知能(AI) 、深層学習アルゴリズム、データマイニングが含まれる[17]。 多くの場合、関心のある未知のイベントは将来のものだが、予測分析は、過去、現在、または未来のあらゆるタイプの未知のものに適用できる。たとえば、犯罪が犯された後に容疑者を特定したり、クレジットカード詐欺の発生である[18]。 予測分析の中核は、過去の発生から説明変数と予測変数との間の関係を把握し、それらを利用して未知の結果を予測することに依存する。ただし、結果の精度と使いやすさは、データ分析のレベルと仮定の質に大きく依存することに注意することが重要である。
予測分析は、多くの場合、より詳細なレベルで予測すること、つまり、個々の組織要素ごとに予測スコア(確率)を生成することとして定義される。予測分析は、予測と区別している。たとえば、「予測分析 - 経験(データ)から学習して、より良い意思決定を推進するために、個人の将来の行動を予測するテクノロジー」などである[19]。 将来の産業システムでは、予測分析の価値は、潜在的な問題を予測および未然に防ぎ、ほぼゼロの故障を実現し、さらに意思決定の最適化のために処方的分析に統合することである[要出典]。
Remove ads
種類
要約
視点
一般的に、予測分析という用語は、予測モデリング、予測モデルによるデータの「スコアリング」、予測を意味するために使用されている。しかし、最近では、記述的モデリングや意思決定モデリング、最適化などの関連する分析分野を指すためにこの用語を使用する人が増えている。これらの分野には厳密なデータ分析も含まれており、ビジネスではセグメンテーションや意思決定のために広く使用されているが、目的は異なり、その基礎となる統計的手法も異なる。
予測モデル
予測モデリングでは、予測モデル(predictive models)を使用して、サンプル内の個体がもつ特定のパフォーマンス(性能)と、その個体の1つ以上の既知の属性または特徴との間の関係を分析する。モデルの目的は、異なるサンプル内の類似した個体が特定のパフォーマンスを示す可能性を評価することである。このカテゴリには、顧客パフォーマンスに関する質問に答えるために微妙なデータパターンを探し出すマーケティングや、不正検出モデルなど、多くの分野のモデルが含まれる。予測モデルは、例えば、ある顧客や取引のリスクや機会を評価し、意思決定の指針とするために、取引が進行中に計算を実行することがよくある。計算速度の進歩に伴い、個々のエージェントモデリングシステムは、与えられた刺激またはシナリオに対する人間の行動や反応をシミュレートすることができるようになった。
既知の属性と既知のパフォーマンスを持つ利用可能なサンプル個体は、「トレーニングサンプル」と呼ばれる。その他のサンプル個体のうち、属性は既知であるがパフォーマンスが不明なものは、「(トレーニング)サンプル外」個体と呼ばれている。サンプル外個体は、必ずしもトレーニングサンプル個体と時系列的な関係を持つとは限らない。例えば、トレーニングサンプルは、既知の属性を持つヴィクトリア朝の作家による著作物の文学的属性で構成されていてもよく、サンプル外個体は、新たに発見された作家不明の著作物であってもよい。予測モデルは、著作物を既知の作家に帰属させるのに役立つかもしれない。別の例として、犯罪現場における擬似血痕分析が挙げられ、この場合、サンプル外個体は犯罪現場からの実際の血痕パターンである。サンプル外個体は、トレーニング個体と同じ時間、以前の時間、または未来の時間からのものであってもよい。
記述的モデル
記述的モデル(descriptive model)は、顧客や見込み客をグループに分類するためによく使用される方法で、データ内の関係性を定量化する。単一の顧客の行動(信用リスクなど)を予測することに焦点を当てた予測モデルとは異なり、記述的モデルは、顧客または製品間の多くの異なる関係を識別する。記述的モデルは、予測モデルのように、特定の行動を取る可能性によって顧客をランク付けることをしない。その代わりに、記述的モデルを使用して、製品の好みやライフステージによって顧客を分類することができる。記述的モデリングツールを使用して、多数の個別化された顧客をシミュレートして予測を行うモデルを開発できる。
意思決定モデル
→詳細は「en:Decision model」を参照
意思決定モデル(decision model)は、多くの変数を含む意思決定の結果を予測するために、意思決定のすべての要素(すなわち、既知のデータ(予測モデルの結果を含む)、意思決定、および意思決定の予測結果)の間の関係を記述する。これらのモデルは最適化に使用され、特定の結果を最大化しながら他の結果を最小化できる。一般的に、意思決定モデルは、あらゆる顧客や状況に対して望ましい行動を生み出す意思決定ロジックまたは一連のビジネスルールを開発するために使用される。
Remove ads
アプリケーション
要約
視点
予測分析は多くのアプリケーションで活用することができるが、予測分析が近年、好影響を与えているいくつかの例を概説する。
ビジネス
分析的な顧客関係管理(CRM)は、予測分析がさかんな商用アプリケーションである。予測分析の方法を顧客データに適用して、顧客の全体像を構築するす。CRMは、マーケティングキャンペーン、販売、および顧客サービスのアプリケーションで予測分析を使用している。分析的なCRMは、顧客ライフサイクル(獲得、クロス・セリング、維持、および奪還)全体に適用できる。
多くの場合、企業組織は業務記録や販売取引などの豊富なデータを収集し、維持している。このような場合、予測分析は、顧客の支出や利用状況、その他の行動を分析するのに役立ち、効率的なクロス・セールスや、既存顧客への追加製品の販売につながる[20]。
予測分析を適切に適用することで、より積極的で効果的な顧客維持戦略につながる。顧客の過去のサービス利用、サービス成績、支払、その他の行動パターンを頻繁に調査することで、予測モデルは顧客がいつかサービスを終了する可能性を判断することができる[21]。感性価値が高いオファーを介入することで、顧客を転換させたり、顧客を維持する可能性を高めることができる。予測分析では、サイレント・アトリション(顧客がゆっくりと、しかし着実に利用を減らす行動)を予測することもできる。
児童保護
いくつかの児童福祉機関では、予測分析ツールを使用して、高リスクの問題にフラグを立て始めている[22]。例えば、米国フロリダ州のヒルズボロ郡では、児童福祉機関が予測モデリングツールを使用することで、対象集団における虐待に関連した児童の死亡を防ぐことができた[23]。
臨床意思決定支援システム
予測分析は、主に糖尿病、喘息、心臓病などの疾患を発症するリスクのある患者を決定するために医療で使用されている。さらに、高度な臨床意思決定支援システムには、医学的意思決定を支援するための予測分析が組み込まれている。
神経変性疾患に関する2016年の研究では、パーキンソン病の診断、追跡、予測、進行を監視するためのCDSプラットフォームの強力な例が示されている[24]。
法的意思決定の結果の予測
司法決定の結果の予測は、AIプログラムによって行うことができる。これらのプログラムは、この業界の専門職のための支援ツールとして使用できる[25][26]。
ポートフォリオ、製品、経済レベルでの予測
多くの場合、分析の焦点は消費者ではなく、製品、ポートフォリオ、企業、業界、さらには経済にある。たとえば、小売業者は、在庫管理のために店舗レベルの需要を予測することに関心がある場合がある。あるいは、連邦準備制度理事会は、来年の失業率を予測することに興味を持つかもしれない。これらのタイプの問題は、時系列技術を使用した予測分析で対処できる(下記参照)。また、元の時系列を特徴ベクトル空間に変換し、学習アルゴリズムが予測力を持つパターンを見つけ出す機械学習アプローチでも対応できる[27][28]。
引受業務
多くの企業では、さまざまなサービスのためにリスク引き受けを考慮し、リスクをカバーするために必要なコストを決定する必要がある。予測分析は、病気、債務不履行、破産などの可能性を予測することで、これらのリスクを引き受けるのに役立つ。予測分析は、アプリケーションレベルのデータを使用して顧客の将来のリスク行動を予測することで、顧客獲得のプロセスを合理化できる[29]。クレジットスコアの形での予測分析により、特に住宅ローン市場において、ローン承認にかかる時間を短縮した。適切な予測分析は適切な価格決定につながり、将来の債務不履行リスクを軽減することができる。
テクノロジーとビッグデータの影響
ビッグデータは、従来のデータベース管理ツールを使用して作業するのが困難になるほど大規模で複雑なデータセットの集合体である。ビッグデータを扱う上で、その量、多様性、速度の観点から、獲得、保存、検索、共有、分析、および視覚化に関してさまざまな課題をもたらした。ビッグデータの情報源の例には、 Webログ、 RFID 、センサーデータ、ソーシャルネットワーク、インターネット検索インデックス、通話詳細記録、軍事監視、天文科学、生物地球化学、ゲノミクス、大気科学などの複雑なデータがある。ビッグデータは、IT組織が提供するほとんどの予測分析サービスの中核をなしている[30]。 コンピューター・ハードウェアの技術的進歩(より高速なCPU、より安価なメモリ、 MPPアーキテクチャ)と、ビッグデータを処理するための分散処理(例:Hadoop 、 MapReduce)、データベース内分析およびテキスト分析などの新技術のおかげで、構造化データと非構造化データ[31]を大量に収集、分析、マイニングして新たな洞察を得ることが可能になった。 ストリーミングデータに対して予測アルゴリズムを実行することも可能である[32]。 今日では、ビッグデータの探索と予測分析の使用は、これまでになく多くの組織の手の届くところにあり、そのようなデータセットを処理できる新しい方法が提案されている[33][34]。
Remove ads
分析手法
要約
視点
予測分析を行うために使用されるアプローチと手法は、大きく分けて回帰手法と機械学習手法に分類できる。
回帰手法
回帰モデルは、予測分析の主役である。焦点は、考慮されている異なる変数間の相互作用を表現するモデルとして数式を確立することにある。状況に応じて、予測分析を実行しながら適用できるさまざまなモデルがある。そのうちのいくつかを以下に簡単に説明する。
線形回帰モデル
線形回帰モデルは、未知の係数を持つパラメータの線形関数として応答変数を予測する。これらのパラメータは、適合度が最適化されるように調整さる。モデル・フィッティングの取り組みの多くは、残差の大きさを最小化することと、モデルの予測値に対してランダムに分布していることを保証することに焦点を当てている。
回帰の目的は、残差2乗和を最小化するようにモデルのパラメータを選択することである。これは通常の最小二乗法(OLS)推定と呼ばれる。
離散選択モデル
重回帰(上記)は、一般的に、応答変数が連続的で、範囲に制限がない場合に使用される。多くの場合、応答変数は連続ではなく、むしろ離散である。数学的には、離散的に順序づけられた従属変数に重回帰を適用することは可能であるが、重回帰の理論の背後にある仮定のいくつかはもはや成り立たず、このタイプの分析により適した離散選択モデルのような他の手法がある。従属変数が離散的な場合、それらの優れた手法のいくつかは、ロジスティック回帰、多項ロジット、およびプロビット・モデルである。ロジスティック回帰とプロビット・モデルは、従属変数が二値の場合に使用される。
ロジスティック回帰
→詳細は「ロジスティック回帰」を参照
分類の設定では、観測結果を結果確率に割り当てるには、ロジスティック・モデル(ロジック・モデルとも呼ばれる)を使用する。ロジスティック・モデルは、バイナリ従属変数に関する情報を、無制限の連続変数に変換し、通常の多変量モデルを推定する。
ワルド検定と尤度比検定は、モデル内の各係数bの統計的有意性を検定するために使用される(OLS回帰で使用されるt検定に類似している。上記参照)。分類モデルの適合度を評価する検定は、「正しく予測されたパーセンテージ」である。
プロビット回帰
プロビット・モデルは、カテゴリー型の従属変数をモデル化するためのロジスティック回帰の代替手段を提供する。
多項ロジスティック回帰
従属変数が2つ以上のカテゴリを持つ場合に対する二項ロジットモデルの拡張は、多項ロジット・モデルである。このような場合、データを2つのカテゴリにまとめても意味がないか、データの豊富さが失われる可能性がある。多項ロジット・モデルは、特に従属変数のカテゴリが順序付けられていない場合(例えば、赤、青、緑のような色)に適切な手法である。一部の著者らは、ランダム多項ロジットのような特徴選択/重要度法を含むように多項回帰を拡張した。
ロジット対プロビット
2つの回帰は、ロジスティック分布がわずかに平坦になる傾向があることを除いて、同様にふるまう傾向がある。ロジット・モデルとプロビット・モデルから得られる係数は、通常、互いに接近している。しかし、オッズ比は、ロジット・モデルで解釈する方が簡単である。
ロジスティック・モデルよりもプロビット・モデルを選択する実際的な理由としては、次のようなものがある。
- 基礎となる分布が正規分布であるという強い信念がある
- 実際のイベントは、二値的な結果(破産状況など)ではなく、割合(債務レベルが異なる人口の割合など)である。
時系列モデル
時系列モデルは、変数の将来のふるまいを予想または予測するために使用される。これらのモデルは、時間の経過とともに取得されたデータ・ポイントが、考慮すべき内部構造(自己相関、傾向、季節変動など)を持つ可能性があるという事実を説明している。その結果、標準的な回帰手法は時系列データに適用できず、時系列の傾向、季節的、周期的な要素を分解するための方法論が開発されてきた。
時系列モデルは、確率的な成分を含む差分方程式を推定する。これらのモデルの一般的に使用される2つの形式は、自己回帰モデル(AR)と移動平均モデル(MA)である。ボックス・ジェンキンス法法は、ARモデルとMAモデルを組み合わせて、定常時系列分析の基礎となるARMA(自己回帰移動平均)モデルを生成する。一方、ARIMA(自己回帰和分移動平均)モデルは、非定常時系列を記述するために用いられる。
近年、時系列モデルはより洗練され、条件付き不等分散性をモデル化しようとする試みがなされている。このようなモデルには、ARCH(分散自己回帰)モデルやGARCH(一般化ARCH)モデルがあり、どちらも金融時系列によく用いられる。
生存または持続時間分析
生存分析は、時間対事象分析の別称である。主に医学や生物学の分野で開発された手法であるが、工学だけでなく経済学などの社会科学分野でも広く利用されている。
生存データの特徴である打ち切りや非正規性は、重回帰などの従来の統計モデルを用いてデータを解析しようとすると困難を生じる。正規分布は対称分布であるため正の値と負の値を取るが、持続時間はその性質上負の値を取ることができず、持続時間/生存データを扱うとき正規性を仮定することができない。
持続時間モデルには、パラメトリック、ノンパラメトリック、セミパラメトリックがある。一般的に使用されるモデルには、カプラン・マイヤーやコックス比例ハザードモデル(ノンパラメトリック)がある。
分類木と回帰木(CART)
→詳細は「en:Decision tree learning」を参照
分類木と回帰木(CART)は、ノンパラメトリックな決定木学習手法であり、従属変数がカテゴリ型か数値型かに応じて、それぞれ分類木と回帰木のどちらかを生成する。
決定木は、モデリングデータセット内の変数に基づくルールの集合によって形成される。
- 変数の値に基づくルールは、従属変数に基づいて観測値を区別するための最良の分割を得るために選択される。
- ルールが選択されてノードが2つに分割されると、同じ処理が各「子」ノードに適用される(つまり、再帰的な手続きである)。
- 分割は、CARTがこれ以上のゲイン(利得)を得られないと判断した場合や、あらかじめ設定された停止ルールが満たされた場合に停止する。(あるいは、可能な限りデータを分割してから、後から木を剪定するという方法もある)。
木の各枝は末端ノードで終わる。各観測値は1つの端末ノードに該当し、各末端ノードは一連の規則によって一意に定義される。
予測分析のための非常に一般的な手法は、ランダムフォレストである。
多変量適応回帰スプライン
多変量適応回帰スプライン(MARS)は、区分的線形回帰を適合させることで柔軟なモデルを構築するノンパラメトリック手法である。
多変量適応回帰スプライン法は、モデルを意図的にオーバーフィットさせ、最適なモデルを得るために剪定する。このアルゴリズムは計算量が非常に多く、実際には基底関数の数に上限が指定されている。
機械学習手法
機械学習には、回帰や分類のための高度な統計的手法が多数含まれており、医療診断、クレジットカード不正検知、顔や音声の認識、株式市場の分析など、さまざまな分野で応用されている。
→詳細は「Machine learning § Models」を参照
Remove ads
ツール
歴史的に、予測分析ツールを使用すること、およびその結果を理解することには、高度なスキルが必要であった。しかし、最新の予測分析ツールはIT専門家だけのものではなくなった[要出典]。予測分析を意思決定プロセスに採用し、業務に統合する組織が増えるにつれ、情報の主な消費者はビジネスユーザーへと市場がシフトしている。ビジネスユーザーは、自分で使えるツールを求めている。ベンダーは、数学的な複雑さを取り除き、ユーザーフレンドリーなグラフィックインターフェースを提供したり、利用可能なデータの種類を認識して適切な予測モデルを提案できるショートカット(近道)を構築する新しいソフトウェアを開発することで対応している[35]。予測分析ツールは、データの問題を適切に提示して分解できるほど洗練されているので[要出典]、データに精通した情報活用者はデータを分析して意味のある有用な結果を取得できる[36]。たとえば、最新のツールでは、考えられる結果の可能性を示すシンプルなチャート、グラフ、スコアを使って所見を提示する[37]。
市場には、予測分析の実行に役立つツールが多数ある。これらのツールは、ユーザーの高度な知識をほとんど必要としないものから、専門家向けに設計されたものまでさまざまである。これらのツールの違いは、多くの場合、カスタマイズのレベルと、許容されるデータ量の大きさにある。
PMML
予測モデルを表現するための標準言語として、予測モデルマークアップ言語(PMML)が提案された。このようなXMLベースの言語は、さまざまなツールが予測モデルを定義し、それを共有するための方法を提供する。PMML 4.0は2009年6月にリリースされた。
Remove ads
批判
ハーバード大学の教授で、定量的社会科学研究所所長のゲイリー・キングをはじめ、コンピュータやアルゴリズムが未来を予測する能力には懐疑的な意見が多い[38]。人は無数の方法で環境から影響を受けている。人々が次に何をするかを完全に予測するには、影響力のあるすべての変数を知り、正確に測定する必要がある。「人々の環境は、彼ら自身よりもさらに急速に変化する。天候から母親との関係まで、すべてが人の考え方や行動を変える可能性がある。これらの変数はすべて予測できない。それらが人にどのような影響を与えるかは、さらに予測不可能である。明日全く同じ状況に置かれた場合、彼らは全く異なる決断を下すかもしれない。これは、統計的予測が無菌の実験室条件でのみ有効であることを意味し、突然、以前のようには役に立たなくなってしまうことを意味している。[39]」
1990年から2006年の間に『Information Systems Research』と『MIS Quarterly』に掲載された1072本の論文を調査したところ、予測的な主張を試みた経験的な論文は52本のみで、そのうち適切な予測モデリングやテストを実施したのは7本のみであった[40]。
Remove ads
関連項目
脚注
参考文献
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads