高齢運転者の法令違反特性及び防止対策に関する考察
18/41

15 3-3.事故影響要因による違反有無の違いへの分析 本節では、事故影響要因による違反有無の違いを把握するために、決定木モデルを高齢運転者が関与する交通事故データに適用し、高齢運転者の法令違反に影響を与える影響要因の重要性順位を把握する。 3-3-1.決定木モデルの紹介 決定木というはデータの特徴量を用いた簡単なルールで次々と分岐を作り、特徴空間を複数の矩形領域に分割し、そこに閾値(定数)を当てはめることで、推定を行うモデルである。そのうち、分割を継続する分岐点は「ノード」、それぞれのノードから伸びる分岐を表す線を「枝」、終的な判別を行うノードは「ターミナルノード」と定義する。決定木はデータベースの中の注目する(目的変数)に関する重要な知識(説明変数)を木構造によるルールの組み合わせで表現し、注目する属性を分類・推定するモデルである1)。 決定木モデル分析を行うためには、C4.5やCART(Classification And Regression Trees)など複数のアルゴリズムが存在するが、本章では汎用性の高さからCARTを採用し、統計分析フリーソフト「R」にパッケージとして実装されているmvpartの関数rpart()を用いて分析を行う2)。CARTでは、「木の構築」、「木の剪定」という2つの流れで、判別モデルを構築する。 CARTは分類ルールを作成する指標として「GINIインデックス」という指標を用いている。ある決定木の分岐を作成した際、分岐作成前と分岐作成後で「GINIインデックス」が大きくなる、すなわち分岐後にできたグループに間違った分類データがなるべく入らないような分岐を探そうという仕組みである。ここで、分岐作成前後の「GINIインデックス」の変化を表現するために、不純度(impurity)という指標を用いる。なお、不純度は以下の式3-1で算出される。 )()()()(RRLLttGIPtGIPtGIPtGI (3.1) ここで、)(tGIは以下の式3.2で表されるノードtにおける「GINIインデックス」である。 ktkptGI2)|(1)( (3.2) ここで、)|(tkpは、ノードt内のカテゴリkが正しく分類されている比率である。また、式3.1における)(LtGI、)(RtGIは、それぞれノードtの左側と右側の枝の「GINIインデッ

元のページ  ../index.html#18

このブックを見る