豊田市都心の長期と短期の両面によるまちづくり活動の評価
36/64

30 (3)WPSデータへのトピックモデルの適用 1)適用するトピックモデル WPSデータから人々の活動の特徴を抽出するため、トピックモデルの中でもLDA (Latent Dirichlet Allocation)を用いる。LDAの詳細は、様々な書籍例えば35), 36)や過去の研究例えば37). 38). 35)においても紹介されていることからここでは割愛する。 2)入力データの作成 トピックモデルの入力データについて、岩田35)に基づいて示す。トピックモデルでは、文書をその中に出現する単語の多重集合(bag)で表現する。このような文書の表現をBoW (Bag of Words)表現と呼ぶ。BoW表現では、文書を行方向、単語を列方向に並べる行列として作成する。各文書に表れる単語は限られるが、BoW表現では対象とする全文書の単語を持つため、出現しない単語(値が0となる単語)が頻出する。トピックモデルは、データに0値が多数含まれるスパースなデータの分析に適した手法である。 BoW表現に変換することにより単語の出現する順番に関する情報はなくなる。しかし、文書のトピックを知るためには、語順よりもどのような単語が使われているかの方が重要である。 WPSデータにトピックモデルを適用するため、WPSデータをBoW表現に変換する際の考え方は次のとおりである。 中心市街地での人々の活動は時間帯によって異なる。そこで、1日を0時~3時、3時~6時、6時~9時のように3時間ごとに区切って8つの時間帯に分割する39)。12個のセンサーが設置された各地点毎に8つの時間帯の単語が存在すると考える。単語の出現回数は、塚井ら40)の手法を参考に、分単位の滞在時間を10階級分類した値41)とする。そして、文書は中心市街地における人々(各端末)の一日の活動と考える。 つまり、単語は地点と時間帯の組み合わせ、文書は1端末1日のデータ、単語の出現回数は滞在時間の階級である。この方法は、古屋ら38)や川野ら42)の方法を参考にしたが、これらの研究では、本研究における地点をメッシュとしていることと、時間帯で区分していない点に違いがある。 以上の考え方で、WPSデータからBoW表現への変換を行った。なお、固定端末のデータを除外するため、1日の滞在時間が14時間以上のデータは分析対象から外した。 35 岩田具治:トピックモデル, 講談社, 2015. 36 佐藤一誠, 奥村学:トピックモデルによる統計的潜在意味解析, コロナ社, 2015. 37 塚井誠人, 椎野創介:討議録に対するトピックモデルの適用, 土木学会論文集D3, Vol.72, No.5, I_341-I_352, 2016. 38 古屋秀樹, 岡本直久, 野津直樹:GPSログデータを用いた訪日外国人旅行者の訪問パターンの分析手法の開発, 運輸政策研究, Vol.20, 2018. 39 3時間ごとに区切ったのは,通勤・通学や業務,買物,帰宅などの活動が多く含まれる時間帯を大まかに区分できると考えたためであるが,さらに良い方法がないか検証が必要である. 40 塚井誠人, 塚野裕太:トピックモデルによる詳細地理情報分析, 土木学会論文集D3, Vol.74, No.2, 111-124, 2018. 41 滞在時間の階級分類は,分析対象期間全体の地点別時間帯別の滞在時間に対して自然階級分類を用いた. 42 川野倫輝, 佐藤嘉洋, 円山琢也:トピックモデルと離散連続モデルを用いた自由記述の量的分析法, 土木学会論文集D3, Vol.74, No.5, I_277-I_284, 2018.

元のページ  ../index.html#36

このブックを見る