31 3)トピックモデルの評価尺度 トピックモデルの性能を評価する尺度として、パープレキシティ(perprexity、以下、PPL)が用いられる。PPLは分岐数または選択肢の数を表す。PPLは、より少ない値であればそのモデルの絞り込み性能が良いことを示す27)。本研究では、抽出されるトピック数を決定する際にPPLを用いる。 4-3.結果 (1)トピックの抽出結果 前章で作成したBoW表現されたデータにトピックモデルを適用した。分析にはR (version 3.6.2)のtopicmodelsパッケージを用いた。 トピック数はPPLの値から20個に設定した。PPLはトピック数が20を超えても減少し続けるが、トピック数20を境に減少幅が縮小したためこの値とした。 各トピックにおける単語(地点と時間帯の組み合わせ)の出現確率を図4-2に示す。グラフの縦軸にトピックに出現する単語、横軸に出現確率を示している。 図4-2 各トピックにおける単語(地点と時間帯の組み合わせ)の出現確率 (縦軸はトピックに出現する単語、横軸は単語の修験確率。 橙は駅近隣、緑は屋外、黄色は施設内、青は縁辺部を意味する。) なお、トピックに含まれる単語が9個を超える場合は省略している。単語は、「地点_時刻」の組み合わせで表現し、時刻は8個に区切った各時間帯の最初の時間帯を表す(例:0600.10.20.30.40.5デッキ_06市駅東_06TMP_06レスト_06西町六_06駅西側0600.10.20.30.4喜多二_06レスト_06市駅東_06n6_06喜多三_06西町二_06駅東側0600.10.20.30.40.5市駅東_09レスト_09喜多二_09n6_09駅近隣0900.20.40.6市駅東_12レスト_12n6_12喜多二_12駅近隣1200.20.40.6市駅東_15レスト_15デッキ_15n6_15駅近隣1500.20.40.60.8市駅東_18レスト_18n6_18喜多二_18駅近隣1800.10.20.30.4市駅東_21喜多二_21レスト_21デッキ_21喜多三_21n6_21西町二_21駅近隣2100.20.40.6喜多二_15レスト_15市駅東_15駅東側1500.20.40.6喜多二_18市駅東_18レスト_18喜多三_18西町二_18駅東側1800.10.20.30.40.5デッキ_09デッキ_12デッキ_15デッキ日中00.20.40.6デッキ_18TMP_18デッキ_15デッキ夕00.20.40.6喜多二_12喜多二_09レスト_12市駅東_12喜多二昼00.10.20.30.4ギャザ_12ギャザ_15ギャザ_09ギャザ_18ギャザ_06ギャザ_21ギャザ00.10.20.30.4TMP_12TMP_15TMP_09TMP日中00.050.10.150.2喜多P_12喜多P_15喜多P_09喜多P_18TMP_21喜多P_06喜多P_21デッキ_12喜多P00.050.10.150.20.25喜多三_12喜多三_09喜多三_15喜多三_06喜多三_18喜多三_21喜多三00.050.10.150.20.25西町二_12西町二_15西町二_09西町二_18西町二_06西町二_21西町二00.050.10.150.2桜町一_12桜町一_15桜町一_09桜町一_18桜町一_06桜町一_21桜町一_00桜町一_03桜町一00.10.20.3西町六_15西町六_18西町六_12西町六_09西町六_21西町六00.050.10.150.20.25西町六_06西町六_00市駅東_00西町六_03市駅東_03喜多二_00西町六_09レスト_00未明
元のページ ../index.html#37