利用論文 - 交通流の強化学習ツール highway-env

強化学習におけるOpenAI Gymを拡張させたツールに、交通流を扱うhighway-envがある。highway-envを利用した論文の一部を紹介する。複合機能と相互作用に関する論文が多い。

Papers With Codeにおいてtrafficを検索すると、このツールを使った2021年などの論文が幾つか出て来る。なおサイトにはコードを公開していると書いてあっても、実際にはhighway-envツールのソースだけが公開されている事も多く、注意が必要である。highway-envのサイトにはさらに多数の論文が紹介されている。Social Attention DQN サンプルもhighway-envを使った論文である。

以下は2023/2時点での情報である。

ランプ合流の深層マルチエージェント強化学習

ランプ合流で自律走行車と人間駆動車が混在する場合、自律走行車が協調してスループットを最大化する方法を学習する。2021年の論文であり、このサイトから取得できる。highway-envとエージェントまで含めたソースが公開されている。

自律走行車が通信しながらマルチエージェントで強化学習を行う。これに通信外の人間駆動車（とシミュレーション上で扱われている車）が混ざっている。

以下の図で青が自律走行車、緑が人間駆動車である。2が3を入れるため減速しているのが分かる。

相互作用という意味ではSocial Attention DQN サンプルに似ているが、詳細は異なる。Social Attention DQN サンプルは目視をシミュレートしており、本論文は自律走行車の通信をシミュレートしている。

メタ強化学習による交通適応制御

レーン移動に関して、複数の強化学習を混ぜて学習する。2021年の論文であり、このサイトから取得できる。

強化学習の手法は既存のMAMLとPEARLを使い、報酬の期待値の総和を最大にするよう行動する。学習する自車の周りに攻撃的な車と温和な車がいる環境を使う。

以下の図で白が自車、黄色が攻撃的な車、青が普通の車、緑が温和な車である。

交通密集地での相互作用を考慮した誘導ポリシーの学習

密集したランプ合流などで、相互作用を考慮したポリシーの学習と、最適化ベースのプランナーを組み合わせる。2021年の論文であり、このサイトから取得できる。

密集したランプ合流と右レーンからの左折の環境を使う。入る前後の車だけ見て、入れない場合は衝突を避けて次の車を待つ。相互作用は深層強化学習を使い、局所の最適化はMPCC（Model Predictive Contour Controller）という手法を使う。

以下の図で黄色が自車、赤が非協力的な車、緑が協力的な車である。自車の前にある水色部分が最適化による計算である。aとbがランプ合流で、cが右折である。cは他車の進行方向が逆になる。協力的な車を待って入っている。bの場合は6に衝突しそうになり、ハンドルを逆に切って衝突を回避している。

相互作用という意味では、Social Attention DQN サンプルや上記のランプ合流に似ているが、詳細は異なる、本論文は合流する前後の車だけを見ている。

利用論文 - 交通流の強化学習ツール highway-env

ランプ合流の深層マルチエージェント強化学習

メタ強化学習による交通適応制御

交通密集地での相互作用を考慮した誘導ポリシーの学習

目次