دسته: مقالات ترجمه شده isi
بازدید: 237 بار
فرمت فایل: docx
حجم فایل: 522 کیلوبایت
تعداد صفحات فایل: 10
کنترلچراغترافیک(راهنمایی) در محیطهای غیرثابت براساسیادگیری-Qچند عاملی
چکیده - در بسیاری ازمناطق شهری که در آنجاتراکم ترافیک دارای الگویاوج نیست،روشهای زمان بندی چراغهای معمولی باعث کنترل موثری نمیشود. یک روش جایگزین این است که یادگیری نحوه تنظیم چراغ بر اساس وضعیت ترافیک توسط کنترلرهای سیگنال ترافیکی میسر شود. با این حال، اینامر باعث ایجاد یک محیط غیرثابت کلاسیک میشود زیرا هر کنترلر تغییرات ناشی ازدیگرکنترلرها را تطبیق میدهد. دریادگیریچند عاملی، اینکار به احتمال زیاد ناکارآمد بوده ودارای پیچیدگیهای محاسباتیاست، یعنی باافزایشتعداد عاملها (کنترلرها)، بازده کاهش مییابد. در این مقاله، یک شبکهترافیکی نسبتا بزرگرا بصورت سیستمچند عاملیمدلسازی میکنیم و از تکنیکهای یادگیری تقویتی چند عاملی استفاده میکنیم.بطور خاص،یادگیری-Qبه کار گرفته شده است، که در آن طول متوسط صفدرلینکهای نزدیک شونده به منظور برآوردحالتها استفاده میشود. یک بیانپارامتری از فضایعمل، این روش را قابل توسعه به انواع مختلفی از تقاطعها کرده است. نتایج شبیه سازی نشان میدهد کهیادگیری-Qپیشنهادی عملکرد بهتری نسبت به روش زمان ثابت تحت نیازهای ترافیکی متفاوت دارد.
Traffic Light Control in Non-stationary Environments based on Multi
Agent Q-learning
Monireh Abdoos , Nasser Mozayani and Ana L. C. Bazzan
Abstract—In many urban areas where traffic congestion does not have the peak pattern, conventional traffic signal timing methods does not result in an efficient control. One alternativeis to let traffic signal controllers learn how to adjust the lights based on the traffic situation. However this creates aclassical non-stationary environment since each controller is adapting to the changes caused by other controllers. In multi-agent learning this is likely to be inefficient and computationally challenging,i.e., the efficiency decreases with the increase in the number of agents (controllers). In this paper, we model a relatively large traffic network as a multi-agent system and use techniques from multi-agent reinforcement learning. In particular, Q-learning is employed, where the average queue length in approaching links is used to estimate states. A parametric representation ofthe action space has made the method extendable to different types of intersection. The simulation results demonstrate that the proposed Q-learning outperformed the fixed time method under different traffic demands.
- 1. مقدمه
کنترلسیگنالیکی ازحوزههای مورد نظر درکل تحقیق است که تحتعنوان سیستمهایحمل و نقل هوشمند (ITS) شناخته میشود. میتوان ITSرا توسط برخی از تکنیکهاپیادهسازی کرد. در این مقاله حاضر، ازسیستمهای چندعاملیو یادگیری ماشینبرای توسعهیک مکانیزم کنترلنورترافیک استفاده میکنیم.