Эволюция идей вокруг марковских процессов принятия решений, часть 1 (расширенная статистика)

Политика LP-обновления для слабосвязанных марковских процессов принятия решений(arXiv)

Автор:Николя Гаст, Бруно Гауджал, Чен Ян

Аннотация: В этой работе мы предлагаем новую политику, называемую политикой LP-обновления, для слабосвязанных марковских процессов принятия решений с конечным горизонтом. Последние можно рассматривать как бандиты с несколькими ограничениями и несколькими действиями, и они обобщают классические задачи о беспокойных бандитах (которые представляют собой бандитов с одним ограничением и двумя действиями), широко изучаемые в литературе. Мы рассматриваем скейлинговую модель с N статистически идентичными плечами. Мы показываем, что наша политика LP-обновления становится асимптотически оптимальной со скоростью O(1/N−−√) для любой проблемы. Эту скорость можно повысить до O(1/N), если задача невырожденная, и даже до e−Ω(N), если, кроме того, задача допускает идеальное округление. Определение невырожденности расширяет то же понятие для классических неугомонных бандитов с двумя действиями. Используя это свойство, мы также обеспечиваем более эффективную реализацию политики LP-update. Мы иллюстрируем эффективность нашей политики на обобщенной задаче отбора кандидатов.

2.Интервальные марковские процессы принятия решений с непрерывными пространствами действий(arXiv)

Автор:Яннис Делимпалтадакис, Мортеза Лахиджанян, Мануэль Мазо-младший, Лука Лауренти

Аннотация: Интервальные марковские процессы принятия решений (IMDP) — это неопределенные марковские модели, в которых вероятности перехода относятся к интервалам. В последнее время наблюдается всплеск исследований по использованию IMDP в качестве абстракций стохастических систем для синтеза управления. Однако из-за отсутствия алгоритмов синтеза над IMDP с непрерывными пространствами действий пространство действий априори предполагается дискретным, что является ограничительным предположением для многих приложений. Руководствуясь этим, мы вводим IMDP непрерывного действия (caIMDP), где границы вероятностей перехода являются функциями переменных действия, и изучаем итерацию значений для максимизации ожидаемого совокупного вознаграждения. В частности, мы показываем, что решение задачи максимального-минимального значения, связанной с итерацией значений, эквивалентно решению |Q| макс задач, где |Q| - количество состояний caIMDP. Затем, используя простую форму этих максимальных задач, мы определяем случаи, когда итерация значений по caIMDP может быть решена эффективно (например, с помощью линейного или выпуклого программирования). Мы также получаем другие интересные сведения: например, в случае, когда множество действий A является многогранником, а границы перехода линейны, для оптимальности достаточно синтезировать IMDP дискретного действия, где действия являются вершинами A. Продемонстрируем наши результаты на численном примере. Наконец, мы включили краткое обсуждение использования caIMDP в качестве абстракций для синтеза управления.

3. Сложность марковских процессов принятия решений: теория и практика(arXiv)

Автор:Микеланджело Консерва, Пауло Раубер

Аннотация. Тщательный анализ эмпирических сильных и слабых сторон методов обучения с подкреплением в сложных (сложных) условиях необходим для вдохновения на инновации и оценки прогресса в этой области. В табличном обучении с подкреплением отсутствует устоявшийся стандартный выбор сред для проведения такого анализа, что отчасти связано с отсутствием широкого понимания богатой теории жесткости сред. Цель этой статьи состоит в том, чтобы раскрыть практическую полезность этой теории с помощью четырех основных вкладов. Во-первых, мы представляем систематический обзор теории твердости, который также определяет перспективные направления исследований. Во-вторых, мы представляем Colosseum, новаторский пакет, который позволяет проводить эмпирический анализ твердости и реализует принципиальный эталонный тест, состоящий из сред, которые различаются по различным показателям твердости. В-третьих, мы представляем эмпирический анализ, который дает новое понимание вычислимых показателей. Наконец, мы тестируем пять табличных агентов в нашем недавно предложенном тесте. Хотя продвижение теоретического понимания сложности в нетабличном обучении с подкреплением остается важным, наш вклад в табличное урегулирование задуман как твердый шаг к принципиальному нетабличному эталону. Соответственно, мы тестируем четыре агента в нетабличных версиях среды Colosseum, получая результаты, демонстрирующие общность табличных показателей твердости.

смотрите также:

Новые материалы

Как работает промежуточный надзор, часть 2 (машинное обучение)

Эффективная сегментация медицинских изображений с промежуточным механизмом наблюдения (arXiv) Автор: Ди Юань , Цзюнян Чен , Чжэнхуа Сюй , Томас Лукасевич , Чжиган Фу , Гуйчжи Сюй ...

Что такое A11y (и почему вы должны его использовать)

Возможно, вы слышали об атрибутах W3C или ARIA, но что они на самом деле означают? Доступность определяется как процесс разработки продуктов, устройств и сред, которые могут использовать люди..

День 76/100 Книга

День 76/100 Книга Обучение — это непрерывный процесс с ресурсами, широко используемыми людьми, которые признают сложный путь достижения успешной цели. Хотя поначалу это может показаться..

Gmail Smart Compose: умный способ написать электронное письмо

Gmail означает почту Google, это бесплатная служба электронной почты, предоставляемая Google по всему миру. Google официально запустил Gmail в 2004 году, и в настоящее время этой услугой..

API следующего поколения: gRPC n Javascript

gRPC - быстро развивающаяся технология, которая потенциально может заменить протокол HTTP. Это быстрее, чем традиционные HTTP-вызовы, потому что он отправляет данные в двоичном формате, а не в..

Ускоренный курс по жадным алгоритмам

Дай мне, дай мне, дай мне Аудитория Эта статья предназначена для инженеров, достаточно хорошо разбирающихся в программировании, структурах данных и алгоритмах. Он в основном основан на..

Изучайте Java (Урок 2: Комментарии)

Как и зачем использовать комментарии в java с примерами Введение: Комментарии — это строки текста в программе Java, которые игнорируются компилятором и используются для добавления..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Coding Web Development Deep Learning AI React Software Engineering Nodejs Typescript Java Front End Development CSS NLP Development Data Computer Science Algorithms Productivity ChatGPT Tech HTML Tutorial Reactjs API Neural Networks Mathematics Javascript Tips Programming Languages Statistics Angular AWS Javascript Development Computer Vision