Как научиться просчитывать действия людей


Искусство стратегического мышления: как просчитать ходы соперника


Ирина Балманжи

Все мы стратеги, хотим того или нет. И лучше быть хорошим стратегом, чем плохим. Работа и жизнь в обществе — это непрерывный поток решений. Какую карьеру выбрать, как воспитывать детей и баллотироваться ли на пост президента?..

У этих ситуаций есть общая черта: вы находитесь не в вакууме. Вас окружают люди, которые активно принимают решения, связанные с вашими. Как просчитывать «ходы» соперника научным методом и принимать оптимальные решения, рассказывают авторы книги «Теория игр».

Что это за теория?

Теория игр — это раздел общественных наук, который изучает принятие стратегических решений. Теория игр охватывает самые разные игры — от шахмат до воспитания детей, от тенниса до поглощения компаний, от рекламы до контроля над вооружениями.

Английский писатель-юморист венгерского происхождения Джордж Микеш сказал однажды: «Многие обитатели континента считают, что жизнь — это игра; англичане считают, что крикет — это игра». Правы и те, и другие.

Все игры требуют разных навыков. Базовые навыки, такие как умение попадать мячом в корзину в баскетболе, знание прецедентов в юриспруденции или способность сохранять невозмутимый вид в покере, — одна категория навыков; способность мыслить стратегически — другая.

Важный урок

Бернард Шоу писал: «Не поступай с другими так, как ты хотел бы, чтобы поступали с тобой. У вас могут быть разные вкусы». Это очень ценный урок для тех, кто учится мыслить стратегически. Принимайте во внимание цели и стратегии других игроков. Вы должны приложить максимум усилий, чтобы понять позицию и взаимосвязи между другими участниками игры, в том числе позицию тех игроков, которые предпочитают молчать.

Бернард Шоу, — источник.

Когда вы угадываете число, выбранное случайным образом, это число никто не пытается от вас спрятать. Следовательно, вы можете применить инженерный подход и, выбрав среднее значение из интервала, получить лучший результат. Но если вы играете в реальную игру, нужно проанализировать, как будет действовать другой игрок и как его решения повлияют на вашу стратегию.

Стратегия имитации

Парусная регата дает возможность проанализировать интересный обратный вариант стратегии следования за лидером. Как правило, лидирующий парусник копирует стратегию корабля, идущего вслед за ним. Когда отстающий парусник меняет курс, лидер делает то же самое. Лидер копирует действия отстающего, даже если его стратегия явно неэффективна. Почему? Потому что в парусном спорте важна только победа.

Если вы уже занимаете первое место, самый верный способ оставаться первым — имитировать действия тех, кто идет следом за вами.

Меньше — лучше

Возможно, вы считаете, что всегда полезно иметь больше вариантов. Но если мыслить стратегически, сокращение числа возможных вариантов может принести больше пользы. Томас Шеллинг пишет в своей книге о том, как афинский полководец Ксенофонт сражался, встав спиной к глубокому ущелью. Он специально выбирал такую позицию, чтобы у его солдат не было возможности отступать. В той битве у них одеревенели спины, но они победили.

По другой версии корабли Кортеса были сожжены, — источник.

Точно так же Кортес потопил свои корабли после прибытия в Мексику. Ацтеки могли отступить в глубь своей территории, а у солдат Кортеса не было никакой возможности для бегства или отступления. Сделав поражение еще более пагубным, чем оно было бы само по себе, Кортес повысил свои шансы на победу — и победил.

Иногда хорошая стратегия — не иметь стратегии

В комедии «Принцесса-невеста» есть интересная сцена — сражение на смекалку между героем (Уэстли) и злодеем (Виццини). Уэстли предлагает Виццини сыграть в игру: Уэстли отравит вино в одном из бокалов. Затем Виццини должен выбрать один из бокалов и выпить вино из него, а Уэстли выпьет из другого.

Виццини убежден в том, что может выиграть, воспользовавшись логическими рассуждениями:

— Все, что мне нужно сделать, — это угадать, опираясь на то, что я знаю о тебе. Умный человек положит яд в свой бокал, потому что он знает, что только дурак выберет тот бокал, который предназначен для него. А я не дурак и не могу выбрать бокал, стоящий перед тобой. Но ты, наверное, знал, что я не полный дурак…

Этому циклу логических рассуждений нет конца, потому что каждый из аргументов содержит внутреннее противоречие.

Похожий эпизод встречается в сериале BBC «Шерлок», — источник

В подобных ситуациях единственный логически обоснованный вывод состоит в том, что, если вы будете выбирать свои ходы, придерживаясь той или иной системы или закономерности, другой игрок непременно воспользуется этим на пользу себе и в ущерб вам.

Верить или нет?

Почему мы не можем рассчитывать на то, что другие люди будут всегда говорить нам только правду и ничего, кроме правды? Ответ очевиден: потому что это противоречит их интересам.

Британский ученый и писатель Чарльз Сноу приписывает математику Годфри Харди следующую стратегически важную мысль: «Если архиепископ Кентерберийский говорит, что верит в Бога, он делает это в силу своих обязанностей; если же он скажет, что не верит в Бога, можно быть уверенным, что он говорит искренне».

Точно так же если официант предлагает вам бифштекс из более дешевого куска мяса или дешевое чилийское вино, у вас есть все основания верить ему. Возможно, официант будет прав и тогда, когда посоветует вам дорогое основное блюдо, но определить это труднее. Чем больше человек заинтересован в получении выгоды, тем меньше можно доверять сказанному.

Когда лесоруб принимает решение о том, как рубить лес, он не ждет от него сопротивления: его среда нейтральна. Но когда генерал пытается разбить армию врага, он обязан предвидеть любое сопротивление, способное помешать его планам.

Цели других людей часто вступают в противоречие с вашими, но могут и совпадать с ними. Начните думать как стратег — и добро пожаловать в игру.

По материалам книги «Теория игр».

Алгоритм

- Как я могу рассчитать возраст человека в году, месяце, днях?

Переполнение стека
  1. Около
  2. Товары
  3. Для команд
  1. Переполнение стека Общественные вопросы и ответы
  2. Переполнение стека для команд Где разработчики и технологи делятся частными знаниями с коллегами
  3. Вакансии Программирование и связанные с ним технические возможности карьерного роста
  4. Талант Нанимайте технических специалистов и создавайте свой бренд работодателя
.

Как рассчитать стоимость ухода сотрудников

Одна из самых больших ошибок в истории бизнеса - это полное признание важности таких «человеческих» функций, как HR, набор, обучение и развитие. В конце концов, организации хороши ровно настолько, насколько хороши люди, которые в них работают, и эти отделы несут ответственность за привлечение и получение максимальной отдачи от этих людей.

И все же мы часто видим, что эти функции, связанные с кадрами, не занимают «места за столом» с руководителями.Зачем?

Серьезной причиной является отсутствие доступных, четких показателей, которые напрямую связаны с чистой прибылью. Для сравнения, у продаж есть продажи. У маркетинга есть лиды. У обслуживания клиентов есть уровни удовлетворенности клиентов. Но показатели HR иногда могут показаться слабыми или трудно поддающимися количественной оценке, и поэтому трудно вложить в их усилия денежную сумму.

Что ж, эта статья призвана помочь решить эту проблему. В своем учебном курсе LinkedIn «Организационное обучение и развитие» д-р Бритт Андреатта подробно рассказала, как рассчитать стоимость уволенного сотрудника в вашей компании.

И цифры могут быть довольно шокирующими.

Как рассчитать стоимость увольнения сотрудников

Gallup путем обширного исследования обнаружил, что в среднем 17,2% сотрудников организации активно не задействованы.

Gallup описывает активно отстраненного работника как человека, который «недоволен и непродуктивен на работе и склонен распространять негатив среди коллег». Другими словами, это люди, которым не нравится их работа и которые не боятся рассказать о ней другим.

Gallup также обнаружил, что активно отстраненный сотрудник обходится своей организации в 3400 долларов на каждые 10 000 долларов зарплаты, или 34 процента. Это означает, что активно отстраненный сотрудник, который зарабатывает 60 000 долларов в год, обходится своей компании в 20 400 долларов в год!

Используя эти два показателя, Андреатта предложил спрогнозировать, сколько денег будет стоить их компании активно уволенные сотрудники. Во-первых, вы можете предсказать, сколько сотрудников не вовлечены в вашу рабочую силу - 17,2 процента. Итак, если у вас 5000 сотрудников, это 860 человек (5000 x.172).

Теперь вы можете подсчитать стоимость этих уволенных сотрудников. Итак, предположим, что средняя зарплата вашей рабочей силы составляет 60 000 долларов в год. Это означает, что каждый уволенный сотрудник обходится вам в среднем в 20 400 долларов, или 34 процента от их зарплаты (60 000 долларов x 0,34).

Это означает, что эти уволенные сотрудники - 860 x 20 400 долларов - обходятся вашей компании в 17,5 миллионов долларов в год. Это много денег!

Запутались с расчетами? Не волнуйтесь, вы можете скачать здесь наш калькулятор, который поможет вам спрогнозировать стоимость ухода в вашей компании.

Хорошо, как мне решить эту проблему?

Приятно знать, во сколько обходятся вашей компании активно уволенные сотрудники. Но тут только возникает вопрос, как это исправить?

Что ж, ответ в том, чтобы уменьшить количество активно отстраненных сотрудников в вашей рабочей силе. Вот несколько проверенных и проверенных способов сделать это:

Есть еще дюжина других тактик, которые вы также можете использовать, а также список вещей, которые нельзя делать. Ключевым моментом является измерение вовлеченности с помощью опросов сотрудников и выяснение того, что работает, а что нет в вашей организации.

.

Руководство по Q-Learning для начинающих. Безмодельное обучение с подкреплением | by Chathurangi Shyalika

ОПРЕДЕЛЕНИЕ ОТРАЖЕНИЯ

Обучение с подкреплением без моделей

Вы когда-нибудь обвиняли или били вашу собаку в наказание за совершенные противоправные действия? Или вы когда-нибудь тренировали питомца и награждали его за каждую правильную команду, которую вы просили? Если вы владелец домашнего животного, вероятно, ваш ответ будет «Да». Возможно, вы заметили, что когда вы делаете это с более раннего возраста, его неправомерные действия уменьшаются с каждым днем.И так же, как он будет учиться на ошибках и хорошо тренироваться.

Как люди, мы тоже испытали то же самое. Помните, в нашей начальной школе учителя награждали нас звездами за то, что мы как следует выполняли школьные задания. : D

Именно это и происходит в Reinforcement Learning (RL) .

Обучение с подкреплением - одно из самых прекрасных направлений в искусственном интеллекте

Целью RL является , чтобы максимизировать вознаграждение агента путем выполнения ряда действий в ответ на динамическую среду .

В обучении с подкреплением есть 4 основных компонента; агент, среда, награда и действие.

Обучение с подкреплением - это наука о принятии оптимальных решений на основе опыта. Разбивая его на части, процесс обучения с подкреплением включает в себя следующие простые шаги:

  1. Наблюдение за окружающей средой
  2. Решение, как действовать, используя некую стратегию
  3. Действуя соответственно
  4. Получение награды или штрафа
  5. Изучение опыта и совершенствование нашего стратегия
  6. Итерировать, пока не будет найдена оптимальная стратегия.
Источник: ссылка

. Существует 2 основных типа алгоритмов RL.Это на основе модели и без модели .

Алгоритм без модели - это алгоритм, который оценивает оптимальную политику без использования или оценки динамики (функций перехода и вознаграждения) среды. Принимая во внимание, что основанный на модели алгоритм - это алгоритм, который использует функцию перехода (и функцию вознаграждения) для оценки оптимальной политики.

Q -learning - это алгоритм обучения с подкреплением без модели .

Q-Learning - это алгоритм обучения на основе значений . Алгоритмы на основе значений обновляют функцию цены на основе уравнения (в частности, уравнения Беллмана). В то время как другой тип, , основанный на политике, оценивает функцию ценности с помощью жадной политики, полученной в результате последнего улучшения политики.

Q-Learning - это ученик вне политики . Это означает, что он узнает ценность оптимальной политики независимо от действий агента.С другой стороны, изучающий политику узнает ценность политики, выполняемой агентом, включая шаги исследования, и найдет политику, которая является оптимальной, принимая во внимание исследование, присущее политике. .

Что это за «Q»?

Q в Q-обучении означает качество. Качество здесь показывает, насколько полезно данное действие для получения некоторой будущей награды.

Определение Q-Learning

  • Q * (s, a) - это ожидаемое значение (совокупное дисконтированное вознаграждение) выполнения в состоянии s и последующего следования оптимальной политике.
  • Q-Learning использует Temporal Differences (TD) для оценки значения Q * (s, a). Разница во времени - это агент, обучающийся в окружающей среде через эпизоды без предварительного знания окружающей среды.
  • Агент поддерживает таблицу Q [S, A] , где S - это набор состояний и A - набор действий .
  • Q [s, a] представляет текущую оценку Q * (s, a).

Q-Learning Простой пример

В этом разделе Q-обучение было объяснено вместе с демонстрацией.

Допустим, агент должен перейти от начальной точки к конечной по пути, на котором есть препятствия. Агенту необходимо достичь цели по кратчайшему пути, не задев препятствий, и ему необходимо следовать границе, перекрытой препятствиями. Для нашего удобства я представил это в настраиваемой среде сетки следующим образом.

Агент и его среда

Представляем Q-Table

Q-Table - это структура данных, используемая для расчета максимального ожидаемого будущего вознаграждения за действие в каждом состоянии.По сути, эта таблица будет направлять нас к лучшим действиям в каждом состоянии. Для изучения каждого значения Q-таблицы используется алгоритм Q-Learning.

Q-функция

Q-функция использует уравнение Беллмана и принимает два входа: состояние (я) и действие (а).

Уравнение Беллмана. Источник: ссылка

Процесс алгоритма Q-обучения

Алгоритм Q-обучения

Шаг 1: Инициализировать Q-таблицу

Сначала необходимо построить Q-таблицу. Есть n столбцов, где n = количество действий.Имеется m строк, где m = количество состояний.

В нашем примере n = идти влево, идти вправо, вверх и вниз и m = начало, бездействие, правильный путь, неправильный путь и конец. Сначала давайте инициализируем значения в 0.

Начальная Q-таблица

Шаг 2: Выберите действие

Шаг 3: Выполните действие

Комбинация шагов 2 и 3 выполняется в течение неопределенного времени. . Эти шаги выполняются до тех пор, пока не будет остановлено обучение по времени или пока не остановится цикл обучения, как определено в коде.

Сначала действие (а) в состоянии (ах) выбирается на основе Q-таблицы. Обратите внимание, что, как упоминалось ранее, когда эпизод изначально начинается, каждое Q-значение должно быть 0.

Затем обновите Q-значения, чтобы они были в начале и двигались вправо, используя уравнение Беллмана, которое указано выше.

Жадная стратегия Epsilon Концепция вступает в игру. Вначале ставки по эпсилону будут выше. Агент будет исследовать окружающую среду и случайным образом выбирать действия.Это происходит логически так, поскольку агент ничего не знает об окружении. По мере того как агент исследует среду, скорость эпсилон уменьшается, и агент начинает использовать среду.

В процессе исследования агент постепенно становится более уверенным в оценке Q-значений.

В нашем примере с агентом, когда начинается обучение агента, агент полностью не знает о среде. Итак, допустим, он произвольно движется в "правильном" направлении.

Действие: Агент следует «вправо»

Теперь мы можем обновить значения Q для того, чтобы быть в начале и двигаться вправо, используя уравнение Беллмана.

Обновленная Q-таблица

Шаги 4: Измерение вознаграждения

Теперь мы предприняли действие и наблюдали результат и награду.

Шаги 5: Вычислить

Нам нужно обновить функцию Q (s, a).

Этот процесс повторяется снова и снова, пока обучение не будет остановлено. Таким образом Q-таблица обновляется, а функция ценности Q максимизируется.Здесь Q (состояние, действие) возвращает ожидаемое будущее вознаграждение за это действие в этом состоянии.

Уравнение Беллмана Объяснение эпизодов

В этом примере я ввел следующую схему вознаграждения.

Награда при приближении к цели на шаг = +1

Награда при столкновении с препятствием = -1

Награда при простое = 0

.

Понимание темпов обучения и того, как они повышают эффективность глубокого обучения | Автор: Хафидз Зулкифли

В курсе fast.ai большое внимание уделяется использованию предварительно обученной модели при решении задач ИИ. Например, при решении задачи классификации изображений студентов учат использовать предварительно обученные модели, такие как VGG или Resnet50, и подключать их к любому набору данных изображений, который вы хотите спрогнозировать.

Чтобы подвести итог тому, как построение модели выполняется в fast.ai (программе, не путать с fast.ai), ниже приведены несколько шагов [8], которые мы обычно выполняем:

1. Включите увеличение данных и предварительное вычисление = True

2. Используйте lr_find () , чтобы найти максимальное значение. скорость обучения, при которой потери все еще явно улучшаются

3. Обучите последний слой из предварительно вычисленных активаций для 1-2 эпох

4. Обучите последний слой с увеличением данных (т.е. предварительное вычисление = False) для 2–3 эпох с cycle_len = 1

5. Разморозить все слои

6.Установите более ранние слои в 3-10 раз меньшую скорость обучения, чем следующий более высокий уровень

7. Используйте lr_find () снова

8. Обучите всю сеть с cycle_mult = 2 до переобучения

Из приведенных выше шагов мы замечаем, что шаги 2, 5 и 7 относятся к скорости обучения. В предыдущей части этого поста мы в основном рассмотрели пункт 2 упомянутых шагов - где мы коснулись того, как получить наилучшую скорость обучения до обучения модели.

В следующем разделе мы рассмотрели, как с помощью SGDR мы можем сократить время обучения и повысить точность, время от времени перезагружая скорость обучения, чтобы избежать областей, где градиент близок к нулю.

В этом последнем разделе мы рассмотрим дифференциальное обучение и то, как оно используется для определения скорости обучения при обучении моделей, прикрепленных к предварительно обученной модели.

Что такое дифференциальное обучение?

Это метод, при котором вы устанавливаете разные скорости обучения для разных слоев сети во время обучения.Это контрастирует с тем, как люди обычно настраивают скорость обучения, которая заключается в использовании одной и той же скорости во всей сети во время обучения.

Одна из причин, почему я просто люблю Twitter - прямой ответ от самого человека.

Во время написания этого поста Джереми опубликовал статью с Себастьяном Рудером [9], которая более глубоко погружается в эту тему. Итак, я полагаю, что у дифференциальной скорости обучения теперь новое имя - различительная точная настройка . :)

Чтобы проиллюстрировать концепцию немного яснее, мы можем обратиться к диаграмме ниже, где предварительно обученная модель разделена на 3 группы, где каждая группа будет настроена с увеличивающимся значением скорости обучения.

Пример CNN с разной скоростью обучения. Изображение предоставлено [3]

Интуиция, лежащая в основе этого метода настройки, заключается в том, что первые несколько слоев обычно содержат очень подробные детали данных, такие как линии и края, которые мы обычно не хотели бы сильно менять и хотел бы сохранить информацию. Таким образом, нет необходимости сильно менять их вес.

Напротив, в более поздних слоях, таких как те, что обозначены зеленым выше, где мы получаем подробные характеристики данных, такие как глазные яблоки, рот или нос; нам не обязательно нужно их хранить.

Как это сравнить с другими методами точной настройки?

В [9] утверждается, что точная настройка всей модели будет слишком дорогостоящей, поскольку некоторые могут иметь более 100 слоев. Таким образом, люди обычно настраивают модель по одному слою за раз.

Тем не менее, это вводит требование последовательности, затрудняя параллелизм, и требует нескольких проходов через набор данных, что приводит к переобучению небольших наборов данных.

Также было продемонстрировано, что методы, представленные в [9], могут улучшить как точность, так и уменьшить количество ошибок в различных задачах классификации НЛП (ниже)

Результаты взяты из [9].

Смотрите также