Как научиться трейдингу с нуля


Как стать трейдером с нуля и добиться успеха: советы начинающим

Здравствуйте, уважаемые читатели блога iklife.ru. Сегодня поговорим о том, как стать трейдером в России с нуля. Выясним, можно ли торговать на рынке, если нет никакого опыта, как начать зарабатывать без стартового капитала.

Прочитайте статью до конца. Я порекомендую бесплатные обучающие курсы и книги о профессиональном трейдинге, написанные простым языком. Если будут вопросы, задавайте в комментариях, отвечу.

Кто такой трейдер

Трейдер – это человек, который торгует на финансовых рынках. Покупает подешевле, продает подороже.

Чтобы зарабатывать, трейдеры должны определять, как будут меняться цены. Для этого они изучают рынок – проводят технический или фундаментальный анализ.

Хороший трейдер по любой сделке может сказать: «Я купил, потому что… Я продал, потому что…» Все логично и обоснованно. Никакой интуиции, никаких спонтанных сделок.

То, что продается и покупается на финансовом рынке, называется финансовым инструментом. Все финансовые инструменты делятся на три группы: ценные бумаги, валюта, сырье.

Где торгуют трейдеры

Если вы выбрали для торговли ценные бумаги, вы будете спекулировать на фондовом рынке. Если выбрали валюту, то на валютном или Форексе. Если сырье, то на товарно-сырьевом.

Большинство трейдеров спекулируют на фондовом и валютном рынках. Ценные бумаги и валюта меняются в цене быстрее, чем сырье, поэтому торговать ими выгоднее.

Сегодня не нужно ходить на биржу, чтобы заключать сделки. Все спокойно торгуют через интернет. Нужно скачать на компьютер специальную программу – торговый терминал и начать зарабатывать.

Вы можете торговать:

  1. У себя дома.
  2. В офисе брокера.

Есть компании типа United Traders, которые не только обучают трейдеров, но и предоставляют им рабочие места в офисе. Выучились – приезжаете каждый день в офис, садитесь за компьютер рядом с другими трейдерами, открываете график и работаете.

Как стать трейдером

Вы ничего не знаете про торговлю. У вас нет денег и опыта. Можно ли стать трейдером и выйти на стабильный доход? Да.

Выбрать рынок

Надо решить, чему отдать предпочтение: валюте, ценным бумагам или сырью. Если денег нет совсем, нужно начинать с валютного рынка Форекс. Здесь можно стартовать с очень маленьким капиталом, потому что есть кредитное плечо.

Принципы технического и фундаментального анализа схожи на всех трех рынках. Перейти с одного сегмента на другой не так уж и сложно. Начните с Форекса, разберитесь, что такое финансовые новости, как читать графики, попробуйте торговать. Потом, если валюта разонравится, переключитесь на ценные бумаги.

Помните, что профессиональные трейдеры не перескакивают с одного на другое. Они выбирают рынок, выделяют для себя несколько финансовых инструментов и углубленно их изучают. Знакомятся с особенностями, историей ценовых колебаний, с новостями, которые влияют на курс. Потом обобщают все это в голове и торгуют.

Выбрать брокера

Брокер – это компания, которая исполняет ваши сделки. Вы нажали на кнопку «Купить … акций за … долларов» – брокер купил. Нажали «Продать» – он продал. Сделки исполняются роботом, но за ним следят реальные люди, которые создали брокерскую фирму.

Большинство брокерских фирм в интернете – “серые” и ненадежные. Доверять им деньги опасно.

Проверенные компании для торговли на фондовом рынке:

  1. Финам.
  2. БКС.
  3. Церих.
  4. Открытие.

Проверенные компании для торговли на валютном рынке:

  1. Forex Club.
  2. Альпари.
  3. InstaForex.
  4. RoboForex.

Прочитайте прямо сейчас статью о выборе брокера Форекс. Надо обращать внимание не только на торговые условия, но и на доступность обучения, гарантии, лицензированность.

Пройти базовый учебный курс

Базовый учебный курс обычно доступен на сайте брокерских фирм. Это небольшой объем знаний, который поможет разобраться в биржевой терминологии, финансовых новостях, советах аналитиков.

Информация может предоставляться в виде текста, видеороликов или вебинаров. В компании Альпари каждую неделю проводится 2-3 базовых курса в формате вебинаров, их ведут профессиональные трейдеры из разных городов. После вебинаров преподаватели всегда отвечают на вопросы, дают советы начинающим. Вебинары бесплатные и глубокие, можно смотреть и задавать вопросы.

Если вы хотите торговать валютой, посмотрите курсы в Альпари от этих преподавателей:

  • Алексея Кузнецова,
  • Эдуарда Сунгатуллина.

Они есть в записи на YouTube. У Алексея Кузнецова первый вебинар не выложен, но он вводный. Вот, кстати, второй, который уже «по делу»:

Когда посмотрите занятия, скачайте книгу Александра Элдера «Как играть и выигрывать на бирже». Прочитать нужно до описания индикаторов. Книга углубленных знаний не даст, но поможет имеющиеся знания собрать в целое, более системно посмотреть на трейдинг.

Поторговать на демо-счете

Скачайте на компьютер торговый терминал, откройте демо-счет и потренируйтесь заключать сделки. Ваша задача – научиться:

  • выбирать нужный финансовый инструмент,
  • переключаться по таймфреймам,
  • указывать объем торговой позиции,
  • устанавливать уровни Тейк Профит и Стоп Лосс,
  • следить за прибылью/убытком.

Скачивать терминалы нужно с сайтов брокерских фирм. Даже если программа одна, наборы инструментов у брокеров разные. Да и не получится через терминал от Альпари торговать с брокером InstaForex или Forex4You. Хотя программа везде одна – MetaTrader 4.

Выработать стратегию

Стратегия – это когда вы четко знаете, в какое время нужно открывать и закрывать сделку. Если есть стратегия, вы можете объяснить любое свое действие: почему открылись именно таким объемом, а не другим, почему вышли преждевременно, почему сократили объем позиции.

На рынке нельзя метаться. Вы купили валюту, рынок вдруг пошел вниз – продали. Как только продали, он опять вверх рванул, вы опять купили/продали – так делают только дилетанты.

Стратегия должна базироваться на анализе рынка: техническом или фундаментальном. Трейдерам без опыта проще освоиться в техническом, для фундаментального нужно всесторонне изучать рынок, понимать финансовые новости.

Направлений технического анализа много. Какое выбрать – решать вам. Стратегию можно комбинировать из разных видов анализа.

Посмотрите вебинары Марата Газизова «Торговая стратегия. Базовый принцип». Их пять. Вот первое занятие:

Это пример простой торговой стратегии. Марат доходчиво объясняет, где входить в рынок, где выходить. В реальной торговле он часто торгует более рискованно: сразу от линий поддержки/сопротивления, иногда с учетом уровней Фибоначчи, хотя не очень им доверяет. Посмотрите его анализ финансовых рынков, чтобы лучше понять принцип торговли.

Это анализ за 18.01.2017. Он уже не актуален, но в принципах анализа вы по нему легко разберетесь. Актуальные обзоры Марат выкладывает на своей странице в ВК.

Протестировать стратегию

Откройте торговый терминал, выберите торговый инструмент и отмотайте историю в конец. Представьте, что перед вами график реальных рыночных котировок. Отметьте, где вы откроете позицию, где выставите Тейк Профит и Стоп Лосс. Затем перемещайтесь по истории, смотрите, где будет прибыль, где убыток. Выписывайте результаты торговли на бумаге.

Когда пройдете всю историю котировок, посмотрите, сколько вы заработали. Выделите периоды, где было больше всего неудачных сделок. Почитайте финансовые новости за это время, подумайте, с чем связаны неудачи. Если вы сумели выйти в прибыль на «бумажной» торговле, можно переходить к сделкам “вживую”.

В течение первого месяца торгуйте по стратегии на демо-счете, потом переходите на реальный.

Открыть реальный счет

На базовом курсе вы узнаете о правилах мани-менеджмента – о том, как управлять капиталом. Трейдеры рекомендуют вносить на счет столько денег, чтобы риск в каждой сделке не превышал двух процентов от общей суммы.

Если в сделке вы рискуете 100 $ , на счете должно быть 5 000 $.

Некоторые российские трейдеры повышают этот уровень до 5 %. Американский инвестор Уоррен Баффет считает, что риск не должен превышать 0,1 % от общего капитала.

Почему все так строго? Если вы теряете в сделке не более 2 % капитала, вы остаетесь психологически спокойными и уверенными в себе. Если теряете больше, начинаете паниковать. Паника приводит к необдуманным действиям: вы либо ставите большие суммы, чтобы «отыграться», либо “впадаете в транс” и перестаете спекулировать, упускаете выгодные возможности.

Начать торговать

Когда стратегия выработана и проверена, деньги внесены, начинается реальная торговля. Риск на демо-счете и риск при спекуляции настоящими деньгами – не одно и то же. Как только по сделке появится прибыль, вам сразу захочется ее забрать, закрыв позицию. Как только появится убыток, тоже захочется закрыться. Будете смотреть на график и думать: «А вдруг еще хуже будет?!»

Как решить эту проблему? Есть две рекомендации.

Первая. Отведите на торговлю определенный капитал и представьте, что вы его полностью потеряли. Все, у вас ничего нет, эти деньги к вам никогда не вернутся. Похороните их. И начинайте торговать. Если деньги потеряны, то вас не волнует, прибыль у вас на балансе или убыток. Вы просто торгуете и ничего не ждете. Вы хладнокровны и расчетливы.

Вторая рекомендация вытекает из первой. Когда смотрите на баланс, не представляйте пачку денег, которая то растет, то уменьшается. Это просто цифры. Они для вас ничего не значат.

Если вы мысленно не расстались с деньгами или вам позарез нужна прибыль, скорее всего, вы оставите все деньги на бирже и еще расшатаете нервы.

Вести дневник

Фиксируйте в дневнике все свои сделки. Анализируйте достижения и ошибки. Вести дневник можно в программе Microsoft Word. Делайте скриншоты с терминала, переносите их на лист и пишите пояснения.

Дневник научит вас более внимательному отношению к торговле, заставит размышлять над стратегией, дорабатывать ее.

Как торговать без вложений

Есть брокеры, которые дают деньги для торговли. Чтобы их получить, нужно сначала пройти обучение и продемонстрировать владение торговой стратегией.

Зайдите на сайт брокера United Traders. Компания торгует ценными бумагами. На сайте есть дорогой обучающий курс, стоит он 1 000 $. Половина этой суммы поступает к вам на счет. После обучения можно получить деньги от компании, максимальная сумма – 1 000 000 $.

Еще один хороший брокер – ForexStart. Здесь вам предложат получить деньги для торговли вообще без инвестиций. Принцип такой: вы проходите бесплатное обучение и получаете 100 долларов в управление. В течение двух недель нужно заработать минимум один доллар и не допустить просадки более чем на 20 %.

Если получилось, переходите на второй уровень – в управлении уже 500 $. На пятом уровне ваш капитал составит 20 000 $. Вы будете получать 50 % с прибыли, не вложив ни цента собственных денег.

Как выйти на стабильный доход

Чтобы сделать заработок на трейдинге более системным и надежным, открывайте ПАММ-счета. Вы торгуете, инвесторы наблюдают за вашей доходностью и вкладывают в вас деньги. Часть прибыли с инвестированных капиталов вы забираете себе, часть отдаете.

Если будете спекулировать акциями, ищите возможности для долгосрочных инвестиций. Отбирайте компании, которые стабильно растут, покупайте их акции не для продажи, а для заработка на дивидендах.

Какие книги читать

Для начала прочитайте вот эти три книги:

  1. Александр Элдер «Как играть и выигрывать на бирже».
  2. Джек Швагер «Технический анализ. Полный курс».
  3. Томас Булковски «Полная энциклопедия графических ценовых моделей».

Когда пройдете обучение на сайте брокера, преподаватель порекомендует литературу по вашей торговой стратегии, будете читать ее.

Заключение

Мы поговорили о том, с чего начать новичку, чтобы стать успешным трейдером на финансовом рынке. Чтобы избавиться от эмоций и стать хладнокровным спекулянтом, нужно:

  1. Создать установку «Я уже все потерял. У меня ничего нет» и успокоиться.
  2. Видеть не пачку денег, а просто цифры. Цифры ничего не значат.

Чтобы выйти на стабильный доход, надо:

  1. Открывать ПАММ-счета.
  2. Покупать акции для заработка на дивидендах.

Уважаемые читатели, надеюсь, статья была для вас полезной. Как вы думаете, лучше торговать на фондовом или валютном рынке? Бытует мнение, что валютный рынок – обман, лохотрон. Вы с этим согласны или нет? Как вы думаете, могут ли трейдеры выйти на стабильные доходы, или их работа – постоянный риск? Поделитесь своим мнением в комментариях.

Можно ли научиться торговать с нуля?

Для того, чтобы стать профессиональным врачом, вам необходимо как минимум 5-10 лет обучения. Профессия трейдера не исключение. Автор книги Scalping Is Fun пишет, что вам нужно 10 000 торговых часов, чтобы получить достаточный опыт.

Писатель Малкольм Гладуэлл представил концепцию, согласно которой, помимо таланта, нужно потратить 10 тысяч часов на обучение, чтобы стать профессионалом в любой сфере.

Например, до того, как Beatles стали популярными, они выступали в Гамбурге в течение 10 тысяч часов с 1960 по 1964 год. А 13-летний Билл Гейтс посвятил 10 тысяч часов экспериментам по программированию после того, как в 1968 году получил доступ к компьютеру своей старшей сестры.

Торговля - это полноценная трудовая деятельность , которая требует даже больше времени, чем средняя занятость. Когда мы меняем работу или ищем новую, мы проходим несколько собеседований, испытательный срок, обучение и налаживаем отношения с коллегами.Каждый трейдер проходит похожие этапы в своем развитии.

.

Как выучить любой язык с нуля

Перейти к содержанию

Компьютерщик с информацией о колледже

Как выучить любой язык с нуля Меню 2 СодержаниеЗакрыть меню мобильной навигациизакрыть содержание
  1. Найдите свою мотивацию
  2. Что делать, если я плохо владею языками?
  3. Сколько времени нужно, чтобы выучить язык?
  4. Начните со звуков
  5. Учите свои первые слова
  6. Повторение с интервалом
  7. Овладейте 4 базовыми навыками изучения языка
  8. Как выучить несколько языков
  9. Приложения и инструменты для изучения языков
  10. Начните свое путешествие по изучению языка сегодня
MenuClose mobile меню навигацииclose Start Here Темы:
  • Обучение и обучение
  • Производительность
  • Карьерные навыки
  • Жизненные навыки
  • Удаленный доступ
  • Просмотреть все статьи
  • Бесплатная книга для изучения
  • О
  • Контакты Impo0005
  • Музыка
  • Заявление об отказе от ответственности и условия использования
  • Политика конфиденциальности
  • Отказ от ответственности в отношении файлов cookie
  • Начать здесь
  • Темы
    • иконок новое
.

Как разработать модель машинного обучения с нуля | Виктор Роман

В этой статье мы собираемся подробно изучить, как выполняется процесс разработки модели машинного обучения. Будет объяснено множество концепций, а другие, более конкретные, мы оставим для будущих статей.

Конкретно в статье будет рассмотрено, как:

  • Определить адекватно нашу проблему (цель, желаемые результаты…).
  • Соберите данные.
  • Выберите меру успеха.
  • Установите протокол оценки и различные доступные протоколы.
  • Подготовьте данные (имея дело с пропущенными значениями, с категориальными значениями…).
  • Спилите правильно данные.
  • Проведите различие между переоборудованием и недостаточным соответствием, определив, что это такое, и объяснив, как их избежать.
  • Обзор того, как модель учится.
  • Что такое регуляризация и когда целесообразно ее использовать.
  • Разработайте эталонную модель.
  • Выберите подходящую модель и настройте ее на максимальную производительность.

Первое и самое важное, что нужно сделать, - это выяснить, каковы входные и ожидаемые результаты. Необходимо ответить на следующие вопросы:

  • Какова основная цель? Что мы пытаемся предсказать?
  • Каковы целевые функции?
  • Какие входные данные? Это доступно?
  • С какими проблемами мы сталкиваемся? Бинарная классификация? Кластеризация?
  • Какое улучшение ожидается?
  • Каков текущий статус целевой функции?
  • Как будет измеряться целевой объект?

Не каждую проблему можно решить, пока у нас не будет работающей модели, мы просто сможем сформулировать определенную гипотезу:

  • Наши результаты можно предсказать с учетом входных данных.
  • Наши доступные данные достаточно информативны, чтобы изучить взаимосвязь между входами и выходами

Важно помнить, что машинное обучение можно использовать только для запоминания шаблонов, которые присутствуют в данных обучения, поэтому мы можем только узнайте то, что мы видели раньше. При использовании машинного обучения мы делаем предположение, что будущее будет вести себя как прошлое, и это не всегда верно.

Это первый реальный шаг на пути к реальной разработке модели машинного обучения, сбора данных.Это критический шаг, который будет зависеть от того, насколько хорошей будет модель, чем больше и лучше данных мы получим, тем лучше будет работать наша модель.

Существует несколько методов сбора данных, например парсинг веб-страниц, но они выходят за рамки данной статьи.

Обычно наши данные будут иметь следующую форму:

Примечание. Предыдущая таблица соответствует знаменитому набору данных о жилищном строительстве в Бостоне, классическому набору данных, часто используемому для разработки симпл-моделей машинного обучения.Каждая строка представляет отдельный район Бостона, а каждый столбец указывает некоторые характеристики этого района (уровень преступности, средний возраст и т. Д.). Последний столбец представляет собой среднюю стоимость дома в районе, и это целевая цена, которая будет спрогнозирована с учетом другой.

Питер Друкер, преподаватель Гарвардского университета и автор книг «Эффективный руководитель и управление собой», высказал известную поговорку:

«Если вы не можете измерить это, вы не сможете улучшить его».

Если вы хотите контролировать что-то, это должно быть наблюдаемым, и для достижения успеха важно определить, что считается успехом: Может быть, точность? точность? Уровень удержания клиентов?

Эта мера должна быть напрямую согласована с целями более высокого уровня бизнеса. И это также напрямую связано с проблемой, с которой мы сталкиваемся:

  • Задачи регрессии используют определенные метрики оценки, такие как среднеквадратичная ошибка (MSE).
  • В задачах классификации используются такие показатели оценки, как точность, точность и отзывчивость.

В следующих статьях мы подробно рассмотрим эти показатели, какие показатели лучше всего использовать с учетом возникшей проблемы, и узнаем, как их настроить.

После того, как цель ясна, следует решить, как будет измеряться прогресс в достижении цели. Наиболее распространенными протоколами оценки являются:

4.1 Поддержание набора проверки удержания

Этот метод состоит в выделении некоторой части данных в качестве набора для тестирования.

Процесс будет заключаться в обучении модели на оставшейся части данных, настройке ее параметров с помощью набора проверки и, наконец, оценке ее производительности на наборе тестирования.

Причина разделения данных на три части - избежать утечки информации. Основное неудобство этого метода состоит в том, что при наличии небольшого количества данных наборы для проверки и тестирования будут содержать настолько мало образцов, что процессы настройки и оценки модели не будут эффективными.

4.2 Проверка K-Fold

K-Fold состоит в разбиении данных на K разделов равного размера. Для каждого раздела i модель обучается с оставшимися разделами K-1 и оценивается на разделе i.

Итоговая оценка - это среднее значение из полученных К. Этот метод особенно полезен, когда производительность модели значительно отличается от разделения поезд-тест.

4.3 Итерационная проверка K-Fold с перетасовкой

Этот метод особенно актуален при наличии небольшого количества доступных данных и необходимости оценки модели как можно точнее (это стандартный подход на соревнованиях Kaggle).

Он заключается в применении проверки K-Fold несколько раз и перетасовке данных каждый раз перед их разделением на разделы K.Итоговый балл - это среднее значение баллов, полученных в конце каждого цикла проверки K-Fold.

Этот метод может быть очень дорогостоящим с точки зрения вычислений, так как количество обученных и оценивающих моделей будет I x K раз. Это I количество итераций и K количество разделов.

Примечание. При выборе протокола оценки важно учитывать следующие моменты:

  • В задачах классификации данные обучения и тестирования должны быть репрезентативными для данных, поэтому перед разделением мы должны перемешать наши данные это, чтобы убедиться, что охватывается весь спектр набора данных.
  • При попытке предсказать будущее с учетом прошлого (прогноз погоды, прогноз курса акций…) данные не следует перемешивать, поскольку последовательность данных является важной особенностью, и это может привести к временной утечке.
  • Мы всегда должны проверять, есть ли в наших данных дубликаты, чтобы удалить их. В противном случае избыточные данные могут появиться как в обучающем, так и в тестовом наборе и вызвать неточное обучение нашей модели.

Прежде чем приступить к обучению моделей, мы должны преобразовать наши данные таким образом, чтобы их можно было использовать в модели машинного обучения.Наиболее распространены следующие методы:

5.1 Работа с недостающими данными

В реальных проблемах довольно часто пропустить некоторые значения наших выборок данных. Это может быть связано с ошибками при сборе данных, пробелами в опросах, измерениями, которые не применимы… и т. Д.

Отсутствующие значения обычно представлены индикаторами «NaN» или «Null». Проблема в том, что большинство алгоритмов не могут обработать эти пропущенные значения, поэтому нам необходимо позаботиться о них, прежде чем передавать данные в наши модели.После того, как они идентифицированы, есть несколько способов справиться с ними:

  1. Удаление образцов или объектов с пропущенными значениями. (мы рискуем удалить релевантную информацию или слишком много выборок)
  2. Ввод недостающих значений с помощью некоторых предварительно построенных оценок, таких как класс Imputer из scikit learn. Мы сопоставим наши данные, а затем преобразуем их, чтобы оценить их. Один из распространенных подходов - установить пропущенные значения как среднее значение для остальных образцов.

5.2 Работа с категориальными данными

При работе с категориальными данными мы работаем с порядковыми и номинальными признаками. Порядковые признаки - это категориальные признаки, которые можно сортировать (размер ткани : L ). А по номиналу не подразумевается какой-либо заказ ( цвет ткани: желтый, зеленый, красный ).

Методы работы с порядковыми и номинальными признаками:

  • Отображение порядковых признаков : чтобы убедиться, что алгоритм правильно интерпретирует порядковые признаки, нам необходимо преобразовать категориальные строковые значения в целые числа.Часто мы делаем это сопоставление вручную. Пример: L: 2, M: 1, S: 0.
  • Кодирование меток номинального класса : Наиболее распространенным подходом является выполнение однократного кодирования, которое заключается в создании нового фиктивного объекта для каждого уникального значения в столбце номинального признака. Пример: в столбце цвета, если у нас есть три класса: желтый, красный, зеленый и выполняется одноразовое кодирование, мы получим три новых столбца, по одному для каждого уникального класса. Тогда, если у нас есть желтая рубашка, она будет выбрана как: желтый = 1, зеленый = 0, красный = 0.Это сделано для обеспечения хорошей производительности алгоритма, поскольку они намного более эффективны при работе с разреженной матрицей (матрицы с низкой плотностью, с большим количеством значений 0).

5.3 Масштабирование функций

Это важный шаг на этапе предварительной обработки, так как большинство алгоритмов машинного обучения работают намного лучше при работе с функциями того же масштаба. Наиболее распространены следующие методы:

  • Нормализация: это изменение масштаба функций в диапазоне [0,1], что является частным случаем масштабирования min-max.Чтобы нормализовать наши данные, нам просто нужно применить метод масштабирования min-max к каждому столбцу функций.
  • Стандартизация: она заключается в центрировании столбцов признаков по среднему значению 0 со стандартным отклонением 1, чтобы столбцы признаков имели те же параметры, что и стандартное нормальное распределение (нулевое среднее и единичное отклонение). Это значительно упрощает алгоритмам обучения определение весов параметров. Кроме того, он сохраняет полезную информацию о выбросах и делает алгоритмы менее чувствительными к ним.

5.4 Выбор значимых функций

Как мы увидим позже, одна из основных причин, по которым модели машинного обучения переоснащаются, заключается в избыточности наших данных, что делает модель слишком сложной для данных обучающих данных и неспособен хорошо обобщать невидимые данные.

Одним из наиболее распространенных способов избежать переобучения является уменьшение размерности данных. Это часто делается за счет уменьшения количества функций в нашем наборе данных с помощью анализа основных компонентов (PCA), который является разновидностью алгоритма неконтролируемого машинного обучения.

PCA выявляет закономерности в наших данных на основе корреляций между признаками. Эта корреляция означает, что в наших данных есть избыточность, другими словами, что есть некоторая часть данных, которую можно объяснить с помощью других ее частей.

Эти коррелированные данные не являются существенными для модели, чтобы правильно узнать свои веса, и поэтому их можно удалить. Его можно удалить, напрямую удалив определенные столбцы (признаки) или объединив их несколько и получив новые, которые содержат большую часть информации.Мы углубимся в эту технику в будущих статьях.

5.5 Разделение данных на подмножества

В общем, мы разделим наши данные на три части: наборы для обучения, тестирования и проверки. Мы обучаем нашу модель на обучающих данных, оцениваем ее на данных проверки и, наконец, когда она будет готова к использованию, тестируем ее в последний раз на тестовых данных.

Теперь уместно задать следующий вопрос: почему не использовать только два подхода, тренировку и тестирование? Таким образом, процесс будет намного проще: просто обучите модель на данных обучения и протестируйте ее на данных тестирования.

Ответ заключается в том, что разработка модели включает настройку ее конфигурации, другими словами, выбор определенных значений для их гиперпараметров (которые отличаются от параметров модели - весов сети). Эта настройка выполняется на основе обратной связи, полученной от проверочного набора, и, по сути, является формой обучения.

Конечная цель состоит в том, чтобы модель могла хорошо обобщать невидимые данные, другими словами, предсказывать точные результаты на основе новых данных на основе ее внутренних параметров, скорректированных во время обучения и проверки.

a) Процесс обучения

Мы можем более подробно рассмотреть, как происходит процесс обучения, изучив один из простейших алгоритмов: линейную регрессию.

В линейной регрессии нам дается ряд переменных-предикторов (объясняющих) и переменная непрерывного отклика (результат), и мы пытаемся найти взаимосвязь между этими переменными, которая позволяет нам прогнозировать непрерывный результат.

Пример линейной регрессии: для заданных X и Y мы подбираем прямую линию, которая минимизирует расстояние, используя некоторые методы оценки коэффициентов (например, обычных наименьших квадратов и градиентного спуска) между точками выборки и подобранной линией.Затем мы будем использовать полученные данные о пересечении и наклоне, которые образуют подобранную линию, чтобы предсказать результат для новых данных.

Формула прямой: y = B0 + B1x + u . Где x - входные данные, B1 - наклон, B0 - точка пересечения по оси Y, u - остаток и y - значение линии в позиции x .

Доступные для обучения значения: B0 и B1 , которые влияют на положение строки, поскольку единственными другими переменными являются x (вход и y, выход (остаток не учитывается). ).Эти значения ( B0 и B1 ) являются «весами» функции прогнозирования.

Эти веса и другие, называемые смещениями, представляют собой параметры, которые будут организованы вместе в виде матриц ( W, для весов и b для смещений).

Процесс обучения включает в себя инициализацию некоторых случайных значений для каждой из обучающих матриц и попытку предсказать вывод входных данных с использованием начальных случайных значений. Вначале ошибка будет большой, но, сравнивая прогноз модели с правильными выходными данными, модель может корректировать значения весов и смещений, пока не будет получена хорошая модель прогнозирования.

Процесс повторяется, по одной итерации (или шагу) за раз. На каждой итерации исходная случайная линия приближается к идеальной и более точной.

b) Переоснащение и недостаточное оснащение

Одной из наиболее важных проблем при рассмотрении обучения моделей является противоречие между оптимизацией и обобщением.

  • Оптимизация - это процесс настройки модели для получения максимальной производительности на обучающих данных (процесс обучения).
  • Обобщение - насколько хорошо модель работает с невидимыми данными.Цель состоит в том, чтобы получить наилучшую способность к обобщению.

В начале обучения эти две проблемы коррелируют: чем меньше потери данных обучения, тем меньше потери тестовых данных. Это происходит, когда модель еще недостаточно приспособлена: еще предстоит научиться, еще не смоделированы все соответствующие параметры модели.

Но после нескольких итераций обучающих данных обобщение перестает улучшаться, и показатели проверки сначала замораживаются, а затем начинают ухудшаться.Модель начинает переоснащаться: она настолько хорошо усвоила обучающие данные, что усвоила шаблоны, которые слишком специфичны для обучающих данных и не имеют отношения к новым данным.

Есть два способа избежать этого переобучения: получение дополнительных данных и регуляризация.

  • Получение большего количества данных обычно является лучшим решением, модель, обученная на большем количестве данных, естественно, будет лучше обобщать.
  • Регуляризация выполняется, когда последнее невозможно, это процесс изменения количества информации, которую может хранить модель, или добавления ограничений на то, какую информацию ей разрешено хранить.Если модель может запомнить только небольшое количество шаблонов, оптимизация заставит ее сосредоточиться на наиболее релевантных из них, повышая вероятность хорошего обобщения.

Регуляризация выполняется в основном следующими методами:

  1. Уменьшение размера модели: уменьшение количества обучаемых параметров в модели, а вместе с ними и ее способности к обучению. Цель состоит в том, чтобы найти золотую середину между слишком большой и недостаточной способностью к обучению. К сожалению, нет никаких волшебных формул для определения этого баланса, его нужно проверять и оценивать, задав различное количество параметров и наблюдая за его работой.
  2. Добавление регуляризации веса: В целом, чем проще модель, тем лучше. Пока она может хорошо учиться, более простая модель вряд ли переобучится. Обычный способ добиться этого - ограничить сложность сети, заставив ее веса принимать только небольшие значения, упорядочивая распределение значений весов. Это делается путем добавления к функции потерь сети стоимости, связанной с большими весами. Стоимость возникает двумя способами:
  • Регуляризация L1: Стоимость пропорциональна абсолютному значению весовых коэффициентов (норма весов L1).
  • Регуляризация L2: Стоимость пропорциональна квадрату значения весовых коэффициентов (норма весов l2)

Чтобы решить, какие из них применить к нашей модели, рекомендуется иметь в виду следующую информацию: примите во внимание природу нашей проблемы:

Цель на этом этапе процесса - разработать эталонную модель, которая будет служить нам в качестве базовой линии, после того как мы измерим производительность более совершенного и настроенного алгоритма.

Бенчмаркинг требует, чтобы эксперименты были сопоставимыми, измеримыми и воспроизводимыми.Важно подчеркнуть воспроизводимую часть последнего утверждения. В настоящее время библиотеки науки о данных выполняют случайное разбиение данных, причем эта случайность должна быть согласованной во всех прогонах. Большинство генераторов случайных чисел поддерживают установку начального числа для этой заливки. В Python мы будем использовать метод random.seed из пакета random.

Как показано на «https://blog.dominodatalab.com/benchmarking-predictive-models/»

«Часто бывает полезно сравнить улучшение модели с упрощенной базовой моделью, такой как kNN или Naive Bayes для категориальных данных. или EWMA значения в данных временного ряда.Эти базовые показатели дают представление о возможной прогнозирующей способности набора данных.

Модели часто требуют гораздо меньше времени и вычислительной мощности для обучения и прогнозирования, что делает их полезными для перекрестной проверки жизнеспособности ответа. Ни kNN, ни наивные байесовские модели вряд ли улавливают сложные взаимодействия. Тем не менее, они предоставят разумную оценку минимальной границы прогностических возможностей тестируемой модели.

Кроме того, это упражнение дает возможность протестировать конвейер тестирования.Важно, чтобы тестовые конвейеры обеспечивали стабильные результаты для модели с понятными характеристиками производительности. KNN или наивный байесовский метод для необработанного набора данных, или минимально управляемый с помощью центрирования или масштабирования столбцов, часто дает слабого, но адекватного обучаемого с характеристиками, которые полезны для целей сравнения. Характеристики более сложных моделей могут быть менее понятны и могут оказаться сложными ».

7.1 Поиск хорошей модели

Одним из наиболее распространенных методов поиска хорошей модели является перекрестная проверка.При перекрестной проверке мы установим:

  • Количество складок, по которым мы разделим наши данные.
  • Метод подсчета баллов (зависит от природы проблемы - регрессия, классификация…).
  • Некоторые подходящие алгоритмы, которые мы хотим проверить.

Мы передадим наш набор данных в функцию оценки перекрестной проверки и получим модель, которая дала лучший результат. Это будет тот, который мы будем оптимизировать, соответствующим образом настроив его гиперпараметры.

  # Параметры тестирования и метрики оценки  
num_folds = 10
scoring = "neg_mean_squared_error"
.

Смотрите также