Как научиться создавать программы с нуля


Обучение программированию с нуля: с чего начать изучение в домашних условиях

Каждый раз, с трудом преодолевая жизненные преграды, хочется взять и перекроить этот мир под себя. К сожалению, мы не рождены творцами этой вселенной. Тем, кто хочет удовлетворить свои амбиции создателя, остается лишь виртуальный мир.

Хотя для творения здесь понадобится не столько волшебство и знание рун, сколько знание основ программирования. Поэтому для всех начинающих творцов виртуальной реальности мы поведаем о том, как научиться программировать.

Как бы ни хотелось этого признавать, но в реальности программирование является не таким уж волшебным делом. Создание кода порой можно сравнить с хождением босыми ногами по морскому дну, устланному острыми каменными обломками.

Чтобы стать программистом, нужно быть не только умным, но еще терпеливым и настырным. Обучение программированию всегда сопровождается головой болью, красными от недосыпания глазами и отрешенным взглядом. Именно по нему можно легко узнать программиста.

Многие начинающие обучение считают написание кода чуть ли не самой романтической профессией. Особенно увеличилось количество желающих познать программирование после просмотра фильма «Матрица». Именно главный герой этой картины Нео подтолкнул многих к становлению на путь постижения программных наук:

Но большая часть начавших изучение бросают его уже через несколько недель. И основной причиной этого является неправильно выбранное направление обучения, методика или даже учебник по программированию.

После развала СССР все отечественные ВУЗы долгое время даже и не пытались перекроить свою систему обучения под потребности современного рынка. Не являлись исключением из этого правила и технические ВУЗы.

Программирования как отдельной отрасли и специализации не существовало как таковой. Его основы преподавались лишь как привязка к другим инженерным дисциплинам. И даже те крохи знаний, которые давались студентам в этой области, не соответствовали современным стандартам и утратили свою актуальность еще 20-30 лет назад.

В странах бывшего СССР основным языком программирования, преподаваемым в технических ВУЗах, был Бейсик.

Ситуация кардинально не изменилась и через 10 лет. Лишь некоторые учебные заведения, учуяв веяния нового времени, в начале двухтысячных года начали перекраивать свое обучение под мировые стандарты. И только с этого момента программирование стало восприниматься как отдельная профессия и специализация обучения:

В это же время стали появляться различные специализированные коммерческие курсы и учебные заведения. Но качество преподавания и даваемых в них знаний находились на крайне низком уровне. Не хватало грамотных профессионалов, способных обучить новичков не только теоретическим знаниям, но и практическим навыкам программирования.

А это в профессии программиста является наиболее важным аспектом. Поэтому большинство из сегодняшних гуру российской IT-индустрии начинали свое обучение программированию с нуля самостоятельно.

В некоторой мере такая тенденция сохраняется и по сей день. Хотя в наше время количество профессионалов, занимающихся преподаванием, заметно возросло.

Постижение программных наук характеризуется не только тяжелым обучением, но и его началом. Новичку порой трудно не только начать самостоятельное обучение, но и определиться с координатами отправной точки процесса. Поэтому мы постараемся помочь вам обойти все эти трудности:

Прежде чем ломать зубы об гранит науки, следует определиться, с чего начать изучение программирования. На первых этапах очень трудно определиться со специализацией. Поэтому начнем с подбора первого языка.

Чаще всего выбор падает на язык программирования C (си). Именно с него большинство новичков во всем мире начинают свое обучение. На основе C было создана основная часть программных языков, и во многом они наследуют его структуру и синтаксис.

Изучая C, вы постигаете основы не одного языка программирования, а сразу нескольких.



Рассмотрим особенности этого языка, делающего его оптимальным для изучения:

  • Простая для понимания основа – часть встроенных возможностей языка для простоты вынесена в отдельно подключаемые библиотеки. К таким элементам относится большая часть математических функций и методов для работы с файловой системой;
  • Оптимально подогнанная система типов – благодаря простому набору типов данных и строгой типизации уменьшается риск допущения ошибок в процессе написания программного кода;
  • Направленность C на процедурный тип программирования, при котором соблюдается четкая иерархия всех элементов кода;
  • Доступ к памяти машины с помощью указателей;
  • Минимальное количество поддерживаемых ключевых слов;
  • Поддержка области действия имен;
  • Поддержка пользовательских типов данных (объединения и структуры).

Проще говоря, C – это то, с чего следует начинать новичку перед тем, как научиться программированию на других языках.

Для обучения программированию недостаточно одного лишь желания и наличия компьютера с выходом в интернет. Для написания программ на C вам потребуется специализированное программное обеспечение – компилятор.

Компилятор – специальная программа, переводящая программный код в форму, понятную для компьютера.


Вот несколько специализированных компиляторов с поддержкой языка C:

  • Microsoft Visual Studio – профессиональный инструмент, поддерживающий множество языков, в том числе и несколько серверных. Подойдет для новичков, если брать его «на вырост»:

  • Borland C++ — бесплатный компилятор, идеально подходящий для начинающего обучение. В отличие от предыдущего инструмента, отличается ясным и понятным интерфейсом. Поэтому его освоение не вызовет особых трудностей даже при самостоятельном освоении азов программирования:

  • Code::Blocks – бесплатная среда разработки, поддерживающая написание кода на нескольких языках. Средний по сложности освоения вариант:


Что касается специализированной литературы, то советовать книги определенных авторов мы не будем. Тут, как говорится, выбирайте, что душе угодно. Потому что в большинстве случаев подбор самоучителя по программированию – это индивидуальный процесс. Используйте тот источник, который больше подходит именно для вас.

Да и в интернете можно найти очень много информации.

После освоения основ программирования у многих сразу появится вопрос, куда двигаться дальше. Уже на этом этапе обучения следует задумываться о выборе основной специализации в области программирования. Вот те, которые больше всего востребованы на современном рынке:

  • Веб-программирование – здесь понадобятся знания PHP, CSS и HTML;
  • Разработка приложений под мобильную операционную систему Android – данная платформа построена на основе Java. Поэтому потребуется знание основ этого языка;
  • C# (си sharp) – дальний потомок C. На основе C# построена веб-технология ASP.net от Microsoft.


И последний совет всем начинающим. Перед тем, как приступить к обучению программированию с нуля, следует запастить терпением. А также: таблетками от головной боли, кофе, чаем и побрить череп наголо. Потому что во время постижения программных наук, обучающиеся часто вырывают волосы со своей головы вместе с корнем. Удачного старта!

телеграм канал. Подпишись, будет полезно!

Как стать программистом: 8 шагов к созданию приложения с нуля

Введение

«Как лучше всего научиться программировать?»

«Как стать программистом»

«Как создать приложение»

Это общие вопросы, которые каждый день задают новички, которые хотят научиться программировать. Несомненно, вы уже погуглили что-то в этом роде и прочитали достаточно статей / ответов до такой степени, что вам надоели «стандартные» советы.

Если у вас нет, или если вы почему-то думаете, что у меня есть что-то новое, и все равно хотите это услышать (я не знаю), вот короткий и почти бессмысленный ответ (я дам ему SEO-ориентированный клик - название приманки: «3 шага к тому, чтобы стать программистом»):

Шаг 1. Выберите язык

Шаг 2: Изучите язык

Шаг 3: Собирайте материал и продолжайте учиться

Эй, не бросайся в меня. Как бы я ни хотел сказать, что существует универсальный метод обучения программированию, на самом деле его нет.(Позвольте мне добавить Шаг 0: признаю, что все учатся по-разному).

Бесчисленные более подробные ответы на шаги 1 и 2 уже существуют в Интернете, но общий ответ на первый шаг - изучить Python или Ruby в качестве своего первого языка (не слишком зацикливайтесь на языке, вы никогда не получите началось). Если вам нужны учебные ресурсы, мы подготовили несколько руководств, которые вы можете проверить:

Некоторые из вас дойдут до этого момента:

Если у вас есть момент, когда вы превратились в заблудшую овцу, не волнуйтесь, потому что вы не одиноки.

Практически каждый раз, когда вы спрашиваете: «Как мне стать программистом?», Разработчики говорят вам создавать что-то, потому что создание вещей - это то, как вы можете улучшить как программист, и это лучший способ учиться и так далее.

Но как создать собственное приложение?

Вы всегда можете следовать существующим руководствам о том, как создать клон Twitter / Pinterest / Instagram / и т. Д. На любом языке и технологиях, которые вы используете, но имейте в виду, что авторы этих руководств фактически сделали большую часть работы за вас, и все, что вы делаете, это понимаете код и их логику.

В этой статье сделана попытка предоставить вам схему, которой вы можете следовать при создании своего собственного приложения с нуля.

Предварительные требования

Большинству приложений потребуется база данных, поэтому, если вы собираетесь создавать собственное приложение самостоятельно (например, интерфейсную и внутреннюю части), вам, вероятно, придется знать язык запросов к базе данных (обычно SQL). Если только вы не создаете что-то, что не требует взаимодействия с базой данных, например, Flappy Bird.

Более того, если вы хотите создать веб-приложение, вам необходимо знать некоторые базовые навыки DevOps, чтобы иметь возможность настроить среду / сервер разработки и иметь возможность запускать приложение.

Если вы хотите стать только интерфейсным веб-разработчиком, вы можете отточить свои навыки HTML, CSS и JavaScript в Codepen или JSfiddle. Если вы знаете только JavaScript и не хотите изучать другой язык, вы можете попробовать Node.js, поскольку это платформа JavaScript для внутренней разработки (вы также можете использовать MongoDB в качестве базы данных, поскольку она также основана на JavaScript).

В противном случае вам также следует знать один из следующих языков (и обычно веб-фреймворк), если вы собираетесь создать полное веб-приложение:

  • Рубин
  • Python
  • PHP
  • Ява
  • Перейти
  • C #

Если вы хотите создавать игры, вы можете рассмотреть возможность изучения Lua, хотя C # также является очень хорошим выбором благодаря движку Unity 3D и его огромному сообществу.Что касается разработки собственных мобильных приложений, вам необходимо знать Swift / Objective-C для разработки под iOS и Java для разработки под Android.

Без лишних слов, давайте перейдем к созданию приложения с нуля.

Шаг 0: Разберитесь в себе

Прежде всего, создайте то, что вам нравится. Интерес - лучший способ сохранить мотивацию, поэтому спросите себя, что вас волнует или чем вы любите заниматься.

Например:

  • Какие приложения вам больше всего нравятся?
  • Без каких приложений вы не можете жить?
  • Вы любите играть в игры?
  • Вам нравится конструировать вещи?
  • и т. Д.

Определите свои интересы, чтобы работать над тем, что вам нравится. Таким образом, вы с меньшей вероятностью сдадитесь на полпути.

Шаг 1. Выберите идею

Теперь, когда вы, надеюсь, разобрались, пора выбрать идею для воплощения. Простой старт .

Да… даже если вы думаете о создании игры, прямо сейчас вам не следует думать о создании следующего CounterStrike, а вместо этого вам следует думать о том, как создавать игры, столь же простые, как печально известная Flappy Bird.Эй, не смотри свысока на Flappy Bird - это была сенсация, которая заставила людей во всем мире открыть для себя своего внутреннего мазохиста. Но я отвлекся.

Итак, исходя из ваших интересов, придумайте простое приложение, которое будет делать что-нибудь полезное. Не имеет значения, существует ли приложение уже (на самом деле, оно может помочь вам, если подобные проекты уже существуют).

Вот несколько советов, которые помогут вам получить вдохновение:

  • Если вам нравится готовить, возможно, вы захотите создать приложение, в котором люди будут демонстрировать свои домашние рецепты.
  • Если вы всегда хотели знать, как работает Twitter, попробуйте создать суперпростой клон Twitter.
  • Если вы забывчивый человек, который полагается на менеджеров задач, попробуйте создать их самостоятельно.
  • Если вы пристрастились к League of Legends, вы можете попробовать использовать Riot API и создать сайт, который сможет получать и отображать информацию об игре.
  • Если вам нравится играть в карточные игры, попробуйте собрать простую (например, Блэк Джек).
  • Если вы сидите на диете, попробуйте создать приложение, которое будет регистрировать количество потребляемых вами калорий.

И так далее, и так далее. Вот список идей для проектов, если вам нужно больше вдохновения.

Когда у вас есть направление, запишите в одно предложение цель и, если применимо, наиболее важных целевых пользователей для этого приложения.

Например: приложение для усыновления домашних животных для людей, которые забирают бездомных животных.

Шаг 2: Определите основные функции

Подумайте, что ваше приложение должно уметь делать, и перечислите их.Если вы в конечном итоге перечисляете кучу вещей, присмотритесь и спросите себя, ДЕЙСТВИТЕЛЬНО ли этому приложению требуется, например, вход в Facebook для работы? Неужели для работы ДЕЙСТВИТЕЛЬНО нужно загружать данные в какое-то облако?

Здорово иметь проект мечты с потрясающими характеристиками, но сейчас дело не в том, чтобы создавать что-то, укомплектованное множеством интересных функций. Имейте в виду, что ни одно приложение никогда не бывает полным, и все начинается просто.

Никогда не пытайтесь создать универсальное приложение .Не ходи туда. Я видел, как это происходило даже в профессиональной среде, и в результате было много боли и мало прогресса.

Если у вас нет железной воли или если вы действительно не любите задач, вы будете разочарованы и разочарованы, если ваш первый проект будет слишком сложным. Вы новичок ... Дело сейчас в том, чтобы повеселиться. Веселье - самый эффективный способ учиться.

Итак, взгляните на список созданных вами функций, и, если он слишком длинный, начните вычеркивать функции, без которых ваше приложение может работать.

Помните, это ваша версия 1, и вы должны просто упростить ее. Сосредоточьтесь на вещах, которые позволят приложению выполнять все, что от него требуется, - все остальное можно оставить для другого проекта.

Для образца основной список функций для клона Reddit:

  • пользователи могут создать учетную запись
  • пользователей могут восстановить утерянные пароли
  • пользователей могут менять свои пароли
  • пользователей могут размещать новые ссылки
  • пользователей могут комментировать ссылки
  • пользователей могут голосовать за / против ссылки
  • пользователей имеют профиль, показывающий их историю / активность

Перечисленные выше функции являются основными функциями, на которых вам следует сосредоточиться в первую очередь.Другие функции, такие как:

  • пользователей могут поделиться в социальных сетях
  • пользователей могут удалять комментарии
  • Пользователи могут редактировать комментарии
  • пользователей могут удалить свою учетную запись

Являются вторичными и могут быть сохранены для версии 1.x - работайте с ними только после того, как вы действительно сможете запустить версию 1.0

Шаг 3. Нарисуйте свое приложение

Лицензия CC

Нет ничего быстрее ручки и бумаги. К настоящему времени у вас должно быть довольно четкое представление о том, что должно делать ваше приложение, поэтому нарисуйте каркас пользовательского интерфейса вашего приложения (пользовательского интерфейса).Где должны быть расположены кнопки, для чего они нужны и так далее.

Сделайте заметки и поясните, как приложение должно работать. Вы все еще находитесь в стадии мозгового штурма, поэтому меняйте что-то, пока вы не будете чем-то удовлетворены.

Помните, все просто . Если вы сократили список на шаге 2, придерживайтесь только перечисленных в нем функций набросков - не увлекайтесь. Если ничего не можешь с собой поделать, нарисуй 2 версии: базовую и финальную в своих снах.

В общем, это не окончательный вид, а скорее всего лишь шаг, который поможет вам лучше понять свое приложение.

Шаг 4. Планирование пользовательского интерфейса вашего приложения

Хорошо. У вас есть хорошее представление о том, как будет выглядеть ваше приложение, что должен делать каждый элемент и как пользователи могут взаимодействовать с вашим приложением. Пришло время разобраться в пользовательском интерфейсе вашего приложения. Это означает, как пользователь должен использовать ваше приложение от начала до конца. Запишите каждый шаг, который им нужно сделать, и каждый сценарий, с которым они могут столкнуться.Постарайтесь рассмотреть все варианты использования.

(лицензия CC)

Включите в блок-схему все действия, которые может выполнять пользователь. Например, если ваше приложение требует от пользователей входа в систему, как им создать учетную запись? Что делать, если пользователи забыли свой пароль? Что, если они ввели неправильный пароль? Что должен делать пользователь в каждом интерфейсе (добавить новый элемент списка> сохранить; изменить> сохранить / удалить)? И так далее. Быстрее всего это делается с помощью ручки и бумаги.

Опять же, поскольку ваше приложение должно быть довольно простым, ваша диаграмма не должна быть слишком массивной.

Шаг 5. Проектирование базы данных

Хорошо! После того, как вы спланировали все возможные сценарии, взгляните на них, чтобы определить, какие данные вам необходимо сохранить. Например, если ваше приложение требует, чтобы пользователи создавали учетную запись, вам нужно будет отслеживать такие вещи, как имя пользователя, идентификатор пользователя, адрес электронной почты пользователя, пароль, подтверждена ли электронная почта пользователя, а также когда учетная запись была создана. как каждый раз, когда пользователь входит в ваше приложение.

Если вы создаете клон Твиттера, вам необходимо знать идентификатор твита, его содержание, дату публикации / ретвита твита, количество ретвитов и количество звездочек.Вам также нужно будет вести учет ретвитов и звездочек пользователей.

Вы можете нарисовать диаграмму ERM (модель сущности-отношения), чтобы отобразить взаимосвязь данных.

Пример схемы Entity-Relationship Diagram сайта выбора курса Лицензия CC

Кроме того, если у вас есть запланированные какие-либо будущие функции, самое время запланировать их в вашей базе данных. Вот хорошая статья, на которую стоит обратить внимание при разработке базы данных.

Продвинутый

Если приложение, которое вы планируете, будет взаимодействовать с сервером (например,грамм. если вы создаете полнофункциональное веб-приложение) или если ваше приложение будет взаимодействовать с API (например, вы пытаетесь получить информацию от Yahoo! Weather), то, вероятно, будет хорошей идеей нарисовать диаграмму последовательности, чтобы вы получить лучшее представление о том, как должны работать процессы.

Из Википедии

Шаг 6. Каркасы UX

Хорошо, у вас запланирована внутренняя часть. А теперь пора спланировать интерфейс.

Надеюсь, вы все еще взволнованы, как и миньоны выше.Вы знаете, что вам нужно - теперь вы гораздо лучше представляете, как должно выглядеть ваше приложение.

Лицензия CC

Поскольку люди в основном визуальные существа, вам будет лучше понять, что вам следует делать, если у вас будет визуальное представление каждого представления, которое вы будете кодировать. Однако, если вы похожи на меня и ваш рисунок настолько беспорядочный, что вы с трудом можете понять непонятный кусок ... кашля шедевра ... который вы создали, естественно, неразумно продолжать этот шаг, злоупотребляя своими плохими художественными умственными способностями.

К счастью, в сети существует множество инструментов для создания каркасов и макетов, которые помогут вам спланировать свой UX / UI поток (например, Gliffy, Mockflow, Framebox, Wireframe.cc, Invisionapp).

Шаг 6.5 (необязательно): Разработка пользовательского интерфейса

Это необязательный шаг, но если вы намереваетесь специализироваться на интерфейсной разработке или если вы очень заботитесь о том, как будет выглядеть ваше приложение, до такой степени, что более красивое приложение будет мотивировать вас писать код, определенно продолжайте и спроектируйте приложение так, чтобы все эти каркасные элементы пользовательского интерфейса можно было заменить более красивыми.

Если вам нравится дизайн, вы, вероятно, все равно создадите приложение еще до того, как начнете - возможно, вы уже разработали его на шаге 2.

Если вы не занимаетесь дизайном, но все же заботитесь о том, как будет выглядеть ваше приложение, подумайте об использовании элементов из наборов пользовательского интерфейса. Вот несколько ресурсов для элементов пользовательского интерфейса:
(Примечание: требуется Photoshop)

UI ​​Cloud
Graphicburger
UI Dock

Для игр:
Spriters Resource

Однако не слишком зацикливайтесь на внешнем виде приложения.Прямо сейчас вам следует сосредоточиться на создании функций приложения.

Шаг 7: поиск решений

Отлично! Вы закончили этап планирования ... но как вы должны кодировать все это?

Важный навык, который вам нужно освоить как программист, - это оценить, когда вам следует использовать то, что уже написал другой разработчик, а когда создавать функцию самостоятельно.

Поскольку каждый создает уникальное приложение, не все варианты использования одинаковы.Таким образом, вы, , должны решить, когда использовать существующее решение, а когда создавать собственное, и вы научитесь делать это с опытом.

Если вы чувствуете себя лодкой, потерявшей направление в бескрайнем океане, сделайте глубокий вдох и не паникуйте. Ты можешь сделать это.

По мере того, как вы приобретаете больше опыта в исследованиях, оттачивании своего «гугл-фу» и создании вещей, вы в конечном итоге научитесь этому процессу.

Ищем решения

Взгляните на все схемы, которые вы нарисовали, а также на список функций, который вы создали на шаге 2.

Какие вещи вы совершенно не знаете, как построить?

Например, нужно ли пользователям создавать учетную запись? Ваше приложение полагается на обновления в реальном времени? Какие функции вам нужны?

В большинстве случаев рекомендуется просто использовать существующее решение для больших функций, таких как обработка синхронизации в реальном времени (например, Firebase), работа в сети / маршрутизация (например, AFNetworking для приложений iOS), аутентификация и компоненты, связанные с пользовательским интерфейсом ( например, Flipboard или приложение в стиле pinterest).

Существует множество онлайн-баз данных для поиска компонентов / пакетов / драгоценных камней и т. Д., Связанных с серверной частью, но вы должны быть осторожны с оценкой того, что написали другие люди, а не просто использовать их вслепую.Надеюсь, сейчас вы не собираетесь строить что-то слишком сложное, так что прямо сейчас вам, вероятно, не понадобятся компоненты, написанные другими людьми.

В любом случае, лучший способ начать - это изучить, что другие разработчики сделали до вас, , и изучить логику их решений. GitHub - ваш лучший друг.

Чтобы увидеть реальный пример процесса исследования опытным разработчиком конкретной функции, вы можете посмотреть этот пост о том, как создатель Angular-Plunker создал директивы перетаскивания Plunker'а.

Выбор инструментов для начала работы

Если вы создаете веб-приложение, возможно, вам стоит попробовать Yeoman, поскольку его цель - помочь вам быстро запустить новые проекты, помогая настроить структуру вашего проекта.

Если вы создаете приложение React, вы также можете проверить стартовые комплекты и существующие реализации Flux. HTML5Boilerplate и Bootstrap - популярные интерфейсные шаблоны для вашего приложения. Чаще всего шаблоны используют Gulp или Grunt для управления задачами.

Поскольку вы, вероятно, собираетесь использовать некоторые существующие компоненты или решения, вам также следует установить bower для управления зависимостями (npm для тех, кто использует Node.js и CocoaPods для разработчиков iOS). Не волнуйтесь - в большинстве случаев к этим инструментам прилагаются руководства, в которых вы узнаете, как их установить.

Шаг 8: Создание приложения

Да! Теперь вы готовы создать приложение! Вот несколько советов, которые следует учитывать при создании приложения.

Контрольный список

Вам следует сосредоточиться на построении приложения по функциям.Таким образом, если вы не выполнили одну задачу, например, систему комментирования, не начинайте сразу создавать представление профиля пользователя. Другими словами, если вы, например, создаете форму, вы должны работать как над внешним, так и с внутренним кодом, пока функция не будет завершена.

В общем, чтобы следить за своим прогрессом, вы можете составить список задач и использовать его в качестве контрольного списка.

Первая запись тестов

Если вы не создаете игровое приложение, рекомендуется сначала написать тест для вашей функции, прежде чем вы действительно начнете кодировать эту функцию.Ошибки неизбежны, но тестирование значительно сократит ваши ошибки и ваши шансы выпустить ошибочный код в производственную среду.

Конечно, написание модульных тестов требует времени, и иногда вы можете задаться вопросом, стоит ли оно того. Однако, если вы хотите в будущем создавать более крупные проекты, в которые вы продолжите добавлять новые функции, это может произойти с вашим приложением:

Тогда это (преувеличение того, что) может случиться:

Или не дай бог:

И это вы, пытаясь исправить приложение:

… Более-менее.

Итак, неплохо было бы начать с малого и выработать привычку заниматься разработкой на основе тестирования (TDD), особенно если вы начинаете с нуля и создаете что-то простое.

У вас сейчас не наступает крайний срок с вилами менеджера проекта за вашей спиной, не так ли?

Советы по шаблонам модульного тестирования вы можете найти в этой статье. Еще один совет, о котором следует помнить, - не утверждать слишком много банальностей.

На ваш выбор доступны многие инструменты тестирования, такие как Jasmine или Karma для JavaScript, Rspec для Ruby, PyTest для Python, PHPUni

. .

Как разработать модель машинного обучения с нуля | Виктор Роман

В этой статье мы собираемся подробно изучить, как выполняется процесс разработки модели машинного обучения. Будет объяснено множество концепций, а другие, более конкретные, мы оставим для будущих статей.

Конкретно в статье будет рассмотрено, как:

  • Определить адекватно нашу проблему (цель, желаемые результаты…).
  • Сбор данных.
  • Выберите меру успеха.
  • Установите протокол оценки и различные доступные протоколы.
  • Подготовьте данные (имея дело с пропущенными значениями, с категориальными значениями…).
  • Спилите правильно данные.
  • Проведите различие между переоборудованием и недостаточным соответствием, определив, что это такое, и объяснив, как их избежать.
  • Обзор того, как модель учится.
  • Что такое регуляризация и когда целесообразно ее использовать.
  • Разработайте эталонную модель.
  • Выберите подходящую модель и настройте ее для получения максимальной производительности.

Первое и самое важное, что нужно сделать, - это выяснить, каковы входные и ожидаемые результаты. Необходимо ответить на следующие вопросы:

  • Какова основная цель? Что мы пытаемся предсказать?
  • Каковы целевые функции?
  • Какие входные данные? Это доступно?
  • С какими проблемами мы сталкиваемся? Бинарная классификация? Кластеризация?
  • Какое улучшение ожидается?
  • Каков текущий статус целевой функции?
  • Как будет измеряться целевой объект?

Не каждую проблему можно решить, пока у нас не будет работающей модели, мы просто сможем сформулировать определенную гипотезу:

  • Наши результаты можно предсказать с учетом входных данных.
  • Наши доступные данные достаточно информативны, чтобы изучить взаимосвязь между входами и выходами

Важно помнить, что машинное обучение можно использовать только для запоминания шаблонов, которые присутствуют в данных обучения, поэтому мы можем только узнайте то, что мы видели раньше. При использовании машинного обучения мы делаем предположение, что будущее будет вести себя как прошлое, и это не всегда верно.

Это первый реальный шаг на пути к реальной разработке модели машинного обучения, сбора данных.Это критический шаг, который будет зависеть от того, насколько хорошей будет модель, чем больше и лучше данных мы получим, тем лучше будет работать наша модель.

Существует несколько методов сбора данных, например парсинг веб-страниц, но они выходят за рамки данной статьи.

Обычно наши данные будут иметь следующую форму:

Примечание. Предыдущая таблица соответствует знаменитому набору данных о жилищном строительстве в Бостоне, классическому набору данных, часто используемому для разработки симпл-моделей машинного обучения.Каждая строка представляет отдельный район Бостона, а каждый столбец указывает некоторые характеристики этого района (уровень преступности, средний возраст и т. Д.). Последний столбец представляет собой среднюю стоимость дома в районе, и это целевая цена, которая будет спрогнозирована с учетом другой.

Питер Друкер, преподаватель Гарвардского университета и автор книги «Эффективный руководитель и управление собой», сказал знаменитую поговорку:

«Если вы не можете измерить это, вы не сможете улучшить это».

Если вы хотите контролировать что-то, это должно быть наблюдаемым, и для достижения успеха важно определить, что считается успехом: Может быть, точность? точность? Уровень удержания клиентов?

Эта мера должна быть напрямую согласована с целями более высокого уровня бизнеса. И это также напрямую связано с проблемой, с которой мы сталкиваемся:

  • Задачи регрессии используют определенные метрики оценки, такие как среднеквадратичная ошибка (MSE).
  • В задачах классификации используются такие показатели оценки, как точность, достоверность и отзывчивость.

В следующих статьях мы подробно рассмотрим эти показатели, какие показатели лучше всего использовать с учетом возникшей проблемы, и узнаем, как их настроить.

После того, как цель ясна, следует решить, как будет измеряться прогресс в достижении цели. Наиболее распространенными протоколами оценки являются:

4.1 Поддержание набора проверки удержания

Этот метод состоит в выделении некоторой части данных в качестве набора для тестирования.

Процесс будет заключаться в обучении модели на оставшейся части данных, настройке ее параметров с помощью набора проверки и, наконец, оценке ее производительности на наборе тестирования.

Причина разделения данных на три части - избежать утечки информации. Основное неудобство этого метода заключается в том, что при наличии небольшого количества данных наборы для проверки и тестирования будут содержать настолько мало образцов, что процессы настройки и оценки модели не будут эффективными.

4.2 Проверка K-Fold

K-Fold состоит в разбиении данных на K разделов равного размера. Для каждого раздела i модель обучается с оставшимися разделами K-1 и оценивается на разделе i.

Итоговая оценка - это среднее значение из полученных К. Этот метод особенно полезен, когда производительность модели значительно отличается от разделения поезд-тест.

4.3 Итерационная проверка K-Fold с перетасовкой

Этот метод особенно актуален при наличии небольшого количества доступных данных и необходимости оценки модели как можно точнее (это стандартный подход на соревнованиях Kaggle).

Он заключается в применении проверки K-Fold несколько раз и перетасовке данных каждый раз перед их разделением на разделы K.Итоговый балл - это среднее значение баллов, полученных в конце каждого прогона проверки K-Fold.

Этот метод может быть очень дорогостоящим с точки зрения вычислений, так как количество обученных и оценивающих моделей будет I x K раз. Это I количество итераций и K количество разделов.

Примечание. При выборе протокола оценки важно учитывать следующие моменты:

  • В задачах классификации данные обучения и тестирования должны быть репрезентативными для данных, поэтому мы должны перемешать наши данные перед разделением это, чтобы убедиться, что охватывается весь спектр набора данных.
  • При попытке предсказать будущее с учетом прошлого (прогноз погоды, прогноз курса акций…) данные не следует перемешивать, поскольку последовательность данных является важной особенностью, и это может привести к временной утечке.
  • Мы всегда должны проверять, есть ли в наших данных дубликаты, чтобы удалить их. В противном случае избыточные данные могут появиться как в обучающем, так и в тестовом наборе и вызвать неточное обучение нашей модели.

Прежде чем приступить к обучению моделей, мы должны преобразовать наши данные таким образом, чтобы их можно было использовать в модели машинного обучения.Наиболее распространенные методы:

5.1 Работа с отсутствующими данными

В реальных проблемах довольно часто пропустить некоторые значения наших выборок данных. Это может быть связано с ошибками при сборе данных, пробелами в опросах, измерениями, которые не применимы и т. Д.

Отсутствующие значения обычно представлены индикаторами «NaN» или «Null». Проблема в том, что большинство алгоритмов не могут обработать эти пропущенные значения, поэтому нам необходимо позаботиться о них, прежде чем передавать данные в наши модели.После того, как они идентифицированы, есть несколько способов справиться с ними:

  1. Удаление образцов или объектов с пропущенными значениями. (мы рискуем удалить релевантную информацию или слишком много выборок)
  2. Ввод недостающих значений с помощью некоторых встроенных оценщиков, таких как класс Imputer из scikit learn. Мы сопоставим наши данные, а затем преобразуем их, чтобы оценить их. Один из распространенных подходов - установить пропущенные значения как среднее значение для остальных образцов.

5.2 Работа с категориальными данными

При работе с категориальными данными мы работаем с порядковыми и номинальными признаками. Порядковые признаки - это категориальные признаки, которые можно сортировать (размер ткани : L ). При этом именные характеристики не подразумевают никакого заказа ( цвет ткани: желтый, зеленый, красный ).

Методы работы с порядковыми и номинальными признаками:

  • Отображение порядковых признаков : чтобы убедиться, что алгоритм правильно интерпретирует порядковые признаки, нам необходимо преобразовать категориальные строковые значения в целые числа.Часто мы делаем это сопоставление вручную. Пример: L: 2, M: 1, S: 0.
  • Кодирование меток номинального класса : Наиболее распространенным подходом является выполнение «горячего» кодирования, которое заключается в создании новой фиктивной характеристики для каждого уникального значения в столбце номинальных характеристик. Пример: в столбце цвета, если у нас есть три класса: желтый, красный, зеленый и выполняется одноразовое кодирование, мы получим три новых столбца, по одному для каждого уникального класса. Тогда, если у нас есть желтая рубашка, она будет выбрана как: желтый = 1, зеленый = 0, красный = 0.Это сделано для обеспечения хорошей производительности алгоритма, поскольку они намного более эффективны при работе с разреженной матрицей (матрицы с низкой плотностью, с большим количеством значений 0).

5.3 Масштабирование функций

Это важный шаг на этапе предварительной обработки, так как большинство алгоритмов машинного обучения работают намного лучше при работе с функциями того же масштаба. Наиболее распространены следующие методы:

  • Нормализация: это изменение масштаба функций в диапазоне [0,1], что является частным случаем масштабирования min-max.Чтобы нормализовать наши данные, нам просто нужно применить метод масштабирования min-max к каждому столбцу функций.
  • Стандартизация: она заключается в центрировании столбцов признаков по среднему значению 0 со стандартным отклонением 1, чтобы столбцы признаков имели те же параметры, что и стандартное нормальное распределение (нулевое среднее и единичное отклонение). Это значительно упрощает алгоритмам обучения определение весов параметров. Кроме того, он сохраняет полезную информацию о выбросах и делает алгоритмы менее чувствительными к ним.

5.4 Выбор значимых функций

Как мы увидим позже, одна из основных причин, по которым модели машинного обучения переоснащаются, заключается в избыточности наших данных, что делает модель слишком сложной для данных обучающих данных и не может хорошо обобщить невидимые данные.

Одним из наиболее распространенных решений, позволяющих избежать переобучения, является уменьшение размерности данных. Это часто делается за счет уменьшения количества функций нашего набора данных с помощью анализа главных компонентов (PCA), который является разновидностью алгоритма неконтролируемого машинного обучения.

PCA выявляет закономерности в наших данных на основе корреляций между признаками. Эта корреляция означает, что в наших данных есть избыточность, другими словами, что есть некоторая часть данных, которую можно объяснить с помощью других ее частей.

Эти коррелированные данные не являются существенными для модели, чтобы правильно узнать свои веса, и поэтому их можно удалить. Его можно удалить, напрямую удалив определенные столбцы (признаки) или объединив их несколько и получив новые, которые содержат большую часть информации.Мы углубимся в эту технику в будущих статьях.

5.5 Разделение данных на подмножества

В общем, мы разделим наши данные на три части: наборы для обучения, тестирования и проверки. Мы обучаем нашу модель с помощью обучающих данных, оцениваем ее на данных проверки и, наконец, когда она будет готова к использованию, тестируем ее в последний раз на тестовых данных.

Теперь уместно задать следующий вопрос: почему не использовать только два подхода, тренировку и тестирование? Таким образом, процесс будет намного проще: просто обучите модель на данных обучения и протестируйте ее на данных тестирования.

Ответ состоит в том, что разработка модели включает настройку ее конфигурации, другими словами, выбор определенных значений для их гиперпараметров (которые отличаются от параметров модели - весов сети). Эта настройка выполняется на основе обратной связи, полученной от проверочного набора, и, по сути, является формой обучения.

Конечная цель состоит в том, чтобы модель могла хорошо обобщать невидимые данные, другими словами, предсказывать точные результаты на основе новых данных на основе ее внутренних параметров, скорректированных во время обучения и проверки.

a) Процесс обучения

Мы можем более подробно рассмотреть, как происходит процесс обучения, изучив один из простейших алгоритмов: линейную регрессию.

В линейной регрессии нам дается ряд переменных-предикторов (объясняющих) и переменная непрерывного отклика (результат), и мы пытаемся найти взаимосвязь между этими переменными, которая позволяет нам предсказать непрерывный результат.

Пример линейной регрессии: для заданных X и Y мы подбираем прямую линию, которая минимизирует расстояние, используя некоторые методы оценки коэффициентов (например, обыкновенных наименьших квадратов и градиентного спуска) между точками выборки и подобранной линией.Затем мы воспользуемся полученным отрезком и наклоном, которые образуют подобранную линию, чтобы предсказать результат новых данных.

Формула прямой: y = B0 + B1x + u . Где x - входные данные, B1 - наклон, B0 - пересечение по оси Y, u - остаток и y - значение линии в позиции x .

Доступные для обучения значения: B0 и B1 , которые влияют на положение строки, поскольку единственными другими переменными являются x (вход и y, выход (остаток не учитывается). ).Эти значения ( B0 и B1 ) являются «весами» функции прогнозирования.

Эти веса и другие, называемые смещениями, представляют собой параметры, которые будут организованы вместе в виде матриц ( W, для весов и b для смещений).

Процесс обучения включает в себя инициализацию некоторых случайных значений для каждой из обучающих матриц и попытку предсказать вывод входных данных с использованием начальных случайных значений. Вначале ошибка будет большой, но, сравнивая прогноз модели с правильным результатом, модель может корректировать значения весов и смещений, пока не будет получена хорошая модель прогнозирования.

Процесс повторяется, по одной итерации (или шагу) за раз. На каждой итерации исходная случайная линия приближается к идеальной и более точной.

b) Переоснащение и недостаточное оснащение

Одной из наиболее важных проблем при рассмотрении обучения моделей является противоречие между оптимизацией и обобщением.

  • Оптимизация - это процесс настройки модели для получения максимальной производительности на обучающих данных (процесс обучения).
  • Обобщение - насколько хорошо модель работает с невидимыми данными.Цель состоит в том, чтобы получить наилучшую способность к обобщению.

В начале обучения эти две проблемы коррелируют: чем меньше потери данных обучения, тем меньше потери тестовых данных. Это происходит, когда модель все еще недостаточно приспособлена: еще предстоит научиться, она еще не смоделирована, все соответствующие параметры модели.

Но после нескольких итераций обучающих данных обобщение перестает улучшаться, и показатели проверки сначала замораживаются, а затем начинают ухудшаться.Модель начинает переоснащаться: она настолько хорошо усвоила обучающие данные, что усвоила паттерны, которые слишком специфичны для обучающих данных и не имеют отношения к новым данным.

Есть два способа избежать этого переобучения: получение дополнительных данных и регуляризация.

  • Получение большего количества данных обычно является лучшим решением, модель, обученная на большем количестве данных, естественно, будет лучше обобщать.
  • Регуляризация выполняется, когда последнее невозможно, это процесс изменения количества информации, которую модель может хранить, или добавления ограничений на то, какую информацию разрешено хранить.Если модель может запомнить только небольшое количество шаблонов, оптимизация заставит ее сосредоточиться на наиболее релевантных из них, повышая вероятность хорошего обобщения.

Регуляризация выполняется в основном следующими методами:

  1. Уменьшение размера модели: уменьшение количества обучаемых параметров в модели, а вместе с ними и ее способности к обучению. Цель состоит в том, чтобы найти золотую середину между слишком большой и недостаточной способностью к обучению. К сожалению, нет никаких волшебных формул для определения этого баланса, его нужно проверять и оценивать, задав различное количество параметров и наблюдая за его работой.
  2. Добавление регуляризации веса: В целом, чем проще модель, тем лучше. Пока она может хорошо учиться, более простая модель вряд ли переобучится. Обычный способ добиться этого - ограничить сложность сети, заставив ее веса принимать только небольшие значения, упорядочивая распределение значений весов. Это делается путем добавления к функции потерь сети стоимости, связанной с большими весами. Стоимость возникает двумя способами:
  • Регуляризация L1: Стоимость пропорциональна абсолютному значению весовых коэффициентов (норма весов L1).
  • Регуляризация L2: Стоимость пропорциональна квадрату значения весовых коэффициентов (норма весов l2)

Чтобы решить, какие из них применить к нашей модели, рекомендуется иметь в виду следующую информацию: примите во внимание природу нашей проблемы:

Цель на этом этапе процесса - разработать эталонную модель, которая будет служить нам в качестве базовой линии, после того как мы измерим производительность более совершенного и настроенного алгоритма.

Бенчмаркинг требует, чтобы эксперименты были сопоставимыми, измеримыми и воспроизводимыми.Важно подчеркнуть воспроизводимую часть последнего утверждения. В настоящее время библиотеки науки о данных выполняют случайное разбиение данных, причем эта случайность должна быть согласованной во всех прогонах. Большинство генераторов случайных чисел поддерживают установку начального числа для этой заливки. В Python мы будем использовать метод random.seed из пакета random.

Как показано на «https://blog.dominodatalab.com/benchmarking-predictive-models/»

«Часто бывает полезно сравнить улучшение модели с упрощенной базовой моделью, такой как kNN или наивный байесовский метод для категориальных данных. или EWMA значения в данных временного ряда.Эти базовые показатели дают представление о возможной прогнозирующей способности набора данных.

Модели часто требуют гораздо меньше времени и вычислительной мощности для обучения и прогнозирования, что делает их полезными для перекрестной проверки жизнеспособности ответа. Ни kNN, ни наивные байесовские модели вряд ли улавливают сложные взаимодействия. Тем не менее, они дадут разумную оценку минимальной границы прогностических возможностей тестируемой модели.

Кроме того, это упражнение дает возможность протестировать конвейер тестирования.Важно, чтобы тестовые конвейеры обеспечивали стабильные результаты для модели с понятными характеристиками производительности. KNN или наивный байесовский метод для необработанного набора данных, или минимально управляемый с помощью центрирования или масштабирования столбцов, часто дает слабого, но адекватного обучаемого с характеристиками, которые полезны для целей сравнения. Характеристики более сложных моделей могут быть менее понятны и могут оказаться сложными ».

7.1 Поиск хорошей модели

Одним из наиболее распространенных методов поиска хорошей модели является перекрестная проверка.При перекрестной проверке мы установим:

  • Количество складок, по которым мы разделим наши данные.
  • Метод оценки (зависит от характера проблемы - регрессия, классификация…).
  • Некоторые подходящие алгоритмы, которые мы хотим проверить.

Мы передадим наш набор данных в функцию оценки перекрестной проверки и получим модель, которая дала лучший результат. Это будет тот, который мы будем оптимизировать, соответствующим образом настроив его гиперпараметры.

  # Параметры тестирования и метрики оценки  
num_folds = 10
scoring = "neg_mean_squared_error" # Алгоритмы выборочной проверки
models = []
models.append (('LR', LinearRegression ()))
models.append (('LASSO', Lasso ()))
models.append (('EN', ElasticNet ()))
models.append (('KNN ', KNeighborsRegressor ()))
models.append ((' CART ', DecisionTreeRegressor ()))
models.append ((' SVR ', SVR ()))

results = []
names = []
для имени , модель в моделях:
kfold = KFold (n_splits = num_folds, random_state = seed)
cv_results = cross_val_score (model, X_train, y_train, cv = kfold, scoring = scoring)
results.append (cv_results)
имен.append (name)
msg = "% s:% f (% f)"% (name, cv_results.mean (), cv_results.std ())
print (msg)

   # Сравнить алгоритмы   
fig = pyplot.figure ()
fig.suptitle ('Сравнение алгоритмов')
ax = fig.add_subplot (111)
pyplot.boxplot (результаты)
ax.set_xticklabels (имена)
pyplot.show ()

7.2 Настройка Гиперпараметры модели

Алгоритм машинного обучения имеет два типа параметров. Первый тип - это параметры, которые изучаются на этапе обучения, а второй тип - это гиперпараметры, которые мы передаем модели машинного обучения.

После определения модели, которую мы будем использовать, следующим шагом будет настройка ее гиперпараметров для получения максимально возможной предсказательной силы. Самый распространенный способ найти лучшую комбинацию гиперпараметров - это перекрестная проверка поиска по сетке.

Процесс будет следующим:

  • Установите сетку параметров, которую мы будем оценивать. Мы сделаем это, создав словарь всех параметров и соответствующих им наборов значений, которые вы хотите протестировать на лучшую производительность.
  • Задайте количество складок, случайное состояние и метод оценки.
  • Создайте объект K-Fold с выбранным количеством складок.
  • Создайте объект поиска по сетке с выбранной моделью и подгоните его.
  # Построить масштабатор  
scaler = StandardScaler (). Fit (X_train)
rescaled X = scaler.transform (X_train) # Построить сетку параметров
c_values ​​= [0,1, 0,3, 0,5, 0,7, 0,9, 1,0 , 1.3, 1.5, 1.7, 2.0]
kernel_values ​​= ['linear', 'poly', 'rbf', 'sigmoid']
param_grid = dict (C = c_values, kernel = kernel_values) # Построить модель
model = SVC ()
kfold = KFold (n_splits = num_folds, random_state = seed)
grid = GridSearchCV (оценка = модель, param_grid = param_grid, scoring = scoring, cv = kfold)
grid_result = grid.fit (rescaledX, y_train) # Показать результаты
print ("Лучшее:% f с использованием% s"% (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results _ ['mean_test_score']
stds = grid .cv_results _ ['std_test_score']
params = grid_result.cv_results _ ['params']
для среднего, stdev, param в zip (означает, stds, params):
print ("% f (% f) with:% r" % (mean, stdev, param))

Этот метод возвращает набор гиперпараметров, который лучше всего подходит для решения данной проблемы.Как только они определены, наша модель готова к использованию. Итак, мы сделаем соответствующие прогнозы на основе набора данных проверки и сохраним модель для дальнейшего использования.

В этой статье мы рассмотрели множество важных концепций. Несмотря на то, что мы предоставили их общий обзор, это необходимо, чтобы получить хорошее представление о том, как и когда применять объясненные методы.

Мы рассмотрим эти методы более глубоко, поскольку они будут появляться в следующих статьях, а также его реализации на Python.

В следующей статье мы начнем с первого и наиболее распространенного типа задач машинного обучения: регрессии.

Спасибо за чтение и следите за обновлениями!

.

Смотрите также