Как научиться анализировать


Как правильно анализировать информацию, методы обработки и анализа данных

Содержание:

В современном мире, где все меняется очень быстро, а найти информацию легче, чем когда-либо, не нужно учить наизусть энциклопедии, чтобы быть эффективным в работе. Теперь ценится не сама информация, а умение ее искать и обрабатывать. Мы собрали для вас несколько советов по обработке данных, которые помогут сэкономить время на поиск, отфильтровать фейк и сделать правильные выводы.


Работа с информацией включает в себя три основных этапа: поиск, обработку и представление результатов.

Поиск данных

В наше время существует огромное количество источников, из которых можно черпать информацию. Это интернет, базы данных, эксперты, различные исследования и прочее. Самое главное — не растекайтесь и не хватайтесь за каждое слово. Если перефразировать закон Парето, «20 % усилий дают 80 % результата». Этот закон, как никакой другой, применим к работе с данными. Заранее обдумайте, какая именно информация будет для вас ключевой, и сконцентрируйтесь на ее поиске.
Существует давний спор о том, как соотносятся качественные и количественные методы при поиске и анализе данных. Какие нужно применять в начале, а какие в конце? Чаще всего сначала лучше использовать качественные методы (этап построения гипотезы о возможных путях решения проблемы), затем количественные (этап ее подтверждения). Но такой подход не является аксиомой, поэтому всегда смотрите по ситуации.

Алгоритм поиска

Общая схема поиска информации довольно проста: начать с самых простых источников и постепенно перейти к более трудоемким:​

  • Перед тем как начать поиск, хорошо бы знать, что именно вы ищете. Так что постарайтесь найти аналогичные проекты и вникнуть в тему.
  • Изучите общую картину и сформулируйте вопросы. Пространство для поиска может быть слишком широким, поэтому установите границы.
  • Организуйте первую встречу с экспертом, чтобы определить направление работы.
  • Соберите подробную информацию в открытых источниках. Это самая важная и объемная часть работы.
  • Проведите вторую встречу с экспертом, проясните накопившиеся вопросы.​
  • Готово: вы получили релевантную картину проблемы.

​Работа с открытыми источниками

Самый доступный источник информации — это интернет. Но на просторах Сети нужно быть аккуратным и не доверять всему, что находите. Используя поисковики, старайтесь тщательно фильтровать информацию и учитесь писать лаконичные запросы, используя именно те ключевые слова, которые выведут вас на нужные ресурсы. Можно также использовать новостные сервисы.
В консалтинге часто используются собственные базы данных, например Press Search в BCG. Базы данных крупных университетов и международных организаций тоже могут быть полезны. Этот источник полезнее поисковиков, потому что там собрана только проверенная и авторитетная информация. Сайты с презентациями, например Slideshare или Scribd, тоже иногда помогают. Еще обратите внимание на отчеты компаний, разные статистические ресурсы, маркетинговые исследования (они позволят быстро погрузиться в отрасль) и исследования инвестиционных банков (там всегда указаны источники данных, а информация очень высокого качества).

Как получить информацию от эксперта

Здесь все чуть сложнее: все же работать придется с человеком, а не с машиной. Перед встречей обязательно проведите самостоятельный ликбез, чтобы чувствовать себя уверенно и как минимум не задавать глупых вопросов. Если кто-то из ваших коллег уже встречался с этим человеком, узнайте, какие вопросы они обсуждали. Эксперты терпеть не могут, когда у них по сто раз спрашивают об одних и тех же вещах.
Впрочем, убедиться в том, что ваш эксперт действительно разбирается в теме, тоже не помешает. Почитайте о нем, пробегитесь по его работам. У детектива Коломбо из одноименного сериала была фишка: самый важный вопрос он всегда оставлял напоследок. Консультанты тоже часто так делают. В самом конце, когда вы уже в дверях, а эксперт (клиент, коллега – кто угодно) расслабился и заказал такси, застаньте его врасплох неожиданным и важным вопросом. В таком состоянии он или автоматически ответит честно, или вы с легкостью поймете, что вам что-то недоговаривают. Впрочем, если сериальные маневры не для вас, завершите разговор открытым вопросом: «Есть ли что-то важное, о чем я не спросил?» Это вполне нормальная практика. Помните, что всегда лучше задавать открытые вопросы, чтобы эксперт говорил как можно больше и поделился с вами всей известной ему информацией.
Рассаживаясь на встрече, всегда оставляйте эксперту самое комфортное и почетное место, чтобы продемонстрировать уважение. Часто люди инстинктивно садятся друг напротив друга, но такое положение напоминает бой «стенка на стенку», и вы автоматически становитесь соперниками. Если формат встречи не один на один, член вашей команды может сесть на сторону клиента или эксперта, чтобы разрядить обстановку.
Будьте тактичны, действуйте в зависимости от ситуации. Всегда просите разрешения делать заметки. Диктофон лучше не использовать. Это может насторожить человека: он начнет говорить менее уверено, стараясь не сболтнуть лишнего. В любом случае держите контакт с собеседником и не слишком увлекайтесь записями, иначе он подумает, что общается со стенографистом. Со временем вы научитесь фиксировать всю информацию, используя минимум заметок. Заведите собственные ключевые слова, сокращения и другие приемы, которые позволят сделать записи лаконичнее.
Некоторые эксперты любят, объясняя что-то, рисовать схемы или писать тезисы. Попросите после интервью воспользоваться их записями. Во-первых, это действительно может пригодиться, во-вторых, это тоже своего рода знак уважения. Если эксперт отходит от темы, можно его тактично перебить. В конце кратко пробегитесь по пунктам, которые вы обсудили, чтобы собеседник в случае ошибки вас поправил. После встречи не забудьте написать эксперту благодарственное письмо, чтобы укрепить контакт. Кто знает, возможно, вам еще не раз понадобится его помощь.

Обработка данных

Теперь, когда вы собрали информацию, можно переходить к следующему этапу — обработке данных. Он состоит из двух частей: проверка качества и анализ. Сначала нужно оценить, насколько информация соответствует четырем критериям:

  • Полнота. Проверьте, есть ли у вас все необходимые данные.
  • Актуальность. Убедитесь, что вся найденная информация свежая.
  • Достоверность. Сопоставьте информацию из нескольких источников. Используйте только правильные данные. Если сомневаетесь, посоветуйтесь с экспертом.
  • Релевантность. Трезво оцените найденную информацию и посмотрите, нет ли в ней лишних данных.

Проверьте данные на здравый смысл – проведите так называемый Sanity Check. Это простой тест, который позволяет быстро оценить решение, вывод или предпосылку. Его смысл в том, чтобы сразу отследить очевидно ложный результат. Можно сравнить это с тем, как в консалтинге решают задачи на market-sizing. Быстрые расчеты на основе допущений часто дают довольно точные результаты, так что не стоит недооценивать этот метод обработки информации.
После того как вы проверили данные, нужно их обработать и провести анализ информации: разобраться во взаимосвязях и построить выводы. Начнем с банального: приступая к анализу, следует твердо обозначить, что, как и зачем вы будете анализировать. К работе с информацией всегда нужно подходить с готовыми гипотезами и четким представлением о том, что эта информация вам даст. Анализ заключается в проверке гипотез и их дальнейшем подтверждении или опровержении.
Остерегайтесь data paralysis («информационного паралича»), при котором недостаток информации или ее избыток могут дезориентировать команду. Во время работы обращайте внимание на ограничения и по количеству информации, и по времени, чтобы успеть сделать Sanity Check перед тем, как переходить к использованию результатов анализа. Для облегчения обработки информации существует три типа аналитических помощников: общие подходы, специфические фреймворки и графики.

Методы обработки информации

Общие подходы — это ранжирование (иначе приоритизация), матрицы, сценарный подход, инвестиционный анализ, сегментирование и риск-анализ. Первые три способа применяются практически при любом типе анализа, поэтому владеть ими обязательно. Оставшиеся три используются при решении специфичных задач. Например, сегментирование помогает разделить компании по категориям, а инвестиционный анализ применяется для сопоставления затрат с предполагаемым доходом.
К специфическим фреймворкам относятся, например, пять сил Портера, SWOT-анализ и анализ рентабельности задействованного капитала. Они помогают понять ключевую идею стратегических решений. К слову, молодые консультанты любят использовать SWOT-анализ абсолютно везде, но на самом деле этот метод хоть и полезен, но не так применим, как может показаться на первый взгляд.
С графиками все ясно. Это лучший инструмент для наглядного представления больших объемов данных
Возвращаясь к началу, помните, что анализ — не самоцель. Вам нужно проверить гипотезы, поэтому не начинайте анализировать данные, пока не поймете, к чему это должно привести. Так вы сэкономите кучу времени и сил.

Представление результата

Для того чтобы сделать качественную презентацию своего исследования, нужно овладеть лишь одним принципом — пирамидой Минто. Этот простой инструмент заключается в группировке идей в кластеры, поддерживающие и раскрывающие основной тезис. Начинаем с ключевой проблемы, переходим к поддерживающим аргументам, заканчиваем деталями. Как говорила сама Барбара Минто, первая женщина-консультант McKinsey, разработавшая этот принцип, «написать что-либо ясно и понятно — значит сделать два шага. Первый — определить цель, главную мысль, которую вы хотите донести до читателя, второй — изложить эту мысль в словах или письменно».

Лайфхаки

Используйте специальные техники чтения. Углубленное чтение и чтение-сканирование хоть раз в жизни практиковал каждый, здесь проблем быть не должно. Насчет скорочтения взгляды расходятся. Практика показывает, что без него можно обойтись, но для увеличения своего КПД попробуйте освоить и этот метод. Вам помогут специализированные приложения, основанные на технологиях spritz (слова выводятся на экран по одному за раз, чтобы сократить время на переход глазами по строчкам) и Blankist (программа дробит тексты на части, в каждой заключена основная мысль, которую вы сможете прочитать всего за пару минут).
Для ускорения работы научитесь быстро печатать. Существует много программ для развития этого навыка: «Соло на клавиатуре» — для Windows, KeyKey — для Mac OS или онлайн-тренажер «Все10».
И последнее напутствие: всегда рассматривайте не меньше семи вариантов при выборе чего-либо, будь то холодильник или направление для строительства карьеры.

Другие лайфхаки по быстрому и качественному анализу информации вы сможете узнать на Школе Changellenge >>. На 21-дневном образовательном интенсиве вы разберетесь и в других этапах решения бизнес-задач: от постановки проблемы до защиты проекта перед клиентами.

Узнать подробнее >>

21-дневный образовательный интенсив, созданный по принципам MBA, прокачает вас для крутой карьеры. Вас ждет четыре кейса из разных индустрий: банкинга, консалтинга, IT, FMCG, 20 экспертов с дипломами MBA и более 100 полезных контактов. Успейте подать заявку!

Узнать подробнее >>

Рекомендуем:

Теги

Что такое анализ данных, как ему научиться и т. Д.

Знаете ли вы, что должности в области науки о данных и анализа часто труднее всего заполнять компании? Благодаря стремительно растущему спросу на специалистов по данным, существует множество открытых ролей, но не хватает кандидатов для их заполнения.

Перевод? Анализ данных - это увлекательная область, в которую можно войти, и перспективы карьерного роста потрясающие.

Теперь просто, чтобы сразу развеять распространенное заблуждение: вам не нужно быть гением математики / информатики / программирования, чтобы получить работу в области анализа данных.

Но как узнать, интересует ли вас анализ данных? И как вы можете начать карьеру в области анализа данных, если у вас нет в ней опыта?

В этом спонсируемом сообщении Udemy мы расскажем вам все, что вам нужно знать о том, как начать анализ данных. Что такое анализ данных? Какие возможные рабочие места доступны в этой области? Как вы можете начать изучать анализ данных, а также инструменты и навыки, которые понадобятся вам для получения работы по анализу данных? Какие существуют курсы для аналитиков данных?

Давайте прямо сейчас!

Раскрытие информации: этот пост спонсируется Udemy, и я также являюсь их аффилированным лицом.Если вы купите курс Udemy по ссылкам на этой странице, я могу получить небольшую комиссию за ваше направление. Спасибо!

Содержание


Что такое анализ данных?

Перво-наперво: что такое анализ данных?

Короче говоря, анализ данных включает в себя сортировку огромных объемов неструктурированной информации и извлечение из нее ключевых идей. Эти идеи чрезвычайно важны для принятия решений в компаниях любого размера.

Небольшое примечание: анализ данных и наука о данных - это не одно и то же. Хотя они принадлежат к одному семейству, наука о данных обычно более продвинута (гораздо больше программирования, создание новых алгоритмов, построение прогнозных моделей и т. Д.).

Вот введение в процесс анализа данных:

  1. Определите вопрос или цель анализа: что вы пытаетесь открыть?
  2. Соберите правильные данные, которые помогут ответить на этот вопрос.
  3. Выполняйте очистку данных / обработку данных, чтобы улучшить качество данных и подготовить их к анализу и интерпретации - преобразование данных в правильный формат, избавление от ненужных данных, исправление орфографических ошибок и т. Д.
  4. Управляйте данными с помощью Excel или Google Sheets. Это может включать построение графика данных, создание сводных таблиц и так далее.
  5. Анализируйте и интерпретируйте данные с помощью статистических инструментов (например, нахождение корреляций, тенденций, выбросов и т. Д.).
  6. Представьте эти данные осмысленным образом: графики, визуализации, диаграммы, таблицы и т. Д.Аналитики данных могут сообщать о своих выводах руководителям проектов, главам отделов и руководителям высшего звена, чтобы помочь им принимать решения и выявлять закономерности и тенденции.

Самое замечательное в анализе данных заключается в том, что это скорее роль начального уровня, а это означает, что вы можете сразу же получить базовые знания после того, как пройдете несколько курсов анализа данных для начинающих и отточите несколько ключевых навыков. (Конечно, не повредит, если у вас уже есть опыт программирования, математики или статистики!)

Стать аналитиком данных может также открыть дверь к прибыльной карьере, такой как наука о данных и инженерия данных (и это лишь некоторые из них), по мере того, как вы приобретете больше опыта на работе.

Вернуться к содержанию »


Почему вы должны изучать навыки анализа данных

Чтобы понять, почему изучать анализ данных и делать карьеру в этой области - прекрасная идея, кажется правильным, если мы смотрим на данные!

  • Ожидается рост рабочих мест для профессионалов в области данных : Ожидаемый рост рабочих мест для аналитиков маркетинговых исследований (другой термин для аналитиков данных) в период 2018-2028 годов составляет 20%, согласно данным Бюро статистики труда.Создается значительное количество новых позиций.
  • Аналитика данных востребована: Согласно Digital Learning Academy, создателям книги Введение в анализ данных и статистику с использованием SQL: «Есть спрос на людей, которые могут использовать данные для составления отчетов и анализа, что помогает предприятиям и организациям важные и важные решения ».
  • Роли данных имеют зарплату выше средней: Аналитики данных получают хорошую зарплату, даже если они не продолжают заниматься наукой о данных или разработкой! Сколько зарабатывают аналитики данных? Согласно Payscale, аналитики данных начального уровня будут получать годовой оклад от 40 000 до 73 000 долларов США (в среднем 55 000 долларов США).Старшие аналитики данных могут поднять эту сумму до 108 000 долларов.
  • Существует конкурентное преимущество. : По словам Иана Литтлджона, инструктора курса «Полное введение в анализ бизнес-данных»: «Возможность задавать вопросы по вашим данным является мощным конкурентным преимуществом, приводящим к новым потокам доходов, более эффективному принятию решений и улучшенным продуктивность. "
  • Универсальная потребность ( справка по данным требуется для всех видов компаний): По словам Саймона Хи и Трэвиса Чоу, инструкторов курса «Введение в анализ данных с использованием EXCEL для начинающих»: «Каждый бизнес генерирует данные.Но [его ценность] зависит от вашей способности обрабатывать, манипулировать и, в конечном итоге, преобразовывать эти данные в полезные сведения ».

Начать кодирование сейчас

Прекратить ждать и начать обучение! Получите мои 10 советов, как научиться программировать.

Успех! Теперь проверьте свою электронную почту, чтобы подтвердить подписку.

.

48 простых способов научиться читать людей мгновенно и легко понять, почему они делают определенные вещи. Джеймс Джаред

Эта электронная книга даст вам все, что вам нужно знать об анализе людей, даже если вы встречаетесь с ними впервые . Чтение людей - отличный способ убедиться, что вас не обманут недобросовестные продавцы или вас не разочарует потенциальный любовный интерес.
Даже экстраверты держат все под замком. Их никто не видит, кроме тех, кто умеет их читать.Это больше, чем просто тон голоса и язык тела. Речь идет о том, чтобы за несколько мгновений с кем-то рассказать больше, чем вы когда-либо думали.

Интересно узнавать так много о людях, даже не разговаривая с ними долго. Когда вы узнаете, почему люди ведут себя именно так, жизнь становится более понятной.

Пожалуй, самая интригующая часть этой электронной книги - это обширный раздел о различных типах личности. Во всяком случае, мы не выплевываем комбинации букв и цифр, которые вы никогда не запомните.Мы даем вам простые английские термины для обозначения различных паттернов, встречающихся у интровертов и экстравертов. Вы будете называть людей, которых вы знаете, которые подходят к каждой группе, даже когда вы читаете.

Читать людей - это полезно и может быть весело. Надеемся, вам понравится поездка.

Вот что вы узнаете, прочитав эту книгу: Самые простые способы научиться читать и анализировать людей Почему люди делают то, что делают Как распознавать и анализировать различные паттерны личности

Получение БЕСПЛАТНОГО бонуса
Загрузите эту книгу и найдите главу «БОНУС: Ваш БЕСПЛАТНЫЙ подарок» сразу после введения или после заключения.

Загрузите свою копию «Как анализировать людей» , прокрутив вверх и нажав «Купить сейчас с одним щелчком» кнопку.

.

Как анализировать результаты автоматизации тестирования

По мере того, как в процесс поставки программного обеспечения вводится автоматизация тестирования, количество доступных результатов тестирования резко возрастает. Роботы или агенты выполнения тестов могут работать 24/7 без перерывов, и, кроме того, количество тестовых примеров накапливается во время каждого спринта. Таким образом, можно получить больше результатов, которыми нужно управлять и анализировать. Это требует правильного подхода.

Если время, потраченное на изучение результатов тестирования, превышает время, сэкономленное за счет выполнения автоматических тестов, то автоматизация не улучшает качество вывода и не стоит затрат.Чтобы воспользоваться преимуществами автоматизации, важно знать, как правильно обрабатывать растущее количество результатов испытаний.

Ниже приведены четыре совета о том, как лучше всего обрабатывать и анализировать результаты тестирования, полученные с помощью автоматизации.

1. Настройка автоматического мониторинга

У любой группы тестирования уже есть множество задач в рамках процесса поставки программного обеспечения, поэтому простое добавление еще одной задачи по мониторингу журнала результатов не обязательно приведет к повышению качества.

Наличие тестовой группы, постоянно отслеживающей результаты тестов, сопряжено с несколькими рисками, например:

  • Как обеспечить регулярную проверку результатов? Ручной мониторинг может быть прерван календарными конфликтами, такими как встречи, отпуск и т. Д.
  • Если тестовые примеры редко терпят неудачу, потребность в мониторинге со временем будет восприниматься как менее важная. Это мнение очень вредно для регрессионного тестирования, которое направлено на выявление непредвиденных проблем в любое время.

Вместо этого убедитесь, что инструмент, используемый для автоматизации тестирования, позволяет настраивать оповещения и / или отправлять сообщения, когда группе тестирования необходимо действовать, например, когда один или несколько тестовых примеров терпят неудачу или когда выполнение тестового примера занимает больше времени. чем установленный критический предел.

Настроив подобные автоматические уведомления, тестировщики могут реагировать, когда это необходимо для проверки автоматических тестовых примеров, и не тратить время на то, чтобы заявить, что ничего не произошло.

2. Выяснить, почему дела не работают

Очевидно, что если тестировщик тратит больше времени на анализ того, почему автоматизированный тестовый пример не работает, чем на его выполнение, автоматизация теряет свое предназначение. Расследование неудачного тестового случая и определение причины неудачи должно быть простым и быстрым.И владельцы продуктов, и разработчики, и тестировщики нуждаются в быстрой обратной связи, чтобы как можно быстрее выявлять нарушения.

Платформа автоматизации тестирования должна включать следующие функции, чтобы помочь тестировщикам быть более продуктивными на этапе анализа:

  • Видеозапись машин, на которых выполняется тестовый пример. Это очень мощный инструмент, так как он позволяет группе тестирования точно увидеть, что произошло при запуске тестового примера.
  • Функциональность регистрации. Он должен содержать все выходные данные тестового примера в пошаговом порядке выполнения тестового примера.
  • Функциональность отладки . Это может включать пошаговый обход неудачных тестовых случаев, чтобы увидеть значения, состояния и т. Д. Это очень полезно для определения причины неудачного теста. В платформе автоматизации LEAPWORK функция отладки представлена ​​в виде режима предварительного просмотра видеозаписи.
  • Функция воспроизведения . Сочетание видеозаписи с функциями ведения журнала и отладки позволяет увидеть общую картину.Благодаря этим сведениям даже тестировщики, которые мало знают о тестовом примере, могут отлаживать его и быстро делать выводы.

3. Поделиться Результатом

Платформы выпуска

, такие как Quality Center, Jira и TFS, могут использоваться как для управления тестами, так и для обработки ошибок. Они широко используются командами тестирования в качестве инструментов для отслеживания ошибок, стратегий тестирования, описаний тестовых случаев и т. Д.

Внедрение автоматизации тестирования, вероятно, не изменит того факта, что эти платформы служат центром коллективных усилий по тестированию.Вот почему вам следует интегрировать свою платформу автоматизации тестирования, отправляя результаты в систему управления тестированием или извлекая результаты из платформы автоматизации тестирования с помощью API.

4. Используйте информационную панель для результатов

Быстрая и прозрачная обратная связь - краеугольный камень DevOps. Это позволяет команде разработчиков быстро реагировать на проблемы и исправлять их до того, как ошибка будет перенесена в производственную среду.

Эффективный способ обмена результатами внутри команд и между ними - использование визуальных панелей мониторинга на общих мониторах в рабочем пространстве группы.Например, простое графическое представление последних результатов регрессионных тестов в тестовой среде даст команде четкое представление о текущем качестве тестируемого программного обеспечения.

Пример панели управления из платформы автоматизации LEAPWORK:

Сводка

  1. Настройте автоматический мониторинг, чтобы тестировщики тратили свое время наиболее эффективно.
  2. Выясните , почему тестовые примеры терпят неудачу, используя функции регистрации, отладки и анализа вашей платформы автоматизации тестирования.
  3. Выполните интеграцию с вашей платформой управления выпусками путем отправки или получения результатов тестирования.
  4. Обеспечьте быструю и прозрачную обратную связь с помощью общих информационных панелей с результатами тестирования в реальном времени.
.

Как анализировать 100 ГБ данных на вашем ноутбуке с помощью Python | Джован Вельяноски

Многие организации пытаются собрать и использовать как можно больше данных, чтобы улучшить то, как они ведут свой бизнес, увеличить доход или как они влияют на мир вокруг них. Поэтому для специалистов по обработке данных все чаще встречаются наборы данных размером 50 или даже 500 ГБ.

Такие наборы данных немного ... неудобны в использовании. Они достаточно малы, чтобы поместиться на жестком диске вашего повседневного ноутбука, но слишком велики, чтобы поместиться в ОЗУ.Таким образом, их уже сложно открыть и изучить, не говоря уже об исследовании или анализе.

При работе с такими наборами данных обычно используются 3 стратегии. Первый - это подвыборка данных. Недостаток здесь очевиден: можно упустить ключевые идеи, не глядя на соответствующие части, или, что еще хуже, неверно истолковать историю и данные, которые она сообщает, не глядя на них полностью. Следующая стратегия - использовать распределенные вычисления. Хотя это допустимый подход для некоторых случаев, он сопряжен со значительными накладными расходами на управление и обслуживание кластера.Представьте, что вам нужно настроить кластер для набора данных, который находится вне пределов ОЗУ, например, в диапазоне 30–50 ГБ. Мне это кажется излишним. В качестве альтернативы можно арендовать один надежный облачный экземпляр с таким объемом памяти, который требуется для работы с рассматриваемыми данными. Например, AWS предлагает экземпляры с терабайтами ОЗУ. В этом случае вам все равно придется управлять сегментами облачных данных, ждать передачи данных из сегмента в экземпляр каждый раз при запуске экземпляра, решать проблемы соответствия, возникающие при размещении данных в облаке, и устранять все неудобства, связанные с работой над удаленная машина.Не говоря уже о затратах, которые хоть и начинаются низко, но со временем накапливаются.

В этой статье я покажу вам новый подход: более быстрый, безопасный и в целом более удобный способ заниматься наукой о данных с использованием данных почти произвольного размера, если они помещаются на жесткий диск вашего ноутбука. , настольный компьютер или сервер.

Vaex - это библиотека DataFrame с открытым исходным кодом, которая обеспечивает визуализацию, исследование, анализ и даже машинное обучение для табличных наборов данных, размер которых равен размеру вашего жесткого диска.Для этого Vaex использует такие концепции, как отображение памяти, эффективные алгоритмы вне ядра и ленивые вычисления. Все это завернуто в знакомый API-интерфейс, похожий на Pandas, поэтому любой может сразу начать работу.

Чтобы проиллюстрировать эту концепцию, давайте проведем простой исследовательский анализ данных для набора данных, который слишком велик, чтобы поместиться в ОЗУ типичного портативного компьютера. В этой статье мы будем использовать набор данных такси Нью-Йорка (Нью-Йорк), который содержит информацию о более чем 1 миллиард поездок на такси, совершенных в период с 2009 по 2015 год знаковыми Желтыми такси.Данные могут быть загружены с этого веб-сайта и представлены в формате CSV. Полный анализ можно просмотреть отдельно в этом ноутбуке Jupyter .

Первым шагом является преобразование данных в формат файла с отображаемой памятью, такой как Apache Arrow, Apache Parquet или HDF5. Пример преобразования данных CSV в HDF5 можно найти здесь. Как только данные находятся в формате, поддерживающем отображение памяти, их открытие с помощью Vaex происходит мгновенно (0,052 секунды!), Несмотря на то, что его размер на диске превышает 100 ГБ:

.

Смотрите также