Интеллектуальный анализ данных для эффективных решений
В век информации и информационных технологий нам все чаще приходится работать с большими объемами данных. Существует даже мнение, что времена статистики одной-двух переменных прошли и наступила эпоха интеллектуального анализа данных (Data Mining) больших и сверхбольших массивов данных. Одно из главных преимуществ интеллектуального анализа данных заключается в том, что сфера его применения ничем не ограничена — он везде, где имеются какие-либо данные: в экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, веб-аналитике, медицине и др. Владея инструментами Data Mining, мы можем предсказывать значения стоимости арендной платы, идентифицировать спам, кластеризовывать заболевания, распознавать изображения и звуки.
Быстрый темп развития технологий анализа данных, растущие объемы информации, с которой приходится работать ежедневно, подтолкнули Межрегиональный ресурсный центр к созданию нового электронного курса «Основы анализа данных». Автор курса — Николай Жуков, ассистент кафедры компьютерных технологий и электронного обучения РГПУ им. А. И. Герцена. Курс носит сугубо прикладной характер и предназначен для широкого круга специалистов, занятых в различных сферах.
В рамках курса слушатели знакомятся с основными понятиями извлечения данных, находят взаимосвязь между извлечением данных и машинным обучением. В видеолекции о математических основах обработки и анализа данных автор курса на простых примерах рассказывает, как определить среднее значение, вычислить моду, математическое ожидание и дисперсию, а также дает объяснение двух наборов данных — «Ирисы Фишера» и Titanic. Николай Жуков пошагово объясняет, как импортировать данные из текстового файла в Microsoft Excel, быстро вычислить среднее арифметическое, минимум и максимум числовой выборки, подсчитать числовые и текстовые значения. Также слушатели учатся вычислять коэффициент корреляции Пирсона и проводить сортировку значений.
Особое внимание уделяется практическим аспектам эффективной обработки данных в MS Excel 2013 для визуализации и анализа данных. В этом разделе слушатели учатся строить и форматировать точечные диаграммы, диаграмму Парето и диаграмму BoxPlot, а также диаграмму «дерево».
Еще один раздел курса будет интересен и просто необходим всем, кто занимается сложным статистическим и инженерным анализом. В решении таких задач поможет дополнительное расширение — пакет «Анализ данных» в Excel. В рамках курса автор учит слушателей работать с инструментами пакета, которые позволяют упростить процесс и сэкономить время.