legale · November 8, 2022 14:06 · Apr 9, 2020 · Apr 9, 2020 · Apr 9, 2020 · Apr 9, 2020
diff --git a/8. Заключение b/8. Заключение
@@ -0,0 +1,8 @@
+Результат работы
+Соединив знание основ языка Python — арифметические и логические операторы, переменные, вызов функций print() и format() — с некоторыми возможностями библиотеки Pandas, вы уже получили важный для реального бизнеса результат. Он касается задачи, поставленной менеджером Яндекс.Музыки: увеличить время прослушивания.
+Вывод из вашего исследования контринтуитивный, как это нередко бывает в анализе данных. Казалось бы, раз «все» качают попсу, время прослушивания можно увеличить, просто ставя в плейлист побольше поп-музыки. А вот и нет! Хотя попсу действительно слушают чаще, пропускают её так же быстро, как и рок.
+Яндекс пошёл другим путём: объединил сервисы Музыка и Радио. Итог этого эксперимента вам и предстоит оценить.
+Что дальше
+Перед тем, как взяться за предоставленную менеджером громадную таблицу, надо вычистить из неё пропуски, дубликаты и другие нежелательные артефакты. Готовится важное решение. Нельзя, чтобы «информационный мусор» толкнул вас на неверный путь. Предобработка данных так важна, что её приёмам посвящена вся следующая тема.
+Забери с собой
+Чтобы ничего не забыть, скачайте шпаргалку
diff --git a/7. Объект Series b/7. Объект Series
@@ -231,4 +231,43 @@ TASK_7_7
 Доля пропущенных композиций жанра поп равна: ...
 Вывод результата предыдущей задачи закомментируйте.
 
-SOLUTION
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+
+# Получим таблицу только с жанром rock и сохраним её в переменной rock
+df['genre'] == 'rock'
+rock = df[df['genre'] == 'rock']
+
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+rock_time = rock['total play']
+# Обратитмся к новой Series c именем rock_time и посчитайте количество треков жанра рок, пропущенных в течение 5 секунд. 
+rock_haters = rock_time[rock_time <= 5].count()
+# print('Количество пропущенных треков жанра рок равно', rock_haters)
+
+# Выберем из исходной таблицы только строки с жанром 'pop' и сохраним эту новую таблицу в переменной pop.
+df['genre'] == 'pop'
+pop = df[df['genre'] == 'pop']
+
+# Теперь по аналогии с роком создайте Series, где хранятся только данные о времени воспроизведения композиций в жанре поп.
+pop_time = pop['total play']
+#Снова по аналогии с роком обратимся к Series, на сей раз pop_time, чтобы посчитать количество пропущенных в течение 5 секунд треков жанра поп. 
+pop_haters = pop_time[pop_time <= 5].count()
+# print('Количество пропущенных треков жанра поп равно', pop_haters)
+
+# Для обоих жанров посчитайте долю быстро пропущенных пользователями композиций в процентах.
+df['genre'] == 'rock'
+rock = df[df['genre'] == 'rock']
+rock_time = rock['total play']
+rock_haters = rock_time[rock_time <= 5].count()
+
+df['genre'] == 'pop'
+pop = df[df['genre'] == 'pop']
+pop_time = pop['total play']
+pop_haters = pop_time[pop_time <= 5].count()
+
+rock_skip=rock_haters/rock.shape[0]
+print('Доля пропущенных композиций жанра рок равна: {:.1%}'.format(rock_skip))
+pop_skip = pop_haters/pop.shape[0]
+print('Доля пропущенных композиций жанра поп равна: {:.1%}'.format(pop_skip))
diff --git a/6. Индексация в DataFrame b/6. Индексация в DataFrame
@@ -0,0 +1,187 @@
+Сейчас мы, наконец, попробуем получить данные, которые понадобятся непосредственно для выполнения задачи, поставленной менеджером Яндекс.Музыки. Для этого надо уметь запрашивать информацию из определённых ячеек таблицы.
+К каждой ячейке с данными в DataFrame можно обратиться по её индексу и названию столбца. Мы можем получать различные срезы данных в зависимости от того, какой запрос к DataFrame мы сформулируем. Этот процесс называется индексация. Для DataFrame она проводится разными способами.
+Атрибут loc[строка, столбец] даёт доступ к элементу по строке и столбцу.
+image
+ВИД	РЕАЛИЗАЦИЯ
+Одна ячейка	.loc[7, 'genre']
+Один столбец	.loc[:, 'genre']
+Несколько столбцов	.loc[:, ['genre', 'Artist']]
+Несколько столбцов подряд (срез)	.loc[:, 'user_id': 'genre']
+Одна строка	.loc[1]
+Все строки, начиная с заданной	.loc[1:]
+Все строки до заданной	.loc[:3]
+Несколько строк подряд (срез)	.loc[2:5]
+image image
+Также вы могли заметить, что запрос к атрибуту loc[] использует квадратные скобки, это напоминает списки в Python. Индексация здесь очень похожа на индексацию списков.
+Вспомните, как вы играли в «Морской бой» на уроках. Для победы недостаточно просто стрелять куда попало — нужно обдумывать ситуацию на поле противника, чтобы бить в цель как можно точнее.
+Посмотрите на поле для игры, оно подобно DataFrame: есть столбцы с буквенными обозначениями и ось индексов. Обратите внимание на разницу в индексах — в DataFrame они от 0 до 9.
+image
+import pandas as pd
+data = [[0,0,0,0,0,0,0,0,0,0],
+        [0,'-','-','-',0,0,0,0,0,0],
+        [0,'-','X','-',0,0,'X','X','X','X'],
+        [0,'-','X','-',0,0,0,0,0,0],
+        [0,'-','-','-',0,0,0,0,0,0],
+        [0,0,'-',0,0,0,0,0,'X',0],
+        [0,'-','X','X',0,0,0,0,0,0],
+        [0,0,'-','-',0,0,0,0,0,0],
+        [0,0,0,0,'-','X',0,0,0,0],
+        [0,0,0,0,0,0,0,0,0,0]]
+columns = ['А','Б','В','Г','Д','Е','Ж','З','И','К']
+battle = pd.DataFrame(data = data, columns = columns)
+print(battle)
+А	Б	В	Г	Д	Е	Ж	З	И	К
+0	0	0	0	0	0	0	0	0	0	0
+1	0	-	-	-	0	0	0	0	0	0
+2	0	-	X	-	0	0	X	X	X	X
+3	0	-	X	-	0	0	0	0	0	0
+4	0	-	-	-	0	0	0	0	0	0
+5	0	0	-	0	0	0	0	0	X	0
+6	0	-	X	X	0	0	0	0	0	0
+7	0	0	-	-	0	0	0	0	0	0
+8	0	0	0	0	-	X	0	0	0	0
+9	0	0	0	0	0	0	0	0	0	0
+Ячейки DataFrame со значением 0 обозначают пустую клетку. Информация в ячейке меняется на X, если игрок выстрелил и попал в корабль противника, а если не попал, то меняется на прочерк.
+Давайте исследуем текущую ситуацию на поле. Просмотрим столбец 'В' и убедимся, что там уже началась атака на корабль:
+print(battle.loc[:,'В'])
+0	0
+1	-
+2	X
+3	X
+4	-
+5	-
+6	X
+7	-
+8	0
+9	0
+Name: В,	dtype: object
+Действительно, атака уже началась в 6-ой строке, но корабль ещё не убит, а выстрелы в ячейки сверху и снизу кончились промахом. Просмотрим 6-ую строку и узнаем расположение корабля.
+print(battle.loc[6])
+А	0
+Б	-
+В	X
+Г	X
+Д	0
+Е	0
+Ж	0
+З	0
+И	0
+К	0
+Name: 6,	dtype: object
+Корабль ориентирован по горизонтали, по нему произведено два удачных выстрела, которые пришлись на столбцы В и Г. Нужно оценить ситуацию вокруг корабля. Для этого просмотрим строки с 5 по 7.
+print(battle.loc[5:7])
+А	Б	В	Г	Д	Е	Ж	З	И	К
+5	0	0	-	0	0	0	0	0	X	0
+6	0	-	X	X	0	0	0	0	0	0
+7	0	0	-	-	0	0	0	0	0	0
+Очевидно, что следующий выстрел нужно сделать по координате 6Д. Ура, корабль убит!
+Теперь мы хотим найти второй трёхпалубный корабль. Оценим, где вероятнее всего он может располагаться. Для этого просмотрим две половины игрового поля. Срез из столбцов от А до Д даст возможность вывести левую часть таблицы:
+print(battle.loc[:,'А':'Д'])
+А	Б	В	Г	Д
+0	0	0	0	0	0
+1	0	-	-	-	0
+2	0	-	X	-	0
+3	0	-	X	-	0
+4	0	-	-	-	0
+5	0	0	-	0	0
+6	0	-	X	X	0
+7	0	0	-	-	0
+8	0	0	0	0	-
+9	0	0	0	0	0
+Такая же операция для столбцов от Е до К покажет правую часть таблицы:
+print(battle.loc[:,'Е':'К'])
+Е	Ж	З	И	К
+0	0	0	0	0	0
+1	0	0	0	0	0
+2	0	X	X	X	X
+3	0	0	0	0	0
+4	0	0	0	0	0
+5	0	0	0	X	0
+6	0	0	0	0	0
+7	0	0	0	0	0
+8	X	0	0	0	0
+9	0	0	0	0	0
+Важное замечание: когда мы используем срезы в списках, то конец среза не включается в результат. А вот атрибут .loc[] тем и выделяется, что включает и начало, и конец среза.
+Например, есть список исполнителей:
+artist = ['Marina Rei', 'Stive Morgan','Rixton','Henry Hall & His Gleneagles Hotel Band', 'Andrew Paul Woodworth', 'Pillar Point','Steve Campbell','David Civera','Lumipa Beats', 'Henning Wehland']
+Элементы с 2 по 4 получают запросом:
+print(artist[2:5])
+['Rixton', 'Henry Hall & His Gleneagles Hotel Band', 'Andrew Paul Woodworth']
+Последним в запросе указан индекс 5 — именно для того, чтобы в срез попал элемент с индексом 4. Запрос на получение со 2 по 4 строки в таблице будет выглядеть вот так:
+print(df.loc[2:4])
+USER_ID	TOTAL PLAY	ARTIST	GENRE	TRACK
+2	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
+3	EF15C7BA	8.966000	NaN	dance	Loving Every Minute
+4	82F52E69	193.776327	Rixton	pop	Me And My Broken Heart
+Итак, вы видели, как запрашивать один столбец, одну строку, диапазон столбцов и диапазон строк. Это самые ходовые запросы, которые вам предстоит делать как аналитику данных.
+На практике чаще применяют сокращённую форму записи для индексации. Но возможности у неё ограничены. Имейте в виду, что она не всегда возвращает те же результаты, что атрибут .loc[] в его полном варианте.
+ВИД	РЕАЛИЗАЦИЯ	СОКРАЩЁННАЯ ЗАПИСЬ
+Одна ячейка	.loc[7, 'genre']	-
+Один столбец	.loc[:, 'genre']	df['genre']
+Несколько столбцов	.loc[:, ['genre', 'Artist']]	df [['genre', 'Artist']]
+Несколько столбцов подряд (срез)	.loc[:, 'user_id': 'genre']	-
+Одна строка	.loc[1]	-
+Все строки, начиная с заданной	.loc[1:]	df[1:]
+Все строки до заданной	.loc[:3] включая 3	df[:3] не включая 3
+Несколько строк подряд (срез)	.loc[2:5]включая 5	df[2:5] не включая 5
+Неприятельский трёхпалубный корабль, скорее всего, на правой половине поля. Это можно предположить, оглядев по очереди оба среза. Аналитики называют такой метод изучения «посмотреть на данные глазами».
+На глаз хорошо выбирать направление дальнейших поисков, но так не получишь точных цифр, которые можно включить в отчёт. Надо уметь подсчитать количество определённых значений, например, точных попаданий. В Pandas для этого есть метод count().
+Его вызывают и приказывают сосчитать, например, количество ячеек столбца В, где были попадания. Удачный выстрел — это значение "X" в ячейке. Для столбца В таблицы battle такие ячейки отвечают логическому условию battle.loc[:,'В'] == 'X'. Поскольку в указании, какие именно значения считать, нужен логический оператор, такой доступ к значению ячейки называют логическая индексация.
+image
+print(battle.loc[battle.loc[:,'В'] == 'X']['В'].count()) # используем метод .count() для подсчёта записей, удовлетворяющих условию в столбце В
+3
+ВИД	РЕАЛИЗАЦИЯ	СОКРАЩЁННАЯ ЗАПИСЬ
+Все строки, удовлетворяющие условию	battle.loc[battle.loc[:,'В'] == 'X']	battle[battle['В'] == 'X']
+Столбец, удовлетворяющий условию	battle.loc[battle.loc[:,'В'] == 'X']['В']	battle[battle['В'] == 'X']['В']
+Применение метода	battle.loc[battle.loc[:,'В'] == 'X']['В'].count()	battle[battle['В'] == 'X']['В'].count()
+Конечно, писать вызов метода count() для подсчёта попаданий в «морском бою» то же, что стрелять из пушки по воробьям. Но в анализе таблиц на много тысяч строк счётный метод — мощное орудие. Попробуйте в задаче с данными Яндекс.Музыки определить, какой жанр оказался популярнее у пользователей: поп или рок?
+
+TASK_1_4
+Получите таблицу, состоящую из столбцов genre и Artist. Сохраните её в переменной genre_fight.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+genre_fight=df.loc[:,['genre', 'Artist']]
+
+TASK_2_4
+Посчитайте число прослушанных треков в жанре поп. Для этого лучше всего использовать логическое условие genre_fight['genre'] == 'pop'. Сохраните результат в переменной genre_pop. Напечатайте ответ на экране в таком виде:
+Число прослушанных треков в жанре поп равно ...
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+genre_fight=df.loc[:,['genre', 'Artist']]
+genre_pop=genre_fight.loc[genre_fight.loc[:,'genre'] == 'pop']['genre'].count()
+print('Число прослушанных треков в жанре поп равно', genre_pop)
+
+TASK_3_4
+Теперь посчитайте число прослушанных треков в жанре рок. Допишите в код подсчёт, похожий на предыдущий, только с логическим условием df['genre'] == 'rock'. Сохраните результат в переменной genre_rock. Напечатайте ответ на экране в таком виде:
+Число прослушанных треков в жанре поп равно ... Число прослушанных треков в жанре рок равно ...
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+genre_fight=df.loc[:,['genre', 'Artist']]
+genre_pop=genre_fight.loc[genre_fight.loc[:,'genre'] == 'pop']['genre'].count()
+genre_rock=genre_fight.loc[genre_fight.loc[:,'genre'] == 'rock']['genre'].count()
+
+print('Число прослушанных треков в жанре поп равно', genre_pop)
+print('Число прослушанных треков в жанре рок равно', genre_rock)
+
+TASK_4_4
+Напишите условную конструкцию, которая сравнивает полученные значения и выводит информацию о победителе в этом бою! Если победил жанр рок, то выведите сообщение "Рок победил!", а если победил жанр поп - сообщение "Попса forever!"
+Не удаляйте вывод числа прослушанных треков в жанрах поп и рок.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+genre_fight=df.loc[:,['genre', 'Artist']]
+genre_pop=genre_fight.loc[genre_fight.loc[:,'genre'] == 'pop']['genre'].count()
+genre_rock=genre_fight.loc[genre_fight.loc[:,'genre'] == 'rock']['genre'].count()
+print('Число прослушанных треков в жанре поп равно', genre_pop)
+print('Число прослушанных треков в жанре рок равно', genre_rock)
+if genre_pop>genre_rock:
+    print('Попса forever!')
+else:
+    print('Рок победил!')
diff --git a/7. Объект Series b/7. Объект Series
@@ -0,0 +1,234 @@
+В таблице, которую мы рассматривали весь прошлый урок, каждый столбец сам по себе — вовсе не структура данных DataFrame. Удивлены? Давайте проверим.
+Таблица всё так же имеет тип DataFrame.
+image
+Но если мы возьмём отдельный столбец таблицы, то он представляет собой совсем иную структуру данных — Series.
+image
+Давайте разберёмся, что интересного в новом объекте Series.
+Series — одномерная таблица, и её элементы можно получить по индексу. Каждый индекс — это номер отдельного наблюдения, и поэтому несколько различных Series вместе составляют DataFrame. В Series хранятся данные одного типа.
+image
+У каждой Series есть имя (Name), информация о количестве данных в столбце (Length) и тип данных, которые хранятся в ней (dtype).
+print(df['Artist'])
+0	Marina Rei
+1	Stive Morgan
+2	Stive Morgan
+3	NaN
+4	Rixton
+5	Henry Hall & His Gleneagles Hotel Band
+6	NaN
+7	NaN
+8	Andrew Paul Woodworth
+9	Pillar Point
+10	Steve Campbell
+11	David Civera
+12	Lumipa Beats
+13	Henning Wehland
+14	NaN
+15	Пётр Каледин
+16	ChinKong
+...
+67951	Julien Mier
+67952	Bierstrassen Cowboys
+67953	Flip Grater
+67954	Alt & J
+67955	TKN
+67956	89ers
+67957	Steel Pulse
+67958	Nadine Coyle
+67959	Digital Hero
+67960	Red God
+67961	Less Chapell
+67962	NaN
+Name: Artist,	Length: 67963, dtype: object
+Не все данные в этом столбце Artist относятся к типу object — есть и пропущенные значения NaN. О них мы подробно расскажем в теме, посвящённой «информационному мусору». Вместе с ними длина столбца равна общему числу наблюдений 67963.
+Индексация в Series аналогична индексации элементов столбца в DataFrame. Давайте рассмотрим на примере. Сохраним столбец total play в переменной total_play.
+total_play = df.loc[:, 'total play']
+Для получения пятого по индексу элемента укажем 5 в квадратных скобках.
+print(total_play[5])
+3.007
+Если надо получить диапазон ячеек, запросите атрибут loc с границами среза в квадратных скобках.
+print(total_play.loc[5:10])
+5	3.007
+6	0.100
+7	211.880
+8	3.161
+9	274.390
+10	8.836
+Name: total play,	dtype: float64
+Вот таблица различных вариантов индексации в Series с сокращённой записью.
+ВИД	РЕАЛИЗАЦИЯ	СОКРАЩЁННАЯ ЗАПИСЬ
+Один элемент	total_play.loc[7]	total_play[7]
+Несколько элементов	total_play.loc[[5, 7, 10]]	total_play[[5, 7, 10]]
+Несколько элементов подряд (срез)	total_play.loc[5:10] включая 10	total_play[5:10] не включая 10
+Все элементы, начиная с заданного	total_play.loc[1:]	total_play[1:]
+Все элементы до заданного	total_play.loc[:3] включая 3	total_play[:3] не включая 3
+Для Series также возможна логическая индексация. Рассмотрим такой пример — пользователю может не понравиться песня, которая начала играть, и он нажмёт кнопку «Следующий трек». Тогда в таблице сохраняется очень малое время прослушивания — от нуля до нескольких секунд. Вы можете проверить, сколько пользователей в течение нескольких секунд — не более 10 — приняли решение пропустить песню, которая только началась.
+Для решения задачи воспользуемся логическим условием total_play <= 10:
+image
+print(total_play.loc[total_play <= 10]) # выведем все элементы, которые удовлетворяют условию
+3	8.966000
+5	3.007000
+6	0.100000
+8	3.161000
+10	8.836000
+11	0.000000
+13	2.000000
+14	0.000000
+15	0.000000
+18	0.100000
+19	7.000000
+24	8.109446
+26	0.000000
+31	3.253000
+33	0.100000
+34	0.000000
+36	9.200000
+39	3.663453
+40	0.100000
+41	0.100000
+42	1.464589
+45	0.100000
+47	0.100000
+49	6.000000
+51	0.872000
+55	8.443000
+63	1.687000
+64	3.773000
+66	7.670000
+68	0.000000
+...
+67878	0.919000
+67880	1.090000
+67885	2.000000
+67886	4.040000
+67887	7.680563
+67888	8.578000
+67894	2.065000
+67896	0.000000
+67897	0.100000
+67899	3.676000
+67900	0.000000
+67905	0.000000
+67906	3.682000
+67907	4.179592
+67908	0.000000
+67912	0.000000
+67916	6.947000
+67917	4.000000
+67918	0.000000
+67923	1.753000
+67927	1.954282
+67929	0.100000
+67932	1.439000
+67946	2.101000
+67949	0.100000
+67950	3.496000
+67951	1.318000
+67953	2.502000
+67956	2.000000
+67962	0.100000
+Name: total play,	Length: 29160, dtype: float64
+print(total_play.loc[total_play <= 10].count()) # посчитаем общее количество элементов, которые удовлетворяют условиям
+29160
+Порог в 10 секунд мы выбрали произвольно. Но было бы интересно установить, существует ли на самом деле какое-нибудь пороговое время — длительность воспроизведения композиции, после которого пользователь чаще всего не пропускает трек, а слушает его до конца. Анализ данных позволяет ставить такие задачи и находить на них ответы.
+Давайте вернёмся к войне между роком и попсой! Вам предлагается установить, сколько композиций этих жанров слушали не более 5 секунд и определить: зависит ли быстрота принятия решения о пропуске трека от жанра или на это влияют другие причины?
+
+TASK_1_7
+Получите таблицу только с жанром rock и сохраните её в переменной rock.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+df['genre'] == 'rock'
+rock = df[df['genre'] == 'rock']
+
+TASK_2_7
+Выделим время прослушивания роковых композиций в особую структуру данных. Сохраните столбец 'total play' таблицы rock в переменной rock_time.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+df['genre'] == 'rock'
+rock = df[df['genre'] == 'rock']
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+rock_time = rock['total play']
+
+TASK_3_7
+Обратитесь к новой Series c именем rock_time и посчитайте количество треков жанра рок, пропущенных в течение 5 секунд. Логическим условием укажите rock_time <= 5. Результат сохраните в переменной rock_haters и напечатайте на экране с пояснением:
+Количество пропущенных треков жанра рок равно ...
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+df['genre'] == 'rock'
+rock = df[df['genre'] == 'rock']
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+rock_time = rock['total play']
+rock_haters=rock_time.loc[rock_time <= 5].count()
+print('Количество пропущенных треков жанра рок равно',rock_haters)
+
+TASK_4_7
+Выберите из исходной таблицы только строки с жанром 'pop' и сохраните эту новую таблицу в переменной pop.
+Вывод результата предыдущей задачи закомментируйте.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+#df['genre'] == 'rock'
+#rock = df[df['genre'] == 'rock']
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+#rock_time = rock['total play']
+#rock_haters=rock_time.loc[rock_time <= 5].count()
+#print('Количество пропущенных треков жанра рок равно',rock_haters)
+df['genre'] == 'pop'
+pop = df[df['genre'] == 'pop']
+
+TASK_5_7
+Теперь по аналогии с роком создайте Series, где хранятся только данные о времени воспроизведения композиций в жанре поп. Назовите его pop_time и сохраните в нём данные столбца 'total play' из таблицы pop .
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+#df['genre'] == 'rock'
+#rock = df[df['genre'] == 'rock']
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+#rock_time = rock['total play']
+#rock_haters=rock_time.loc[rock_time <= 5].count()
+#print('Количество пропущенных треков жанра рок равно',rock_haters)
+df['genre'] == 'pop'
+pop = df[df['genre'] == 'pop']
+pop_time = pop['total play']
+
+TASK_6_7
+Снова по аналогии с роком обратитесь к Series, на сей раз pop_time, чтобы посчитать количество пропущенных в течение 5 секунд треков жанра поп. Используйте условие pop_time <= 5. Результат сохраните в переменной pop_haters и напечатайте на экране в таком виде:
+Количество пропущенных треков жанра поп равно ...
+Вывод данных о роке закомментируйте.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+#df['genre'] == 'rock'
+#rock = df[df['genre'] == 'rock']
+# Выделим время прослушивания роковых композиций в особую структуру данных
+# Сохраним столбец 'total play' таблицы rock в переменной rock_time.
+#rock_time = rock['total play']
+#rock_haters=rock_time.loc[rock_time <= 5].count()
+#print('Количество пропущенных треков жанра рок равно',rock_haters)
+df['genre'] == 'pop'
+pop = df.loc[df['genre'] == 'pop']
+pop_time = pop['total play']
+pop_haters=pop_time.loc[pop_time <= 5].count()
+print('Количество пропущенных треков жанра поп равно',pop_haters)
+
+TASK_7_7
+Для обоих жанров посчитайте долю быстро пропущенных пользователями композиций в процентах. Разделите количество треков, которые пользователи пропустили — соответственно rock_haters и pop_haters — на общее количество треков жанра рок и жанра поп.
+Общее количество треков жанра равно количеству наблюдений в таблицах rock и pop, т.е. значению атрибута shape[0] этих таблиц.
+Результаты сохраните в переменных rock_skip и pop_skip. Выведите значения новых переменных в процентах с точностью до одного знака после запятой в такой форме:
+Доля пропущенных композиций жанра рок равна: ...
+Доля пропущенных композиций жанра поп равна: ...
+Вывод результата предыдущей задачи закомментируйте.
+
+SOLUTION
diff --git a/4. Получение данных b/4. Получение данных
@@ -25,7 +25,17 @@ TASK_1_2
 Прочитайте файл music_log.csv и сохраните его в переменной df. Сохраните первые 5 строк с данными из music_log.csv в переменной music_head и выведите значение переменной на экран.
 
 SOLUTION
+# <импортируйте библиотеку pandas>
+import pandas as pd
+df=pd.read_csv('music_log.csv')
+music_head = df[:5]
+print(music_head.head())
 
 TASK_2_2
+Прочитайте файл music_log.csv и сохраните его в переменной df. Сохраните последние 10 строк с данными из music_log.csv в переменной music_tail и выведите значение переменной на экран.
 
-SOLUTION
+SOLUTION
+import pandas as pd
+df=pd.read_csv('music_log.csv')
+music_tail = df[-10:]
+print(music_tail.tail(10))
diff --git a/5. Объект DataFrame b/5. Объект DataFrame
@@ -0,0 +1,110 @@
+Таблица, которую мы получили, хранится в структуре данных DataFrame. Давайте подробно разберём, из чего состоит этот объект и какие операции с ним можно выполнять.
+image
+DataFrame — это двумерная структура данных Pandas, где у каждого элемента есть две координаты: по строке и по столбцу.
+image
+Вы видите две оси, которые формируют объект DataFrame. Первая ось называется индексы, вторая ось — столбцы. По умолчанию индексация в DataFrame начинается с нуля.
+Каждая строка — это одно наблюдение, запись об объекте исследования. А столбцы — признаки объектов. В нашем случае одна строка — это одно действие одного пользователя. Прослушивание такой-то композиции в исполнении такой-то группы в течение такого-то времени.
+Для лучшего понимания данных полезно получить доступ к их описанию. Это либо документация со сведениями о содержании каждого столбца, либо – не самый лучший вариант – рассказ человека, который предоставил вам эту информацию. Сейчас документация выглядит так:
+user_id — содержит информацию об уникальном идентификаторе пользователя;
+total play — сколько секунд пользователь слушал трек;
+Artist — имя исполнителя;
+genre — жанр (рок, поп, электронная музыка, классическая и др.);
+track — название трека.
+Такое описание поможет нам ставить себе корректные задачи.
+У DataFrame есть неотъемлемые свойства, значения которых можно запросить. Они называются атрибуты. Например, атрибут columns содержит информацию о названиях столбцов в наборе данных.
+print(df.columns)
+image
+В данном случае атрибут columns вернул список названий столбцов и сообщил, что каждое из них имеет тип данных object.
+Вообще типы данных могут быть разные. Для просмотра типа данных каждого столбца лучше всего использовать атрибут dtypes.
+print(df.dtypes)
+image
+Типы данных, о которых сообщают нам атрибуты — это типы данных библиотеки Pandas. Каждому из них соответствует определённый тип данных языка Python.
+Так, для int таким «двойником» в Pandas будет int64. Тип данных object используется, когда данные не подходят ни под одну категорию или соответствуют в Python типу «строка». Вот таблица соответствия типов данных Pandas и Python:
+PANDAS DTYPE	PYTHON TYPE	ЗНАЧЕНИЕ
+object	str	Строка
+int64	int	Целые числа
+float64	float	Вещественные числа
+bool	bool	Логический тип данных
+О размерах таблицы с данными сообщает её атрибут shape. В результате получается кортеж (неизменяемый список) из двух чисел: первое – количество строк, второе – количество столбцов.
+print(df.shape)
+image
+В таблице 67963 строк (наблюдений) и 5 столбцов.
+Кортеж – одномерная неизменяемая последовательность. Это структура данных, похожая на список, её тоже можно сохранять в переменной. Например, кортеж artist содержит имена исполнителей:
+artist = ('Queen', 'Led Zeppelin', 'Scorpions')
+Но если мы попытаемся изменить элемент кортежа, то Python вернёт ошибку:
+artist[0] = 'Spice Girls'
+---------------------------------------------------------------------------
+TypeError                                 Traceback (most recent call last)
+<ipython-input-25-4409a5f0dbe8> in <module>()
+----> 1 artist[0] = 'Spice Girls'
+
+TypeError: 'tuple' object does not support item assignment
+Можно получить информацию как обо всём кортеже, так и об отдельных его элементах:
+print(artist)
+('Queen', 'Led Zeppelin', 'Scorpions')
+print(artist[0])
+'Queen'
+Кортеж нужен для хранения и чтения данных, которые лучше не изменять. Он похож на текстовый документ, защищённый от редактирования.
+Всю информацию, которую предоставляют разные атрибуты DataFrame, можно получить вызовом одного-единственного метода info(). Изучив результаты, которые этот метод возвращает, аналитик выбирает тактику дальнейшей работы с таблицей.
+df.info()
+<class 'pandas.core.frame.DataFrame'>
+RangeIndex: 67963 entries, 0 to 67962
+Data columns (total 5 columns):
+  user_id     67963 non-null object
+total play    67963 non-null float64
+Artist        60157 non-null object
+genre         65223 non-null object
+track         65368 non-null object
+dtypes: float64(1), object(4)
+memory usage: 2.6+ MB
+image
+Например, здесь в разных столбцах разное количество элементов с определёнными значениями (non-null). Следовательно, в таблице есть пропущенные значения (null). Прежде чем анализировать такие данные, их нужно обработать. Это одна из самых интересных задач аналитика, и мы поговорим о ней подробнее в следующей теме.
+
+TASK_1_4
+Прочитайте файл music_log.csv и сохраните его в переменной df. Создайте переменную shape_table и сохраните в ней размеры таблицы music_log.csv. Напечатайте на экране размер таблицы в таком виде:
+Размер таблицы: ...
+
+SOLUTION
+import pandas as pd
+df=pd.read_csv('music_log.csv')
+shape_table=df.shape
+print('Размер таблицы:', shape_table)
+
+TASK_2_4
+Сколько наблюдений в наборе данных? В переменной shape_table хранится кортеж. Его первый элемент — количество наблюдений, который надо сохранить в переменной observations_table (не забывайте, что индексация элементов идёт с 0). Напечатайте на экране ответ в таком виде:
+Количество наблюдений: ...
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv') 
+shape_table = df.shape
+observations_table = shape_table [0]
+print('Количество наблюдений:', observations_table)
+
+TASK_3_4
+Найдите в информации, которую вернул метод info(), число наблюдений. Вручную присвойте это число как значение переменной observations_info_table.
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+df.info()
+observations_info_table = 67963 
+
+TASK_4_4
+Вы ещё не запутались? Давайте осмотримся и заодно вспомним условные конструкции.
+Поскольку в ходе работы аналитик объявляет разные переменные и сохраняет в них добытую разными способами информацию, запутаться очень легко. Именно поэтому необходимо проверять себя и текущие результаты. Сравните полученные результаты в переменных observations_info_table и observations_table. Если значения переменных совпадают, то выведите количество наблюдений и сообщение:
+"Решение верно, количество наблюдений равно", observations_table
+Если значения переменных не совпадают, то выведите сообщение:
+"Решение неверно, проверьте ещё раз!"
+
+SOLUTION
+import pandas as pd
+df = pd.read_csv('music_log.csv')
+
+observations_info_table = df.shape[0]
+observations_table = 67963
+
+if observations_info_table ==  observations_table:
+    print("Решение верно, количество наблюдений равно", observations_table)
+else:
+    print("Решение неверно, проверьте ещё раз!", observations_table)
diff --git a/2. Задача: новые возможности в сервисе Яндекс.Музыка b/2. Задача: новые возможности в сервисе Яндекс.Музыка
@@ -0,0 +1,7 @@
+Мы готовим к запуску новый релиз, где соединим вместе приложения Музыка и Радио. Нам важно понимать, как пользователи отреагируют на такое новшество. Для этого мы оцениваем на небольшом количестве пользователей, насколько им понравилась возможность быстрого доступа к Радио.
+Каждая компания по-разному оценивает реакцию пользователя на нововведения. Продуктовые исследования в нашем сервисе показали, что среднее время прослушивания лучше всего отражает лояльность пользователей.
+Метрика удовлетворенности пользователя сервисом называется happiness. В Яндекс.Музыке метрика happiness равна среднему времени прослушивания треков. Чем выше этот показатель, тем больше доволен пользователь.
+image
+Есть и другие метрики, которые помогают ответить на вопрос: «Как дела у нашего продукта?»
+Если метрика happiness в эксперименте повысится, команда примет решение добавить Радио всем пользователям.
+Ваша задача как аналитика Яндекс.Музыки определить текущее значение метрики happiness. Вы пройдёте все стадии – от знакомства с данными до решения бизнес-задачи.
diff --git a/3. Библиотека Pandas b/3. Библиотека Pandas
@@ -0,0 +1,98 @@
+Вот так выглядят наши данные на этапе знакомства:
+image
+Этот хаос нужно превратить в аккуратную табличку, поддающуюся обработке. Для такой задачи подойдёт и Excel, но лучше использовать профильный инструмент — программную библиотеку Pandas.
+Библиотеки – это наборы готовых методов для решения распространённых задач. Из того, что есть в Python, для операций с таблицами чаще всего применяют Pandas. Название — от сокращения panel data (англ. «панельные данные») — пришло из терминологии применяемого в экономике панельного анализа, который изучает изменение определённого признака у определённого объекта во времени (например, уровень бедности в Бразилии во второй половине 20 века). Библиотека Pandas оказалась таким универсальным инструментом, что годится для исследования любых данных, которые вообще можно собрать в таблицу.
+Почему библиотека Pandas такая крутая и популярная? У неё богатейшие возможности:
+Готовые методы для всяческих манипуляций с таблицами: добавления, удаления, преобразования, агрегирования данных;
+Одновременная обработка данных из разных файлов;
+Готовые методы для операций с пропущенными значениями, выявления и устранения проблемных данных;
+Использование данных в самых разных форматах.
+Кроме того, вы всегда можете обратиться к хорошо подготовленной документации и активному комьюнити.
+Инструменты библиотеки становятся доступны, когда мы вызываем её командой import.
+import pandas
+Библиотека хранится в переменной, через которую можно вызвать её методы. В сообществе принято давать ей короткое имя pd.
+import pandas as pd
+Эта команда означает «импортируй библиотеку Pandas как pd».
+У нас есть набор данных, который нужно превратить в таблицу. Это делается вызовом конструктора DataFrame().
+Конструктор принимает два аргумента – список данных и названия столбцов, которые должны быть в таблице. Например, если информация о столицах разных стран хранится в переменной atlas:
+atlas = [  
+    ['Франция','Париж'],  
+    ['Россия','Москва'],  
+    ['Китай','Пекин'],  
+    ['Мексика','Мехико'],  
+    ['Египет','Каир']  
+]
+и нужно построить таблицу из двух столбцов country и capital,
+geography = ['country', 'capital']
+синтаксис вызова конструктора DataFrame() выглядит так:
+world_map = pd.DataFrame(data = atlas , columns = geography)
+image
+Обратите внимание, что DataFrame() – это конструктор библиотеки Pandas, поэтому перед именем конструктора стоит обращение к переменной, в которой библиотека хранится – pd.DataFrame().
+
+atlas = [
+    ['Франция','Париж'],
+    ['Россия','Москва'],
+    ['Китай','Пекин'],
+    ['Мексика','Мехико'],
+    ['Египет','Каир'],
+]
+geography = ['country', 'capital']
+world_map = pd.DataFrame(data = atlas , columns = geography) # таблица сохраняется в переменной с произвольно выбранным именем world_map
+print(world_map) # вывод на экран
+COUNTRY	CAPITAL
+0	Франция	Париж
+1	Россия	Москва
+2	Китай	Пекин
+3	Мексика	Мехико
+4	Египет	Каир
+В результате простой список пар страна-столица превратился в таблицу с индексами и именованными столбцами. Давайте создадим таблицу с данными о ваших музыкальных предпочтениях.
+
+TASK_1_4
+Получите доступ к библиотеке Pandas, используйте имя переменной pd.
+SOLUTION
+import pandas as pd
+TASK_2_4
+Создайте список music с 5 парами «имя вашего любимого исполнителя - название его песни». Пример такого списка - atlas из теоретического введения к этому уроку.
+import pandas as pd
+
+SOLUTION
+import pandas as pd
+
+music=[['Меладзе','Она была'],
+      ['Билан','Тоска'],
+      ['Пресняков','Стюардесса'],
+      ['Тальков','Чистые пруды'],
+      ['Розенбаум','Брат мой'],
+      ]
+
+TASK_3_4
+Создайте список entries с названиями для двух столбцов — artist и track (здесь эти английские слова употребляются в значении «исполнитель» и «композиция»).
+
+SOLUTION
+import pandas as pd
+
+music=[['Меладзе','Она была'],
+      ['Билан','Тоска'],
+      ['Пресняков','Стюардесса'],
+      ['Тальков','Чистые пруды'],
+      ['Розенбаум','Брат мой'],
+      ]
+
+entries=['artist','track']
+
+TASK_4_4
+Используя конструктор DataFrame(), создайте таблицу из списка ваших любимых исполнителей music и списка столбцов entries. Сохраните таблицу в переменной playlist и выведите эту сборную таблицу на экран.
+
+SOLUTION
+import pandas as pd
+
+music=[['Меладзе','Она была'],
+      ['Билан','Тоска'],
+      ['Пресняков','Стюардесса'],
+      ['Тальков','Чистые пруды'],
+      ['Розенбаум','Брат мой'],
+      ]
+
+entries=['artist','track']
+playlist=pd.DataFrame(data=music, columns=entries)
+print (playlist)
diff --git a/4. Получение данных b/4. Получение данных
@@ -0,0 +1,31 @@
+У вас есть набор данных. Чтобы начать работу с ним, данные нужно прочитать. Давайте разберёмся, как это сделать.
+Знакомому формату электронной таблицы Excel в Pandas соответствует структура данных DataFrame. Аналитики обычно называют такие объекты просто DataFrame.
+В рабочей практике вы столкнётесь с тем, что данные хранят в файлах разных форматов. Из них самый распространённый – CSV (от англ. Comma-Separated Values, «значения, разделённые запятой»). Каждая строка такого файла представляет собой одну строку таблицы, где данные разделены запятыми. В первой строке собраны заголовки столбцов (если они есть).
+Посмотрите, как одинаковые данные выглядят в Excel (снизу) и CSV (сверху):
+image
+Файлы CSV удобнее всего открывать вызовом метода read_csv() из библиотеки Pandas.
+import pandas as pd
+df = pd.read_csv('music_log.csv') # аргумент - путь к файлу
+Обратите внимание, что содержимое файла CSV сохраняется в переменной df. Это имя, которое будет встречаться постоянно — общепринятое сокращение от DataFrame.
+Теперь все данные из файла можно напечатать на экране командой print(df), но это не всегда нужно делать — не исключено, что таблица огромна и неудобна для изучения. Для знакомства с данными запрашивают несколько строк из начала или конца таблицы, вызывая специальные методы head() и tail(). По умолчанию head() возвращает первые 5 строк набора данных, а метод tail() – последние 5 строк. Когда нужно не 5, количество строк передаётся этим методам как аргумент. Например, head(10) вернёт первые 10 строк. Давайте возьмёмся за поставленную менеджером задачу и откроем файл с данными сервиса Яндекс.Музыка. Получим первый десяток строк этой обширной таблицы:
+print(df.head(10))
+USER_ID	TOTAL PLAY	ARTIST	GENRE	TRACK
+0	BF6EA5AF	92.851388	Marina Rei	pop	Musica
+1	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
+2	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
+3	EF15C7BA	8.966000	NaN	dance	Loving Every Minute
+4	82F52E69	193.776327	Rixton	pop	Me And My Broken Heart
+5	4166D680	3.007000	Henry Hall & His Gleneagles Hotel Band	jazz	Home
+6	F4F5677	0.100000	NaN	classicmetal	NaN
+7	386FE1ED	211.880000	NaN	electronic	Riviera
+8	A5E0D927	3.161000	Andrew Paul Woodworth	pop	The Name of This Next Song Is Called
+9	E9E8A0CA	274.390000	Pillar Point	indie	Dove
+
+TASK_1_2
+Прочитайте файл music_log.csv и сохраните его в переменной df. Сохраните первые 5 строк с данными из music_log.csv в переменной music_head и выведите значение переменной на экран.
+
+SOLUTION
+
+TASK_2_2
+
+SOLUTION
diff --git a/1. Анализ данных продолжается здесь b/1. Анализ данных продолжается здесь
@@ -0,0 +1,12 @@
+Данные исследуют в четыре стадии:
+Получение данных и ознакомление с ними
+Предподготовка данных
+Анализ данных
+Оформление результатов исследования
+В этой теме мы начнём с первой стадии. В получении данных и ознакомлении с ними важную роль выполняет библиотека Pandas.
+Чему вы научитесь
+Познакомитесь с библиотекой Pandas и её базовыми методами: чтением файла, выводом данных на экран, получением сводной информации и запросом значений из определённых ячеек таблицы.
+Сколько времени это займёт
+2 часа = 6 уроков от 2 до 30 минут.
+Постановка задачи
+Решим задачу из реальной практики сервиса Яндекс.Музыка: исследовать предпочтения пользователей и ответить на вопрос, целесообразна ли интеграция двух сервисов — Музыки и Радио.
diff --git a/gfdgfd b/gfdgfd
@@ -1 +0,0 @@
-gfdgfd

diff --git a/gfdgfd b/gfdgfd
@@ -0,0 +1 @@
+gfdgfd
No results found