У вас есть набор данных. Чтобы начать работу с ним, данные нужно прочитать. Давайте разберёмся, как это сделать.
Знакомому формату электронной таблицы Excel в Pandas соответствует структура данных DataFrame. Аналитики обычно называют такие объекты просто DataFrame.
В рабочей практике вы столкнётесь с тем, что данные хранят в файлах разных форматов. Из них самый распространённый – CSV (от англ. Comma-Separated Values, «значения, разделённые запятой»). Каждая строка такого файла представляет собой одну строку таблицы, где данные разделены запятыми. В первой строке собраны заголовки столбцов (если они есть).
Посмотрите, как одинаковые данные выглядят в Excel (снизу) и CSV (сверху):
image
Файлы CSV удобнее всего открывать вызовом метода read_csv() из библиотеки Pandas.
import pandas as pd
df = pd.read_csv('music_log.csv') # аргумент - путь к файлу
Обратите внимание, что содержимое файла CSV сохраняется в переменной df. Это имя, которое будет встречаться постоянно — общепринятое сокращение от DataFrame.
Теперь все данные из файла можно напечатать на экране командой print(df), но это не всегда нужно делать — не исключено, что таблица огромна и неудобна для изучения. Для знакомства с данными запрашивают несколько строк из начала или конца таблицы, вызывая специальные методы head() и tail(). По умолчанию head() возвращает первые 5 строк набора данных, а метод tail() – последние 5 строк. Когда нужно не 5, количество строк передаётся этим методам как аргумент. Например, head(10) вернёт первые 10 строк. Давайте возьмёмся за поставленную менеджером задачу и откроем файл с данными сервиса Яндекс.Музыка. Получим первый десяток строк этой обширной таблицы:
print(df.head(10))
USER_ID	TOTAL PLAY	ARTIST	GENRE	TRACK
0	BF6EA5AF	92.851388	Marina Rei	pop	Musica
1	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
2	FB1E568E	282.981000	Stive Morgan	ambient	Love Planet
3	EF15C7BA	8.966000	NaN	dance	Loving Every Minute
4	82F52E69	193.776327	Rixton	pop	Me And My Broken Heart
5	4166D680	3.007000	Henry Hall & His Gleneagles Hotel Band	jazz	Home
6	F4F5677	0.100000	NaN	classicmetal	NaN
7	386FE1ED	211.880000	NaN	electronic	Riviera
8	A5E0D927	3.161000	Andrew Paul Woodworth	pop	The Name of This Next Song Is Called
9	E9E8A0CA	274.390000	Pillar Point	indie	Dove

TASK_1_2
Прочитайте файл music_log.csv и сохраните его в переменной df. Сохраните первые 5 строк с данными из music_log.csv в переменной music_head и выведите значение переменной на экран.

SOLUTION
# <импортируйте библиотеку pandas>
import pandas as pd
df=pd.read_csv('music_log.csv')
music_head = df[:5]
print(music_head.head())

TASK_2_2
Прочитайте файл music_log.csv и сохраните его в переменной df. Сохраните последние 10 строк с данными из music_log.csv в переменной music_tail и выведите значение переменной на экран.

SOLUTION
import pandas as pd
df=pd.read_csv('music_log.csv')
music_tail = df[-10:]
print(music_tail.tail(10))