Вот так выглядят наши данные на этапе знакомства: image Этот хаос нужно превратить в аккуратную табличку, поддающуюся обработке. Для такой задачи подойдёт и Excel, но лучше использовать профильный инструмент — программную библиотеку Pandas. Библиотеки – это наборы готовых методов для решения распространённых задач. Из того, что есть в Python, для операций с таблицами чаще всего применяют Pandas. Название — от сокращения panel data (англ. «панельные данные») — пришло из терминологии применяемого в экономике панельного анализа, который изучает изменение определённого признака у определённого объекта во времени (например, уровень бедности в Бразилии во второй половине 20 века). Библиотека Pandas оказалась таким универсальным инструментом, что годится для исследования любых данных, которые вообще можно собрать в таблицу. Почему библиотека Pandas такая крутая и популярная? У неё богатейшие возможности: Готовые методы для всяческих манипуляций с таблицами: добавления, удаления, преобразования, агрегирования данных; Одновременная обработка данных из разных файлов; Готовые методы для операций с пропущенными значениями, выявления и устранения проблемных данных; Использование данных в самых разных форматах. Кроме того, вы всегда можете обратиться к хорошо подготовленной документации и активному комьюнити. Инструменты библиотеки становятся доступны, когда мы вызываем её командой import. import pandas Библиотека хранится в переменной, через которую можно вызвать её методы. В сообществе принято давать ей короткое имя pd. import pandas as pd Эта команда означает «импортируй библиотеку Pandas как pd». У нас есть набор данных, который нужно превратить в таблицу. Это делается вызовом конструктора DataFrame(). Конструктор принимает два аргумента – список данных и названия столбцов, которые должны быть в таблице. Например, если информация о столицах разных стран хранится в переменной atlas: atlas = [ ['Франция','Париж'], ['Россия','Москва'], ['Китай','Пекин'], ['Мексика','Мехико'], ['Египет','Каир'] ] и нужно построить таблицу из двух столбцов country и capital, geography = ['country', 'capital'] синтаксис вызова конструктора DataFrame() выглядит так: world_map = pd.DataFrame(data = atlas , columns = geography) image Обратите внимание, что DataFrame() – это конструктор библиотеки Pandas, поэтому перед именем конструктора стоит обращение к переменной, в которой библиотека хранится – pd.DataFrame(). atlas = [ ['Франция','Париж'], ['Россия','Москва'], ['Китай','Пекин'], ['Мексика','Мехико'], ['Египет','Каир'], ] geography = ['country', 'capital'] world_map = pd.DataFrame(data = atlas , columns = geography) # таблица сохраняется в переменной с произвольно выбранным именем world_map print(world_map) # вывод на экран COUNTRY CAPITAL 0 Франция Париж 1 Россия Москва 2 Китай Пекин 3 Мексика Мехико 4 Египет Каир В результате простой список пар страна-столица превратился в таблицу с индексами и именованными столбцами. Давайте создадим таблицу с данными о ваших музыкальных предпочтениях. TASK_1_4 Получите доступ к библиотеке Pandas, используйте имя переменной pd. SOLUTION import pandas as pd TASK_2_4 Создайте список music с 5 парами «имя вашего любимого исполнителя - название его песни». Пример такого списка - atlas из теоретического введения к этому уроку. import pandas as pd SOLUTION import pandas as pd music=[['Меладзе','Она была'], ['Билан','Тоска'], ['Пресняков','Стюардесса'], ['Тальков','Чистые пруды'], ['Розенбаум','Брат мой'], ] TASK_3_4 Создайте список entries с названиями для двух столбцов — artist и track (здесь эти английские слова употребляются в значении «исполнитель» и «композиция»). SOLUTION import pandas as pd music=[['Меладзе','Она была'], ['Билан','Тоска'], ['Пресняков','Стюардесса'], ['Тальков','Чистые пруды'], ['Розенбаум','Брат мой'], ] entries=['artist','track'] TASK_4_4 Используя конструктор DataFrame(), создайте таблицу из списка ваших любимых исполнителей music и списка столбцов entries. Сохраните таблицу в переменной playlist и выведите эту сборную таблицу на экран. SOLUTION import pandas as pd music=[['Меладзе','Она была'], ['Билан','Тоска'], ['Пресняков','Стюардесса'], ['Тальков','Чистые пруды'], ['Розенбаум','Брат мой'], ] entries=['artist','track'] playlist=pd.DataFrame(data=music, columns=entries) print (playlist)