Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter

Сегодня данные имеют большое количество функций. Чтобы получить краткую сводку данных, люди загружают данные во фреймы данных и используют метод head() для их отображения. Довольно распространено проводить эксперименты с использованием Jupyter Notebooks (с Toree для scala).

Spark (scala) хорош для обработки больших объемов данных, но его метод head() не показывает заголовки столбцов в записной книжке с горизонтальной прокруткой.

Заголовок фрейма данных Pandas  Заголовок фрейма данных Pandas Заголовок фрейма данных Spark Scala Заголовок фрейма данных Spark Scala

Я знаю, что вы можете получить заголовок столбца в scala dataframe, используя .columns, но при его печати заголовок не отображается вместе со столбцами данных, что затрудняет понимание.


person Mrityunjay    schedule 13.06.2018    source источник


Ответы (1)


Вместо df.head(20) попробуйте df.show(n=20, truncate=False). Вот подробный документация.

person Kaushal    schedule 13.06.2018
comment
Для python я могу использовать как pyspark, так и pandas вместе, поэтому такой проблемы не возникнет. Вопрос касается искры в scala (ваш документ: pyspark, правильный документ: spark.apache.org/docs/latest/api/scala/). Вывод df.show () не читается для большого количества столбцов. - person Mrityunjay; 13.06.2018
comment
Я уже пробовал, выдает мусор. Попробуйте себя с фреймом данных со 100 столбцами. На самом деле версия Scala имеет еще один аргумент по вертикали, но она отображает строку за строкой по вертикали. Но я ищу красивое табличное отображение с горизонтальной прокруткой, как-df.head (10), но с прокручиваемым заголовком столбца. - person Mrityunjay; 13.06.2018
comment
Pandas плотно встроен в jupyter, поэтому он делает все хорошо. Но вот трюк: преобразовать фрейм данных Spark в фреймворк pandas. У меня нет jupyter, чтобы попробовать сейчас, надеюсь, это решит вашу проблему df.limit(20).toPandas().head() - person Kaushal; 13.06.2018
comment
Вы не понимаете проблемы. Речь идет о Scala Spark, а не о pyspark. toPandas не работает для scala. - person Mrityunjay; 13.06.2018