Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter

Сегодня данные имеют большое количество функций. Чтобы получить краткую сводку данных, люди загружают данные во фреймы данных и используют метод head() для их отображения. Довольно распространено проводить эксперименты с использованием Jupyter Notebooks (с Toree для scala).

Spark (scala) хорош для обработки больших объемов данных, но его метод head() не показывает заголовки столбцов в записной книжке с горизонтальной прокруткой.

Заголовок фрейма данных Pandas Заголовок фрейма данных Spark Scala

Я знаю, что вы можете получить заголовок столбца в scala dataframe, используя .columns, но при его печати заголовок не отображается вместе со столбцами данных, что затрудняет понимание.

Mrityunjay 13.06.2018 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вместо df.head(20) попробуйте df.show(n=20, truncate=False). Вот подробный документация.

Kaushal 13.06.2018

comment

Для python я могу использовать как pyspark, так и pandas вместе, поэтому такой проблемы не возникнет. Вопрос касается искры в scala (ваш документ: pyspark, правильный документ: spark.apache.org/docs/latest/api/scala/). Вывод df.show () не читается для большого количества столбцов. - Mrityunjay; 13.06.2018

comment

Я уже пробовал, выдает мусор. Попробуйте себя с фреймом данных со 100 столбцами. На самом деле версия Scala имеет еще один аргумент по вертикали, но она отображает строку за строкой по вертикали. Но я ищу красивое табличное отображение с горизонтальной прокруткой, как-df.head (10), но с прокручиваемым заголовком столбца. - Mrityunjay; 13.06.2018

comment

Pandas плотно встроен в jupyter, поэтому он делает все хорошо. Но вот трюк: преобразовать фрейм данных Spark в фреймворк pandas. У меня нет jupyter, чтобы попробовать сейчас, надеюсь, это решит вашу проблему df.limit(20).toPandas().head() - Kaushal; 13.06.2018

comment

Вы не понимаете проблемы. Речь идет о Scala Spark, а не о pyspark. toPandas не работает для scala. - Mrityunjay; 13.06.2018

Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter

Ответы (1)

Вопросы по теме