Статьи по теме apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Clojure — не найден метод сопоставления для метода выбора в DataFrame при использовании Flambo

Я использую Flambo для работы со Spark. Я хочу получить DataFrame , который содержит заданные имена столбцов. Я написал простую функцию следующим образом: (defn make-dataset ([data-path column-names and-another] (let [data (sql/read-csv...

645 просмотров

17.03.2024

Spark объединяет/объединяет массивы в groupBy/aggregate

Следующий код Spark правильно демонстрирует то, что я хочу сделать, и генерирует правильный вывод с крошечным набором демонстрационных данных. Когда я запускаю тот же общий тип кода на большом объеме производственных данных, у меня возникают...

17825 просмотров

apache-spark apache-spark-sql scala

28.03.2024

Разделить строку (или список строк) на отдельные столбцы в искровом кадре данных

Учитывая фрейм данных «df» и список столбцов «colStr», есть ли способ в Spark Dataframe извлечь или сослаться на эти столбцы из фрейма данных. Вот пример - val in = sc.parallelize(List(0, 1, 2, 3, 4, 5)) val df = in.map(x => (x, x+1,...

1234 просмотров

apache-spark pyspark apache-spark-sql scala spark-dataframe

24.04.2024

Как исправить токен делегирования, который может быть выдан только с помощью Kerberos или веб-аутентификации при выполнении запроса через Hive с использованием Oozie?

Когда я пытаюсь написать кадр данных, полученный путем запроса улья с использованием контекста улья в oozie, я получаю следующее исключение. Что может быть проблемой Caused by: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:...

6701 просмотров

apache-spark apache-spark-sql hive kerberos oozie

16.05.2024

Дублирование кадра данных в разделе

У меня есть 1 миллиард строк данных. схема -------------------------- action_id , hash , user_no -------------------------- click , go4grf , 1 click , ferfg43 , 2 view , erioer , 3 view , erioer , 3 view , oijnvio , 4 ... many many rows......

1069 просмотров

apache-spark apache-spark-sql

07.03.2024

Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter

Сегодня данные имеют большое количество функций. Чтобы получить краткую сводку данных, люди загружают данные во фреймы данных и используют метод head() для их отображения. Довольно распространено проводить эксперименты с использованием Jupyter...

840 просмотров

jupyter-notebook pandas apache-spark apache-spark-sql scala

07.03.2024

Пользовательский столбец сортировки Spark в Java

У меня есть приведенный ниже результат набора данных. 1. +------+---------+--------+ | Col1 | Col2 | NumCol | +------+---------+--------+ | abc | jun2016 | 25 | | aac | jun2017 | 28 | | aac | dec2017 | 30 | | aac | apr2018 |...

460 просмотров

java apache-spark apache-spark-sql apache-spark-dataset

02.05.2024

Поведение перераспределения Pyspark

Я пытаюсь понять поведение repartition() в контексте SQL. У меня есть фрейм данных, в котором 178 строк. Один столбец представляет собой уникальный идентификатор, связанный с данными. В моем кадре данных я знаю, что у меня есть 2 строки для...

634 просмотров

apache-spark pyspark apache-spark-sql

09.03.2024

Как получить пары по столбцу в искровом фрейме данных, например python pandas?

Привет ~ Я новичок в искре. Я хочу получить пары со столбцом в фрейме данных, каждый элемент в столбце ("all_mv_id") заставляет другие составлять пары, например: До: +---------+ |all_mv_id| +---------+ | 131| | 121| | 2223| |...

97 просмотров

apache-spark apache-spark-sql scala

28.03.2024

Добавить дополнительные столбцы в фрейм данных Spark

Я анализирую фрейм данных Spark, используя пути к файлам, но теперь я хотел бы добавить пути к результирующему фрейму данных вместе со временем в виде отдельного столбца. Вот текущее решение (pathToDF — вспомогательный метод): val paths =...

57 просмотров

apache-spark apache-spark-sql scala

24.04.2024

Как использовать окно SQL для суммирования строк с условием

Предположим, это моя таблица: id start_date event_date sales ------------------------------------ 1 2020-09-09 2020-08-30 27.9 1 2020-09-09 2020-09-01 15 1 2020-09-09 2020-09-05 25 1 2020-09-09 2020-09-06...

31 просмотров

sql apache-spark-sql

09.04.2024