Вопросы по теме 'apache-spark-sql'
Clojure — не найден метод сопоставления для метода выбора в DataFrame при использовании Flambo
Я использую Flambo для работы со Spark. Я хочу получить DataFrame , который содержит заданные имена столбцов. Я написал простую функцию следующим образом:
(defn make-dataset
([data-path column-names and-another]
(let [data (sql/read-csv...
645 просмотров
schedule
17.03.2024
Spark объединяет/объединяет массивы в groupBy/aggregate
Следующий код Spark правильно демонстрирует то, что я хочу сделать, и генерирует правильный вывод с крошечным набором демонстрационных данных.
Когда я запускаю тот же общий тип кода на большом объеме производственных данных, у меня возникают...
17825 просмотров
schedule
28.03.2024
Разделить строку (или список строк) на отдельные столбцы в искровом кадре данных
Учитывая фрейм данных «df» и список столбцов «colStr», есть ли способ в Spark Dataframe извлечь или сослаться на эти столбцы из фрейма данных.
Вот пример -
val in = sc.parallelize(List(0, 1, 2, 3, 4, 5))
val df = in.map(x => (x, x+1,...
1234 просмотров
schedule
24.04.2024
Как исправить токен делегирования, который может быть выдан только с помощью Kerberos или веб-аутентификации при выполнении запроса через Hive с использованием Oozie?
Когда я пытаюсь написать кадр данных, полученный путем запроса улья с использованием контекста улья в oozie, я получаю следующее исключение. Что может быть проблемой
Caused by: org.apache.spark.sql.catalyst.errors.package$TreeNodeException:...
6701 просмотров
schedule
16.05.2024
Дублирование кадра данных в разделе
У меня есть 1 миллиард строк данных. схема
--------------------------
action_id , hash , user_no
--------------------------
click , go4grf , 1
click , ferfg43 , 2
view , erioer , 3
view , erioer , 3
view , oijnvio , 4
... many many rows......
1069 просмотров
schedule
07.03.2024
Spark vs pandas dataframe (с большими столбцами) head (n) в блокноте jupyter
Сегодня данные имеют большое количество функций. Чтобы получить краткую сводку данных, люди загружают данные во фреймы данных и используют метод head() для их отображения. Довольно распространено проводить эксперименты с использованием Jupyter...
840 просмотров
schedule
07.03.2024
Пользовательский столбец сортировки Spark в Java
У меня есть приведенный ниже результат набора данных.
1.
+------+---------+--------+
| Col1 | Col2 | NumCol |
+------+---------+--------+
| abc | jun2016 | 25 |
| aac | jun2017 | 28 |
| aac | dec2017 | 30 |
| aac | apr2018 |...
460 просмотров
schedule
02.05.2024
Поведение перераспределения Pyspark
Я пытаюсь понять поведение repartition() в контексте SQL. У меня есть фрейм данных, в котором 178 строк. Один столбец представляет собой уникальный идентификатор, связанный с данными. В моем кадре данных я знаю, что у меня есть 2 строки для...
634 просмотров
schedule
09.03.2024
Как получить пары по столбцу в искровом фрейме данных, например python pandas?
Привет ~ Я новичок в искре. Я хочу получить пары со столбцом в фрейме данных, каждый элемент в столбце ("all_mv_id") заставляет другие составлять пары, например:
До:
+---------+
|all_mv_id|
+---------+
| 131|
| 121|
| 2223|
|...
97 просмотров
schedule
28.03.2024
Добавить дополнительные столбцы в фрейм данных Spark
Я анализирую фрейм данных Spark, используя пути к файлам, но теперь я хотел бы добавить пути к результирующему фрейму данных вместе со временем в виде отдельного столбца. Вот текущее решение (pathToDF — вспомогательный метод):
val paths =...
57 просмотров
schedule
24.04.2024
Как использовать окно SQL для суммирования строк с условием
Предположим, это моя таблица:
id start_date event_date sales
------------------------------------
1 2020-09-09 2020-08-30 27.9
1 2020-09-09 2020-09-01 15
1 2020-09-09 2020-09-05 25
1 2020-09-09 2020-09-06...
31 просмотров
schedule
09.04.2024