Я хотел бы, чтобы pandas read_csv правильно прочитал следующий текст примера в DataFrame:
"INDEX"|"COLUMN_STRING"|"COLUMN_INTEGER"|"COLUMN_EMPTY"|"COLUMN_EMPTY_STRING"
1|"string"|21||""
В файле, который мне нужно проанализировать, есть все значения, которые должны быть строками, заключенными в ""
. Значения, которые должны быть NaN
, не содержат двойных кавычек, например: ||
Я хотел бы, чтобы read_csv сохранял все значения «в кавычках» в виде строк, а также ""
, но это заставляет NaN
использовать значение по умолчанию для ""
.
Если я использую keep_default_na=False
, он устанавливает пустые строки ''
как в ||
, так и в |""|
.
Кроме того, использование dtype={"COLUMN_EMPTY_STRING": str}
не помогает.
Кто-нибудь знает решение этого рассола?
Другое возможное решение — использовать quoting=3
. Это сохранит строки как "string"
, что можно решить после синтаксического анализа. Однако я не могу его использовать, так как я предоставляю аргумент index_col
, который вызывает ошибку, поскольку он не может найти, например. INDEX
, потому что он читает "INDEX"
из файла.