ParquetMetadata
Описание
Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Он всегда выводит одну строку со следующей структурой/содержанием:
num_columns- количество колонок- ``num_rows` - общее количество строк
num_row_groups- общее количество групп строкformat_version- версия формата parquet, всегда 1.0 или 2.6total_uncompressed_size- общий размер не сжатых байтов данных, рассчитанный как сумма total_byte_size всех групп строкtotal_compressed_size- общий размер сжатых байтов данных, рассчитанный как сумма total_compressed_size всех групп строкcolumns- список метаданных колонок со следующей структурой:name- имя колонкиpath- путь к колонке (отличается от имени для вложенной колонки)max_definition_level- максимальный уровень определенияmax_repetition_level- максимальный уровень повторенияphysical_type- физический тип колонкиlogical_type- логический тип колонкиcompression- сжатие, используемое для этой колонкиtotal_uncompressed_size- общий размер не сжатых байтов колонки, рассчитанный как сумма total_uncompressed_size колонки из всех групп строкtotal_compressed_size- общий размер сжатых байтов колонки, рассчитанный как сумма total_compressed_size колонки из всех групп строкspace_saved- процент экономии места за счет сжатия, рассчитанный как (1 - total_compressed_size/total_uncompressed_size).encodings- список кодировок, используемых для этой колонки
row_groups- список метаданных групп строк со следующей структурой:num_columns- количество колонок в группе строкnum_rows- количество строк в группе строкtotal_uncompressed_size- общий размер не сжатых байтов группы строкtotal_compressed_size- общий размер сжатых байтов группы строкcolumns- список метаданных чанков колонок со следующей структурой:name- имя колонкиpath- путь к колонкеtotal_compressed_size- общий размер сжатых байтов колонкиtotal_uncompressed_size- общий размер не сжатых байтов группы строкhave_statistics- булевый флаг, указывающий, содержатся ли в метаданных чанка колонки статистические данныеstatistics- статистика чанка колонки (все поля равны NULL, если have_statistics = false) со следующей структурой:num_values- количество ненулевых значений в чанке колонкиnull_count- количество значений NULL в чанке колонкиdistinct_count- количество уникальных значений в чанке колонкиmin- минимальное значение чанка колонкиmax- максимальное значение чанка колонки
Пример использования
Пример: