Opções de formato de dados

Databricks integrou ligações de palavras-chave para todos os formatos de dados suportados nativamente pelo site Apache Spark. Databricks usa Delta Lake como o protocolo default para leitura e gravação de dados e tabelas, enquanto Apache Spark usa Parquet.

Esses artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando o senhor consulta dados no Databricks.

Os seguintes formatos de dados têm configurações de palavras-chave integradas em Apache Spark DataFrames e SQL:

O Databricks também fornece uma palavra-chave personalizada para carregar experimentos do MLflow.

Formatos de dados com considerações especiais

Alguns formatos de dados exigem configuração adicional ou considerações especiais para uso:

A Databricks recomenda o carregamento de imagens como dados binary.
A maioria dos formatos oferece suporte à compactação de gravação por meio da opção compression. Consulte a seção de compressão na documentação de cada formato para obter detalhes de configuração. Databricks também pode ler diretamente arquivos pré-compactados em muitos formatos, e você pode descompactar arquivos no Databricks se necessário.
- Baseado em texto (CSV, JSON, XML, texto): none (default), bzip2, gzip, lz4, snappy, deflate, e zstd
- Parquet : snappy (default), gzip, lzo, brotli, lz4 e zstd
- ORC : snappy, zlib e lzo
- Avro : snappy (default), deflate, bzip2, xz e zstandard

Para obter mais informações sobre Apache Spark fonte de dados, consulte Generic Load/Save Functions e Generic File Source Options.

Formatos de dados com considerações especiais​

Formatos de dados com considerações especiais