データ形式のオプション

Databricks には、Apache Spark でネイティブにサポートされているすべてのデータ形式に対する組み込みのキーワードバインドがあります。 Databricks は、データとテーブルの読み取りと書き込みのデフォルトプロトコルとして Delta Lake を使用しますが、 Apache Spark は Parquetを使用します。

これらの記事では、Databricks でデータをクエリするときに使用できる多くのオプションと構成の概要について説明します。

次のデータ形式には、Apache Spark データフレームと SQL に組み込みのキーワード構成があります。

Databricks には、エクスペリメントMLflowロードするためのカスタムキーワードも用意されています。

特別な考慮事項のあるデータ形式

一部のデータ形式では、使用するために追加の構成または特別な考慮事項が必要です。

Databricks では、イメージを binary データとして読み込むことをお勧めします。
ほとんどの形式は、compressionオプションを使用して書き込み圧縮をサポートしています。設定の詳細については、各フォーマットのドキュメントの圧縮セクションを参照してください。Databricks はさまざまな形式で事前に圧縮されたファイルを直接読み込むこともできます。また、必要に応じて Databricks で圧縮ファイルを解凍することができます。
- テキストベース （CSV、JSON、XML、text）：none（デフォルト）、bzip2、gzip、lz4、snappy、deflate、および zstd
- Parquet ：snappy (デフォルト)、gzip、lzo、brotli、lz4、および zstd
- ORC : snappy、zlib と lzo
- Avro : snappy（デフォルト）、deflate、bzip2、xz、および zstandard

Apache Spark データソースの詳細については、「汎用の読み込み/保存関数」および「汎用ファイルソースオプション」を参照してください。

特別な考慮事項のあるデータ形式​

特別な考慮事項のあるデータ形式