データ形式のオプション
Databricks には、Apache Spark でネイティブにサポートされているすべてのデータ形式に対する組み込みのキーワード バインドがあります。 Databricks は、データとテーブルの読み取りと書き込みのデフォルト プロトコルとして Delta Lake を使用しますが、 Apache Spark は Parquetを使用します。
これらの記事では、Databricks でデータをクエリするときに使用できる多くのオプションと構成の概要について説明します。
次のデータ形式には、Apache Spark データフレーム と SQL に組み込みのキーワード構成があります。
Databricks には、エクスペリメントMLflowロードするためのカスタム キーワードも用意されています。
特別な考慮事項のあるデータ形式
一部のデータ形式では、使用するために追加の構成または特別な考慮事項が必要です。
- Databricks では、 イメージ を
binaryデータとして読み込むことをお勧めします。 - ほとんどの形式は、
compressionオプションを使用して書き込み圧縮をサポートしています。設定の詳細については、各フォーマットのドキュメントの圧縮セクションを参照してください。Databricks はさまざまな形式で事前に圧縮されたファイルを直接読み込むこともできます。また、必要に応じて Databricks で圧縮ファイルを解凍することができます。- テキストベース (CSV、JSON、XML、text):
none(デフォルト)、bzip2、gzip、lz4、snappy、deflate、およびzstd - Parquet :
snappy(デフォルト)、gzip、lzo、brotli、lz4、およびzstd - ORC :
snappy、zlibとlzo - Avro :
snappy(デフォルト)、deflate、bzip2、xz、およびzstandard
- テキストベース (CSV、JSON、XML、text):
Apache Spark データソースの詳細については、「汎用の読み込み/保存関数 」および「 汎用ファイル ソース オプション」を参照してください。