テキストファイルの読み取りと書き込み

text形式では、テキストファイルの各行を、StringType型の単一のvalueカラムを持つデータフレームの行として読み取ります。Databricksユーザーは、ログ解析、さらなる処理を行う前の生データの取り込み、またはファイルコンテンツへの行ごとのアクセスを必要とするあらゆるワークフローで、Databricksをよく利用します。Databricksは、書き込み圧縮を含む、Apache Sparkによるテキストファイルの読み取りと書き込みをサポートしています。

前提条件

Databricks は、テキストファイルを使用するために、追加の構成を必要としません。しかし、テキストファイルをストリームするには、「Auto Loader」が必要です。

オプション

テキストデータソースを設定するには、 DataFrameReaderとDataFrameWriterの.option()と.options()メソッドを使用します。サポートされているオプションの完全なリストについては、 DataFrameReaderテキストオプションとDataFrameWriterテキストオプションを参照してください。

使い方

次の例では、Wanderbricksデータセットを使用して、Spark DataFrame APIおよびSQLを使ったテキストファイルの読み取りと書き込みを示します。

SQLを使用してテキストファイルを読み取ります

テーブルを登録せずにテキストファイルをクエリするには、read_filesを使用します。Unity Catalog の外部ロケーションに対するアクセス許可は自動的に適用されます。

SQL
SELECT * FROM read_files(
  '/Volumes/<catalog>/<schema>/<volume>/review_comments',
  format => 'text'
)