Pular para o conteúdo principal

Conectar à fonte de dados e ao serviço externo

Esta página fornece recomendações para administradores e usuários avançados que estão configurando conexões entre Databricks e fontes de dados e serviços externos.

O senhor pode conectar seu Databricks account a fontes de dados, como armazenamento de objetos em nuvem, sistemas de gerenciamento de banco de dados relacionais, serviços de transmissão de dados e plataformas empresariais, como CRMs. O senhor também pode conectar seu Databricks account a um serviço externo, como o AWS Glue ou AWS Secrets Manager.

Configurar conexões com armazenamento de objetos na cloud

A maioria dos dados usados pelas cargas de trabalho do Databricks é armazenada no armazenamento de objetos em nuvem, como o AWS S3 ou o Cloudflare R2. O senhor pode gerenciar o acesso ao armazenamento de objetos na nuvem usando uma das seguintes opções:

ConexõesUnity Catalog

Uma conexão do Unity Catalog é um objeto protegível que armazena o endpoint e as credenciais necessárias para acessar um sistema externo. As conexões fornecem uma maneira controlada de gerenciar a autenticação e a configuração de sistemas de dados externos, incluindo federação, gerenciamento de ingestão, JDBC e HTTP. Para obter uma visão geral de todos os tipos de conexão e como escolher entre eles, consulte ConexõesUnity Catalog.

Configurar conexões com sistemas de dados externos

A Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção

Descrição

Conectores de federação de consultas

A federação de consultas fornece acesso somente leitura a bancos de dados relacionais externos, enviando consultas do Unity Catalog via JDBC. Fontes compatíveis incluem PostgreSQL, MySQL, SQL Server, Snowflake e muito mais.

Conectores de federação de catálogos

A federação de catálogo conecta plataformas de catálogo externas, como um Hive metastore, AWS Glue ou Snowflake Horizon Catalog, para que você possa consultar seus dados diretamente no armazenamento de arquivos sem movimentação de dados.

Gerenciar conectores de ingestão

LakeFlow Connect permite que os usuários administradores criem uma conexão e gerenciem a ingestão pipeline ao mesmo tempo na UI de ingestão de dados. Consulte gerenciar conectores em LakeFlow Connect.

Se os usuários que criarão o pipeline não forem administradores ou planejarem usar APIs Databricks , os SDKs Databricks , a CLI Databricks ou os Pacotes de Automação Declarativa, um administrador deverá primeiro criar a conexão no Explorador de Catálogo. Essas interfaces exigem que os usuários especifiquem uma conexão existente ao criar um pipeline. Consulte Conectar para gerenciar fontes de ingestão.

conectores de transmissão

O Databricks fornece conectores otimizados para muitos sistemas de streaming de dados.

Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregar essas credenciais no Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de transmissão suportam a transmissão de credenciais usando opções quando o senhor define consultas de transmissão. Consulte Conectores padrão em LakeFlow Connect.

Integrações de terceiros

Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados no site lakehouse. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect?

API da fonte de dados do Spark

Use a API de Fonte de Dados do Spark para ler e gravar em bancos de dados externos. O Databricks Runtime inclui conectores fornecidos para fontes comuns. É possível, ainda, usar uma conexão do Unity Catalog com seu próprio JAR de driver JDBC, instalar conectores de terceiros em clusters dedicados ou desenvolver conectores personalizados com a API PySpark DataSource. Consulte fontes de dados do Spark.

Para acesso somente leitura, o Databricks recomenda o Lakehouse Federation.

JDBC

Conecte-se a bancos de dados externos usando JDBC com uma conexão Unity Catalog para acesso controlado, isolamento de credenciais e suportecompute cruzada. Consulte Conexão JDBC.

Para configurações JDBC legadas sem governança do Unity Catalog, consulte Consultar bancos de dados usando JDBC.

Para federação de consultas somente leitura, o Lakehouse Federation é sempre a opção preferida.

Configurar conexões para serviços em cloud que não sejam de armazenamento

O Unity Catalog governa o acesso a serviços em nuvem que não são de armazenamento por meio de um objeto protegível chamado *credencial de serviço*. Uma credencial de serviço encapsula uma credencial de cloud de longo prazo que fornece acesso a um serviço de cloud que não é de armazenamento, ao qual os usuários precisam se conectar a partir do Databricks. Consulte Conectar-se a serviços externos na cloud usando o Unity Catalog.

gerenciar e solicitar acesso a fontes de dados e serviços externos

A maioria dos métodos de conexão exige privilégios elevados tanto na fonte de dados ou serviço externo quanto no site Databricks workspace. Em organizações típicas, poucos usuários têm privilégios suficientes no Databricks ou em provedores externos de dados e armazenamento para configurar as conexões de dados por conta própria.

É possível que sua organização já tenha configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a esta página. Se sua organização tiver um processo bem definido para solicitar acesso a dados e serviços de terceiros, o site Databricks recomenda seguir esse processo. Se o senhor não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudar:

  1. Use o Catalog Explorer para view as tabelas e os volumes que o senhor pode acessar. Consulte O que é o Catalog Explorer?.
  2. Pergunte a seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.
    • A maioria das organizações usa grupos sincronizados do provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar as permissões dos usuários do workspace. Se outros membros da sua equipe puderem acessar fontes de dados às quais o senhor precisa ter acesso, peça a um administrador do workspace que o adicione ao grupo correto para conceder acesso.
    • Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colegaworker, esse indivíduo deverá ser capaz de conceder ao senhor acesso aos dados.

Algumas organizações atribuem permissões de acesso a dados específicos ao clustering compute e ao armazém SQL. Esse é um modelo de governança legado, mas se a sua organização o utiliza e o senhor deseja saber quais fontes de dados estão disponíveis em um recurso compute específico, entre em contato com o criador compute listado no computador tab.