Databricks コネクタ構成ガイド
この記事では、Databricks コネクタの構成方法について説明します。
このコネクタは、左側のナビゲーションで Connectors をクリックすることで利用可能な新しいコネクタインターフェースを使用してのみ利用可能です。
アクション
アクション名 | AudienceStream | EventStream |
---|---|---|
全イベントデータ送信 | ✗ | ✓ |
カスタムイベントデータ送信 | ✗ | ✓ |
全訪問データ送信 | ✓ | ✗ |
カスタム訪問データ送信 | ✓ | ✗ |
動作原理
Databricks コネクタは、2つの接続セットを必要とします:
- Tealium から互換性のあるクラウド保存ソリューション(AWS S3、Azure Blob Storage、または Google Cloud Storage)への接続。
- Databricks からその同じクラウド保存ソリューションへの接続。
Tealium からクラウド保存への接続
Tealium は、Databricks Unity Catalog Volume、AWS S3、Azure Blob Storage、または Google Cloud Storage インスタンスへの接続を必要とし、バケットをリストし、イベントおよびオーディエンスデータをクラウド保存オブジェクトおよびファイルにアップロードします。Databricks コネクタの認証には以下のオプションがあります:
- Databricks Unity Catalog
- クライアントIDとクライアントシークレット(OAuth)を提供。
- AWS S3
- アクセスキーとアクセスシークレットを提供。
- STS(セキュリティトークンサービス)の認証情報を提供。
- Azure Blob Storage
- クライアント認証情報。
- 認証コードフロー(SSO)。
- 共有アクセス署名(SAS)。
- Google Cloud Storage
- Google でサインイン(SSO)。
Databricks Unity Catalog 構成
クライアントIDとシークレット認証情報
Databricks アカウントの新しいOAuth認証情報を生成するには:
- Databricks インスタンスにログインします。
- ワークスペースに移動します。
- 画面の右上隅にある 構成 > アイデンティティとアクセス > サービスプリンシパル に移動します。
- 新しいサービスプリンシパルを作成するか、既存のものをクリックします。
- シークレット タブをクリックし、シークレット生成 をクリックします。
- 権限 タブをクリックし、サービスプリンシパルが サービスプリンシパル:ユーザー の役割に割り当てられていることを確認します。
AWS S3 構成
アクセスキーとシークレット認証情報
AWS アクセスキーとシークレットを見つけるには:
- AWS 管理コンソールにログインし、IAM(アイデンティティとアクセス管理)サービスに移動します。
- ユーザー をクリックし、ユーザー追加 をクリックします。
- ユーザー名を入力します。例えば、
TealiumS3User
。 - 作成したユーザーにポリシーをアタッチします。
- 権限 タブで 既存のポリシーを直接アタッチ をクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述できます。この例では、YOUR_BUCKET_NAME
は Tealium が S3 オブジェクトにイベントおよびオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- キーを作成します。
- セキュリティ認証情報 タブに移動し、アクセスキーの作成 をクリックします。
- アクセスキーID と シークレットアクセスキー をコピーして安全に保存します。
STS認証情報構成
- AWS 管理コンソールにログインし、IAM(アイデンティティとアクセス管理)サービスに移動します。
- ロール をクリックし、ロール作成 をクリックします。
- 信頼されたエンティティのタイプ で、AWS アカウントを選択します。
- 別のAWSアカウント を選択し、Tealium アカウントID
757913464184
を指定します。 - (オプション)外部IDが必要 チェックボックスをオンにし、使用したい外部IDを指定します。外部IDは最大256文字で、英数字(
A-Z
,a-z
,0-9
)およびハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。 - ロールに名前を付けます。ロール名は
tealium-databricks
で始まる必要があります。例えば、tealium-databricks-s3-test
。 - ロールにポリシーをアタッチします。
- 権限 タブで 既存のポリシーを直接アタッチ をクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述できます。この例では、YOUR_BUCKET_NAME
は Tealium が S3 オブジェクトにイベントおよびオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- 信頼ポリシーを作成します。
- 信頼関係 タブに移動し、信頼関係の編集 をクリックします。
- 信頼ポリシーが作成したロールに特定の外部IDを許可し、Tealiumの本番アカウントIDが
757913464184
であることを確認します。 - Tealium への接続のための
EXTERNAL_ID
値を構成します。IDは最大256文字で、英数字(A-Z
,a-z
,0-9
)およびハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"AWS": "arn:aws:iam::757913464184:root"
},
"Action": "sts:AssumeRole",
"Condition": {
"StringEquals": {
"sts:ExternalId": "EXTERNAL_ID"
}
}
}
]
}
Azure Blob Storage 構成
クライアント認証情報
AzureでアプリケーションのテナントID、クライアントID、およびクライアントシークレットを取得するには、次の手順を使用します:
ステップ1: Azureポータルにアクセス
- Azureポータルに行きます。
- Azureアカウントでサインインします。
ステップ2: アプリ登録に移動
- 上部の検索バーに
Azure Active Directory
を入力して選択します。 - 左メニューで アプリ登録 をクリックします。
- 登録済みのアプリケーションを探します。
ステップ3: テナントIDとクライアントIDを見つける
- アプリケーションをクリックします。
- 概要 セクションで、以下の情報を探します:
- テナントID(ディレクトリID としても知られています)は テナントID の下にリストされています。
- クライアントID(アプリケーションID としても知られています)は アプリケーション(クライアント)ID として表示されます。
ステップ4: クライアントシークレットを生成
- 左メニューで 証明書とシークレット に移動します。
- クライアントシークレット の下で 新しいクライアントシークレット をクリックします。
- 説明を入力し、有効期限を選択します。
- 追加 をクリックします。
- 生成されたら、ページを離れる前にすぐにクライアントシークレットをコピーします。
共有アクセス署名(SAS)
Azureで共有アクセス署名(SAS)トークンを生成するには、以下の手順を使用します:
ステップ1:Azureポータルにアクセス
- Azureポータルに移動します。
- Azureアカウントでサインインします。
ステップ2:保存アカウントに移動
- 検索バーに「Storage accounts」と入力して選択します。
- SASトークンを生成したい保存アカウントを選択します。
ステップ3:SASトークンを生成
オプション1:Azureポータルを使用
- 保存アカウントで、セキュリティ + ネットワーキングセクションの下にある共有アクセス署名に移動します。
- 必要な権限(
Read
、Write
、Delete
、List
など)を構成します。 - トークンの有効期限を構成して、トークンが有効である期間を定義します。
- 許可されるサービス(
Blob
、File
、Queue
、Table
)を選択します。 - SASと接続文字列を生成をクリックします。
- SASトークンまたはSASトークンが含まれる接続文字列をコピーします。
オプション2:Azure Storage Explorerを使用
- Azure Storage Explorerを開き、Azureアカウントでサインインします。
- 保存アカウントを見つけて、Blob Containerまたはファイル共有を右クリックします。
- 共有アクセス署名を取得を選択します。
- 権限と有効期限の構成を構成します。
- 作成をクリックして生成されたSAS URLまたはトークンをコピーします。
オプション3:Azure CLIを使用
- Azure CLIで以下のコマンドを実行してSASトークンを生成します:
az storage blob generate-sas \
--account-name <your-storage-account> \
--container-name <your-container> \
--name <your-blob> \
--permissions r \
--expiry 2026-04-25T12:00:00Z \
--output tsv
これにより、制御されたアクセスを提供するために保存URLに追加できるSASトークンが出力されます。
認証コードフロー(SSO)
接続を確立をクリックすると、認証コードフローとして知られる安全な認証プロセスが開始されます。これにより、手動で資格情報を入力することなく、アプリケーションがAzure Blob Storageへのアクセスを許可され、シームレスで安全な体験が保証されます。
次のように表示されます:
- サインインにリダイレクト: 一時的に組織のIdentity Provider(IdP)、例えばAzure Active Directoryにリダイレクトされ、既存の資格情報を使用してログインします。
- 同意の付与: 認証後、Tealiumのアプリがリクエストしている権限—具体的にはBlob Storageへのアクセス—を説明する同意画面が表示されます。
- Blob Storageへの安全なアクセス: Tealiumのアプリケーションは、Azureのセキュリティポリシーを維持しながら保存とのやり取りを許可されます。
Google Cloud Storageの構成
Googleでサインイン
Googleでサインインをクリックすると、アプリケーションがGoogleアカウントを使用してGoogle Cloud Storageにアクセスできるようにする安全な認証プロセスが開始されます。このプロセスは、データのセキュリティと制御を維持しながらシームレスな体験を保証します。
次のように表示されます:
- Googleサインインにリダイレクト: 一時的にGoogleの認証ページにリダイレクトされ、Googleアカウントの資格情報を使用してログインします。
- 同意の付与: サインイン後、Tealiumのアプリがリクエストしている権限—例えばCloud Storageへのアクセス—を詳述する同意画面が表示されます。
- 認証コードの受領: 承認後、Googleは一度限りの認証コードを生成してアプリケーションに送り返します。
- Cloud Storageへの安全なアクセス: Tealiumのアプリケーションは、Googleのセキュリティポリシーを遵守しながら保存とのやり取りを許可されます。
DatabricksからAWS S3への接続
DatabricksをAWS S3インスタンスに接続するには、まずAWSインスタンスで使用するIAMロールを作成し、その後Databricksインスタンスで保存資格情報を作成する必要があります。AWS IAMロールの作成についての詳細は、Databricks: AWS S3に接続するための保存資格情報を作成するを参照してください。
保存資格情報が作成された後、AWS S3インスタンスからデータを取得する外部ロケーションを定義します。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
DatabricksからAzure Blob Storageへの接続
DatabricksをAzure Blob Storageインスタンスに接続するには、Azureサービスプリンシパルまたは管理されたIDを使用して保存資格情報を作成する必要があります。これにより、DatabricksはBlob Storageに安全に認証してアクセスできます。詳細については、Databricks: Azure Blob Storageに接続するための保存資格情報を作成するを参照してください。
保存資格情報が構成された後、Databricksがデータの読み書きに使用するAzure Blob Storageの外部ロケーションを定義します。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
DatabricksからGoogle Cloud Storageへの接続
Google Cloud StorageをDatabricksと統合するには、まずGoogle Cloudで必要な権限を持つサービスアカウントを構成します。その後、このサービスアカウントを使用してDatabricksで保存資格情報を作成します。詳細については、Databricks: Google Cloud Storageに接続するための保存資格情報を作成するを参照してください。
保存資格情報を構成した後、Databricksがデータとやり取りするために必要なバケットと権限を指定してGoogle Cloud Storageの外部ロケーションを定義する必要があります。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
バッチ制限
このコネクタは、ベンダーへの大量データ転送をサポートするためにバッチリクエストを使用します。詳細については、バッチアクションを参照してください。リクエストは、次のいずれかのしきい値が満たされるか、プロファイルが公開されるまでキューに入れられます:
- 最大リクエスト数:100,000
- 最古のリクエストからの最大時間:1分から60分の間でカスタムTTLを構成できます。デフォルト値は10分です。
- リクエストの最大サイズ:10 MB
構成
コネクタマーケットプレイスに移動して新しいコネクタを追加します。コネクタを追加する一般的な手順については、コネクタについてを参照してください。
コネクタを追加した後、次の構成を構成します:
- クラウドソリューション:使用しているクラウドソリューションを選択します。利用可能なオプションは、
Databricks Unity Catalog Volume
、AWS S3
、Azure Blob Storage
、Google Cloud Storage
です。 - DatabricksホストURL:DatabricksアカウントのURLを提供します。例:
https://{ACCOUNT_NAME}.cloud.databricks.com
。 - Databricksトークン:Databricksアクセストークンを提供します。このパラメータは、データをDatabricks Unity Catalog Volumeに送信する場合はオプションです。Databricksでアクセストークンを作成するには、Databricksでユーザーアバターをクリックし、構成 > 開発者 > アクセストークン > 管理 > 新しいトークンを生成に進みます。
認証構成は、使用するクラウドソリューションによって異なります:
Databricks Unity Catalog Volume
- 認証タイプ:Databricks OAuth認証タイプを選択します。
- クライアントID:サービスプリンシパルシークレットに割り当てられた一意の識別子。
- クライアントシークレット:アプリケーションがDatabricksのサービスプリンシパルとして認証するために使用するパスワードのような文字列。
Amazon AWS S3
- リージョン: (必須) リージョンを選択してください。
- 認証タイプ: (必須) プラットフォームの認証タイプを選択してください:
- アクセスキーとアクセスシークレットを提供してください。
- アクセスキー - AWSアクセスキー: アクセスキー認証に必要です。AWSアクセスキーを提供してください。
- アクセスキー - AWSシークレットアクセスキー: アクセスキー認証に必要です。AWSシークレットアクセスキーを提供してください。
- STS(セキュリティトークンサービス)の認証情報を提供してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
arn:aws:iam:222222222222:role/myrole
。詳細については、AWS Identity and Access Management: Switch to an IAM role (AWS API)を参照してください。 - STS - Assume Role: セッション名: STS認証に必要です。引き受ける役割のセッション名を提供してください。最小長2、最大長64。
- STS - Assume Role: 外部ID: STS認証に必要です。第三者の外部識別子を提供してください。詳細については、AWS Identity and Access Management: Access to AWS accounts owned by third partiesを参照してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
- アクセスキーとアクセスシークレットを提供してください。
Azure Blob Storage
- テナントID: あなたの組織を代表するAzure Active Directoryインスタンスの一意の識別子。
- 認証タイプ: 認証タイプを選択してください。利用可能なオプションは、クライアント認証情報、認証コードフロー(SSO)、共有アクセス署名(SAS)です。
- クライアントID: Azure Active Directoryに登録されたアプリケーションに割り当てられた一意の識別子。
- クライアントシークレット: アプリケーションがAzure Active Directoryで認証するために使用するパスワードのような文字列。
- 共有アクセス署名: Tealiumによるリソースアクセス方法を示す特別なクエリパラメーターを提供してください。
- 保存アカウント名: Blob、File、Queue、Table保存サービスにアクセスするために使用されるAzure Storageアカウントの一意の名前。
- APIバージョン: あなたのAzure Storageインスタンスと互換性のあるAPIバージョン。デフォルトバージョンは
2025-01-05
です。
Google Cloud Storage
Googleでサインインをクリックし、画面の指示に従ってください。
ノートブックの作成
Databricksのノートブックは、実行可能なコード、ビジュアリゼーション、およびナラティブテキストを含むドキュメントです。データ探索、可視化、および協力に使用されます。コネクタ構成では、新しいコネクタを作成する際にノートブックを作成をクリックすることで新しいノートブックを作成するオプションがあります。
- コネクタ構成画面でノートブックを作成をクリックします。
- テーブル名を入力します。スキーマはジョブ作成時に指定されるため、このフィールドには追加しないでください。
- 名前には英数字 (
A-Z
,a-z
,0-9
) とアンダースコア (_
) を含めることができます。 - スペースや特殊文字(
!
,@
,#
,-
,.
など)は使用できません。 - 名前は大文字と小文字が区別されます。たとえば、
tableName
とtablename
は異なる名前とみなされます。 - 名前は数字で始めることはできません。たとえば、
1table
は無効です。
- 名前には英数字 (
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスをコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。仮想フォルダーとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケット / ボリューム:
- クラウドバケットでは、データの保存先として接続するGoogle Cloud Platform (GCP)、Azure Blob Storage、またはAWS S3の保存バケットを選択します。
- Databricks OAuth認証タイプを使用している場合は、Databricks Unity Catalog Volumeを指定してください。
- 上書きオプションは、指定されたワークスペースに既に存在するノートブックを上書きするかどうかを示します。
ジョブの作成
Databricksのジョブは、スケジュールまたは特定のトリガーに基づいてノートブックを自動的に実行することを自動化します。ジョブを使用すると、定期的な間隔または特定のイベントがトリガーされたときに、データ処理、分析、レポート作成などのタスクを実行できます。
- コネクタ構成画面でジョブを作成をクリックします。
- 処理ジョブの名前を入力します。
- カタログで、パイプラインデータを公開するために使用するUnityカタログからカタログを指定します。
- ターゲットで、上記のカタログでテーブルを公開/更新するスキーマを指定します。ここではターゲットテーブルを指定しないでください。ノートブックで指定されたテーブルが使用されます。
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスをコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。仮想フォルダーとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケットまたはボリュームで、Databricksに接続するクラウド保存バケットまたはDatabricks Unity Catalog Volumeを選択します。
- トリガータイプで、データを処理するタイミングを選択します。利用可能なオプションは次のとおりです:
- ファイル到着: 新しいファイルが到着するたびにデータを処理します。
- スケジュール: 指定したスケジュールでデータを繰り返し処理します。
- Cron: Cronフィールドで定義するスケジュールでデータを繰り返し処理します。
- 開始時間で、ジョブ処理の開始時間を
hh:mm
形式で指定します。開始時間のデフォルト値は00:00
です。 - タイムゾーンで、
country/city
形式でタイムゾーンを指定します。例:Europe/London
。開始時間を提供する場合、このフィールドは必須です。 - Cronで、スケジュール処理に使用するクォーツcron式を入力します。例えば
20 30 * * * ?
は、毎時、毎日、週の日、年の30分20秒にファイルを処理します。詳細については、Quartz: Cron Trigger Tutorialを参照してください。
ノートブックとジョブの作成
ノートブックとジョブを同時に作成するには、ノートブックとジョブを作成をクリックします。ノートブックの作成およびジョブの作成のセクションの手順を使用してください。
アクション
次のセクションでは、各アクションのサポートされるパラメーターをリストします。
全イベントデータの送信
パラメーター
パラメーター | 説明 |
---|---|
ボリューム | Databricks Unity Catalog Volumeを選択するか、カスタム値を提供してください。 |
クラウドバケット | クラウドバケットを選択するか、カスタム値を提供してください。 |
Databricksカタログ | Databricksカタログを選択するか、カスタム値を提供してください。 |
Databricksスキーマ | Databricksスキーマを選択するか、カスタム値を提供してください。 |
Databricksテーブル | Databricksテーブルを選択するか、カスタム値を提供してください。 |
ペイロードを記録する列 | VARIANT 列を選択してペイロードを記録してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトでは現在のタイムスタンプがアクションに送信されます。異なる形式のタイムスタンプを送信したい場合は、属性を指定してください。属性が割り当てられていても値が空の場合は、現在のタイムスタンプを送信します。 |
カスタムイベントデータの送信
パラメータ
パラメータ | 説明 |
---|---|
Volume | Databricks Unity Catalogのボリュームを選択するか、カスタム値を入力してください。 |
Cloud Bucket | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks Catalog | Databricksカタログを選択するか、カスタム値を入力してください。 |
Databricks Schema | Databricksスキーマを選択するか、カスタム値を入力してください。 |
Databricks Table | Databricksテーブルを選択するか、カスタム値を入力してください。 |
イベントパラメータ
Databricksテーブルの列にパラメータをマッピングします。少なくとも1つのパラメータをマッピングする必要があります。
全訪問データの送信
パラメータ
パラメータ | 説明 |
---|---|
Volume | Databricks Unity Catalogのボリュームを選択するか、カスタム値を入力してください。 |
Cloud Bucket | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks Catalog | Databricksカタログを選択するか、カスタム値を入力してください。 |
Databricks Schema | Databricksスキーマを選択するか、カスタム値を入力してください。 |
Databricks Table | Databricksテーブルを選択するか、カスタム値を入力してください。 |
訪問データを記録する列 | 訪問データを記録するためにVARIANT 列を選択してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトではアクションの現在のタイムスタンプを送信します。異なる形式を送信したい場合は、タイムスタンプとして割り当てる属性を選択してください。属性が割り当てられて空の値を生成した場合は、現在のタイムスタンプを送信します。 |
現在の訪問データを訪問データに含める | 現在の訪問データを訪問データに含めるか選択してください。 |
カスタム訪問データの送信
パラメータ
パラメータ | 説明 |
---|---|
Volume | Databricks Unity Catalogのボリュームを選択するか、カスタム値を入力してください。 |
Cloud Bucket | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks Catalog | Databricksカタログを選択するか、カスタム値を入力してください。 |
Databricks Schema | Databricksスキーマを選択するか、カスタム値を入力してください。 |
Databricks Table | Databricksテーブルを選択するか、カスタム値を入力してください。 |
訪問パラメータ
Databricksテーブルの列にパラメータをマッピングします。少なくとも1つのパラメータをマッピングする必要があります。
最終更新日 :: 2025年September月4日