Databricks コネクタ構成ガイド
この記事では、Databricks コネクタの構成方法について説明します。
このコネクタは、左ナビゲーションの Connectors をクリックして利用可能な新しいコネクタインターフェースを使用してのみ利用可能です。
アクション
アクション名 | AudienceStream | EventStream |
---|---|---|
全イベントデータ送信 | ✗ | ✓ |
カスタムイベントデータ送信 | ✗ | ✓ |
全訪問データ送信 | ✓ | ✗ |
カスタム訪問データ送信 | ✓ | ✗ |
動作原理
Databricks コネクタは、2つの接続セットを必要とします:
- Tealium から互換性のあるクラウド保存ソリューション(AWS S3、Azure Blob Storage、または Google Cloud Storage)への接続。
- Databricks からその同じクラウド保存ソリューションへの接続。
Tealium からクラウド保存への接続
Tealium は、イベントデータとオーディエンスデータをクラウド保存のオブジェクトやファイルにアップロードするために、AWS S3、Azure Blob Storage、または Google Cloud Storage インスタンスへの接続を必要とします。Databricks コネクタの認証には以下のオプションがあります:
- AWS S3
- アクセスキーとアクセスシークレットを提供します。
- STS(セキュリティトークンサービス)の認証情報を提供します。
- Azure Blob Storage
- クライアント認証情報。
- 認証コードフロー(SSO)。
- 共有アクセス署名(SAS)。
- Google Cloud Storage
- Google でサインイン(SSO)。
AWS S3 構成
アクセスキーとシークレット認証情報
AWS アクセスキーとシークレットを見つけるには:
- AWS 管理コンソールにログインし、IAM(Identity and Access Management)サービスに移動します。
- ユーザー をクリックし、次に ユーザーを追加 をクリックします。
- ユーザー名を入力します。例えば、
TealiumS3User
。 - 作成したユーザーにポリシーをアタッチします。
- 権限 タブで 既存のポリシーを直接アタッチ をクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述できます。この例では、YOUR_BUCKET_NAME
は Tealium が S3 オブジェクトにイベントデータとオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- キーを作成します。
- セキュリティ認証情報 タブに移動し、アクセスキーの作成 をクリックします。
- アクセスキー ID と シークレットアクセスキー をコピーして安全に保存します。
STS 認証情報構成
- AWS 管理コンソールにログインし、IAM(Identity and Access Management)サービスに移動します。
- ロール をクリックし、次に ロールの作成 をクリックします。
- 信頼されたエンティティのタイプ で、AWS アカウントを選択します。
- 別の AWS アカウント を選択し、Tealium アカウント ID
757913464184
を指定します。 - オプション。外部 ID の要求 チェックボックスをオンにし、使用したい外部 ID を指定します。外部 ID は 256 文字までの長さで、英数字(
A-Z
,a-z
,0-9
)やハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。 - ロールに名前を付けます。ロール名は
tealium-databricks
で始まる必要があります。例えば、tealium-databricks-s3-test
。 - ロールにポリシーをアタッチします。
- 権限 タブで 既存のポリシーを直接アタッチ をクリックします。
AmazonS3FullAccess
ポリシーを検索してアタッチします。特定のバケットへのアクセスを制限したい場合は、以下の例のようにポリシーを記述できます。この例では、YOUR_BUCKET_NAME
は Tealium が S3 オブジェクトにイベントデータとオーディエンスデータをアップロードするために使用するバケットです。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:ListBucket", "s3:PutObject", "s3:GetObject", "s3:ListBucketMultipartUploads", "s3:ListMultipartUploadParts" ], "Resource": [ "arn:aws:s3:::YOUR_BUCKET_NAME", "arn:aws:s3:::YOUR_BUCKET_NAME/*" ] } ] }
- 信頼ポリシーを作成します。
- 信頼関係 タブに移動し、信頼関係の編集 をクリックします。
- 信頼ポリシーが作成したロールに特定の外部 ID を許可し、Tealium の本番アカウント ID が
757913464184
であることを確認します。 - Tealium への接続のための
EXTERNAL_ID
値を構成します。ID は 256 文字までの長さで、英数字(A-Z
,a-z
,0-9
)やハイフン(-
)、アンダースコア(_
)、ピリオド(.
)などの記号を含むことができます。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Principal": {
"AWS": "arn:aws:iam::757913464184:root"
},
"Action": "sts:AssumeRole",
"Condition": {
"StringEquals": {
"sts:ExternalId": "EXTERNAL_ID"
}
}
}
]
}
Azure Blob Storage 構成
クライアント認証情報
Azure でアプリケーションのテナント ID、クライアント ID、クライアントシークレットを取得するには、次の手順を使用します:
ステップ 1: Azure ポータルにアクセス
- Azure ポータルに移動します。
- Azure アカウントでサインインします。
ステップ 2: アプリ登録に移動
- 上部の検索バーに
Azure Active Directory
を入力して選択します。 - 左メニューで アプリ登録 をクリックします。
- 登録済みのアプリケーションを探します。
ステップ 3: テナント ID とクライアント ID を見つける
- アプリケーションをクリックします。
- 概要 セクションで、次の情報を探します:
- テナント ID(ディレクトリ ID とも呼ばれます)は テナント ID の下にリストされています。
- クライアント ID(アプリケーション ID とも呼ばれます)は アプリケーション (クライアント) ID として表示されます。
ステップ 4: クライアントシークレットを生成
- 左メニューで 証明書とシークレット に移動します。
- クライアントシークレット の下で 新しいクライアントシークレット をクリックします。
- 説明を入力し、有効期限を選択します。
- 追加 をクリックします。
- 生成されたら、ページを離れると再表示できなくなるため、すぐにクライアントシークレットをコピーします。
共有アクセス署名(SAS)
Azureで共有アクセス署名(SAS)トークンを生成するには、以下の手順を使用します:
ステップ1:Azureポータルにアクセス
- Azureポータルに移動します。
- Azureアカウントでサインインします。
ステップ2:保存アカウントに移動
- 検索バーに「Storage accounts」と入力して選択します。
- SASトークンを生成したい保存アカウントを選択します。
ステップ3:SASトークンを生成
オプション1:Azureポータルを使用
- 保存アカウントで、セキュリティ + ネットワーキングセクションの下にある共有アクセス署名に移動します。
- 必要な権限(
読み取り
、書き込み
、削除
、リスト
など)を構成します。 - トークンの有効期限を構成して、トークンが有効である期間を定義します。
- 許可されるサービス(
Blob
、File
、Queue
、Table
)を選択します。 - SASと接続文字列を生成をクリックします。
- SASトークンまたはSASトークンが含まれる接続文字列をコピーします。
オプション2:Azure Storage Explorerを使用
- Azure Storage Explorerを開いて、Azureアカウントでサインインします。
- 保存アカウントを探して、Blob Containerまたはファイル共有を右クリックします。
- 共有アクセス署名の取得を選択します。
- 権限と有効期限の構成を構成します。
- 作成をクリックして生成されたSAS URLまたはトークンをコピーします。
オプション3:Azure CLIを使用
- Azure CLIで以下のコマンドを実行してSASトークンを生成します:
az storage blob generate-sas \
--account-name <your-storage-account> \
--container-name <your-container> \
--name <your-blob> \
--permissions r \
--expiry 2026-04-25T12:00:00Z \
--output tsv
これにより、制御されたアクセスを提供するために保存URLに追加できるSASトークンが出力されます。
認証コードフロー(SSO)
接続の確立をクリックすると、認証コードフローとして知られる安全な認証プロセスが開始されます。これにより、手動で資格情報を入力することなく、アプリケーションがAzure Blob Storageへのアクセスを許可され、シームレスで安全な体験が保証されます。
次のように表示されます:
- サインインにリダイレクト:一時的に組織のIdentity Provider(IdP)、例えばAzure Active Directoryにリダイレクトされ、既存の資格情報を使用してログインします。
- 同意の付与:認証後、Tealiumのアプリがリクエストしている権限—具体的にはBlob Storageへのアクセス—を説明する同意画面が表示されます。
- Blob Storageへの安全なアクセス:Tealiumのアプリケーションは、Azureのセキュリティポリシーを維持しながら保存とのやり取りを行う権限を持っています。
Google Cloud Storageの構成
Googleでサインイン
Googleでサインインをクリックすると、アプリケーションがGoogleアカウントを使用してGoogle Cloud Storageにアクセスするための安全な認証プロセスが開始されます。このプロセスは、データのセキュリティと制御を維持しながらシームレスな体験を保証します。
次のように表示されます:
- Googleサインインにリダイレクト:一時的にGoogleの認証ページにリダイレクトされ、Googleアカウントの資格情報を使用してログインします。
- 同意の付与:サインイン後、Tealiumのアプリがリクエストしている権限—例えばCloud Storageへのアクセス—を詳細に説明する同意画面が表示されます。
- 認証コードの受領:承認後、Googleは一度限りの認証コードを生成してアプリケーションに送り返します。
- Cloud Storageへの安全なアクセス:Tealiumのアプリケーションは、Googleのセキュリティポリシーを遵守しながら保存とのやり取りを行う権限を持っています。
DatabricksからAWS S3への接続
DatabricksをAWS S3インスタンスに接続するには、まずAWSインスタンスで使用するIAMロールを作成し、その後Databricksインスタンスで保存資格情報を作成する必要があります。AWS IAMロールの作成についての詳細は、Databricks: AWS S3に接続するための保存資格情報を作成するを参照してください。
保存資格情報が作成された後、AWS S3インスタンスからデータを取得する外部ロケーションを定義します。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
DatabricksからAzure Blob Storageへの接続
DatabricksをAzure Blob Storageインスタンスに接続するには、Azureサービスプリンシパルまたは管理されたIDを使用して保存資格情報を作成する必要があります。これにより、DatabricksはBlob Storageに安全に認証してアクセスできます。詳細については、Databricks: Azure Blob Storageに接続するための保存資格情報を作成するを参照してください。
保存資格情報が構成された後、Databricksがデータの読み書きに使用するAzure Blob Storageの外部ロケーションを定義します。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
DatabricksからGoogle Cloud Storageへの接続
Google Cloud StorageをDatabricksと統合するには、まずGoogle Cloudで必要な権限を持つサービスアカウントを構成します。その後、このサービスアカウントを使用してDatabricksで保存資格情報を作成します。詳細については、Databricks: Google Cloud Storageに接続するための保存資格情報を作成するを参照してください。
保存資格情報を構成した後、Databricksがデータとやり取りするために必要なバケットと権限を指定してGoogle Cloud Storageの外部ロケーションを定義する必要があります。詳細については、Databricks: クラウド保存をDatabricksに接続するための外部ロケーションを作成するを参照してください。
バッチ制限
このコネクタは、ベンダーへの大量データ転送をサポートするためにバッチリクエストを使用します。詳細については、バッチアクションを参照してください。リクエストは、次のいずれかのしきい値が満たされるか、プロファイルが公開されるまでキューに入れられます:
- 最大リクエスト数:100,000
- 最古のリクエストからの最大時間:1分から60分の間でカスタムTTLを構成できます。デフォルト値は10分です。
- リクエストの最大サイズ:10 MB
構成
コネクタマーケットプレースに移動して新しいコネクタを追加します。コネクタを追加する一般的な手順については、コネクタについてを参照してください。
コネクタを追加した後、次の構成を構成します:
- クラウドソリューション:使用しているクラウドソリューションを選択します。利用可能なオプションは
AWS S3
、Azure Blob Storage
、Google Cloud Storage
です。 - DatabricksホストURL:DatabricksアカウントのURLを提供します。例:
https://{ACCOUNT_NAME}.cloud.databricks.com
。 - Databricksトークン:Databricksでアクセストークンを作成するには、Databricksでユーザーアバターをクリックし、構成 > 開発者 > アクセストークン > 管理 > 新しいトークンを生成に進みます。
認証構成は、使用するクラウドソリューションによって異なります:
Amazon AWS S3
- リージョン: 必須。リージョンを選択してください。
- 認証タイプ: 必須。プラットフォームの認証タイプを選択してください:
- アクセスキーとアクセスシークレットを提供してください。
- アクセスキー - AWSアクセスキー: アクセスキー認証に必要です。AWSアクセスキーを提供してください。
- アクセスキー - AWSシークレットアクセスキー: アクセスキー認証に必要です。AWSシークレットアクセスキーを提供してください。
- STS(セキュリティトークンサービス)の認証情報を提供してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
arn:aws:iam:222222222222:role/myrole
。詳細については、AWS Identity and Access Management: Switch to an IAM role (AWS API)を参照してください。 - STS - Assume Role: Session Name: STS認証に必要です。引き受ける役割のセッション名を提供してください。最小長2、最大長64。
- STS - Assume Role: External ID: STS認証に必要です。第三者の外部識別子を提供してください。詳細については、AWS Identity and Access Management: Access to AWS accounts owned by third partiesを参照してください。
- STS - Assume Role: ARN: STS認証に必要です。引き受ける役割のAmazonリソースネーム(ARN)を提供してください。例:
- アクセスキーとアクセスシークレットを提供してください。
Azure Blob Storage
- テナントID: あなたの組織を代表するAzure Active Directoryインスタンスの一意の識別子。
- 認証タイプ: 認証タイプを選択してください。利用可能なオプションは、クライアント認証情報、認証コードフロー(SSO)、共有アクセス署名(SAS)です。
- クライアントID: Azure Active Directoryに登録されたアプリケーションに割り当てられた一意の識別子。
- クライアントシークレット: アプリケーションがAzure Active Directoryで認証するために使用するパスワードのような文字列。
- 共有アクセス署名: Tealiumによるリソースアクセス方法を示す特別なクエリパラメーターを提供してください。
- 保存アカウント名: Blob、File、Queue、Table保存などの保存サービスにアクセスするために使用されるAzure Storageアカウントの一意の名前。
- APIバージョン: あなたのAzure Storageインスタンスと互換性のあるAPIバージョン。デフォルトバージョンは
2025-01-05
です。
Google Cloud Storage
Googleでサインインをクリックし、画面の指示に従ってください。
ノートブックの作成
Databricksのノートブックは、実行可能なコード、ビジュアル化、およびナラティブテキストを含むドキュメントです。データの探索、可視化、および協力に使用されます。コネクタ構成では、新しいコネクタを作成する際に、構成ステップでノートブックの作成をクリックすることで新しいノートブックを作成するオプションがあります。
- コネクタ構成画面でノートブックの作成をクリックします。
- テーブル名を入力します。スキーマはジョブ作成時に指定されるため、このフィールドには追加しないでください。
- 名前には英数字 (
A-Z
,a-z
,0-9
) とアンダースコア (_
) を含めることができます。 - スペースや特殊文字(
!
,@
,#
,-
,.
など)は使用できません。 - 名前は大文字と小文字が区別されます。たとえば、
tableName
とtablename
は異なる名前とみなされます。 - 名前は数字で始めることはできません。たとえば、
1table
は無効です。
- 名前には英数字 (
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスのコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。仮想フォルダーとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケットで、Databricksに接続するクラウド保存バケットを選択します。
- 上書きオプションは、指定されたワークスペースに既に存在するノートブックを上書きするかどうかを示します。
ジョブの作成
Databricksのジョブは、特定のトリガーに基づいて、または定期的にノートブックを実行することを自動化します。ジョブを使用すると、定期的な間隔または特定のイベントがトリガーされたときに、データ処理、分析、レポート作成などのタスクを実行できます。
- コネクタ構成画面でジョブの作成をクリックします。
- 処理ジョブの名前を入力します。
- カタログで、パイプラインデータを公開するために使用するUnityカタログからカタログを指定します。
- ターゲットで、上記のカタログでテーブルを公開/更新するスキーマを指定します。ここではターゲットテーブルを指定しないでください。ノートブックで指定されたテーブルが使用されます。
- ノートブックパスには、ノートブックの絶対パスを入力してください。例:
/Users/user@example.com/project/NOTEBOOK_NAME
。- Databricksのノートブックの絶対パスを確認するには、Databricksのワークスペースにアクセスし、ユーザーセクションを展開します。
- ユーザーをクリックし、オプションメニューを展開します。
- URL/パスのコピー > 完全なパスをクリックします。パス名は次の形式になります:
/Workspace/Users/myemail@company.com
。仮想フォルダーとノートブック名をスラッシュ/
で区切って追加します。例:/Workspace/Users/myemail@company.com/virtualfolder/virtualsubfolder/MyNotebook
。
- クラウドバケットで、Databricksに接続するクラウド保存バケットを選択します。
- トリガータイプで、データを処理するタイミングを選択します。利用可能なオプションは次のとおりです:
- ファイル到着: 新しいファイルが到着するたびにデータを処理します。
- スケジュール: 指定したスケジュールでデータを定期的に処理します。
- Cron: Cronフィールドで定義したスケジュールでデータを定期的に処理します。
- 開始時間で、ジョブ処理の開始時間を
hh:mm
形式で指定します。開始時間のデフォルト値は00:00
です。 - タイムゾーンで、
country/city
形式でタイムゾーンを指定します。例:Europe/London
。開始時間を提供する場合、このフィールドは必須です。 - Cronで、スケジュール処理に使用するクォーツcron式を入力します。例えば
20 30 * * * ?
は、毎時、毎日、週の日、年の30分20秒にファイルを処理します。詳細については、Quartz: Cron Trigger Tutorialを参照してください。
アクション
次のセクションでは、各アクションのサポートされているパラメーターをリストします。
イベントデータ全体の送信
パラメーター
パラメーター | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を提供してください。 |
Databricksカタログ | Databricksカタログを選択するか、カスタム値を提供してください。 |
Databricksスキーマ | Databricksスキーマを選択するか、カスタム値を提供してください。 |
Databricksテーブル | Databricksテーブルを選択するか、カスタム値を提供してください。 |
ペイロードを記録する列 | ペイロードを記録するための VARIANT 列を選択してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトでは現在のタイムスタンプがアクションのために送信されます。異なる形式のタイムスタンプを送信したい場合は、属性を選択してください。属性が割り当てられて空の値を生成した場合、現在のタイムスタンプを送信します。 |
カスタムイベントデータの送信
パラメーター
パラメーター | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を提供してください。 |
Databricksカタログ | Databricksカタログを選択するか、カスタム値を提供してください。 |
Databricksスキーマ | Databricksスキーマを選択するか、カスタム値を提供してください。 |
Databricksテーブル | Databricksテーブルを選択するか、カスタム値を提供してください。 |
イベントパラメーター
Databricksテーブルの列にパラメーターをマッピングします。少なくとも1つのパラメーターをマッピングする必要があります。
訪問データ全体の送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks カタログ | Databricks カタログを選択するか、カスタム値を入力してください。 |
Databricks スキーマ | Databricks スキーマを選択するか、カスタム値を入力してください。 |
Databricks テーブル | Databricks テーブルを選択するか、カスタム値を入力してください。 |
訪問データを記録する列 | 訪問データを記録するための VARIANT 列を選択してください。 |
タイムスタンプを記録する列 | タイムスタンプを記録する列を選択してください。 |
タイムスタンプ属性 | デフォルトではアクションの現在のタイムスタンプが送信されます。異なる形式で送信したい場合は、タイムスタンプとして割り当てる属性を選択してください。属性が割り当てられ、空の値が生成された場合は、現在のタイムスタンプを送信します。 |
訪問データに現在の訪問データを含める | 訪問データに現在の訪問データを含めるか選択してください。 |
カスタム訪問データの送信
パラメータ
パラメータ | 説明 |
---|---|
クラウドバケット | クラウドバケットを選択するか、カスタム値を入力してください。 |
Databricks カタログ | Databricks カタログを選択するか、カスタム値を入力してください。 |
Databricks スキーマ | Databricks スキーマを選択するか、カスタム値を入力してください。 |
Databricks テーブル | Databricks テーブルを選択するか、カスタム値を入力してください。 |
訪問パラメータ
Databricks テーブルの列にパラメータをマッピングしてください。少なくとも1つのパラメータをマッピングする必要があります。
最終更新日 :: 2025年April月29日