Kafka ConnectでS3のデータを扱う
#kafka #kafka-connect #2021-advent-calendar
Kafka ConnectにはS3のデータを扱うためのコネクターがある
Amazon S3 Sink Connector
Amazon S3 Source Connector
しかしSourceコネクターは現在S3 Sinkコネクターによって書き出されたファイルフォーマットのみをサポートしているため、既存のファイルや他アプリケーションから出力されたファイルを直接連携することができない。
その場合、FilePulse Source Connector を利用することでその他ファイルフォーマットも読みだすことができる。
S3だけでなくその他の主要なクラウドのオブジェクトストレージやAvroやXMLなどのファイル形式もサポートしている。
それ以外のやり方だと、AWS Transfer for SFTPを間にはさみKafka ConnectのSFTPコネクター経由でS3のファイルを取得するなどの方式も考えられるが、個人的にはだいたいのユースケースはFilePulse Source Connectorでカバーできている。