BQ FUN Slackを立ち上げた話
Naofumi Yamada
Data EngineerBigQuery Advent Calendar 2020最終日、25日目のポエムです。
私は今回初めて、アドベントカレンダーを立てる経験をしましたが、25日埋まるBigQueryの技術そのもの、取り巻くコミュニティ、どちらも素晴らしいものだと思いました。実際立てなければ、25記事が埋もれていたのかと思うと感慨深いです。
BigQuery Advent Calendar 2020最終日、25日目のポエムです。
私は今回初めて、アドベントカレンダーを立てる経験をしましたが、25日埋まるBigQueryの技術そのもの、取り巻くコミュニティ、どちらも素晴らしいものだと思いました。実際立てなければ、25記事が埋もれていたのかと思うと感慨深いです。
テーブルの一致判定のクエリを知りたい の対応記事です。 BigQuery テーブルは、リレーショナルデータベースに比べて、強い制約をかけにくいです。 そのため、テスト時には一致性検証が重要になってくるでしょう。 この記事では、BigQuery テーブル一致性を判定するクエリを紹介します。
BigQuery にたまった AutoML の推論結果を全部削除する。 BigQuery は、1000 より多くのデータセットがあると、作成が古い順に Web UI から見れなくなる。AutoML の推論結果はデータセットを増やしやすいので、たまにお掃除する。
BigQuery テーブルの最終参照日を求めて、使ってないテーブルを整理したい。 最終更新日はテーブルのメタ情報に載っているが、参照日は載っておらず簡単に見ることはできない。 BigQuery のクエリログが全て載る Stackdriver Logging に集計処理をかけることで求めてみる。
この記事は Qiita と同様の内容です。
自分は BigQuery で Extract-Load されたデータを機械学習モデル用に前処理し、テラバイト級の特徴量エンジニアリングを行っています。この記事では、BigQuery のデータ量を一切消費せず、誇張なく 1 円も溶かさない裏技をまとめます(2019/12/18 現在)。 ただし、定額クエリやストリーミングインサートは、本記事の対象外です。
AutoML Tables のサービスエージェント権限を持つサービスアカウントで、大量に推論してたら、推論がエラーを吐くようになった。 BigQuery ジョブ一覧を除くと以下のようなジョブが大量に失敗していた。
BigQuery の情報収集の仕方。
この記事は bq_sushi で発表した BigQuery データ前処理の暗黒面 の個人的な解説です。