Google I/O Extended Tokyo 2025 キーワード集 2
2025/7/5 13:40
https://usercontent.griddles.me/phonnoanno/share/yW7P4kd4Kh9V#anno.webp
マップ上のオブジェクト(店や道路など)のデータが公開されることが決まった
ルート、プレイス、イメージ
公共交通機関
道路標識
ストリートビューから取得した画像をAIで認識している
データをいれることと、抽出だけを考える
集計や統計が得意なデータベースと捉えておけばよし
通常のDBのような各レコードをチクチク更新するような用途は向いていない
「ここの緯度経度を教えて」
「そして、半径5km以内にどんなものがあるか教えて」
BigQuery Studio
GEO関数
少し精度が荒い
250m粒度は荒い
たしかに土地が広いアメリカでは十分かもしれないが、日本ではちょっと厳しいよね
100mくらいにはしたいよね
ドンズバな情報が出ない
情報は持っているが、閾値以下の件数のカテゴリは返さない仕様
件数が少なすぎると特定されてしまうため
CreanRoomで提供
今日のデモしたことの一般公開はどれくらい?
来月のGoogle Next Tokyo 2025くらいにはなにかアクションがあるのではないか?
無償提供はありえないと思う。有償の課金体系も現在チームと検討中。
マイマップの情報は使われるか?
確かな情報は知らないが、おそらく使われていないのではないか
https://usercontent.griddles.me/phonnoanno/share/Wy0h1lXoBRzV#anno.webp
Geminiがtoolsを使ってその結果を音声で返してくれる
Text to speech
たんに読み上げるだけでなく、プロンプトで言い方を指定できる
SSML vs Prompting
SSML: 強弱や抑揚などをXMLでラベル付けする
Prompting
多少の誤読はあるが試してみると楽しい
中間指示としてSSMLを生成させてそれに従って喋らせるのもありかも?
code:txt
りさ: ...
健二: ...
のように書いて、人物ごとに声のスタイルを指定する
これAPIあったのか!!daiiz.icon
Generate Media > Generate speech
https://usercontent.griddles.me/phonnoanno/share/hpPQ2PQ6NTRR#anno.webp
https://gyazo.com/4ae0cfeb258c6b867ab83bdf71415610
ここで実験してコードも取得できる
Control timing 2
wait 10 seconds
Style
早口言葉です
不気味そう
Style Instruction
文頭で指定できる
Paralinguistic Cues
文の途中で指定することもできる
(very slowly), (as fast as possible), (laugh)
Action Dictionary
https://usercontent.griddles.me/phonnoanno/share/S2q3pQ8heYT6#anno.webp
Developer Relation Engineer
AI Agentsを構成するコンポーネント
モデル: Gemini
Brain, desision maker
オーケストレーション: Agent Development Kit (ADK) Agent開発に最適化されたPythonフレームワーク
フルマネージドでスケーラブルなデプロイ
モデルへの非依存
フレームワークへの非依存
Agentic アーキテクチャの人気どころ
https://gyazo.com/b12097e047ae320442a03c7a91704fff
Hierarchical
Supervisor
Agent同士のやり取りのオープンな共通企画とエコシステム
Nav changes old "Agent Builder" -> "AI Application"
Googleがいまかなり力を入れている
まったくコードを書けなくてもエージェントを作れる
コードを書ける人向け
これからどんどん改善されていく
AI Query Engine