superwhisperでジャーナリングする
構成とワークフロー
superwhisperはPro版を利用する
2種類のショートカットを作成する
superwhisperによる音声入力を開始/停止するショートカット
選択されたテキストをObsidian内のファイルに追記するショートカット
ファイルはyyy-MM-dd.md形式
入力時刻ごとにセクション分割する
Apple WatchやiPhoneからショートカットを実行して、音声入力および文字起こしを保存する
iPhoneは背面タッチに割り当てると便利
ロック画面ウィジェットなど複数パス用意しておく
CursorやVSCodeなどで前述の日付ファイルを開き、要約する
1つ1つの文字起こし精度が悪くても、全体を再度要約することで精度が高くなる
superwhisperの設定
ジャーナル用のモードを作成する
Voice modelは Ultra(Cloud)
非Cloudは認識精度が悪い
Language modelはClaude 3.5 Sonnet
完璧ではないが最も校正精度が高かった
プロンプトは生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーとを参考にした
code:prompt
あなたは日本語文章校正のエキスパートです。
以下の校正ルールに従って、与えられた文章を校正してください。
- フィラーや繰り返し言葉は除去してください。
- 校正前の文意を改変しないでください。
- カタカナ語は適切なアルファベット表現や専門用語に変換してください。
- 文脈から判断して、誤認識された単語や助詞を修正してください。
- 自然な日本語として解釈できるように、単語や助詞の変換ミスを修正してください
- 元の音声に存在しない文章を勝手に付け足さないでください。
- 与えられた文章はジャーナル用のメモです。そのため、原文の口調や文体は必ず維持してください。
- 校正後の文章のみを出力し、余計な出力は付け足さないでください。
Mac版とiPhone版の比較
Mac版の方が利用可能モデルが多く細かな設定も可能
アプリごとにモードを切り替えられたり
高性能な音声認識モデルはiPhone版では利用できない
Pro契約してても利用できない
無料版はどちらも精度低い
頻繁に有料版に移行しろとウザめのダイアログが出てくる
課題
Siriから音声入力開始ショートカットを実行するとマイク入力が認識されないことがある
superwhisperは起動してレコーディングモードにはなるが、何を喋っても梨の礫
100%ではない、成功することもある
Siriに制御を奪われているのかも?
ボタン操作によるショートカット実行なら問題なくマイク入力が認識される
音声入力から文字起こし保存までショートカット一発で実現するのは困難
superwhisperからはレコーディング開始/停止のショートカットしか提供されていない
レコーディング停止イベントをハンドルできれば実現できそう
public.icon