「Win11 PCの標準ツールだけ」で議事録とか書きたい(AIで)
→ 書くのAIとかにやってもらいたいですね、 という話
(結論:)以下3ステップ
→ ステップ①:
(Windows標準の)「サウンドレコーダー」で録音する。
サウンドレコーダー
正直めっちゃいい
https://scrapbox.io/files/685a85a2f23e7feadc5daefa.png
普通にノートPC内臓マイクでも(マイク感度とかいい感じ調整すれば)まあ聞き取れるぐらいには録音できます
→ ステップ②:
サウンドレコーダーで録音した .mp3 を、Wordの「[トランスクリプト]」機能を使って文字起こしする。
Microsoft Office 365 の無料版でも月300分まで使える。
トランススクリプトの使い方のメモ:
→ (課題)ただし、Wordのトランスクリプトは無料で使える枠の上限があり、それを超えると文字起こし出来なくなってしまうのがネック。(音声ファイルを送信して文字起こしすると、送信した音声の時間分だけ Microsoft Office 365?のアカウントに紐づく利用枠を消費する。来月になるとリセットされる)
#2025/7/27 現在、1月あたり「 300分まで」でそれを超えると音声ファイルを送信できなくなるので、困りそう → なんとかならないのか?
一応方法としてはWordの「ディクテーション」(マイクで拾った音声をリアルタイムに文字起こしして入力していく、動きとしてはキーボードの音声入力みたいな機能)でも文字起こしできます → (Word)ディクテーション の使い方のメモ: でも、「ディクテーション」してる間はPCで他の操作ができないのがネック。(やっぱりメモ書いたり資料探したり したい)
Word 以外に別の方法はないのか。
できれば文字起こしを「ローカルでやれる」といい
(理由)
ローカルで処理できるんだったらきっと利用枠の上限とかないのでは(ちゃんと調べてない)
音声ファイルを送信(アップロード)しなくていい。会議内容を送信しちゃダメ、みたいな問題もクリアできるのでは。
文字起こしをするツール(?)だったら OpenAI の Whisper(ウィスパー)というのが使われているのをよく見る気がする。Openソースで無料で使えるらしい (Whisperって、ツールなのか、そういうWebサービス?の名前なのか、Pythonとかのライブラリの名前?なのか、文字起こしするためのAIの「モデル」の名前?なのか。とか全然分かってない)
→ ステップ③:
文字起こししたテキストを[全部AIに投げる]。(おわり)
→ (課題)議事録作成をいい感じにAIに全部投げるための、いい感じのプロンプト? 以下、考えたメモです
---
・とりあえず、やりたいこと としては、、以下3ステップ
1. まず「会議の会話内容を音声ファイルとかで入手」したり、する
2. そのあと、録音の会話内容を全部「テキスト」にする
3. →( 最終的には、)テキストにした会話内容を、全部AIに渡して 議事録を書いてもらう。
---
以下 3ステップの作業を、「できるだけ楽にやりたい」という事になります
ステップ①:
ミーティングとかを [レコーディング(録音)]する
→’結果として、例えば)
録音した「音声」がmp3 とかm4aとかのファイルで 入手できる、 みたいなのが出来ればいい
ステップ②:
録音した[音声ファイルの内容を全部、テキスト化]する
→ (理想としては、)以下みたいな事が出来たらいい
録音のファイルを、そのまま(何かツールとかに)渡すだけで、
会話した内容を全部1発で 音声 →テキスト(文字)にして返してくれる、みたいな
ステップ③:
手に入ったテキストを[全部AIに渡す]
→ 文章に起こした会議の会話内容を、AIにそのまま全部に送信して、「議事録書いてください」って依頼する 。
結果:[* 議事録が完成]!(おわり)
という感じ。
↑ひとまず こんな感じを目指す。
---
(考え)
とりあえず懸念点、 読み返して思うこと
「会議の内容を全部送る」って たぶんやったらダメそう
たぶん、プライバシーとかコンプライアンスとか的に あんまりよくない
→ どうすればいいのか不明
内容を「全部そのまま」AIとかに送信するのはNG、だったとしても
「回避策」は無いのか
例えば、、送信するテキストの内容を加工して、
「個人情報」 的な部分 だけを XXX.... みたいな文字に変換してマスクする」
みたいなことをすれば、わりと送信してもセーフになる ?/ ならない?
みたいな話とか、あるかもしれん
そのあたりの事、全然知らないので 適当
〇〇情報保護法みたいな そのあたりのルール とか法 とか?よくわがってない
個人情報っぽい「部分だけ」を「XXX」...に置換してマスクする
→ これは、やるの結構難しそう では。
もしこれをやりたくなったとしても
やり方が全然分からない(難しそう)
送信する内容の、個人情報っぽい部分の文字「だけを」マスクって難しそうで
(ただの会話してるだけの文章(自然言語 とか 文脈よむ とかが必要そうで
なんか機械的にはできなさそ うで、難しそうな感じする(予想)
「会議の会話内容」の内容のとか
人名 とか 社名とかの文字だけ とか
みたいな部分を、うまいこと各所ヒットさせて抽出してかろ、各所 xxxx... に置換していく。
もしそんな感じだったとしても、
個人情報っぽい部分を「いい感じに」検出して抽出する、って
その辺のやり方とか、マジで何も分からないな(想像すらない) 。
とか思いました
たぶん、そういう事が出来るツールとかは、探せば見つかりそうな気がする(調べてない)
あと、できれば目指したいこと
(→ 今回やりたいことの 軸)としては
できるだけ、アレコレ使わずに「標準の Win11PC」の環境にあるものだけでやりたい
①:録音
②:音声をテキスト化する → ③:テキストをAIくんに全部投げて議事録を書いてもらう(おわり)
という感じのことを全部デフォルトで入ってる機能とかアプリとか だけでやりたい。
ちゃんと実際に使って試してみたり、やり方調べたり すれば、
(何かしら)やり方が見つかって「とりあえず一回作ってみる」事は結構すぐ出来るんじゃないか?(→ うん、多分できそうでしょ)、とか思ってます
(本音:)
実際のところ、「新しいツールの使い方とかを調べてたりして覚えるのめんどくさ..」とか思ってます
あと、「仕事とかで、会社のPCに、個人的にアプリとかを勝手にインストールするのはあんまり良くない(インストールしたらダメ)」 とかそういう事情があったりするので、標準ツール(+ Officeとか)のみで達成できるのが望ましい。
いけそうでは? と思う
最近、OCR の機能とか、わりといろんなアプリとかで実装されてるのに気づいて ビビる
あと、現代(いま)だと普通にAIとかもあるし
地味に、ちょっと「未来」っぽくなってるわ
改めて思うと、わりとちゃんと未来っぽくなってるわ、とか思います
で!そういうのとか使えるし
あとExcelとか(Oficceとかの 何らか) 使えば
データとかの内容を「画像 → テキスト」とか 「音声 → テキスト」とかにするのって
かなり 普通に出来るようになってる、気がする
→ なので、多分できるんじゃない?という気がする。(結論)
---
とりあえず 各ステップを、どうやったらできそうか?というイメージ
①録音
→ 案1:とりあえず windows 標準?の「サウンドレコーダー」とか でいいのでは。
(PCのマイクで)普通に録音する。だけ
とりあえずこれでいいのでは
→ 案2:Word (Microsoft 365版) で「レコーディング」できる?
ブラウザから使う、Web版の Office のWordの機能で「字幕起こしがいける」らしい?
→ 調べてみた結果:
→ とりあえずちょっとだけ使ってみた結果:
---
Zoomとか Teams とかに搭載されてる機能の「録画(レコーディング)」機能
(今までに、2回くらい 使ってみた事ある) けど
地味にめんどくさい
→ 使い方 とか操作が 結構むずい
自分が(覚えてなくて)よくないだけですが
とりあえずアプリの画面とかメニューとかを見てみても
よく分からない場合
普通に、わざわざ「Zoom Webミーティング 録画 方法」とかで検索したりして調べ なきゃいけない。のでとょっとめんどくさい。と思ってます。
例えばWebミーティングの「録画」ってどうやるのか、みたいに思ったとします。
とりあえずミーティング中に「録画」ボタン押してみたら、
とりあえず録画され初めたっぽいけど
これ..本当に、録画開始できてますよね、
「(ボタン押せてなくて)実はまだ録画開始できてませんでした」とか、ないよね?とか
ふと不安になったりしました
それでさらに)そもそも、
とりあえず「録画」はできてたとして
その後とかも。どうすればいいのか?とか、
(Zoomとかの機能の操作方法とか、使い方が不明)という意味で、)
なんも知ってなかったわ。
普通に、やり方とか「なんかそんな感じじゃね」って勝手にイメージ(妄想)してただけで
よく考えたら、
実際操作して触って見てみたりとか
やり方調べて見てみたりとか実際そういう事は何もしたこともなかったわ
→ つまり、
そもそも普通に、はじめからやり方とか知らんかったよね。
そりゃ時間かかるよね (仕方ないね) 、
など思って、ちょっと納得はできました
「たぶん実際の画面とかみたら多分、なんとなく使い方がわかるっしょ
「出来るんじゃね」という感じの漠然としたイメージだけで、
(何故か できそうな気だけしてて)自信だけあったけど
どうやってやるのか、ぜんぜん知らない
よく分かってなかった
録画機能って、他のアプリでもある機能だし、まあ分かりやすそうだろ
みんな使ってそう (実際、ほんとに 言うほどみんな使ってるか…? というと
そこも全然特に根拠とかはなくて、
マジで「何となくイメージしてた」だけの事が
「実際にそう」である とか、
なんなら「実際にそうだったわ」みたいなレベルで
いつしか、マジで
「絶対これでいけるわ」(確信) みたいに
すり替わってた
みたいな感じで、
記憶がマジで、(自分の勘違いとかで、 )
加工されてる
なんか本気で「そうだった」と思ってても、
思いなおすとホントは記憶かなり間違ってましたわ、とか
(その時)気づかなかったけど、
今思うと、あれハマって思い込んでるだけ(視野狭窄)だったな だったり、
なんかそもそも妄想だったわ、どうしよ… みたいに気づいて愕然とする
みたいなこと、けっこうあるな。
ハマって
わりとそうでもないのかも…?とか思い始めて不安になったり混乱していく
まあたぶん「とりあえず実際の画面とか見たらなんとなく分かって、出来るだろえ とか思ってたんですが、
ぜんぜん分からなかったり
「録画」したデータって一体どこに保存されてるのか? どうやったら受け取れるのか?とかも
よく知らない ので、
やり方調べたり、覚えるのがめんどう
「録画」したデータは、ミーティングが終了した後に、
→ なんか 何かしらの操作をする(忘れました) 事で、、ファイルとして手に入りました(忘れた)
ミーティング中の
画面キャプチャの動画(.mp4) と、
音声(.m4a) のファイルが保存されていて、
それがもらえた。みたいな感じ でした。
(たぶん、「録画」をしてた場合は
ミーティング終了後に、
録画データをファイルに保存するための「変換処理」みたいなのが勝手に起動して始まって、
その録画をファイルとして保存するために(?)
なんか ファイル作成 みたいな「変換処理」」が始まって
それが終わるのを待たないといけなかったり、した
↓ 下みたいな感じの作業をする事になります
(これは たしかZoom の話)
自分が「録画」してた場合だと、ミーティングが終了した後にポップアップ みたいな画面が上がってきて、
「録画したデータの 作成中... 0%」みたいなプロセスが開始される、みたいな感じになります(うろ覚え)
→ その「録画データを保存中.. 」みたいな処理が完了した後、
録画&音声ファイルが手に入ります
(完了した時、実際どうなったのか?とかは、あんまり覚えてない)忘れました..
なんか完了したら、自動的にエクスプローラで保存先のフォルダが開いて、そこにファイルが出来てた
とか、? だったような
とか、完了後「Zommのアプリ既定の保存先のフォルダ」とかに、
.mp4とかが出力されてて、そこにファイルが保存されている
みたいな 感じだったかも(よく覚えてない)
結局、Webミーティングの「録画」って
はじめ、なんとなく「たぶんそんなの簡単にできるんじゃね、できるっしょ」
ぐらいにぼんやり思って、「まあ多分使ってみたらわかるっしょ」ぐらいにナメてたんですが、
実際使ってみても
画面とかよくみてそれっぽい機能探してみたりするけど
よく見てみても、使い方分からん、みたいな事普通にあるし
普通に「Zoom 録画 方法」とかで検索したりして
調べたりしないと使い方わからない とか
そういうのを調べる時間とか、けっこうかかる。
あとデータの処理時間とか、結構かかる(
→ 実際使ってみたら
終わるのを待つのとか、ちょっとめんどう (ぐち)みたいな ちょっと手間、みたいなのはある
ディクテーション だと、
会議後に録音とかも残らない
「会議の後とかになんもしなくていい」感じになるのは楽で よさそう。
(関係無い話)Web版のOffice って正しくは Microsoft Office 365?なのか?とかずっと全然分かってない
----
?「音声を→ 字幕テキストに変換」する方法
前に、一度やってみた事があり そのときどんな感じだったか?メモ
会議が終わった後、
録画データの変換が完了するのに、1時間くらいかかった?
会議の長さ:1時間くらい
録画ファイル →
録音の音声(.mp3)として取得できた。
1時間で2ギガ くらい?のサイズだった気がする
それを、字幕にしたら、文字数で「2万文字 ?」くらいになった気がする
→ それで、
文字数が多すぎて、「AIに全部送信する」ところでも、ちょっと手間がありました
AIに送るチャットで、1回の送信で送れる文字数に制限がある
(最大が 4千文字くらい?だった気がする)
ので、全部送信するには、何回かに分けてちょっとずつ送ったりしないといけない
みたいなのがあって、とりあえずそれをやりました。
が、そういう地味にめんどうくさい、みたいな事もあって、
とりあえずテキストにさえしてしまえば「AIに全部丸投げできる」っしょ、
多分、やることとしては「録画ボタン押す」ぐらいの感じでできるっしょ
なんとなく簡単に出来るっしょ
などと ナメた感じの妄想をしてましたけど
実際やってみると、
いややっぱ手間ではあるわ
なんやかんやで、結構時間かかったりはする
と思いました、という話 でした…(締め)
そうなると、最初「簡単に出来るっしょ」ぐらいに思っていたのに
(そんなに時間かかる、みたいな覚悟もしてなかったので)
なんか余計に
思ったよりギャップあったわ
などあって、「最初から自分で書いた方が早いんじゃね..?」っていう気にもなりました
待ってる間、ふと最初から自分で書いた方が 早かったんじゃね..? とか(とりあえず多少雑でもいいんで)会議中とかに サッとかける感じの、自分で「書き方」を覚えるみたいな方向のほうがよかったんじゃね..?とか)思えてくるような時間もあった
普通に「自分で書けるように」みたいな方でがんばった方が早いんじゃね..?とか、そんな
→ というかたぶん 両方いる(ある程度自分でも書けないとは いけない)
多分、「AIからの回答」をそのまま提出できる!というレベルの回答は
かなり難しくて、
結局ある程度自分で書かないといけないのでほ…、という話は、多分ある
…# 疲れたので、いったんここまで
とします。 (おわり)
---
「音声→ テキスト」へ変換する方法?
Clipchamp とは
「動画エディタ」のアプリで、Microsoft標準のアプリ?として 無料で使えるやつ
「(字幕)キャプションの自動挿入」? みたいな名前の機能があって、
その機能をつかって音声を「テキスト(文字)」に変換できる。
機能としては「動画の音声を解析して、「字幕」を作成して、動画内に自動で追加できますよ」といった感じの機能
なんですが
その機能で「音声からテキストを生成して取得」はとりあえずできた。
音声から生成された"字幕"の内容が、全部「コピペできる文字(テキスト)」として取得できて、
「クリップボードにコピーして取得する」事とかも出来た、
「音声→ テキスト」へ変換したい、という事については特に困ることなく普通に使えました
(ちなみに 動画エディタ としての 「キャプション」機能としては、それだけではなく)
例えば 、「字幕を動画に表示させる タイミング」とかも良い感じにぜんぶ 自動で調整してくれ たり する、とか
字幕のデザイン とかフォントとか、表示位置とかを、
動画全体の 字幕の設定を、1回の操作で(一括でまとめて)変更できたりできる
とかできて 便利そう、 とか思いました
字幕をマジで自動でやってくれる感じで便利そう
結構すご、無料で使えるのなどと思いました。 (感想)