全録音生活を試してみる
ガヤ
多分マージでページが増えていくだろうからガヤを上の方においておくSummer498.icon
深層学習モデルにひたすら音声を聞かせ続けるのとか面白そうなんだよな
人間が周りの環境を聞いて学ぶのと同じように聞いて学ぶ
ぷら1はるひ.iconterang.icon
専門家同士がべらべら喋る会議とか録音してないのもったいないく感じてしまう
Zoomのユーザーごとの個別オーディオファイルをLLMに食わせるのとかは、既に誰かやってそうだterang.icon
ぼちぼちテキストに置き換えずに音声を音声のまま扱えるようになるはずなので、そうなったら面白くなりそうnomadoor.icon
fMRIのデータから画像復元とかやってたし、音声からその場の空間の様子を復元とかそのうちできそうだな
from 2025/06/06
inajob.icon
同じような取り組みを発見
自作AIボイスメモシステム AppLaud|Naoki |電電猫猫
気兼ねなく録音できて、手軽にテキスト化され、Obsidianで一元管理できる
ボイスレコーダーで音声を取ってmacにつなぐ自動で要約をmarkdownで出力してくれる
GitHub - nyanko3141592/AppLaud
オープンソースで公開してあるのが素晴らしい
文字起こしは Geminiを使っている
from 2025/06/06
inajob.icon
コード書きの中で生成AIが成長していって欲しいと思ったで知った、「知識を蓄積する」というのを仕込んでみたい
このケースで蓄積する知識とは何か・・
再利用出来る知識を表すjsonファイルを用意し、そこに知識を配列に詰めてもらっている
知識の追加された日と活用できた回数も記録して、知識がたまってきたらこれを基準にゴミ掃除する作戦
ゴミ掃除をLLMにやらせようとしたらものすごい時間がかかるようだったので、これは普通にプログラムを書いた
プログラミングでできることはプログラミングでやるほうが確実だしコストも低い
このコードはLLMが書いたものをベースにして作った
数日ぶん回してみたが、もう少しプロンプトを工夫しないと面白い結果にならないな
得られた知識を適当に抜粋・成形してみる
パパ
家事(片付け)をすることがある(8回活用された)
(娘)と行動を共にすることがある(14回活用された)
(娘)と揉めることがある(6回活用された)
パパは話すことがあり、おならが遠くまで届くという冗談めいた話がある(5回活用された)
なにこれinajob.iconqwerty1234.icon
パパは疲労を感じており、一旦休憩したいと願っている(8回活用された)
ママ
家でご飯の準備をすることがある 7
買い物に行くことがある 3
娘
5歳 6
食べることが好き 11
外出することがある 9
食事中にウロウロしたり、ゴロゴロしたり、毛布を食事の場所に持ち込む癖があるが、ウロウロしないよう指導されている 6
補助輪なしで自転車に乗れるが、さらに練習を重ねている 5
機嫌が悪くなることがある 16
娘のことは名前呼びしているので、娘に関する知識はたくさん集まっている
パパ・ママも娘に話すときは主語を明確に話すのである程度情報が集まる
ここまでは、録音データからいくつもの断片的なの知識を収集していたが、再利用可能な知識を収集しようとして、意図せず知識間の構造のようなものを構築出来るようになった
LLMは勝手にjsonの構造をいじって、階層構造で知識を組み立てている
ここまで試すと、いままでの録音データから作られたショットショットの知識は、「イベント」とか「トピック」という感じで、この構造化されたものこそが「知識」という気がしてきた
ただ、この知識はコンテキストに乗る範囲でしか扱えないのが難点
細かく見ていないが3~4日分の知識を入れるとコンテキストからあふれるのか、返却されるJSONの構造がおかしくなる(後ろが切れているっぽい)
1か月くらいの知識はゴミ掃除なしで蓄積したい
そのためにゴミ掃除の仕組みを入れた
from 2025/05/26
inajob.icon
inajob.icon15ドルで情報収集の未来を体験!自作「全録音生活」システムを試してみた - inajob's blog
ためろくの書きおこしから記事を作ったので口調がいつもと違いますが・・
冷静に読めないのでこれで良いのかわからない
from 2025/05/24
inajob.icon
録音から得られた情報を基に、うんちくを語らせる実験をしている
単なるうんちくより、状況がマッチしているので頭に入ってくるかもしれない
青アザのケアと出発前の身体確認
蘊蓄:「青あざ」は、医学的には皮下血腫と呼ばれ、血管が破れて血液が皮下組織に漏れ出すことで生じます。この「青」という色は、血液中のヘモグロビンが時間とともに変化する際に、様々な色(赤→青紫→緑→黄褐色)に変わっていくためです。あざの色で、おおよその時間が経過しているかを判断することもできます。
丁度娘のひざに青あざが出来ているので、こういう話にも興味がわく
from 2025/05/22
inajob.icon
音声に前処理をすると書きおこし精度が上がった(あたりまえ)
昨日の記録から得られたナレッジ(おもしろいやつ)
ワッチャネームのクリア : ゲーム「ワッチャネーム」をクリアしたことを報告。
お好み焼きの好み : お好み焼きは材料で味が大きく変わる。美味しいお好み焼きがあれば教えてほしい。お好み焼きは頻繁に食卓に上がる料理ではないため、特に好き嫌いはないかもしれない。
ポップコーンの謎 : ポップコーンがどこから来たのか不明。
よくわからない系
インコシチ : インコシチは食べない。ピューと鳴いて教えてくれるので、食べさせようか検討。
ろくが出た : 「ろくが出たー」という発言。何が出たのか、状況は不明。
帰りのウンチ : 磯潜りの際、帰りのウンチのことも考えて進む必要がある。
イラガネ : イラガネをいっぱい描いている。
チューリー : チューリー!
すごい好きかもしれないはるひ.icon
from 2025/05/20
inajob.icon
#inajob の試しに録音してみた talk100: 全録音生活を試しているで言及
チャットのログからLLMでWikiのようなデータを作ると同じような仕組みで全録音したデータからナレッジを抽出してデータベースに格納する実験をしている
inajob川より流速が早いのでナレッジが早くたまる
聞き間違いによりゴミのようなナレッジが大量に発生している
from 2025/05/17
inajob.icon
科学館に遊びに行く1日中をすべて録音した
返ってきて1時間くらい?ですべての文字起こしが完了
faster-whisperでローカル文字起こし
Gemini 2.5 Flashを使うと何をした1日だったかは、良い感じで出力された
2.0 Flashでもまぁ何とかまとめられそうだったが、油断するとだらだらあったことを羅列するだけになった(運が悪かった・良かっただけかも)
野外環境での録音の品質が気になったが、自分の声だけなら問題なく文字起こしできていた
娘の声は録れていない様子
NotebookLMに入れてちょっとリクエストを添えてポッドキャストにしてもらった
科学館とラーメン
https://scrapbox.io/files/6829e30f17c6c43d7875e5c7.mp3
PLAUDがこういう感じなのかな?
1日録音できるウェアラブルレコーダーは$16程度で買えるので、気になる人は試してみると良いと思う
ウェアラブルレコーダーと書いたが、これ要は盗聴器だと思う
PLAUDは似てるけど、ベクトルが違ってて、全録音生活だと合わないと思われるtaktamur.icon
明確に「開始」と「終了」がある
確かに、自分のイメージは勝手にすべて録音されていること、でしたinajob.icon
音声データとテキスト起こしをする操作が結構面倒
アプリ操作+ブラウザ操作をやって、やっと取り出せる
音声データがほしいだけなのに、、、
月毎のテキスト起こし時間が決まってて、溢れたら有料になる
勝手に「要約」とか「改善提案」をしたがるのがイラッとくる
音声メモのテキスト起こしだけが欲しいのに、余計な事をしやがってくれる。
自分の場合は単に文字起こししただけなので、逆にこれから何をやろうか・・と思っているinajob.icon
PLAUDも提供側が知恵を絞ってこの機能を付けたに違いない
「営業サポート」という視点だととても良い機能に思えるので、そこにハマれば良い商品。taktamur.icon
from 2025/05/17
inajob.icon
AliExpressで身に付けられるオーディオレコーダを買った
1日中録音して、後で文字起こしみたいなことはもうできる時代なのだろうか?
Whisperで雑に試したら(Audacityのプラグイン)録音時間の2倍くらい処理時間がかかる上に、文字起こしは謎のフレーズの繰り返しで埋め尽くされた
何かチューニングすれば良いのかな?
ワンタッチでそこそこよい文字起こしができるようになったらまた試すかな・・
AIに詳しい人教えて!
Voskで試したら意味のある文字が出てきた
けど話した内容からは遠い文字起こしが多い
で も パパ は なぜ 販売 食べ 食べる か と いう と 夜 お腹 が 空い て 目 が 覚め たら お腹 は 地域 が 悪い し 眠く て 機嫌 悪い から でしょ
これをGeminiとかに食わせるとだいたい何の話をしてたくらいかはわかりそう
faster-whisper
pip1つでインストールできた
精度がよさそう
でもパパはなぜ頑張って食べてるかっていうと、夜お腹が空いて目が覚めたらお腹は空いて機嫌が悪いし、眠くて機嫌悪いから大変でしょ。
これならいけるか!?
子供と生活していると大き目の声ではきはきしゃべるので全録文字起こし生活と相性がよさそう