AudioPen
https://audiopen.ai/
https://www.youtube.com/watch?v=FfoWRBzRH18
音声入力のCosenseみたいなやつ
面白いsta.icon
/stao/デュアルエディットみたいな妄想してたけど、そうか、LLMでもう手に届くのか
動画見た、ノーコードならぬノーライティング(No Writing)なのかもしれないっておもった
tokoroten.icon(ボイス入力)
えっと だからですね もう 音声入力って現実 LINE を超えてきたんですよでえっと 何だろう その AI による整形がその後に入るんで えっと その フィラーとかが大量に入った文章とかもが なんとかしてくれるんですね だからその 何だろう そろそろ まともな企業はボイス入力を主軸に置いてその上で AI で整形するっていう プロセスをうまいこと 整えた方がいいんちゃうかな とは 思ってます
bsahd.icon(人力整形)
音声入力って現実ライン(?)を超えてきたんですよ。AI による整形がその後に入るんでフィラーとかが大量に入った文章とかなんとかしてくれるんですね。そろそろ、まともな企業はボイス入力を主軸に置いてその上で AI で整形するっていうプロセスをうまいこと整えた方がいいんちゃうかなとは思ってます
音声入力テキストの整形くらいなら、だいぶ低性能のLLMでもよさそうbsahd.icon
gemini nanoとかがchromeにインクルードされているから、これを使えばたぶんよさそうtokoroten.icon
https://zenn.dev/the_exile/articles/chrome-gemini-nano
とはいえ、実用には少々しんどい感じの性能
Whisperとか最初からフィラーを認識しにくいモデルがあるはずbsahd.icon
code:txt
% ollama run qwen2.5:1.5b < prompt.txt
音声入力は現実のLINEを超えてきた。AIによる整形がこれから入る。フィラーは大量
に入った文章とかも、うまくしてくれる。そのためそろそろまともな企業はボイス入
力を主軸に、その後AIで整形するプロセスを改善すべきかと考えている。
このサイズのモデルでギリギリかな〜