第30回Podcast 振り返りレポート
- 25 Feb, 2025
今回のポッドキャストは30回目ということで、振り返れば結構続いてるなぁと思いつつ、いつも通り竹内(@rikson_en)とジムの行き帰りにトークを録音してきました。内容をざっくりご紹介します。
1. ズンだもんと最新音声補正技術の誤解
前回のPodcastで、竹内が僕の壊れたマイク音声を「ずんだもん」というAIキャラ音声に差し替えたんですが、どうもそれを冗談半分で「最新の音声補正技術を使ってる」と言ってしまったらしく、生成AIで文字起こししたときに “本当に最先端の技術を使ってるんだ” みたいな内容でまとめられてしまったんですよね。
実際は竹内が手動で文字起こしして、ずんだもんを合成したわけで、そこまでハイテクじゃない(笑)。Whisperなどの自動文字起こしを試してはみたものの、音源の質が悪いと精度がイマイチってことで、結局ローテクで何とかしたみたいです。
竹内曰く
「冗談をそのまま記事にしないでほしい」
確かに僕も「ずんだもんでみんな和むよ」みたいな言い方しましたが、竹内いわく「なごばないでしょ」とツッコミが。まぁ、可愛い声で置き換えられれば良いのかなと軽く考えてたら、結構問題視されたというオチです。
2. ライブラリ名とディスクリプションの工夫
もう一つ、竹内から「Podcastの説明欄に使用したライブラリ名を入れてほしい」という要望がありました。たとえばESLint や TypeScript など、会話の中で出てくるライブラリは検索性(Googleability)の観点で重要ということ。
Podcastの広報担当(?)としては、ディスクリプションやブログ記事にこういったキーワードをしっかり入れておくと、検索流入 も狙えるというわけですね。今後は気をつけます!
3. 声質の問題と女性ボイスへの検討
30回もPodcastを続けてきて思うのが、竹内と僕、声が似ている らしいです。竹内いわく「ミスチル系の尖った感じで、トーンも同じだから聴き分けにくい」とか。自分ではあまり実感がないんですけどね。
そこで検討しているのが「女性ボイスへの変換」。ただ、実際にやるとなると
- 別チャンネル立ち上げる?
- 混在音源で本当にうまく変換できるの?
- ABテストできるほどリスナー多くないよね?
みたいな 課題 が多くて簡単ではない模様。竹内の技術力でどうにかなるのか、ちょっと今後の展開を期待です。
4. ノイズ除去作業の現状と自前運用の可能性
録音後の編集は竹内が大変みたいで、現状はクラウドサービスのノイズリムーバーを使っているものの、ファイルサイズ制限があって
- 音源を短く分割
- アップロード
- ノイズ除去
- ダウンロード
- 最後に繋ぎ直し
という 面倒な手順 。
竹内としては、オープンソースのノイズ除去ツールをローカルに導入してノイズ除去を自前化 できれば、ファイル分割作業もなくなるしラクになるとのこと。
でもMacだと動くか不明、GPUマシンが要るのかも……など、試行錯誤が必要そうです。
5. GPUマシン導入 vs. クラウド利用
ノイズ除去だけでなく、最近は LLM(大規模言語モデル)やStable Diffusion などをローカルで動かしたいニーズが増えてきましたよね。
- 「一家に一台GPUマシン」 が当たり前になるのか?
- それともクラウドのAPIに投げたほうが安いのか?
- NVIDIA製の小型開発用GPUマシン(30万円ぐらい?)が出るらしいという噂も…
あれこれ話してたんですが、結論としてはまだお金かかるから悩ましい。NAS兼GPUマシンを作るとか、電気代の観点もあるとか、自宅サーバーっぽいロマンと現実のコスト がぶつかっております。
6. 紙ストローの話題(雑談)
途中で急に話が逸れたんですが、紙ストローって実はあんまり環境に良くないんじゃないかという話に。
- ウミガメの動画バズりで「プラスチックストローは可哀想」となり紙に置き換え
- しかし重量や燃やすときのCO2排出などでむしろ負荷が高いという指摘がある
という、なんだか 「意味あるの?」 と思うようなムーブメントでした。まぁ、こういうエモーショナルな動きはSNSで起こりがちというわけですね。
7. Devin AIのレビュー
今回のメインは実はここ。「Devin AI」という、自然言語で指示を出すと自動でリポジトリをクローンし、環境構築して、コード修正して、Pull Requestまで投げてくれるAI。 竹内が触った感想はこんな感じ。
-
ライブラリのバージョンアップ(ESLintやTypeScript)
- 小粒タスクだとスムーズに動いてテストが通るまでリトライしてくれる。
- 使い方はチャット画面に「ESLintを最新版に上げてテスト通して」と入力するだけ。
-
複雑なタスク(ユニットテストが通らない修正など)
- 何度も試行錯誤を繰り返して長時間ループする場合がある。
- 従量課金(分単位)が高くつきそうで、40分くらいやらせた時点で「予算がヤバい」と止めた。
-
レベルの低いエンジニア不要?
- ルーチンワークやちょっとした修正を任せるには非常に便利。
- 逆に言えば「バージョンアップ専用の人員」を雇うよりも安いかもしれない。
- ただし仕様の理解など高い文脈が必要な開発はまだ難しい。
要するに、簡単でコンテキストが浅いタスクは得意だけど、込み入った修正はまだ厳しい という印象ですね。費用と時間を考えると万能ではないものの、近い将来もっと賢くなるだろうと予感するツールでした。
まとめ
- ズんだもんの声や女性ボイス への変換は面白いアイデアだが、ちゃんと編集意図や冗談が伝わらないと「最新技術か!?」と誤解されがち。
- 検索キーワード(ライブラリ名など)はディスクリプションに入れると良し。Podcast広報的には大事な工夫。
- ノイズ除去やLLMの活用のためにGPUマシンが欲しい……がコストが悩みどころ。
- Devin AI は小粒タスクの自動化が得意で、Pull Requestまで一気にやってくれるものの、長時間ループには注意。
- 紙ストローみたいに、世間には「一見よさそうだけど実は…」な話題が転がっている。
以上、第30回Podcast の大まかな流れでした。こうして毎回ジムの行き帰りに雑談しているだけなんですが、気がついたら30回も続いているのは自分たちでもちょっと驚き。引き続き、マイペースで配信していきたいと思いますので、よろしければお付き合いください。
今回の話に出てきたツール等
項目 | 説明 | 公式ページ |
---|---|---|
Whisper (音声認識) | C++実装の音声認識AIモデル | GitHub |
ずんだもん (合成音声) | 日本のボーカルシンセサイザーキャラクター | zunko.jp |
myedit (クラウド型ノイズリムーバー) | オンライン音声ノイズ除去ツール | myedit.online |
ESLint / TypeScript | JavaScript/TypeScript開発のリンター | typescript-eslint.io |
Devin AI | 自動コード修正・PR作成AI | devin.ai |
GitHub Copilot / Copilotワークスペース | コード生成AIツールとその拡張機能 | GitHub |
Stable Diffusion | テキストから画像生成AIモデル | stability.ai |