第30回Podcast 振り返りレポート

25 Feb, 2025
- Podcast

今回のポッドキャストは30回目ということで、振り返れば結構続いてるなぁと思いつつ、いつも通り竹内（@rikson_en）とジムの行き帰りにトークを録音してきました。内容をざっくりご紹介します。

1. ズンだもんと最新音声補正技術の誤解

前回のPodcastで、竹内が僕の壊れたマイク音声を「ずんだもん」というAIキャラ音声に差し替えたんですが、どうもそれを冗談半分で「最新の音声補正技術を使ってる」と言ってしまったらしく、生成AIで文字起こししたときに “本当に最先端の技術を使ってるんだ” みたいな内容でまとめられてしまったんですよね。

実際は竹内が手動で文字起こしして、ずんだもんを合成したわけで、そこまでハイテクじゃない（笑）。Whisperなどの自動文字起こしを試してはみたものの、音源の質が悪いと精度がイマイチってことで、結局ローテクで何とかしたみたいです。
竹内曰く

「冗談をそのまま記事にしないでほしい」

確かに僕も「ずんだもんでみんな和むよ」みたいな言い方しましたが、竹内いわく「なごばないでしょ」とツッコミが。まぁ、可愛い声で置き換えられれば良いのかなと軽く考えてたら、結構問題視されたというオチです。

2. ライブラリ名とディスクリプションの工夫

もう一つ、竹内から「Podcastの説明欄に使用したライブラリ名を入れてほしい」という要望がありました。たとえばESLint や TypeScript など、会話の中で出てくるライブラリは検索性（Googleability）の観点で重要ということ。

Podcastの広報担当（？）としては、ディスクリプションやブログ記事にこういったキーワードをしっかり入れておくと、検索流入も狙えるというわけですね。今後は気をつけます！

3. 声質の問題と女性ボイスへの検討

30回もPodcastを続けてきて思うのが、竹内と僕、声が似ているらしいです。竹内いわく「ミスチル系の尖った感じで、トーンも同じだから聴き分けにくい」とか。自分ではあまり実感がないんですけどね。

そこで検討しているのが「女性ボイスへの変換」。ただ、実際にやるとなると

別チャンネル立ち上げる？
混在音源で本当にうまく変換できるの？
ABテストできるほどリスナー多くないよね？

みたいな課題が多くて簡単ではない模様。竹内の技術力でどうにかなるのか、ちょっと今後の展開を期待です。

4. ノイズ除去作業の現状と自前運用の可能性

録音後の編集は竹内が大変みたいで、現状はクラウドサービスのノイズリムーバーを使っているものの、ファイルサイズ制限があって

音源を短く分割
アップロード
ノイズ除去
ダウンロード
最後に繋ぎ直し

という面倒な手順。
竹内としては、オープンソースのノイズ除去ツールをローカルに導入してノイズ除去を自前化できれば、ファイル分割作業もなくなるしラクになるとのこと。でもMacだと動くか不明、GPUマシンが要るのかも……など、試行錯誤が必要そうです。

5. GPUマシン導入 vs. クラウド利用

ノイズ除去だけでなく、最近は LLM（大規模言語モデル）やStable Diffusion などをローカルで動かしたいニーズが増えてきましたよね。

「一家に一台GPUマシン」が当たり前になるのか？
それともクラウドのAPIに投げたほうが安いのか？
NVIDIA製の小型開発用GPUマシン（30万円ぐらい？）が出るらしいという噂も…

あれこれ話してたんですが、結論としてはまだお金かかるから悩ましい。NAS兼GPUマシンを作るとか、電気代の観点もあるとか、自宅サーバーっぽいロマンと現実のコストがぶつかっております。

6. 紙ストローの話題（雑談）

途中で急に話が逸れたんですが、紙ストローって実はあんまり環境に良くないんじゃないかという話に。

ウミガメの動画バズりで「プラスチックストローは可哀想」となり紙に置き換え
しかし重量や燃やすときのCO2排出などでむしろ負荷が高いという指摘がある

という、なんだか「意味あるの？」と思うようなムーブメントでした。まぁ、こういうエモーショナルな動きはSNSで起こりがちというわけですね。

7. Devin AIのレビュー

今回のメインは実はここ。「Devin AI」という、自然言語で指示を出すと自動でリポジトリをクローンし、環境構築して、コード修正して、Pull Requestまで投げてくれるAI。竹内が触った感想はこんな感じ。

ライブラリのバージョンアップ（ESLintやTypeScript）
- 小粒タスクだとスムーズに動いてテストが通るまでリトライしてくれる。
- 使い方はチャット画面に「ESLintを最新版に上げてテスト通して」と入力するだけ。
複雑なタスク（ユニットテストが通らない修正など）
- 何度も試行錯誤を繰り返して長時間ループする場合がある。
- 従量課金（分単位）が高くつきそうで、40分くらいやらせた時点で「予算がヤバい」と止めた。
レベルの低いエンジニア不要？
- ルーチンワークやちょっとした修正を任せるには非常に便利。
- 逆に言えば「バージョンアップ専用の人員」を雇うよりも安いかもしれない。
- ただし仕様の理解など高い文脈が必要な開発はまだ難しい。

要するに、簡単でコンテキストが浅いタスクは得意だけど、込み入った修正はまだ厳しいという印象ですね。費用と時間を考えると万能ではないものの、近い将来もっと賢くなるだろうと予感するツールでした。

まとめ

ズんだもんの声や女性ボイスへの変換は面白いアイデアだが、ちゃんと編集意図や冗談が伝わらないと「最新技術か!?」と誤解されがち。
検索キーワード（ライブラリ名など）はディスクリプションに入れると良し。Podcast広報的には大事な工夫。
ノイズ除去やLLMの活用のためにGPUマシンが欲しい……がコストが悩みどころ。
Devin AI は小粒タスクの自動化が得意で、Pull Requestまで一気にやってくれるものの、長時間ループには注意。
紙ストローみたいに、世間には「一見よさそうだけど実は…」な話題が転がっている。

以上、第30回Podcast の大まかな流れでした。こうして毎回ジムの行き帰りに雑談しているだけなんですが、気がついたら30回も続いているのは自分たちでもちょっと驚き。引き続き、マイペースで配信していきたいと思いますので、よろしければお付き合いください。

今回の話に出てきたツール等

項目	説明	公式ページ
Whisper (音声認識)	C++実装の音声認識AIモデル	GitHub
ずんだもん (合成音声)	日本のボーカルシンセサイザーキャラクター	zunko.jp
myedit (クラウド型ノイズリムーバー)	オンライン音声ノイズ除去ツール	myedit.online
ESLint / TypeScript	JavaScript/TypeScript開発のリンター	typescript-eslint.io
Devin AI	自動コード修正・PR作成AI	devin.ai
GitHub Copilot / Copilotワークスペース	コード生成AIツールとその拡張機能	GitHub
Stable Diffusion	テキストから画像生成AIモデル	stability.ai

AI×ロボット革命 | 新井亨, 鄭剣豪 | 工学 | Kindleストア | Amazon amazon.co.jp

Amazonで新井亨, 鄭剣豪のAI×ロボット革命。アマゾンならポイント還元本が多数。一度購入いただいた電子書籍は、KindleおよびFire端末、スマートフォンやタブレットなど、様々な端末でもお楽しみいただけます。

第30回Podcast 振り返りレポート

1. ズンだもんと最新音声補正技術の誤解

2. ライブラリ名とディスクリプションの工夫

3. 声質の問題と女性ボイスへの検討

4. ノイズ除去作業の現状と自前運用の可能性

5. GPUマシン導入 vs. クラウド利用

6. 紙ストローの話題（雑談）

7. Devin AIのレビュー

まとめ

今回の話に出てきたツール等

Similar Posts

Podcast配信計画

最近買ったガジェットのベストバイ

「市長選妄想」からRDS移行問題まで