第30回Podcast 振り返りレポート

今回のポッドキャストは30回目ということで、振り返れば結構続いてるなぁと思いつつ、いつも通り竹内(@rikson_en)とジムの行き帰りにトークを録音してきました。内容をざっくりご紹介します。

Play

1. ズンだもんと最新音声補正技術の誤解

前回のPodcastで、竹内が僕の壊れたマイク音声を「ずんだもん」というAIキャラ音声に差し替えたんですが、どうもそれを冗談半分で「最新の音声補正技術を使ってる」と言ってしまったらしく、生成AIで文字起こししたときに “本当に最先端の技術を使ってるんだ” みたいな内容でまとめられてしまったんですよね。

実際は竹内が手動で文字起こしして、ずんだもんを合成したわけで、そこまでハイテクじゃない(笑)。Whisperなどの自動文字起こしを試してはみたものの、音源の質が悪いと精度がイマイチってことで、結局ローテクで何とかしたみたいです。
竹内曰く

「冗談をそのまま記事にしないでほしい」

確かに僕も「ずんだもんでみんな和むよ」みたいな言い方しましたが、竹内いわく「なごばないでしょ」とツッコミが。まぁ、可愛い声で置き換えられれば良いのかなと軽く考えてたら、結構問題視されたというオチです。

2. ライブラリ名とディスクリプションの工夫

もう一つ、竹内から「Podcastの説明欄に使用したライブラリ名を入れてほしい」という要望がありました。たとえばESLint や TypeScript など、会話の中で出てくるライブラリは検索性(Googleability)の観点で重要ということ。

Podcastの広報担当(?)としては、ディスクリプションやブログ記事にこういったキーワードをしっかり入れておくと、検索流入 も狙えるというわけですね。今後は気をつけます!

3. 声質の問題と女性ボイスへの検討

30回もPodcastを続けてきて思うのが、竹内と僕、声が似ている らしいです。竹内いわく「ミスチル系の尖った感じで、トーンも同じだから聴き分けにくい」とか。自分ではあまり実感がないんですけどね。

そこで検討しているのが「女性ボイスへの変換」。ただ、実際にやるとなると

  • 別チャンネル立ち上げる?
  • 混在音源で本当にうまく変換できるの?
  • ABテストできるほどリスナー多くないよね?

みたいな 課題 が多くて簡単ではない模様。竹内の技術力でどうにかなるのか、ちょっと今後の展開を期待です。

4. ノイズ除去作業の現状と自前運用の可能性

録音後の編集は竹内が大変みたいで、現状はクラウドサービスのノイズリムーバーを使っているものの、ファイルサイズ制限があって

  1. 音源を短く分割
  2. アップロード
  3. ノイズ除去
  4. ダウンロード
  5. 最後に繋ぎ直し

という 面倒な手順 。
竹内としては、オープンソースのノイズ除去ツールをローカルに導入してノイズ除去を自前化 できれば、ファイル分割作業もなくなるしラクになるとのこと。 でもMacだと動くか不明、GPUマシンが要るのかも……など、試行錯誤が必要そうです。

5. GPUマシン導入 vs. クラウド利用

ノイズ除去だけでなく、最近は LLM(大規模言語モデル)やStable Diffusion などをローカルで動かしたいニーズが増えてきましたよね。

  • 「一家に一台GPUマシン」 が当たり前になるのか?
  • それともクラウドのAPIに投げたほうが安いのか?
  • NVIDIA製の小型開発用GPUマシン(30万円ぐらい?)が出るらしいという噂も…

あれこれ話してたんですが、結論としてはまだお金かかるから悩ましい。NAS兼GPUマシンを作るとか、電気代の観点もあるとか、自宅サーバーっぽいロマンと現実のコスト がぶつかっております。

6. 紙ストローの話題(雑談)

途中で急に話が逸れたんですが、紙ストローって実はあんまり環境に良くないんじゃないかという話に。

  • ウミガメの動画バズりで「プラスチックストローは可哀想」となり紙に置き換え
  • しかし重量や燃やすときのCO2排出などでむしろ負荷が高いという指摘がある

という、なんだか 「意味あるの?」 と思うようなムーブメントでした。まぁ、こういうエモーショナルな動きはSNSで起こりがちというわけですね。

7. Devin AIのレビュー

今回のメインは実はここ。「Devin AI」という、自然言語で指示を出すと自動でリポジトリをクローンし、環境構築して、コード修正して、Pull Requestまで投げてくれるAI。 竹内が触った感想はこんな感じ。

  1. ライブラリのバージョンアップ(ESLintやTypeScript)

    • 小粒タスクだとスムーズに動いてテストが通るまでリトライしてくれる。
    • 使い方はチャット画面に「ESLintを最新版に上げてテスト通して」と入力するだけ。
  2. 複雑なタスク(ユニットテストが通らない修正など)

    • 何度も試行錯誤を繰り返して長時間ループする場合がある。
    • 従量課金(分単位)が高くつきそうで、40分くらいやらせた時点で「予算がヤバい」と止めた。
  3. レベルの低いエンジニア不要?

    • ルーチンワークやちょっとした修正を任せるには非常に便利。
    • 逆に言えば「バージョンアップ専用の人員」を雇うよりも安いかもしれない。
    • ただし仕様の理解など高い文脈が必要な開発はまだ難しい。

要するに、簡単でコンテキストが浅いタスクは得意だけど、込み入った修正はまだ厳しい という印象ですね。費用と時間を考えると万能ではないものの、近い将来もっと賢くなるだろうと予感するツールでした。

まとめ

  • ズんだもんの声や女性ボイス への変換は面白いアイデアだが、ちゃんと編集意図や冗談が伝わらないと「最新技術か!?」と誤解されがち。
  • 検索キーワード(ライブラリ名など)はディスクリプションに入れると良し。Podcast広報的には大事な工夫。
  • ノイズ除去やLLMの活用のためにGPUマシンが欲しい……がコストが悩みどころ。
  • Devin AI は小粒タスクの自動化が得意で、Pull Requestまで一気にやってくれるものの、長時間ループには注意。
  • 紙ストローみたいに、世間には「一見よさそうだけど実は…」な話題が転がっている。

以上、第30回Podcast の大まかな流れでした。こうして毎回ジムの行き帰りに雑談しているだけなんですが、気がついたら30回も続いているのは自分たちでもちょっと驚き。引き続き、マイペースで配信していきたいと思いますので、よろしければお付き合いください。

今回の話に出てきたツール等

項目説明公式ページ
Whisper (音声認識)C++実装の音声認識AIモデルGitHub
ずんだもん (合成音声)日本のボーカルシンセサイザーキャラクターzunko.jp
myedit (クラウド型ノイズリムーバー)オンライン音声ノイズ除去ツールmyedit.online
ESLint / TypeScriptJavaScript/TypeScript開発のリンターtypescript-eslint.io
Devin AI自動コード修正・PR作成AIdevin.ai
GitHub Copilot / Copilotワークスペースコード生成AIツールとその拡張機能GitHub
Stable Diffusionテキストから画像生成AIモデルstability.ai