未来を作る技術と葛藤:知識蒸留から副業まで
- 14 Feb, 2025
いつものPodcast28回目は、ジムへ向かう車の中で始まったはずなのに、前半の音声がほぼ壊滅していた。 マイクの調子が悪かったらしく、後で竹内(@rikson_en)が確認すると自分の声が途切れ途切れでまともに使えない。 さすがに全部ボツは惜しいということで、竹内がずんだもんの声を駆使して見事に補正してくれた。 その結果、自分の声だけ妙にアニメ調な感じになったけど、Podcast配信としてはどうにか成立したというわけだ。
そんなドタバタの冒頭から始まった今回のテーマは、DeepSeekというAIモデルの「蒸留」手法について。 いわゆる「知識蒸留」と呼ばれるもので、他のAIが出力したものを再学習させるというやり方らしい。 たとえばOpenAIの応答を使って学習している可能性があるようで、ガイドライン違反かもしれないとか、お互い様かもしれないとか、まだ情報が曖昧な段階だが、どうもそんな噂があるようだ。
そこで話が膨らんだのが、AIが学習するデータに著作権やクリエイターの権利がどう絡んでくるかという話題。竹内は「苦労して生み出した作風や音楽スタイルを簡単にAIに真似されるのは問題だ」と懸念していて、たとえば漫画家やアーティストの稼ぎ口が奪われるんじゃないかと考えている。一方、自分は「人間も昔から先人のアイデアを参考にして進化してきたんだから、AIだけ責めるのも変じゃないか」という立場。知識や技術を共有したほうが社会全体として発展するはずだ、と考えている。著作権やビジネスの仕組みがどう変わっていくかという点では意見が分かれるけど、今後ますます大きなテーマになりそうだなと思う。
次の話題は、ElectronとPythonのライブラリを連携させる苦労話。これは竹内が自作のデスクトップアプリを試作しているところで、メインプロセスはNode.jsだけど機械学習の部分はPython、という構成がややこしい。ライブラリを外部コマンドで呼び出したり、PyInstallerやCythonなどでPython自体をバイナリ化したり、とにかく依存関係に振り回されているらしい。バイナリにするとOpenSSLが見つからないとか、FFmpegを同梱したらサイズが膨れ上がるとか、そのあたりが泥臭い。自分としては「TauriとかRustを導入する手もあるんじゃない?」と投げたが、「いきなり学習コストが高いんだよ」と竹内に返されて一旦保留になった。
そして副業の案件話に転じると、技術スタックがLaravelとjQuery、インフラはSSHで本番サーバーにログインのみ、仕様書も何もなしという結構きわどい内容が明らかに。データベース設計といってもドキュメントを作る必要がなく、マイグレーションファイルだけ書いてくれというから、委託開発の悪い面が凝縮されてるような案件っぽい。ただ、そこまで複雑ではないらしいので副業としてはギリギリありかもしれない。でも肝心の報酬が来年1月まで出ないとか、税金や経費の扱いがどうなるとか、あれこれ気にしなきゃいけないようだ。
最後は例によって「法人化して節税するか」「農業IoTスタートアップでも作る?」みたいな冗談で盛り上がり、ジムに到着してPodcastは終了。自分の声がずんだもん化しているせいで、会話のテンポがいつも以上にシュールだったけど、これはこれでネタとしては面白いかもしれない。いずれにせよ、AIの著作権問題やElectron+Pythonの連携、副業環境など、いろんなトピックがいっぺんに湧いてきた回だった。個人的にはAIの蒸留がクリエイターをどう巻き込んでいくか、今後も追っていきたいと思う。