チャットGPTはじめ生成AIによる自然言語関連の技術進歩がとても目覚ましいです。
その使い方を追求したい人は「プロンプトエンジニアリング」という分野を深めていることでしょう。
その理屈を追求したい人は「形態素解析」のようなキーワードに立ち向かっているのではないでしょうか。この書籍は後者の学習に役立ちます。
コンピュータの中は魔法でも何でもなく、根本的には二進数の計算回路です。文章、画像、音声いずれにしろコンピュータでそれらを扱うことは「いかに二進数で計算できるようにするか」です。
文章をベクトル的に扱う。(高校で習ったあの「ベクトル」です。)
そうすることで意味を理解しているような振る舞いをさせる理屈に、独学で立ち向かうのはとてもハードルが高いと思っていました。
そんな中で楽しみながら独学することができたのが本書籍です。
クリエイティブなエンジニアはサブカルチャーを好む
優秀なエンジニアは、要件定義された事を効率的、効果的に実現できます。
子供の頃の夢を忘れていないエンジニアは、子供の頃に「できたら良いな」と思ったことを実現します。
子供の頃に巨大ロボットアニメを夢見た人たちが人型ロボットの研究をします。
子供の頃に鉄腕アトムやドラえもんを夢見た人たちが、自律ロボットや対話できるロボットの研究をします。
「クリエイティブなエンジニアはサブカルチャーを好む」
どこの偉い人でもない、私の持論ですが(笑)。
書籍中のあちこちにちりばめられたサブカルの欠片。
この著者はきっと、優秀かつ子供のころの夢を忘れていないエンジニアだと、私は勝手に最高の敬意を表しています(笑)。
「白い恋人」の対義語は「赤の他人」?
この書籍では最終章で、対義語の有名なジョーク『「白い恋人」の対義語は「赤の他人」』のようなジョークを作るためのジェネレーターを作ります。
その前の工程として、いずれもユニークな切り口で形態素解析、テキストを機械学習させる方法を紹介しています。
- 自然言語を形態素分析で単語に分ける
- 自然言語をベクトルにすることで類似性を数値化する
- 数値化した類似性から、人間の「発想」「連想」ようなことを機械で実行する
- 青空文庫やwikipediaが機械学習用のコーパス(文章)として便利なようで、加工が大変
その加工例
下記の記事ではこの書籍を参考に、形態素分析を使って文章の加工をしたり意味の評価にトライをしています。


書籍のオリジナリティが高いコードを紹介するわけにはいかないので、これらの記事ではJanomeの使い方+アルファくらいの紹介です。
この書籍では、オリジナリティあふれる切り口で色々な自然言語処理を知ることができます。
コメント