こんにちは。株式会社KIYONOでシステムエンジニアをさせてもらってます寺島と申します。
今回はllms.txtについて、私の勉強も兼ねてまとめていきます。最後まで読んでいただけますと幸いです。
📝 本記事の対象読者
- AI時代の集客戦略を検討している方
- 最新のウェブ標準規格について学びたい方
- LLMO(大規模言語モデル最適化)に興味がある方
- 自社サイトのAI対応を検討している方
では、一緒に勉強していきましょう!
llms.txtとは何か
llms.txtは、ウェブサイトが大規模言語モデル(LLM)に対してLLMフレンドリーなコンテンツを提供するためのマークダウンファイルです。
……
これでは中々私も理解できないので順番に前提になる知識から書いていこうと思います。
前提知識その1:LLMとChat GPTのような自然言語AIの関係性
まず我々が使っているChat GPTやGeminiのような生成AIは、LLM(Large Language Model)という仕組みを使って実現されてます。
LLMはWebサイトから情報を取得する時に自然言語からトークンに置き換えて処理をしてます。
例:
「こんにちは、今日は良い天気ですね」
↓
[こんにちは] [、] [今日] [は] [良い] [天気] [です] [ね] = 約8トークン
日本語では1トークン ≈ 2-3文字、1,000トークン ≈ 2,000-3,000文字ほどと言われております。
一般的な企業サイトは50万〜200万文字あるのに対して生成AIが処理できるトークンには限界があるので、Webサイトに対して処理できるトークンが超過してしまうと回答の精度が下がってしまったり回答に矛盾が生じてしまったりと問題が発生してしまいます。
前提知識その2:LLMO(Large Language Model Optimization)について
まず、検索エンジンを利用されるユーザー様は情報収集は大きな転換期を迎えてます。
検索エンジンに自分が調べたいワードを打ち込んで利用できそうなWebサイトを閲覧。という形ではなく、ChatGPTやGeminiなどの生成AIに自然言語で質問をして、そこから自分がほしい情報を得るという形が主流になりつつあります。
こうした背景の中、自社のWebコンテンツがどうしたらAIの回答に参照されるか。ここが新しく目指されてるWebサイトの運用基準の一つになっています。
LLMOとはChat GPTのような生成AIが回答を作成する際、自社コンテンツが引用されてくれるように最適化をしようという手法になります。AIO(AI Optimization)とも呼ばれています。
Chat GPTのような生成AIで何度も運用しているWebの名前やコンテンツが選ばれるとユーザーの印象に残り指名検索や資料請求といった次のアクションにつながる可能性が上がります。
上記二つの前提事項を踏まえて改めてllms.txtとは何かそれは:
ウェブサイトが大規模言語モデル(LLM)に対してLLMフレンドリーなコンテンツを提供するためのマークダウンファイルです。
さらに噛み砕いていうと、AIがウェブサイトの情報をより効率的に理解し、活用できるようにするための「案内書」のような役割を果たします。
llms.txtが必要な背景
次にllms.txtが必要になる背景について見ていきましょう。
結論から申し上げると、Webサイトに記載されているHTMLはLLMフレンドリーではない(容量が大きすぎるのと無駄な情報が入りすぎているから)ということになるのですが、以下でもう少し具体化していきましょう。
主な問題点
- コンテキストウィンドウの制限
大規模言語モデルはコンテキストウィンドウが小さすぎて、ほとんどのウェブサイトを全体的に処理できません。 - 複雑なHTML構造
ナビゲーション、広告、JavaScriptを含む複雑なHTMLページをLLMフレンドリーなプレーンテキストに変換することは困難で不正確です。 - 情報の分散
重要な情報が複数のページに散らばっており、AIが必要な情報を効率的に見つけることが困難です。
上記の通りllms.txtファイルは今運用されているWebサイトのままではLLMが読み取りするにはコンテクストウィンドウの上限を超えてしまうし、言語を生成するには無駄な情報(広告、JavaScript等)が含まれすぎてしまっているので、ウェブサイトのコンテンツの概要、構造、重要なページへのリンクなどを提供することで、LLMがウェブサイトの内容を理解しやすくするために存在するということになります。
llmsの仕組み並びに実装方法
llms.txtの概要については大枠理解ができてきたので、最後に実際に仕組みと実装方法を見てもう少し理解を深めたいと思います。
ファイルの置き場所
llms.txtは、ウェブサイトのルートディレクトリに配置するMarkdown形式のファイルです。robots.txtやsitemap.xmlと同じ場所に置くイメージです。
your-website.com/
├── robots.txt ← 検索エンジンのクローラー制御
├── sitemap.xml ← 全ページのリスト
└── llms.txt ← AI向けの重要情報 ★新しく追加
ファイル構成
ファイル構成は例を見ながら理解していきましょう。
# 株式会社KIYONO
> システム開発・AI導入支援を行うテクノロジーカンパニー
弊社は企業のDX推進をサポートし、高い技術力とデジタルマーケティングの知見で
多くの企業様の課題解決に貢献しています。
## サービス内容
- [提供サービス](https://www.kiyono-co.jp/service): システム開発・AI導入支援の詳細
- [選ばれる理由](https://www.kiyono-co.jp/reasons-to-select-us): 弊社の強み・差別化ポイント
## 会社情報
- [会社概要](https://www.kiyono-co.jp/about-us): 企業理念・代表挨拶・会社沿革
- [トップページ](https://www.kiyono-co.jp/): 会社全体の概要・最新情報
## Optional
- [採用情報](https://www.kiyono-co.jp/recruit): エンジニア・スタッフ募集
記法の解説
# (H1)の役割
# 株式会社KIYONO
- サイト・会社の名前を書くだけ
- llms.txtで唯一の必須項目
- AIが「このファイルは何の会社のものか」を理解するため
## (H2)の役割
## サービス内容 - [提供サービス](https://www.kiyono-co.jp/service): システム開発・AI導入支援の詳細 - [選ばれる理由](https://www.kiyono-co.jp/reasons-to-select-us): 弊社の強み・差別化ポイント ## 会社情報 - [会社概要](https://www.kiyono-co.jp/about-us): 企業理念・代表挨拶・会社沿革 - [トップページ](https://www.kiyono-co.jp/): 会社全体の概要・最新情報
## Optional
- [採用情報](https://www.kiyono-co.jp/recruit): エンジニア・スタッフ募集
- リンクをカテゴリ別に整理するため
- AIが「どこで何の情報が得られるか」を理解するため
- 何個でも作れる(0個でもOK)
- Optionalは必須ではないが、AIに知ってもらいたい追加情報
まとめ
いかがだったでしょうか。
本記事では、llms.txtについて以下の3つのポイントから解説しました。
- llms.txtとは何か
AIがWebサイトの情報を効率的に理解するための「案内書」 - なぜ必要なのか
複雑なHTMLはAIにとって処理が困難で、重要な情報を見つけにくいため - 実装方法
ルートディレクトリに配置するMarkdownファイルで
会社名(H1)とカテゴリ別リンク(H2)を記載
AI時代において、検索エンジン最適化(SEO)に加えてAI最適化(AIO・LLMO)の重要性が高まっています。llms.txtは無料で今すぐ始められる施策なので、ぜひ自社サイトでも導入を検討してみてください。
実際に設置してみて効果を感じた方や、ご質問がある方は、お気軽にお声がけください。一緒にAI時代のWebマーケティングを学んでいきましょう!
最後まで読んでいただき、ありがとうございました。
コメント