PythonでLLMを動かしたいけど、「まず何をすればいいの?」って正直めちゃくちゃ迷いますよね…。インストール? モデル選び? API? ローカル? 最初はどれも聞き慣れない言葉だらけで、何から触ればいいのか分からなくなると思います。
でもご安心ください!この記事は、そんなモヤモヤをスッと消して「おお、LLMが動いた!」という“最初の成功体験”まで最短でたどり着けるように作っています。むずかしい専門用語はできるだけ使わずに、図やサンプルコードもセットで、読みながら自然に理解できるようにしています。
APIでサクッと動かす方法も、自分のPCでローカル実行する方法も、さらにアプリ化して使える形にするところまで、必要な部分だけを分かりやすくまとめました。この記事を読み終わるころには、PythonでLLMを自由に触れる自信がついているはずなので、どうぞ気楽に読み進めてくださいね!
PythonでLLMを動かす全体像(知識ゼロでもつかめる流れ)
PythonでLLMを動かすときって、「やることが多そう…」って感じると思うんですけど、実は流れをつかんでしまえばめちゃシンプルなんです。ここでは、まず全体のイメージをつかんで、これから出てくる内容で迷わない状態を作っていきますね。
● LLM活用の5ステップ(まずは“地図”を持とう)
LLMを動かすときの基本的な流れは、どんな方法でも次の5つにまとまります。
- モデルを決める(APIを使う?ローカルで動かす?)
- 環境を準備する(Pythonインストール、ライブラリ準備など)
- モデルに指示文(プロンプト)を送る
- 返ってきた結果を受け取る
- 必要ならアプリ化する

この5ステップを頭に置いておくだけで、複雑そうに見える内容が「ただ順番にやるだけ」になります。
● APIとローカル実行の違い(料理で例えると一発で理解できます)
LLMを動かす方法は大きく分けて2つあります。

この2つを頭に入れておくと、「今自分がどっちをやってるのか」が分かって迷いにくくなります。
まずは動かす!最も簡単な「API利用」パターンA
ここでは「とにかく最速でLLMを動かしたい!」という方のために、PythonでAIを呼び出す一番カンタンな方法だけをまとめています。Pythonさえ入っていれば、ほんの数分で“AIが返事してくれた!”という体験までたどり着けますので、気楽に読み進めてくださいね。
● 必要な準備(インストールとAPIキー)
APIを使う方法は、料理でいうと「出前で頼む」イメージでしたよね。
こちらで準備するものはめちゃ少なくて、次の2つだけです。
- Pythonライブラリのインストール
代表的なのは- OpenAI
- Anthropic
- Google(Gemini)
など。
どれもpip installでサクッと入ります。
- APIキーの取得
AIサービス側に「あなた誰ですか?」と証明するための秘密の鍵です。
無料〜少額で発行できるので、初めてでも安心して試せます。
● 10行で動くサンプルコード(超シンプルな会話例)
では、実際に動かす最短コードです。
このコードをコピペして、APIキーを差し替えるだけでOKです!
from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "user", "content": "こんにちは!"}
]
)
print(response.choices[0].message["content"])
これで、あなたのPC上でAIが返事を返してくれます。
初めて動いた瞬間って、けっこう感動するんですよね…!
● よくあるエラーと直し方
初心者の方がつまずきやすいポイントもまとめておきますね。
API提供LLM一覧
| サービス名 | 無料枠 | 推奨モデル | 主な特徴 | 少額利用での向き | 商用利用 | コスト感(目安) |
|---|---|---|---|---|---|---|
| OpenAI | Webで無料利用可 | GPT-4o mini / GPT-4o | 高品質・低単価・使いやすい | 一般会話・アプリ試作 | 可能 | 数十円〜数百円でも十分試せる |
| Anthropic Claude | Web無料 | Claude 3.6 Haiku | 日本語が自然・要約に強い | 文書・調査 | 可能 | 初期課金後 少額で利用可 |
| Google Gemini | Web無料 + API無料クレジット(変動) | Gemini 2.0 Flash | マルチモーダル強い | 画像・音声含むPoC | 可能 | API無料枠で十分試せる |
| Groq | 無料枠あり | Llama / Mixtral高速推論 | 最高速レベル | プロトタイプ | 可能 | 低コスト |
| DeepSeek API | 少量無料枠 | R1 / R1-mini | 推論特化・激安 | RAG/推論系 | 可能 | 最安級 |

API利用は“最速で動かす”という意味ではダントツにラクな方法です。
次は、「ネットなしで自分のPCだけで動かしたい!」という方向けに、ローカルでLLMを動かす方法をご紹介していきますね!
自分のPCで動かす!軽量モデルのローカル実行パターンB
「APIは便利だけど、ネットにつながないで動かしたい!」とか「自分のPCでモデルを育てたり、自由にいじってみたい!」という方に向けて、ここではローカル実行の最短ルートをご紹介します。ローカル実行は少しだけ準備が増えますが、そのぶん自由度が高くてワクワクする世界です。
● モデル選びのコツ(日本語/英語の違いで決めよう)
ローカル実行では、どのモデルを選ぶかで“動くスピード”も“返答の賢さ”も変わります。まずは、言語とサイズでサクッと決めちゃうのがおすすめです。
日本語中心で使う場合
英語中心・軽量で速さ重視の場合
- Llama 3.2 3B / 8B
軽くて速いので、GPUなしPCでも動かしやすいです。
大きめモデルを試したい場合(GPUあり)
- Llama 3 系 13B〜70B
精度は上がるけど、PCの力が必要。
本格的に触りたい人向けです。
※ どのモデルも Hugging Face で無料ダウンロードできます。
● PCスペックの目安表(ここだけ見れば迷わない)
ローカル実行で一番気になるのが「うちのPCで動くの?」という不安ですよね。
そこで、ざっくり判断できる目安を表にまとめました。
| モデルサイズ | 推奨メモリ(RAM) | GPUの有無 | だいたいの動作感 |
|---|---|---|---|
| 3B〜4B | 8GB〜16GB | なしでOK | 文章生成は十分速い |
| 7B〜8B | 16GB以上 | あれば快適 | 実用レベルの会話可 |
| 13B | 32GB以上 | 必須級 | ゲームPC並みの力が必要 |
| 30B〜70B | 64GB以上 | 強いGPU必須 | 研究者・開発者向け |
※ あくまで目安なので、実際には量子化(モデル軽量化)で少し軽くできます。
● 20行で動くローカルLLMサンプル
ここでは Ollama を使った、超シンプルなサンプルを紹介します。
Ollamaは「モデルのダウンロードから実行まで全部まとめてやってくれる便利ツール」なので、初心者にめちゃ優しいです。
まず、Ollama をインストールしたら、下のコードを使ってみてくださいね。
import subprocess
import json
# Llama 3.2 などの軽量モデルを取得(初回だけ数分かかります)
subprocess.run(["ollama", "pull", "llama3.2"])
# モデルに質問を投げる
result = subprocess.run(
["ollama", "run", "llama3.2", "こんにちは!調子どう?"],
capture_output=True,
text=True
)
print(result.stdout)
たったこれだけで、自分のPC上でLLMが動きます!
ネットがなくても動かせるので、自由度が一気に上がりますよ。
無料LLM一覧
| モデル名 | パラメータ | 推奨環境 | 主な特徴 | 用途の向き | 価格 | ライセンス |
|---|---|---|---|---|---|---|
| Phi-3 Mini 4B/8B | 4B/8B | CPU〜軽量GPU | 軽量・高性能 | 一般会話、軽めの生成 | 無料 | MIT系 |
| Qwen2.5 7B | 7B | CPUでも可 | 多言語・高精度 | 会話・QA | 無料 | Apache 2.0 |
| Llama 3.2 3B/8B | 3B/8B | 軽量PC | 素直な応答 | 入門向け | 無料 | Meta Llama License |
| StableLM 8B | 8B | CPUでも可 | オープン性 | 研究・実験 | 無料 | オープン |
| Llama 3.1 13B/70B | 13B/70B | GPU 12〜48GB | 高精度 | 高性能推論 | 無料 | Llama License |
| Qwen2.5 14B/32B/72B | 14–72B | GPU 16〜48GB | 多用途で強い | 会話・コード | 無料 | Apache 2.0 |
| Mixtral 8x7B | 46B(MoE) | GPU 12〜24GB | 高効率高性能 | 多用途 | 無料 | Apache 2.0 |
| DeepSeek-R1 Distill | 7〜33B | GPU推奨 | 推論特化 | 論理/数学 | 無料 | 商用OK多数 |

APIより少し手間はあるけど、そのぶん“自分で動かしてる感”がぐっと増すのがローカル実行の魅力です。
次は、動かしたLLMをアプリに組み込んで「Web画面で使えるようにする」方法をご紹介していきますね!
アプリに組み込む!Web UIを作るパターンC
「せっかくLLMが動いたし、もっと使いやすくしたい!」という方へ。ここでは、自分の作ったLLM機能をWebアプリとして画面付きで使えるようにする最短ルートを紹介します。といっても、めちゃむずしいことはしません。Pythonだけでサクッと画面が作れるのでご安心ください!
● Streamlit / FastAPIで画面を作る流れ
Webアプリを作るには、大きく2つの人気パターンがあります。
【1】Streamlit(画面づくりが一瞬)
【2】FastAPI(本格的なAPI開発向け)
ここでは「画面付きで動かしたい」という初心者向けに、Streamlitの最短例をご紹介しますね。
● ミニチャット画面のサンプル(Streamlit だけで動きます)
下のコードを app.py とかの名前で保存して、
ターミナルで streamlit run app.py と打つだけでチャット画面が立ち上がります!
import streamlit as st
from openai import OpenAI
client = OpenAI(api_key="YOUR_API_KEY")
st.title("ミニLLMチャット")
user_input = st.text_input("メッセージを入力してください")
if st.button("送信"):
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": user_input}]
)
st.write("AIの返答:")
st.write(response.choices[0].message["content"])
これだけで、あなた専用の“小さなChatGPT”アプリが完成します。
Pythonだけでここまでできるの、けっこう感動するんですよね…。
● 商品カテゴリ(紹介方針)

アプリ化すると、一気に「自分だけのAIツール」を作った感が出て楽しくなります!
次の章では、AIの性能を引き出すための“プロンプトの書き方”を分かりやすくまとめていきますね。
うまく動かすためのプロンプト(指示文)入門
ここまでで「LLMを動かす」ことはできるようになりました。でも、実はここからが本番なんです。同じAIでも、どういう指示文(プロンプト)を送るかで精度がぜんぜん変わるんですよね。ここでは、基本の型と“ちょい工夫”で一気に精度が上がる書き方をまとめます!
● 基本パターン(要約・翻訳・説明・コードレビュー)
まずは、用途ごとにすぐ使えるシンプルなテンプレを紹介しますね。
■ 要約
「次の文章を、ポイントだけ3つにまとめてください:___」
■ 翻訳(トーン指定あり)
「次の文を自然な日本語に翻訳してください。カジュアルな雰囲気でお願いします:___」
■ 説明(小学生向け)
「次の内容を、小学生でもわかるようにやさしく説明してください:___」
■ コードレビュー
「次のPythonコードの改善点を3つ挙げて、理由も教えてください:___」

このあたりの“決まり文句”を押さえておくだけで、かなり使い勝手が良くなります!
● 精度が上がる書き方の例(ほんの少しの工夫で変わる)
ここでは、よくある“ざっくりした指示”が、少しの改善でどう変わるかを見てみましょう。
▼ 悪い例
「文章を直してください。」
これだと、AIは「何をどう直す?」が分からないので精度がバラつきます。
▼ 良い例(目的+基準をセット)
「次の文章を“読みやすく・情報を削らず・小学生でも理解しやすい”という基準で書き直してください。文章はこちらです:___」
→ この書き方だと、AIは“ゴールの条件”が分かるので、結果が安定します。
▼ さらに強くなる例(役割を指定)
「あなたはプロの編集者です。次の文章を、読みやすく、説明の順番を整理しつつ、小学生でも理解できる表現に直してください:___」
→ “役割の指定”は本当に強力で、文章の質が一気に上がります!

プロンプトはちょっとした工夫で見違えるように変わります。
次の章では、この知識を使って“小さな自作アプリ”に挑戦していきますね!
練習課題:自作ミニアプリに挑戦しよう
ここまで読んできたあなたなら、もう「LLMを動かす → アプリに組み込む」までの流れをひと通り理解できています。
なので最後は、“実際に作ってみる”ことで理解をグッと深めるステップに進みましょう!
むずかしく考えなくてOKです。小さく作って、動いたら「やった!」で十分です。
● 作れるアプリ例(この中から選ぶだけでOK)
どれも Python + API or ローカルモデルだけでカンタンに作れます。
この中から「ちょっと面白そう」と思うものを1つ選ぶだけで十分です!
● 取り組みステップ(迷わず作れる実践フロー)
アプリを作るときは、次の4ステップを順番に進めるだけです。
- 使うモデルを決める
APIでもローカルでもOK。
「まずは動く経験をしたい」なら gpt-4o-mini などの軽量APIが安心です。 - 画面づくり(Streamlitがおすすめ)
入力欄とボタンだけでOK。st.text_input()とst.button()を置くだけで立派なUIになります。 - LLMに送るプロンプトを作る
用途が決まればプロンプトも決まります。
例:要約なら「ポイントを3つにして」など、ゴールを明確に。 - 動かして調整する
返ってきた結果がイマイチなら、プロンプトを少し変えるだけで改善します。
● 商品カテゴリ(紹介方針)

練習課題に取り組むと、AIを“読む側”から“作る側”にステップアップできます。
最初は小さな一歩でOKなので、ぜひ気軽に作ってみてくださいね!
よくある質問
- Qどの方法が一番かんたんにLLMを動かせますか?
- A
いちばん簡単なのは API利用 です。インストールは最小限で、10行くらいのコードで動きます。
- QPython初心者でも大丈夫ですか?
- A
ぜんぜん大丈夫です!この記事の流れどおりに進めれば、ほぼ写経するだけで動くようにしてあります。
- QAPI利用ってお金かかりますか?
- A
ほんの少額で済みます。軽いモデルなら 数円〜数十円 くらいから使えるので安心です。
- Qローカル実行はどんなPCが必要ですか?
- A
軽いモデル(3B〜4B)なら メモリ8〜16GBの普通のPC で動きます。
GPUがあるともっと大きいモデルも動きます。
- Qモデルってどれを選べばいいの?
- A
日本語メインなら ELYZA系やLlama日本語モデル が使いやすいです。
英語中心なら Llama 3.2(軽量) が速くて便利です。
- QAPIキーが漏れたらどうなりますか?
- A
他の人に勝手に使われてしまう可能性があります。
すぐにキーを再発行すれば大丈夫です。GitHubなどに誤って公開しないよう注意してください。
- Qコードを書いてもエラーが出ます…どうすれば?
- A
この3つをチェックしてください。エラーの半分はここで解決します。
- Qローカルモデルのダウンロードって安全?
- A
基本的には Hugging Face の公式ページから取得すれば安心です。
よくわからない場所のモデルは避けた方がいいです。
- QWebアプリは無料で公開できますか?
- A
Streamlit Community Cloud や GitHub Pages(UIのみ) など、無料で公開できる場所があります。
- Qプロンプトはどう書けば上手になりますか?
- A
「目的」「条件」「役割」の3つを入れるだけで一気に精度が上がります。
例:
「あなたは編集者です。次の文章を、小学生でも理解できるように読みやすく直してください。」
