インターネットとプライベートなしで、100%ローカルで、自分のAIを持っている場合はどうなりますか?このガイドは、PROであっても、PCでLLMを実行する方法を示しています。
オンラインサービスに依存することなく、コンピューターで直接実行する独自のChatGPTを使用することが可能であることを知っていますか?言語の大規模なモデル、またはLLM(大規模な言語モデル)は、クラウドジャイアンツのためにはもはや予約されていません。今日、正しいPCまたはMacといくつかのヒントを使用すると、自宅にインストールできます。
何のために ?データをプライベートに保つには、高価なサブスクリプションを避けたり、ソースにAIをハッキングしたりしてください。このガイドでは、すべてを段階的に説明します。
LLMとは何ですか? chatgptのようなものですか?
そしてLLM、 または大きな言語モデル(フランス語の言語の大規模なモデル)、それは人間の言語を理解し、生成するために、テキストの山で訓練されたAIです。具体的には、それは彼が議論したり、質問に答えたり、物事を書いたり、コードをコードしたりできることを意味します。原則は、それが指示を与えられるということです(プロンプト)、そして、それは数十億のパラメーター(学習された接続の種類)を使用して、一貫した応答を築きます。 ChatGptは、Openaiによって作成されたLLMの有名な例ですが、Llama、Mistral、Deepseekなど、多くの場合、無料でオープンソースなどがあります。
さらに進む
LLMとは何ですか? ChatGpt、Geminiなどはどのように機能しますか?
それで、それはまさにchatgptとまったく同じですか?まったくありません。 ChatGptは、LLMの超ループで最適化されたバージョンです。ガードレール(制限)安全を維持し、クラウドでインターフェイスを準備します。ローカルでインストールできるLLMは、多くの場合より生のものです。それらとギア(PCまたはMac)の構成方法に依存します。それらは強力であるか、まったくカスタマイズ可能であることもあります - あなたはあなた自身のテキストでそれらを訓練することができます - しかし、それらは常に同じワニスやChatGptと同じアクセスの容易さを持っているわけではありません。また、chatgptと同じくらい直感的なインターフェイスを持つこともできます。これはあなたのニーズに依存します。
なぜ自宅にLLMをインストールするのですか?
最大の利点から始めましょう:機密性。オンラインAIを使用すると、会話はしばしば遠いサーバーで行われます。 ChatGpt、Grok、またはGeminiのいくつかの内訳が行われました。これらのサービスは100%利用可能ではなく、特に100%安全です。
Openaiでの2023年の内訳は、ユーザーの履歴が誤って逃げる可能性があることを示しました。地元のLLMを使用すると、すべてが家にいます。コンピューターからは何も出てきません。これは、ビジネスやプライバシーの妄想に対する重みの議論です。
次に、自律性があります。インターネットがあなたの家を運営する必要はありません。あなたが田舎にいるか飛行機にいるかにかかわらず、それは応答します。また、スピード側では、マシンが装備されている場合は、クラウドサービスを遅くすることがあるネットワークをやり取りすることを避けます。ご覧のとおり、よく最適化されたMacBook M1であっても、ローカルLLMは応答性の古典的なPCを超えています。それに加えて、サプライヤーによって課されるサーバーの内訳または割り当てがないと、あなたは空気として無料です。
そして、これらすべてにおいて、コストは?一見すると、機器に少し投資する必要があります(さらに説明します)が、長期的には、生成された単語にクラウドAPIを支払うよりも収益性が高いことがよくあります。驚きの請求書や予期しないレートの増加はありません。 PCまたはGPUの準備ができたら、AIはいくつかの電気ワットのみです。
最後に、上部の上部:モデルをカスタマイズできます。設定を変更したり、自分のテキストでトレーニングしたり、個人のアプリケーションに接続したりします。ローカルLLMを使用して、コントロールしています。
しかし、注意してください、それは魔法ではありません。道路を保持するマシンが必要であり、インストールは初心者を脅かすことができます。最も巨大なモデル、数千億のパラメーターを持つモデルは、従来のPCの手の届かないままです。そこで、スーパーコンピューターについて話しています。とはいえ、現在の用途(チャット、ライティング、コード)については、より軽いオープンソースモデルがトリックを行います。
どのモデルを選択しますか?
モデル側には、選択肢があります。たとえば、DeepSeek R1をご覧ください。 2025年初頭にリリースされたこのオープンソースモデルは、パラメーターの70億(7b)と670億(67b)のバージョンでボックスを作成しました。コードの推論と生成において非常に強く、その7Bバージョンは正しいPCでニッケルを変えます。別の星:メタによって作成されたラマ2。 7B、13B、70Bで利用可能で、PROの使用であっても、その柔軟性と無料ライセンスのおかげで非常に人気があります。 7Bは開始に最適で、70Bには重い材料レベルが必要です。
ミストラル7b、フランス語もあります。 73億パラメーターでは、特定のテストで2倍の大きさを打ち負かし、残りの光を残します。 8 GBのビデオメモリ(VRAM)を備えたグラフィックカードがある場合は理想的です。
ミストラルスモールは、有名なフランスのスタートアップであるミストラルAIの最後のLLMの1つです。 2025年初頭に「Small 3.1」バージョンでリリースされたこのモデルは、240億パラメーター(24b)を備えた軽量で効率的になるように設計されています。アイデアは、GPT-4o Miniのようなモデルと競合するのに十分な強さであるということです。具体的には、ハードウェアで銀行を壊すことなく、PCやMacで動作することができます。
GoogleにはオープンソースLLMもあります。これは、ローカル実行のための最適化されたモデルのファミリーであるGemmaと呼ばれています。 Gemma 2BおよびGemma 7Bは、MAC M1/M2/M3/M4やRTX GPUを搭載したPCを含む控えめなマシンで動作するように設計されています。
LLMオープンソースLLMは毎月延長されています。パスで、イニシアチブとして言及しましょうgpt4allこれにより、統一されたインターフェイスを介して数十の準備が整ったモデルをまとめます。 GPT4allは、Deepseek R1、Llama、Mistral、Vicuna、US、その他多くの人気のあるオープンソースモデルを超える1000を超える人気のあるオープンソースモデルをサポートしています。
要するに、適切なマシンをお持ちの場合、CPUでCPUでほぼ同等の大規模モデルに実行するために、小さな超軽量モデルからの選択に甘やかされています。全体は、ニーズ(言語、タスクの種類、パフォーマンス)と機器を満たすものを選択することです。
材料レベル、スーパーコンピューターがますとに、たとえより個人的になったとしても、何であっても、nvidiaetAMD今年発売...そしてaMac Studio。
さらに進む
これが自宅でAIを行う最初の2つのnvidiaマシンです。個人的なスーパーコンピューターであるPCS
最近のプロセッサ(Intel I7またはAMD Ryzen 7属)を備えたPC、少なくとも16 GBのRAMとNvidiaグラフィックスカード(8 GBのVRAM最小)がジョブを行います。 RTX 3060 GPU以上がある場合、それは幸福です - CUDAのおかげで、それはすべてを加速します。
aGPU強制的ではありませんが、インタラクティブなパフォーマンスの恩恵を受けることを強くお勧めします。 LLMの場合、ビデオメモリ(VRAM)が不可欠です。少なくともモデルパラメーターの一部を含める必要があります。コンテキストウィンドウのサイズ(会話の記憶)は、利用可能なVRAMに依存します...これが、8 GBのVRAMの最小値が最小である理由です。実際には、4ビットLlama 7Bモデルは、〜4 GBトラム、13B〜8 GB、30B〜16 GB、70B〜32 GBを消費します。
さらに進む
2025年に最高のNVIDIAおよびAMDグラフィックスカードは何ですか?
の上マック、金属のような最適化のおかげで、専用のGPUがなくても、16 GBのRAMを備えたM1/M2チップもうまく機能します。明らかに、最近の強力なアームチップがあり、統一されたRAMが多いほど良いです。
さらに進む
MacBook Air、MacBook Pro、Mac Mini…最高のMacBookとデスクトップMacは何ですか?

Intel PCを使用すると、すべてが可能になります
新しいレノボヨガの宝石が到着しました。 Intel Powerと並外れた汎用性を組み合わせて、これらの革新的な2-in-1コンピューターは、Boulangerの魅力的な価格ですでに入手可能です。
ストレージ ?モデルファイルのSSDで10〜40 GBを計画します。それにより、苦労せずにミストラル7bまたはllama 2 13bを既に実行できます。 SSDは、モデルをより迅速にメモリにロードすることを強くお勧めします...いくつかのモデルを試すことを計画している場合、数十個の無料が必要です。
マシンにLLMをインストールします
上で説明したように、それはすべてあなたのニーズ、あなたの目標、技術レベルに依存します。
レベル | 客観的 | ツールの例 |
🟢初心者 | 簡単なインターフェイス、使用可能な準備ができています | LM Studio、GPT4ALL、RTXとチャット |
🔵仲介 | コマンドライン、より正確な制御 | Ollama、llama.cpp、Locali |
Advanced Advanced | 人類化、微調整 | フェイストランス、テキストジェネレーションウェブイを抱きしめます |
私はあなたが今興奮していると思いますので、練習に行きましょう。
初心者:ビジュアルインターフェイス
ここでのアイデアは、モデルをダウンロードして、コマンドラインを通過せずにチャットボットのように使用することです。
LMスタジオ
CHATGPTのように見える快適なインターフェイスを備えた、コマンドラインのない、準備が整った - 使用ソリューションを探している場合、LM Studioがおそらく最良の選択です。このアプリケーションを使用すると、数回クリックしてモデルをダウンロードして投げてチャットできます。
Windows、MacOS、Linuxでは、インストールが高速です。公式ウェブサイトにアクセスしてください、lmstudio.ai、 のインストーラーをダウンロードしますシステムに対応して実行します。

LMスタジオ
Macでは、アプリケーションフォルダーのアプリケーションをスライドさせるだけです。 Windowsで、実行可能ファイルを起動し、古典的なインストール手順です。 LM Studioがオープンすると、インターフェイスは言語モデルを取得するために提供します。専用のセクションでは、説明と推奨事項を備えた利用可能なモデルが表示されます。パフォーマンスと応答の質のバランスをとるために、Mistral 7Bは優れた出発点です。体重はわずか数個のGOSだけで、最新のマシンでうまくターンします。
モデルがダウンロードされたら、「cat」タブに向かいます。任意の質問を入力でき、AIはリモートサーバーを通過せずにすぐにローカルに回答します。もう少しプッシュしたい場合は、LM Studioを使用すると、応答長、モデルの創造性、または会話メモリの管理などのパラメーターを調整できます。
gpt4all
代替品が必要な場合は、GPT4ALLも同様のアプローチを提供します。そのインターフェイスはもう少し初歩的ですが、使いやすいままです。繰り返しますが、Llama 2やDeepSeekなどのオープンソースモデルをダウンロードして、直感的なCATインターフェイスでローカルに使用できます。
インストールは同じくらい簡単です:アプリケーションをダウンロードするだけです以来gpt4all.io、それをインストールするには、チャットを開始するモデルを選択します。

gpt4all
RTXとチャットします
あなたが持っているならNvidia RTXグラフィックカード、試すこともできますRTXとチャットします、Nvidiaが直接提供するソリューション。
RTX GPUを利用するために特別に最適化されており、印象的な流動性でLlama 2やMistral 7bなどのモデルを実行できます。ダウンロードが完了しました公式NVIDIA Webサイトからそして、インストールはビデオゲームのインストールと同じくらい簡単です。このアプリケーションには、モデルを直接テストし、GPUが提供するパフォーマンスを確認できる洗練されたインターフェイスを提供します。

nvidiaはRTXとチャットします
仲介者:コマンドラインとポリヴァージ
モデルの操作をさらに制御したい場合は、コマンドラインを介して実行することは優れたオプションです。
オラマ
これにより、モデルをより細かく管理し、パフォーマンスを最適化し、他のアプリケーションから呼び出すこともできます。 LLMオンラインコマンドを使用する最もアクセスしやすいソリューションは、あまりにも複雑ではありませんが、オラマ。

オラマ
MacおよびGNU/Linuxでは、HomeBrewのおかげで、インストールは特に簡単です。ターミナルに1つの注文だけで十分です。WingetインストールOLLAMあなたcurl -fssl https://ollama.ai/install.sh | sh。
インストールすると、使用は同じくらい簡単です。モデルをダウンロードして実行するには、端末を入力するだけです。オラマはミストラルを実行します…モデルは自動的にダウンロードされ、数秒で起動します。コマンドラインで直接質問することができます。
モデルをさらに細かいコントロールしたい場合は、flame.cppより技術的ですが、超効率的な代替品です。すべてのプラットフォームで動作し、利用可能な機器に応じてモデルの実行を最適化します。インストールには追加の手順が必要です。
llama.cppは、異なる定量化レベルを体験したい場合に特に便利です。つまり、特定の計算を圧縮してパフォーマンスを改善することにより、モデルのモデルサイズを削減します。これは、適度なマシンでパフォーマンスを向上させるための優れたツールでありながら、回答の品質を良好に保ちます。
LLMオンラインコマンドを使用すると、より柔軟な統合にアクセスできます。たとえば、Ollamaまたはllama.cppをPythonスクリプトに接続するか、サーバーモードでそれらを使用してローカルAPIと対話できます。標準のグラフィカルインターフェイスが提供するものよりも、より強力で適応性のあるAIアシスタントを持つことは素晴らしい方法です。
LLMをWebサイトに統合したい場合は、ローカルAPIとしてOllamaを展示する方法を次に示します。オラマサーブ…これにより、OpenAI ONと互換性のあるAPIが開きますhttp:// localhost:11434。これで、外部依存性なしで、ローカルにWebページからLLMに質問することができます。
ローカリ
テキスト生成に限定されない、より汎用性の高いソリューションを探している場合、ローカリ素晴らしい選択です。 LLMに焦点を当てたLM StudioやGPT4Allなどのツールとは異なり、LocalaiはOpenai APIのオープンソースの代替品として設計されています。言語のモデルを実行するだけでなく、管理することもできますオーディオ転写、画像生成、ベクトルデータベースとの統合などの高度な機能。
インストールは非常にシンプルで、Windows、MacOS、Linuxで動作します。 LinuxまたはMacマシンでは、Dockerを介してインストールして、依存関係を手動で構成する必要がないことを避けることができます。 1つのコマンドは、Ready -To -Use Localaiサーバーを起動するのに十分です。すべてが十分に文書化されています。
発売されると、LocalAIはOpenAIと100%API互換性のあるAPIを提供します。つまり、OpenAIリクエスト(ChatGPT APIなど)を使用するすべてのアプリケーションをローカルサーバーにリダイレクトできます。その後、追加できますモデル顔から直接ダウンロードするか、テキストモデルのためにllama.cppなどのバックエンドを使用して、オーディオ転写のためにwhisper.cppまたは画像生成のための安定した拡散を使用します。
コマンドラインに慣れていて、シンプルなチャットボットをはるかに超えるソリューションを探している場合、Localaiはテストに値する強力なツールです。テキストモデル、音声認識、画像の生成、埋め込みを組み合わせることにより、コンピューターを実際のローカルAIアシスタントに変換し、インターネットでリクエストを送信せずにさまざまな種類のデータを処理できます。
Advanced:パーソナライズと微調整
さらに進みたい場合は、モデルをパーソナライズしたり、自分のデータでトレーニングすることもできます。このため、参照ツールはですフェイストランスを抱き締める。このオープンソースライブラリを使用すると、超柔軟な方法でモデルをダウンロード、実行、変更、トレーニングできます。
インストールは比較的簡単です。 Windows、MacOS、Linuxで、PIPで必要なライブラリをインストールするだけです。ピップインストールトーチトランスは加速します。
その後、事態は難しくなり、Pythonスクリプトを使用してモデルをロードしてテキストを生成する必要があります。このアプローチの利点は、ハイパーパラメーターを変更し、答えを改良し、いくつかのモデルを非常に簡単にテストできることです。
独自のデータを使用してモデルをカスタマイズする場合は、膨大なコンピューティングパワーを必要とせずにLLMを回すことができる手法であるQloraを使用できます。これにより、たとえば、特定の分野(金融、法律、健康)のモデルを専門とすることができます。しかし、私たちの間で、あなたがそこに着いたら、あなたは私たちを必要としません。
Mac Mini M4の例
ゼロから始めても問題ありません。 Mac Mini M4が到着すると、AppleはAppleシリコンチップのパフォーマンスをさらにプッシュしました。
このマシンは、低価格で、ローカル言語モデルを実行し、オーディオ転写をリアルタイムで実行し、印象的なパフォーマンスでIA画像やビデオを生成する理想的なプラットフォームです。
16 GBのRAMを搭載したMAC Mini M4は、モデル7Bから13Bを困難なく実行できます。 Metral 7Bのようなモデルは、金属およびApple GPU向けに最適化されており、エネルギー消費量を最小限に抑えて即座に応答します。個人的には、deepseek R1蒸留(Qwen 7b)を使用しています。
LM StudioまたはOllamaを使用して、クラウドを通過せずにAIと局所的に対話することができます。書面、プログラミング、またはデータ分析で作業する場合、Mac Miniは、テキストを生成し、ドキュメントを要約し、PDFをオープンソースモデルから直接分析できる超パフォーマンスパーソナルアシスタントになります。
Mac Mini M4では、Ollamaがこれらの最適化を利用して、7Bモデルで10〜15トークン/秒の速度でテキストを生成できるため、無料のChatGPTよりも優れています。
24または32 GB以上のRAM以上で、Mac Mini M4は、Llama 2 13B Precision、さらには最適化されたバージョンの30Bモデルなどの重いモデルを管理できます。これにより、100%のローカル環境にとどまりながら、より詳細で正確な回答を得ることができます。研究やデータサイエンスで作業する場合は、小さなモデルをトレーニングし、Qloraで洗練し、リモートサーバーを通過せずにMACで直接実行できます。
それで、私たちはしようとしていますか?
ご覧のとおり、オープンソースモデルの進捗状況と簡素化されたインストールツールのおかげで、個人コンピューターでLLMを実行することは2025年に完全に実行可能なプロジェクトです。
生成AIは、データセンター用に予約されなくなりました。これは、少し時間とリソースを費やしている限り、「個人的なChatGpt」をPCにオンにすることができます。