Mostanában kipróbáltam, milyen nagy nyelvi modelleket futtatni helyben, mint például a Llama-2, Mistral és Mixtral. Ez aztán rávilágított, hogy ezek az óriási modellek milyen brutális erőforrás-igényűek memória és GPU teljesítmény terén!

De a megfelelő Mac géppel simán megoldható, hogy magunk is kihasználjuk ezt a lehengerlő mesterséges intelligenciát. Különböző felállásokat próbáltam ki, szóval részletesen elmagyarázom, melyik konfiguráció működött a legjobban az egyes modellméreteknél.

Először is elárulom, melyik az a csúcsmodellje az Apple szilícium chipeknek, ami a legjobb választás, ha helyben szeretnénk nagy nyelvi modelleket futtatni.

Amikor az ár-érték arányt nézzük, a helyi LLM inference legjobb megoldása a 2022-es Apple Mac Studio az M1 Ultra chippel. Ez a konfiguráció 48 GPU magot, 64 vagy 96 GB RAM-ot és lenyűgöző 800 GB/s sávszélességet kínál.

Masszív architektúrája tökéletesen alkalmas a 7-70 milliárd paraméteres nagy nyelvi modellek hatékony futtatására. Az Apple szilícium egyesített memóriája felülmúlja a hagyományos PC-k, amelyek csak CPU-ra és RAM-ra hagyatkoznak, teljesítményét az inference terén, sokkal magasabb memóriasávszélességet biztosítva. Ez a előny kulcsfontosságú a nagy modellek hatékony feldolgozásához, ahol a hagyományos PC-k rövid pálcát húznak.

Azok számára, akik a mobilitást részesítik előnyben, és nem tudnak asztali gépet, mint a Mac Studio választani, a legjobb laptopváltozat a nagy nyelvi modellek futtatásához az M2 Max chipen alapuló MacBook Pro 64 GB RAM-mal. Ez a konfiguráció a hordozhatóság és az erő tökéletes kombinációját nyújtja.

Local AI futtatása esetén az ajánlott MAC gépek és paraméterek:

Model Mérete (Paraméterek száma) Ajánlott Mac Modell GPU Magok Száma Memória (RAM) Ajánlott Tárhely (GB)
7B Mac Mini / MacBook Air M2 8 16 GB 256
13B MacBook Pro M1 Pro 16 16 GB 512
33B – 46B (Mixtral 8x7B) 16” M2 Pro MacBook Pro M1 Max 24 64 GB 1TB
70B+ Mac Studio M1 Ultra / M2 Ultra 48 / 76 64 GB / 192 GB 2TB+
Javasolt min. konfigok a local futtatáshoz

Táblázatban a jelenleg (2024.03) kapható gépek

Bővebben kifejtve az egyes modellméretek memóriaigényeit:

Mielőtt részletesen megvizsgálnánk a különböző Mac modelleket, tisztázzuk, mekkora memóriakapacitásra lesz szükség a különböző méretű nyelvi modellek esetén 4 bites kvantálás mellett.

A legkisebb, 7 milliárd paraméteres modellek futtatásához már 5 GB egyesített RAM elegendő lehet. Ezek a kompaktabb mesterséges intelligenciák viszonylag szerény erőforrásigényűek, akár egy alacsonyabb kategóriás MacBook Airrel is megbirkózhatunk velük.

Ahogy növekszik a komplexitás, úgy nő a memóriaigény is. A közepes, 13 milliárd paraméterrel operáló modellek már 8 GB RAM-ot igényelnek a megfelelő működéshez. Ezekhez egy erősebb, legalább M1 chipes MacBook Pro vagy Mac mini javasolt.

A nagy, 33 milliárd paraméteres nyelvi modellek viszont már komoly erőforrásokat emésztenek fel. Futtatásukhoz minimum 20 GB egyesített memóriára van szükség. Itt már egy felsőkategóriás, M1 Max vagy M2 Pro processzoros MacBook Pro a minimumkövetelmény.

A Mixtral LLM, amely gyakorlatilag 8 darab 7 milliárdos modell összekapcsolásával jön létre, önmagában 46 milliárd paraméterrel dolgozik. Ennek gördülékeny használatához legalább 26 GB RAM-ra van szükség.

A igazán brutális, 65-70 milliárd paraméteres gigamodellek azonban a csúcsok csúcsát képviselik. Az ilyen hatalmas mesterséges intelligenciák zökkenőmentes futtatásához minimálisan 40-41 GB egyesített memóriára van szükség egy Mac gépen.

Ezekhez a lélegzetelállító méretű modellekhez már csak a legerősebb, Mac Studio gépek M1 Ultra vagy M2 Ultra chipjeivel felszerelve érdemes nyúlni, legalább 64 GB, de akár 128 GB egyesített memóriával is telepíthetők a maximális teljesítmény elérése érdekében.

Az Apple szilícium (M1/M2/M3) chipek hogyan teljesítenek a nagy nyelvi modellek futtatásában?

A kulcsfontosságú előnyük az egyesített memória architektúra, ahol a RAM megosztott a CPU és GPU között. Ez sokkal hatékonyabb a nagyméretű nyelvi modellek futtatására, mint a hagyományos PC-k kialakítása, ahol csak CPU és RAM van, de nincs dedikált nagy teljesítményű GPU.

Érdemes figyelembe venni, hogy az egyesített memóriának körülbelül csak a 70-75%-át lehet felhasználni a GPU által felgyorsított inference feladatokra. Vannak azonban módszerek arra, hogy ezt a korlátot megkerüljük és az teljes memóriát kihasználhassuk GPU inferenciához.

A következő táblázat bemutatja, hogy az Apple különböző szilícium M chipjei hogyan skáláznak nagy nyelvű modellek futtatásában és promptfeldolgozási sebességben. Megtekinthetjük az eltérő generációk teljesítményét ezeken a területeken.

Chip generáció 8-bit PP 8-bit TG 4-bit PP 4-bit TG Price Price/TG
M2 Pro (16)
M1 Pro (16)
288.46
270.37
22.7
22.34
294.24
266.25
37.87
36.41
$1,800.00 (32GB)
$1,639.00 (32GB)
$47.61
$45.15
+6.69% +1.61% +10.51% +4.01%
M2 Max (38)
M1 Max (32)
677.91
537.37
41.83
40.2
671.31
530.06
65.95
61.19
$3,139.00 (64GB)
$2,899.00 (64GB)
$47.59
$47.37
+26.15% +4.05% +26.65% +7.78%
M2 Ultra (60)
M1 Ultra (48)
1003.16
783.45
62.14
55.69
1013.81
772.24
88.64
74.93
$3,999.00 (64GB)
$3,059.00 (64GB)
$45.11
$40.82
+28.04% +11.58% +31.28% +18.29%
M2 Ultra (76)
M2 Max (38)
1248.59
677.91
66.64
41.83
1238.48
671.31
94.27
65.95
$4,999.00 (64GB)
$3,139.00 (64GB)
$53.02
$48.41
+84.24% +59.47% +84.53% +43.06%
M2 Ultra (76)
M2 Ultra (60)
1248.59
1003.16
66.64
62.14
1238.48
1013.81
94.27
88.64
$4,999.00 (64GB)
$3,999.00 (64GB)
$53.02
$45.11
+24.43% +7.23% +22.19% +6.33%
M3 Pro (18)
M2 Pro (19)
344.66
344.50
17.53
23.01
341.67
341.19
30.74
38.86
$2,799.00 (32GB)
$2,400.00 (32GB)
$91.05
$61.76
0.004% -31.26% -0.014% -26.41%
M3 Max (40)
M2 Max (38)
757.64
677.91
42.75
41.83
759.7
671.31
66.31
65.95
$3,899.00 (64GB)
$3,139.00 (64GB)
$58.79
$47.59
+11.76% +2.20% +13.17% +0.55%

PP - gyors feldolgozás

TG - token generálás

Ha a promptfeldolgozási sebességet (PP) nézzük, akkor hasonló trendeket látunk, mint a tokengenerálási sebességnél (TG) - a GPU magok számának növekedésével a PP is javul. Azonban a magasabb magszámoknál a promptfeldolgozás tempójának növekedése intenzívebb, mint a tokengenerálásé.

Ez arra enged következtetni, hogy míg mindkét metrika profitál a több GPU magból, a promptfeldolgozás érzékenyebben és határozottabban reagál a magok számának emelkedésére, mint a tokengenerálás.

Összességében tehát mind a tokengenerálás, mind a promptfeldolgozás sebessége nő a GPU magok számával, de a promptfeldolgozás teljesítménye szorosabban korrelál a rendelkezésre álló magok mennyiségével. A több mag nagyobb hatással van a promptfeldolgozás mint a tokengenerálás gyorsaságára.

Íme néhány fontos tudnivaló a Mac és az RTX 4090, illetve 3090 GPU-k használhatóságáról mesterséges intelligencia, nagyméretű nyelvi modellek futtatása terén:

Mac vs RTX 4090

  • Az RTX 4090-es GPU-val szerelt PC felülmúlja a Mac Studio teljesítményét tokenek generálásában és inference sebességben, akár kétszeres különbség is lehet a 4090 javára.
  • Viszont a 4090-es rendszer sokkal drágább, kb. 4500 dollár ára van két GPU-nak és komplexebb az összeszerelése.
  • A Mac Studio M1 Ultra egyesített memóriája (akár 192GB) lehetővé teszi több modell párhuzamos futtatását.
  • A Mac kb. 3100 dollárba kerül új állapotban, de kaphatók olcsóbban is felújított vagy használt modellek 2500 dollár körül.
  • A 4090-es gépre lehet modelleket is tanítani, a Mac Studión ez nem lehetséges.

Mac vs RTX 3090

  • Az RTX 3090 egy kicsit lassabb, mint a 4090, de még mindig gyorsabb inference és promptfeldolgozási sebességet nyújt, mint az M1/M2 Ultra.
  • Két használt 3090-es GPU-val felszerelt PC ára kb. 2900 dollár, ami hasonló egy felújított 64GB-os M1 Ultra Mac Studio árához.
  • A régebbi 3090-as rendszerek energiafogyasztása és zajszintje azonban magasabb, mint a Mac Studióé.

Tehát a Mac ideális azok számára, akik költséghatékony, csendes és felhasználóbarát megoldást keresnek, míg a GPU-s PC felülmúlja a teljesítményét, de drágább és bonyolultabb rendszer. A végső választás az egyéni igényektől és prioritásoktól függ.

Mac a 7B és 13B paraméteres modell esetében

A kisebb, 7 milliárd paraméteres modellek esetében már egy olcsóbb Mac Mini vagy M2 chipes MacBook Air 16 GB egyesített memóriával is megfelelő teljesítményt nyújt. A 8 magos GPU bőven elég erőt ad a gyors promptfeldolgozáshoz.

Ha azonban egészen biztos akarsz lenni a dolgodban, jobb egy erősebb MacBook Prót választani M1 Pro chipsettel és 16 GB RAM-mal. Ez a konfiguráció tökéletesen boldogul majd mind a 7 milliárdos, mind a nagyobb, 13 milliárd paraméteres modellekkel is.

Van még egy alternatíva, mégpedig a Mac Studio az M1 Ultra processzorral, szintén 16 GB egyesített memóriával. Ez a kompakt asztali gép is remekül elvégzi majd a feladatot ezekkel a közepes méretű nyelvmodellekkel.

Szóval a legkisebb, 7 milliárdos LLM-ekhez elég lehet egy olcsóbb MacBook Air vagy Mini is. A 13 milliárdos tartományban viszont már érdemes egy kicsit felskálázni, és legalább egy MacBook Pro M1 Prót vagy akár egy kompakt Mac Studio M1 Ultrát beszerezni a zökkenőmentes teljesítmény érdekében.

Mac a 33B-46B (Mixtral 8x7b) paramétermodell esetében

Amikor a nagyobb, 33-46 milliárd paraméteres modellek tartományába léptem, fel kellett skáláznom a felszereltséget. Ehhez egy 16"-os M2 Pro MacBook Prót vettem be játékba M1 Max chipsettel. A 24 magos GPU és a 64 GB-os (200 GB/s sávszélesség) memória tűnt az ideális felállásnak a villámgyors válaszidők eléréséhez.

Az M1, M2 vagy akár az újabb M3 Pro chipes MacBook Pro modellek szintén választható opciók lehetnek ezen a modellméreten. Azonban ezek a hordozható gépek maximum 32 GB RAM-mal rendelkeznek, ami korlátot jelent.

Ez a 32 GB-os memóriakorlát miatt csak 4 bites kvantálású modelleket tudnánk futtatni rajtuk. Ráadásul az Apple szilícium chipjei csupán a teljes RAM körülbelül 65%-át tudják dedikálni a GPU számára 32 GB memória mellett.

Így ezekkel a 32 GB-os MacBook felállásokkal sajnos nem tudnánk futtatni a 4 bites kvantálású, 46 milliárd paraméteres Mixtral 8x7B modellt, amely gyakorlatilag 8 darab 7 milliárdos rész-LLM összekapcsolásával jön létre.

Mac a 70B + paraméteres modellhez

Amikor azt szeretnéd, hogy a Mac-ed igazán megdolgozzon az óriási, 65-70 milliárd paraméterű nyelvi modellekkel, akkor a Mac Studio jön a képbe. Kipróbáltam mind az M1 Ultra, mind az M2 Ultra modelleket. Az M2 Ultra esetében a hihetetlen 76 magos GPU és a 192 GB-os memória még a 180 milliárd paraméterű modelleket is simán futtatja. Azonban a 2022-es Mac Studio, M1 Ultra chippel és 64 GB RAM-mal, az ideális választás e méretű nagy nyelvi modellekhez.

Ha tehát játékból vagy haszonból szeretnél hatalmas modellekkel foglalkozni, szerezd be a Mac Studio Ultrát vagy egy maximálisan felszerelt MacBook Prot.

Ezt kiegészítve, hasznos lehet tudni, hogy nagy teljesítményű számítógépek kiválasztásánál nem csak a hardver specifikációkat kell figyelembe venni, hanem azt is, hogy milyen feladatokra szeretnéd használni. Nagy nyelvi modellek futtatása esetén különösen fontos a magas GPU teljesítmény és a bőséges memória. Ezen felül érdemes figyelni a rendszer ökoszisztémájára és a szoftverek kompatibilitására is, hogy a munkafolyamatok zökkenőmentesek legyenek.

———

Forrás: https://www.hardware-corner.net/guides/mac-for-large-language-models/

A cikket írta: Allan Witt