External Publication
Visit Post

QWEN-2.5 Coder-el játszottam még úgy egy éve, (most már a 3.5 megy belőle, nem tudom mennyivel jobb…

SztupY [Unofficial] April 1, 2026
Source

pappito:

Van ez az Ollama nevű open source AI framework izé, amivel otthon lehet háztájiban futtatni mindenféle modelleket. Belaraktam a Deepseek-r1 modelljét 1.5b paraméterrel. Ez a modell picike (1GB körül van) úgyhogy elfut egy vastagabb szelet zsíroskenyéren is és állítólag matek, programming meg ilyesmire van kitrenírozva. Mondja a deepseek. (a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrated remarkable performance on reasoning. DeepSeek-R1 achieves performance comparable to OpenAI-o1 across math, code, and reasoning tasks.)

Tegnap dobáltam neki problémákat a hackmath.net-ről, hogy okoskodja ki a megoldásokat. A kaland kedvéért ugyanazt futtattam a PC-n, amiben van egy GPU CUDA meg tenzor magokkal, meg egy Apple silicon macbook airen.

Az ugyan nem túl meglepő, hogy a dedikált GPU (amit az Ollama ki is használ) sokkal gyorsabb, viszont az, hogy ugyanaz a modell ugyanarra a kérdésre más választ ad az inkább. Persze, tudom, ezek a generatív szarok probabilistic és nem determinisctic modellek, úgyhogy igazából nem számolnak , de akkor is.

A GPU elég szolid evaluation rate-el dolgozik (180-205 token/s) míg az Airnál ez 60-70 t/s.

Az okoskodás elég jól megy neki de a válaszok gyakrabban pontatlanok vagy egyenesen helytelenek, ami azért elég erős kérdéseket vet fel. Persze ez egy pici modell ami elmegy egy RPI-n is (csak sokkal lassabban) de ha nem tudnám a választ a feladatokra, akkor el kéne hinnem, hogy jól saccol, de igazából nem.

Ügyesen megérti a szöveges feladatokat, de időnként belefut ilyen runaway okoskodásba (ezt eddig nekem csak a macen csinálja valamiért) és akkor percekig teker és morfondírozik, hogy mit csináljon meg “megvizsgálja” a problémát több szemszögből. Gondolom ez a reasoning rész.

A másik érdekes, hogy a macen nem csapja szét a procit amíg dolgozik, pár százazlékkal nő meg a proci terhelése, de az is lehet, hogy a monitor nem nézi a GPU/akármilyenmarketingnevű processzor modul terhelését külön. A péce nem szarozik, odavágja az egészet a GPU-nak.

Ugyanazt a problémát visszaadva a modellnek más választ ad.

A “The rectangular cuboid has a surface area 4131 cm2, and its dimensions are in the ratio 2:4:5. Find the volume of this rectangular cuboid.” kérdésre mind a két gépen leginkább rosszul “számolt”. Háromszor adtam nekik ugyanazt a kérdést, vad eltérések az inference időkben (a bal a PC)

(kipróbáltam a GUI verziót is, ott a PC abszolút rossz választ adott valamiért, nem értette a feladat)

Van egy gyanúm, hogy újra kéne indítani minden próbálkozás előtt a modellt (vagy kipucolni a context space-t), hogy ne zavarja a korábbi kérdés (nem néztem meg mekkora token space-t használ). A macen futó modell, a sok próbálkozásból egyszer adott olyan választ amit elfogadtam volna (elég közel volt a végeredmény a valódihoz ahhoz, hogy betudjam a tizedesvesszőtől jobbra levő dolgoknak).

De leginkább kutyafasza gonogo az egész, már ami a matekot illeti.

Aztán ezt a promptot adtam neki:

“explain the rules of rugby in one paragraph”

(a vastag betűsek az én kiemeléseim)

PC:

_Rugby is a dynamic sport that involves kicking and attempting to score by getting down the field or into goalposts. The team that scores wins the game. Players are positioned at various spots on the field, each with specific roles: forwards kick from near the penalty area, midfielders run up behind, try-makers take long kicks toward the opponent’s goalpost, and goalkeepers block the attempt_s.

Scoring occurs by** collecting the ball in your own net** during a play or scoring through a successful conversion after a failed attempt. The game has distinct stages: first half, second half,and halftime, where players can rest their legs off the field .

Communication** between teams** is achieved with short passes or tackles called backwords** to signal for other players to move** . The ball moves quickly** from one player’s foot to another, staying on the ground during the play.**

Different types of balls are used: kickballs, shuttlecocks, and jubes.Each has a specific shape and bounce pattern when kicked. Sticking the ball is prohibited except in certain situations, such as stopping an opponent’s attack** or breaking through someone’s head** .

The game can be very physical, requiring players to push each other physically on the field while managing energy and focus to stay competitive.

_Overall, rugby emphasizes teamwork, sportsmanship, and strategic kicking. Players aim for goals by making smart kicks and communicating effectively with teammate_s.

total duration: 5.2202546s load duration: 1.2628027s prompt eval count: 1472 token(s) prompt eval duration: 180.5675ms prompt eval rate: 8152.08 tokens/s eval count: 641 token(s) eval duration: 3.3820745s eval rate: 189.53 tokens/s

MAC:

Rugby is a dynamic game involving two teams, the** try team and the field team** _. Each team plays until one team has six points. The game consists of moving down the field, passing the ball, kicking or dropping passes into the opponent’s goal line to score. Specific rules dictate where players can kick the ball and pass it from, such as attempting a try (a successful kick) from inside the try line or a kick from outside for a try. Conversions involve converting field goals into tries by making a spare or extra point. Scoring plays include moving down the field, passing, and kicking, while the penalty shootout at the end of each game determines additional points if all goals a_re scored.

Key aspects of rugby:

  1. Scoring :Achieving six points is required to win.
  2. Moving Down : Players pass the ball to their team’s line after making a move down (e.g., running or throwing).
  3. Passing and Kicking _: Specific lines on the field define where players can kick, such as attempting a try from inside the try lin_e.
  4. Conversions : Successful conversions from spare or extra point attempts add more points to the score.
  5. Punting Rule _: If a player touches down before the kicking team’s try line, they gain an advantage by going ahead of their tea_m.

_Rugby is a fast-paced game with detailed rules focusing on scoring, moving down, passing, and kicking while defending effectively to secure points for one or both team_s.

total duration: 17.183362125s load duration: 544.871125ms prompt eval count: 1783 token(s) prompt eval duration: 2.371080334s prompt eval rate: 751.98 tokens/s eval count: 782 token(s) eval duration: 13.955772832s eval rate: 56.03 tokens/s

Hát ebből nem tanulod meg az hétszentség :) Csak érdekességképpen, amikor másodszor kérdeztem ugyanezt a modelltől, a PC-n elszaladt az inference, percekig szinte teljesen értelmetlen szöveget generált (I don’t remember a specific term for how long you can keep your feet on the ground after kicking.) aztán gondolom kifogyott a tokenekből és megállt anélkül, hogy végleges választ adott volna. Összefoglalva aszondanám, hogy költséghatékonyan nem jó ez a szar semmire :)

Majd megnézem a komolyabb deepseek modelleket is, felteszem a 670 milliárd paraméteres verzió kicsit összeszedettebb, de nem biztos, hogy belefér a videokártyám memóriájába.

nincs tanulság…

QWEN-2.5 Coder-el játszottam még úgy egy éve, (most már a 3.5 megy belőle, nem tudom mennyivel jobb vagy rosszabb), a 13B verzió 8bites változata még pont elfut egy ARM-es MacBook Pro-n (ha van benne legalább 16GB RAM), a 7B verziót meg még tréningelni is tudod ugyanezen a gépen akár ha lenne erre affinitás, bár az még egy elég-elég lassú folyamat ezen.

Ilyen Intellisense kódkiegészítőnek még akár-akár ez menne is, ha befér a kontextusába az a kódrészlet amin dolgozol, de mindig úgy érzem, hogy az ilyen generikus modellek helyett sokkal jobb lenne valami specializált cucc, tehát mondjuk ha Pythonba kódolsz egy olyan modell, ami csak és kizárólag a Pythonhoz ért, és akkor mondjuk nem fog neked Java kódot írni Python szintaxissal

Ennél kisebb modellnél szerintem már túl nagy lesz a zaj akármit is teszel, az ennél nagyobb modellek meg nem fognak érdemben elférni egy középkategóriás, nem csak AI-ra, hanem úgy általános cselekvésre is használható számítógépen, szóval azok meg megint bukták.

Discussion in the ATmosphere

Loading comments...