M@rc|n: Wersja 3.1 wnioski

sobota, 6 czerwca 2026

Wersja 3.1 wnioski

Testy

Zacznę od testów, zdałem sobie sprawę, że nie jestem w stanie ocenić rezultatów w sposób odpowiedni. Do tej pory to było powiązane z moim doświadczeniem w tym kontekście, ale to za mało. Każda sesja generuje sporą ilość materiałów, potrzeba mi narzędzia do porównywania wyników testu.

Aktualnie testuje tryb agentowy, automatyczny z każdym razem wygląda on coraz lepiej, nie ma pomijania faz, mieszania, LLM sam podpowiada opcje do wyboru i są one właściwe - powiązane z kontekstem. Nie trzeba pisać, ale czasami trzeba doprecyzować bo nie trafia z podpowiedzą. Na razie testy opierają się na big picture i process level i na pełnych materiałach, które mam.

Takie testy chce jeszcze kilka razy przeprowadzić, żebym mieć więcej materiałów porównawczych, potem chce przejść pełny proces z design level w trybie automatycznym - agentowym. By następnie się wrócić do dwóch pierwszych ale z ograniczonymi materiałami.

Wnioski

Tak jak wspominałem będę budował razem z Klaudiuszem instrukcje testowania wyników, ale już teraz widzę że jednym z problemów jest to że LLM potrzebuje bardzo dokładnych instrukcji co ma zrobić, jeżeli nie będą dokładne to ogólny zarys zadania będzie dobrze zrobiony ale reszta, która nie jest dobrze wytłumaczona, czyli tło będzie wymyślane na bieżąco. W moim przypadku widać do w rozrastarającyh się plikach skilla, zadaje coś Klaudiuszowi on robi to dobrze, weryfikuje to co piszę ale za każdym razem dodaje dodatkową "panierkę".

Plik z instrukcjami porównywania V3.1/deep-analysis-test-comparator.md

Zapomniałem o ważnej rzeczy Klaudiusz ma jeszcze pamięć swoją schowaną w katalogu .claude/projects/, pamięć poprzednich sesji, powinienem ją usuwać za każdym razem albo wrzucić w skilla info że by sam kasował.

M@rc|n

sobota, 6 czerwca 2026

Wersja 3.1 wnioski

Brak komentarzy:

Prześlij komentarz

Wersja 3.4

Szukaj na tym blogu