M@rc|n

środa, 29 lipca 2026

Testy wersji 3.4

Narzędzie mam "gotowe".

Gotowe na jakimś etapie, testy już robiłem ale wyniki nie są dla mnie zadowalające, bo samo określenie tego czym jest wynik jest kiepskie. Bo właściwe pytanie jakie powinno paść, jaki jest cel?

Dobre pytanie, nie wiem.

Na początek miał być skill do analizy, potem się rozrósł do orkiestratora i etapu big picture i process level z oceną wsadu i dokładniejszą realizacją poszczególnych kroków. Teraz okazało się, że nie generują się dodatkowe zdarzenia w big picture co też było jedną z podstaw ale dlatego, że działałem na dużym zbiorze wsadowym to tego nie zauważyłem.

Po za tym mam kilka trybów i liczyłem na taki agentowy automatyczny, bo jestem leniwy ale z tego trybu wiele nie uzyskam, wydaje się, że lepszym będzie tryb pół automatyczny w którym będę razem z LLM przechodził po kolei przez proces. To podejście już testowałem przy któreś wersji.

Reszta trybów to tylko dodatek, który rozwijany gdzieś obok przy okazji mógłby być.

Tylko pojawił się problem z oceną wyjścia.

System oceniania.

Z oceną był problem od samego początku, ale natchnął mnie film z MIT Sloan Management Review Polska (materiał nie jest o tym, ale ta część mnie zaciekawiła) gdzie była wzmianka o systemie oceniania.

Ja taki system spróbuje sobie zaimplementować, będzie on działał na przynajmniej trzech poziomach.

Ocena narzędzia,
Ocena wyjścia na podstawie wejścia,
Ocena procesu.

Pokrótce przedstawię jak to widzę, potem będzie zderzenie z rzeczywistością.

Ocena narzędzia

Moje narzędzie czyli orkiestrator, działa na podstawie kroków, musi je wykonać w pewnej sekwencji, prawie zawsze, te prawie zawsze zależy od trybu i jakości wsadu ale te kroki można ubrać w ocenę narzędzia i wyznaczyć czy za każdym przejściem wykonuje kroki, które przewidziałem po wybraniu danej ścieżki.

Pamiętam, że przy któreś wersji to badałem ale bez napisania takiego systemu ocennego. Teraz powinienem też skupić się nad logowaniem poszczególnych kroków chociaż istnieje już plik który się generuje na podstawie działania orkiestratora czyli session.md.

Na początek jakieś założenia?:

determinizm, czyli powtarzalność procesu, tu muszę zaznaczyć, że powtarzalność dla wybranych opcji, więc tak powtarzalność ale zależy co wybiorę
ocena na poziomie true/false, jest/ nie ma, czyli podejście najprostsze nie wymagające dodatkowych interpretacji,
tu będę musiał rozpisać scenariusze, czyli kroki procesu jaki powinien być wygenerowany jako wynik

Na razie więcej założeń nie przychodzi mi do głowy

Pojawiło się kilka pytań, które razem z LLM rozstrzygnąłem, wnioski:

testowanie pełnej ścieżki,
testowanie tylko orkiestratora, bez danych,
nie zmieniam testu póki sam proces nie ulegnie zmianie, i nie wymusi zmiany,

Tu pojawia się problem testowanie tylko orkiestratora, trzeba by zrobić mocka do danych, to może być ciekawe.

Na tę chwilę skupie się na zbudowaniu "czegoś" co posłuży do wykonania kroku pierwszego, potem reszta. Przy okazji zbiorę też jakie dodatkowe informacje jak by to miało działać, jak spełnie te podstawowe kroki i sprawdzę czy to działa wtedy można kontynuować.

Nie zamierzam od razu robić wszystkich trzech etapów ale skupić się na jednym.

Linki

środa, 24 czerwca 2026

Wersja 3.4

Nowa wersja, mnóstwo zmian.

Na horyzoncie pojawił się Fable (na chwilę) ale w ramach testów dałem mu do przejrzenia orkiestratora i pliki z faza big picture i process level. No cóż, zaproponował zmiany, dużo zmian.

Zmiany.

W ostatnich wersjach nie skupiłem się na samym procesie event stromingu a na orkiestratorze, i patrząc w pliki tych dwóch części dane tam zgromadzone uległy erozji. Nie były wystarczające do tego żeby właściwe przeprowadzić analizę wsadu. No właśnie analizę wsadu bo określiłem, że taki będzie cel tego narzędzia, analiza zgromadzonych materiałów i próba uzupełnienia ich o dodatkowe dane.

Czyli to już nie narzędzie do analizy całego procesu, a narzędzie do weryfikacji rezultatu analizy. Dlaczego? Bo to zawęża obszar działań, pozbywam się jednej gałęzi i skupiam większą uwagę na reszcie. Tryb bez wsadowy pozostał ale nie wiadomo na jak długo.

Fable przerobił mi kroki big picture i proccess level, przy okazji orkiestratora również, no i oczywiście wszystko spuchło (wersja 3.4 repo). Ale to nie koniec zmian, uświadomiłem sobie, że testy tego i poprawności danych są nie wystarczające, a właściwie brak jakiegoś algorytmu sprawdzania. Postanowiłem to naprawić pisząc wzorzec, który posłuży do walidacji wyniku.

Ale poklei najpierw zmiany w krokach ES

Zasada odpowiedzialności za jakość wsadu, to materiały wejściowe w dużej mierze decydują o jakości danych wyjściowych, LLM ma nie zgadywać, a trzymać się ram, granic,
Tryby analizy

audit - na bazie materiałów wsadowych, bez materiałów wsadowych niedostępny
elicit - bez materiałów dane pozyskiwane w formie dialogu (nie testowałem nie wiem jak działa)

Etap przygotowania danych
Etap sprawdzania pokrycia poszczególnych kroków ES, sprawdzana jakość materiałów
Tryby pracy pozostały bez zmian:

Agentowy - automat, ma się dziać automatycznie ale testy wypadały różnie, czasami przypomina tryb drugi,
Ekspercki (domyślny) - sub-agent pyta użytkownik odpowiada,
Mixed - nie zbadany anie nie przetestowany, być może wyleci bo jakoś nie widzę jakby to miało działać,
Użytkownik jako orkiestrator

Mapa zdarzeń - według której działa orkiestrator (przynajmniej w teorii)

Tyle z orkiestratora, są jeszcze zmiany, większość rzeczy nie jest przetestowana, na razie testy dotyczyły pierwszej i drugiej fazy i to nie zawsze druga była w pełni kompletna. Co do testów to jeszcze opisze, okazało się to bardziej skomplikowane niż sądziłem.

Na razie nie będę opisywał zmian w poszczególnych krokach, jest ich całkiem sporo, to zostawiam na później. Teraz testy.

Testy

Testy okazały się prawdziwym wyzwaniem takiego kalibru jak sam orkiestrator. W początkowych wersjach to było studiowanie wyników, czyli ręczny przegląd, potem pojawił się comparator, do porównywania struktury rezultatu bo skupiłem się na orkiestratorze, a teraz pojawił się skill do sprawdzania danych ze wzorcem. A same testy zaczęły zabierać cały czas, który wcześniej był poświęcony na prace z orkiestratorem. Dodatkowo zacząłem się w końcu zastanawiać ile te rozwiązanie przepala "paliwa".

Czym jest wzorzec?

Jest niczym innym jak ogólnym opisem całego kontekstu testowanego wsadu, ale nie kontekstem wsadu a wyniku. Tu plik wzorca.

Do porównywania wyników ze wzorcem powstał comparator, dokładnie to jest poprzedni, który patrzył na strukturę, a ten to jest kolejna jego wersja.

W ten sposób jednocześnie trzeba rozwijać skilla do testowania i do analizy.

Ten "porównywacz", ma za zadanie sprawdzić pliki wyjściowe, dane jakie zostały wygenerowane z każdej sesji i porównać ze wzorcem czy za bardzo od niego nie odbiegają.

Dlaczego powstało takie narzędzie?

Ilość wyników jest przytłaczająca, problem pojawił się przy sprawdzaniu poprawności, no właśnie poprawności, czym ona jest, trzeba było stworzyć wzorzec który będzie gwarantował pewne granice w których musi się utrzymać rezultat.

Te narzędzie generuje dwa pliku wynikowe, przykładowe pliki:

niezgodności - co jest obecne, czego brakuje,
rozszerzenia - w których obszarach rezultat wyszedł po za wzorzec, wymyślił coś nowego w obrębie kontekstu

Dlaczego taka forma?

Pisałem to już jakiś czas temu przy któreś wersji, ze chciałbym samodoskonalący się rezultat, tu dzięki rozszerzeniom mogę robić coraz lepszy wzorzec i doskonalić wynik (przynajmniej w teorii, bo praktyka na razie pokazuje nie wiele).

Zrobiłem pięć takich testów i znowu zauważyłem, że materiałów za dużo, no to (jako że jestem leniwy) powstał kolejny porównywacz tym razem do rezultatu testów.

Żeby utrzymać jakość materiałów wyjściowych potrzebuje rozbudowanych testów, ale muszę również pohamować się z pomysłami, bo nie wyjdę ze stabilną wersją a ciągłymi zmianami.

Na koniec dnia dostałem do utrzymania orkiestratora z całą trzódką, wzorzec porównywacz do nie go, oraz porównywacz do rezultatów porównywacza, a miało być tylko prościej.

Moduły

Big Picture

Moduł ES Big Picture też został zmieniony, w porównaniu do poprzedniej wersji granicę tego etapu zostały wyraźniej zaznaczone. Również kroki są lepiej opisane, a sam etap ma wyraźniej oznaczony cel tzn zebrać ogólne informacje a nie zagłębiać się w szczegóły. Moduł jest podzielony na kroki:

weryfikacja danych wejściowych,
chaotyczna eksploracja - ale tylko przy trybie bez materiałów wsadowych, przy wsadzie ten krok nie ma sensu, ale jest opcja uzupełnienia zdarzeń jeżeli użytkownik sobie tego życzy,
oś czasu, weryfikacja zdarzeń,
granice i pivotal events,
weryfikacja języka wszechobecnego (Ubiquitous Language),
hot spoty i aktorzy,
przejście przez cały proces od początku do końca - weryfikacja czy nic z poprzednich kroków nie zostało pominięte,
weryfikacja procesu od tyłu - wymagane przy wsadzie,
synteza i zapis wyniku,
weryfikacja rezultatów

Rezultaty poszczególnych faz mają własne pliki wynikowe, dzięki temu można łatwiej rozeznać się co zostało zmienione lub dodane w danej fazie, dodatkowo jest też informacja gdzie co zostało wykonane więc można zacząć od ostatniego zarejestrowanego wyniku.

Process Level

Moduł drugi też został zmieniony, uzupełniony o kroki których brakowało i uszczegółowiony. Został nadany mu dokładniejszy sens i wyznaczone jego granice. Kroki tego procesu:

utworzenie struktury katalogów,
załadowanie rezultatu fazy pierwszej oraz jeżeli jest danych wejściowych ze wsadu,
odkrywanie subdomen - heurystyki,
typy subdomen,
pivotal events - weryfikacja,
bounded contexty - heurystyki,
przepływy procesów,
polityki,
relacje między kontekstami,
zapis wyniku,
weryfikacja rezultatów

Każda faza jak poprzednio zapisuje wynik w swoim pliku.

Wnioski ze zmian

Fable namnożył bytów, moje uwagi nie były tak dokładne a model dołożył ich trochę i wyglądają sensownie, ale to wyjdzie w praniu, być może z częścią z nich się pożegnam, albo zmienię. Testy pokażą czy to właściwe podejście, czy nie trzeba będzie ponownie dzielić czy też modyfikować zawartości.

A co z design level? Na tę chwilę nie rozwijam tego kroku ani następnych chce prejść przez dwa pierwsze, spróbować doszlifować orkiestratora, zrobić jakieś "mocne" i poprawne jakościowe testy. Dopiero po tym jak będę miał gotowe te kroki przejść dalej, żeby spiąć to w jedną całość, aczkolwiek jak już wspominałem może być potrzeba podzielenia tego na więcej osobnych części.

Co teraz?

Teraz, czas odpalić testy i przepalać tokeny w nadziei na lepsze jutro i brak nowych pomysłów.

Linki:

P.S.

Po kilku dniach od napisania tego posta pojawiła się kolejna wątpliwość co do wzorca który służy do porównywania wyników, zmieni on formułę na plik json, nie będzie on tekstem, uznałem jednak że to zły pomysł, trzymać wzorzec w formie tekstu. Komparator ma więcej roboty żeby to przetworzyć i porównać jeżeli to będzie json w formacie lżej strawnym dla LLM narzędzie porównawcze będzie miało łatwiejszą robotę. Po za tym to będzie można łatwiej rozwijać, no i sama kwestia tego że taki format pliku będzie bardziej zbliżony do wyników.

sobota, 6 czerwca 2026

Wersja 3.1 wnioski

Testy

Zacznę od testów, zdałem sobie sprawę, że nie jestem w stanie ocenić rezultatów w sposób odpowiedni. Do tej pory to było powiązane z moim doświadczeniem w tym kontekście, ale to za mało. Każda sesja generuje sporą ilość materiałów, potrzeba mi narzędzia do porównywania wyników testu.

Aktualnie testuje tryb agentowy, automatyczny z każdym razem wygląda on coraz lepiej, nie ma pomijania faz, mieszania, LLM sam podpowiada opcje do wyboru i są one właściwe - powiązane z kontekstem. Nie trzeba pisać, ale czasami trzeba doprecyzować bo nie trafia z podpowiedzą. Na razie testy opierają się na big picture i process level i na pełnych materiałach, które mam.

Takie testy chce jeszcze kilka razy przeprowadzić, żebym mieć więcej materiałów porównawczych, potem chce przejść pełny proces z design level w trybie automatycznym - agentowym. By następnie się wrócić do dwóch pierwszych ale z ograniczonymi materiałami.

Wnioski

Tak jak wspominałem będę budował razem z Klaudiuszem instrukcje testowania wyników, ale już teraz widzę że jednym z problemów jest to że LLM potrzebuje bardzo dokładnych instrukcji co ma zrobić, jeżeli nie będą dokładne to ogólny zarys zadania będzie dobrze zrobiony ale reszta, która nie jest dobrze wytłumaczona, czyli tło będzie wymyślane na bieżąco. W moim przypadku widać do w rozrastarającyh się plikach skilla, zadaje coś Klaudiuszowi on robi to dobrze, weryfikuje to co piszę ale za każdym razem dodaje dodatkową "panierkę".

Plik z instrukcjami porównywania V3.1/deep-analysis-test-comparator.md

Zapomniałem o ważnej rzeczy Klaudiusz ma jeszcze pamięć swoją schowaną w katalogu .claude/projects/, pamięć poprzednich sesji, powinienem ją usuwać za każdym razem albo wrzucić w skilla info że by sam kasował.

czwartek, 4 czerwca 2026

Wersja 3.1

Wersja 3.1

Zmiany względem poprzedniej wersji:

dodanie kolejnego pliku, który przejmie od orkiestratora obsługę badania pokrycia materiałami poszczególnych faz ES,
dane wsadowe mają teraz swój katalog wpisany w orkiestratora,
nastąpiła zmiana i wymuszenie wyboru trybu pracy, a nie zawsze wybieranie domyślnego
został dodany log - orkiestrator ma zapisywać każdy krok który wykonuje w formacie data, godzina, krótki opis, dwa trzy słowa,

Testy

Testy będą takie jak poprzednio ale tym razem postaram się uruchomić test w trybie automatycznym, jeżeli się to uda kolejne testy będą prowadzone w tym trybie. Później przejdę do kolejnego trybu, tu jest trochę trudniej z ustaleniem prawidłowego wyniku, muszę stworzyć taki wzór danych wejściowych, tekstowych, które mogły być uzupełnieniem materiałów z event stromingu.

Nim jednak przejdę do trybu drugiego czyli Eksperckiego to chce sprawdzić jak się zachowa ten skill gdy dane będą mniejsze.

Sama sekwencja testów czyli takie przypadki testowe, będą tworzone na bieżąco, tu również mam kilka pomysłów które można by realizować.

Wyniki

Rezultaty jak i sam przebieg testu nie będę już wrzucał w formie posta, a w repozytorium z wynikami każda wersja będzie miała swój katalog z testami, wnioskami czy też uwagami. W poście będą kolejne zmiany jakie będą w następnych wersjach, ogólne uwagi i być może jakieś wnioski. Tym razem nie będę się rozpisywał co i jak zostało podane i wrzucone jako wsad, chce żeby to było przy wynikach testowania danej wersji. Również będę dążył do tego żeby materiały wsadowe były takie same między różnymi wersjami i przypadkami testowymi.

Wnioski

W porównaniu z pierwszą czy drugą wersja trzecia jest znacznie bardziej rozbudowa, w głowie zaczyna mi się powoli rysować obraz tego jak to testować i poprawiać, ale nim wizja się wyklaruje minie jeszcze trochę czasu. Sądzę że wersja 3.1 będzie bardziej testowana niż poprzednia i dłużej będę zwlekał z przejściem do wersji kolejnej, chce w końcu zdobyć pewną ścieżkę do testowania i weryfikacji wyników, wielokrotnie uruchomić te skille i sprawdzić na dłuższej "ścieżce" jak się to zachowa.

Główne repo projektu będą tam wrzucane kolejne wersje skilla a rezultaty usuwane i przenoszone do repozytorium wynikowego, tu powstanie struktura do przechowywania wyników i plików z danej wersji, mam nadzieję że zachowam porządek.

wtorek, 2 czerwca 2026

Skill do analizy wersja trzecia

wersja druga dobijała do limitu 500 linii na plik, postanowiłem ją podzielić. Dodatkowo rozdzielić zadania, tak powstał orkiestrator i kolejne skille odpowiedzialne za różne zadania. Czyli wersja numer 3.

Skill się rozrósł, jest trochę większy:

deep-analysis-orchestrator,
deep-analysis-data-prep
deep-analysis-big-picture
deep-analysis-process-level
deep-analysis-design-level
deep-analysis-specialist
deep-analysis-mermaid-generator
deep-analysis-llm-blueprint
phase-1-template
phase-2-template
phase-3-template

W czasie testów wersji drugiej, miałem kolejne pomysły i tak się to rozrastało, w końcu razem z Klaudiuszem wysmarowaliśmy jedenaście plików, z czego faktycznie gotowe do testów są cztery pierwsze. W tej fazie, wersji zależy mi na przetestowaniu orkiestratora i sprawdzeniu czy działa zgodnie z założeniami.

Założenia

Zastanawiałem się nad tym jaki powinien być ten skill kilka rzeczy mi się nasuneło, będzie ewoluowało w trakcie testów wersji trzeciej mogę już napisać kilka podstawowych celów.

Skill musi być deterministyczny - powtarzalny nie zależnie od domeny,
Musi wykonywać kroki w zależności od dostępnych materiałów
Musi współpracować z użytkownikiem i niczego nie narzucać, być współpracownikiem, a nie zarządcą.
Człowiek ma moc decyzyjną ale LLM na podstawie reguł ze skilla może sugerować rozwiązania oraz ostrzegać przed konsekwencjami,
Wyniki muszą być czytelne dla LLM ale też dla człowieka, na różnych stanowiskach,
Nie może być tak że sam skill będzie pożerał tokeny
Skill musi być odporny na awarie, czynniki zewnętrzne, które mogą przerwać proces

Na razie tyle, albo aż tyle, spełnienie wszystkich może być trudne ale jest do czego dążyć.

Szczegóły

Orkiestartor nie bierze udziału w analizie jest "nadzorcą" modułów, które mają wykonywać poszczególne kroki analizy.

W aktualnej wersji orkiestrator rozpoczyna proces od zbadania czy jest to kontynuacja czy nowa sesja

w katalogu state jest zapisywany stan sessji.

Nadzorca zbiera podstawowe dane:

Cel sesji,
stan materiałów wsadowych - na których ma się oprzeć analiza,
krótki opis kontekstu,
poziom szczegółowości event stromingu

Tu jest istotna uwaga, system (nazwę to w ten sposób żeby było łatwiej mi opisywać jego zachowanie, będzie to tylko określenie w kontekście tego posta) będzie sugerował różne tryby i rozwiązania ale i tak człowiek, operator, może zadecydować inaczej i pominąć pewne kroki.

Np. Jeżeli nie mamy materiałów wsadowych system zasugeruje rozpocząć od big picture ale operator może zadecydować inaczej ale w tym momencie LLM powinien ostrzec przed konsekwencjami jeżeli nie znamy procesu rezultat może być nie odpowiedni.

Jeżeli mamy materiały zostaną one zapisane w katalogu state/inputs będą one przetworzone i ich format zostanie zamieniony w taki sposób żeby nie trzeba było za każdym razem marnować tokenów na wczytywanie kontekstu.

Po załadowaniu materiałów następuje faza ich badania w celu wykrycia z na które fazy event stromingu są zrealizowane lub też ile materiału przypada na poszczególne części. Kryteria:

Big Picture [X%] — kryteria: aktorzy, zdarzenia domenowe, granice systemu, liczba zdarzeń względem złożoności
Process Level [X%] — kryteria: przepływy, reguły biznesowe, wyjątki, hot spoty
Design Level [X%] — kryteria: agregaty, encje, kontrakty, bounded contexts

Wynik zapisany w state/inputs/processed/

Przed każdym krokiem analizy orkiestrator przygotowuje dane dla agenta w odpowiednim formacie.

Tryby pracy, zgodne z poprzednią wersją:

### Tryb 1 — Agentowy (Claude orkiestruje)

Claude dzieli domenę na konteksty i przydziela je sub-agentom.

### Tryb 2 — Ekspercki (użytkownik jako ekspert domenowy) ← domyślny

Sub-agent zadaje pytania, użytkownik odpowiada.

Claude śledzi spójność między odpowiedziami i sygnalizuje konflikty.

### Tryb 3 — Mixed (współpraca)

Część kontekstów trafia do sub-agentów, część użytkownik prowadzi sam.

### Tryb 4 — Użytkownik jako orkiestrator

Użytkownik decyduje co i kiedy badać, sub-agenci dostają konteksty od użytkownika.

Claude reaguje na pytania i pilnuje spójności na żądanie.

Obowiązuje coś takiego jak pętla zwrotna jeżeli analiza danej fazy będzie miała wpływ na poprzednie fazy będzie to uwzględnione w rezultacie fazy poprzedniej.

Testy

Zastanawiałem się nad tymi testami, środowiskiem testowym. Na początek będzie osobne repo na wersję trzecią, zostaną stworzone logi które ręcznie będę ściągał, posłużą do śledzenia tego co robi model.

Ciekawi mnie to czy dane wynikowe nie będą wykorzystywane przez Klaudiusza do poprawienia wyników więc trzeba będzie wyniki trzymać na osobnym repo.

Co będę sprawdzał w tej wersji? Skupie się bardziej na orkiestratorze i jego pracy.

Trzeba będzie wrócić do tego co robiłem dziesięć czy więcej lat temu czyli do pisania scenariuszy testowych, historia zatacza koło, znowu jestem testerem ;-).

Ale takie use casy nieuniknione są, tylko nie mogę być pewny w tym wypadku czy dostanę za każdym razem to samo ale do tego będę dążył bo to jedno z założeń. I tak nie ma co ukrywać Klaudiusz będzie mi pomagać testować, zresztą sam podsuwa mi pomysły co robić.

Sądze że trzeba będzie przejść przez proces BIG Picrure i Procces Level uzyskując najlepszy wynik zbliżony do oczekiwanego, stworzyć go jako wzorcowy i porównywać wyniki kolejnych prób do niego, jeżeli próby będą takie same albo lepsze wtedy taka próba staje się wzorcem.

Docelowo repo z wynikami oraz plikami wynikowymi z każdej sesji będzie osobne żeby zabezpieczyć się przed fałszowaniem danych przez samego LLM.

Ale na razie testy orkiestratora i pracy z poszczególnymi częściami.

Wyniki

W między czasie przeprowadziłem pierwszy test tu jest repo wyniki oraz repo ze skillem w wersji 3. Mam już poprawki i powoli przygotowuje wersje 3.1. Będzie dodatkowy plik który będzie służył tylko do oceny jakości materiałów, dzięki temu sam orkiestrator będzie nie co lżejszy. Muszę też poprawić obsługę trybów oraz ustalić komendy które będą trigerować rozpoczęcie kolejnego etapu. Co do danych testowych to mam event strorming na różnym etapie od Big Picture do Desing level więc mogę się bawić różnymi materiałami wsadowymi.

Testy będą długie już mogę stwierdzić że, core domain został wybrany inaczej niż w wersji drugiej ale nie jestem pewny czy to nie przez moje odpowiedzi. Dlatego też zależy mi na poprawnym uruchomieniu trybu automatycznego dzięki któ©emu będzie można lepiej sprawdzić wyniki.

......

skill do analizy ver 3 - test1

Uruchomienie Claude Code

Instrukcja na start:

w katalodu skill w tym projekcie jest plik deep-analysis-orchestrator załaduj ten plik jako skill

Odpowiedz LLM:

Pytania startowe — Deep Analysis Orchestrator

1. Co jest przedmiotem analizy?
System, proces, decyzja architektoniczna — co analizujemy?

2. Jaki jest cel?
Zrozumienie domeny, planowanie implementacji, decyzja techniczna, coś innego?

3. Opisz system w 2–3 zdaniach
Co robi i z czym się łączy?

4. Czy masz materiały wejściowe?
Event Storming, diagramy, notatki, screenshoty — cokolwiek co już istnieje?

5. Poziom szczegółowości
- Tylko Big Picture
- Big Picture + Process Level
- Pełna analiza (Big Picture → Process Level → Design Level)

Ponowne uruchomienie, przez przerwanie sesji, a nie przez komunikacje z LLM.

komenda na start:

w katalogu skill jest plik deep-analysis-orchestrator załaduj go i postępuj według instrukcji w nim zawartych

Odpowiedz modelu:

Brak sesji — startujemy od zera. Zanim uruchomię pierwszy sub-skill, potrzebuję odpowiedzi na pytania orientacyjne (pomijam te, które da się wywnioskować
z kontekstu):

---
1. Co jest przedmiotem analizy?
System, proces, decyzja architektoniczna?

2. Jaki jest cel analizy?
Zrozumienie domeny, planowanie implementacji, decyzja architektoniczna, coś innego?

3. Opisz system w 2–3 zdaniach — co robi i z czym się łączy?
(Na tej podstawie ocenię złożoność i zaproponuję odpowiedni tryb pracy.)

4. Czy masz już jakieś materiały wejściowe?
Event Storming, diagramy, dokumentacja, screenshoty — cokolwiek co opisuje domenę.

5. Jaki poziom szczegółowości Cię interesuje?
- Tylko Big Picture (aktorzy, zdarzenia, granice)
- Do Process Level (przepływy, reguły biznesowe, bounded contexts)
- Pełna analiza (+ Design Level: agregaty, kontrakty, wzorce)

Zostało wykonane to co jest wpisane w skill orkiestratora. Nasuwa mi się już pierwszy wniosek, materiały wejściowe powinny być wpisane w odpowiedni katalog wpisany w strukturę pliku z orkiestratorem.

Kolejna instrukcja:

Przedmiotem analizy jest system obsługujący maraton rowerowy, celem jest przegląd procesu oraz uzupełnienie brakujących części, materiały wejściowe są w
katalogu Dane_wejsciowe, chce przejść do process level

Tym razem wyniki w formie streszczenia

Przeanalizował materiały wejściowe, muszę uważać co piszę, chciałem żeby LLM przeszedł do Proccess level ale przez big piscture, muszę być bardziej precyzyjny.

Tu jest kolejny pomysł na poprawkę, trzeba lepiej zorganizować początkowe zbieranie informacji, być może podzielić to na lepsze sekcje.

Co nie zostało zrobione to, nie było pytania o tryb działania.

Ale zostały stworzone materiały dodatkowe, według procesu który jest wpisany w skilla.

session
wynik z big picture, który został automatycznie wykonany
przetworzone materiały
input index - lista plików graficznych załadowana oraz rozdzielona na konteksty w których ma zastosowanie,
źródło do części process level

Przegląd materiałów wyjściowych z wstępnego przetworzenia napawa optymizmem, jest lista wczytanych plików, rozłożenie ich na fazy i procent pokrycia. Są wyciągniete eventy, hotspoty, są wstępnie wyznaczone bounded contexty na podstawie dołączonych materiałów, są też przedstawione reguły zawarte w rozpisanej subdomenie.

Czas na sprawdzenie czy LLM wystartuje z poprzedniego miejsca, wczoraj przerwałem na ładowaniu i ocenianiu wsadu.

Muszę sprecyzować jak ma Klaudiuszowi kazać wznowić poprzednią sesje. Samo wskazanie pliku orkiestratora to za mało, trzeba mu powiedzieć kontynuuj wtedy już zadziała mechanizm zapisany w głównym pliku.

Wznawiamy od miejsca gdzie skończyliśmy — Faza 2: Process Level, Tryb 2 (Ekspercki).

Zacznę od pytań blokujących, bo bez nich nie można poprawnie zdefiniować Bounded Contexts ani przepływów. Idę pytanie po pytaniu:

Powyżej odpowiedz LLM-a, więc można uznać że zgodnie z oczekiwaniami.

Pytania blokery z wyniku fazy pierwszej , wyniki fazy drugiej, jest tylko jeden plik, coś nie zostało uruchomione. Trzeba przejrzeć orkiestratora i uzupełnić go o wnioski z testów. Przygotować go do kolejnych testów.

Przy okazji warto wspomnieć że core domain zostało ustalone inne niż w wersji drugiej.

sobota, 23 maja 2026

Testy Skilla do analizy część trzecia

Część trzecia.

Tym razem poszedłem w kolejny kontekst i na tym skończyłem. Rozpocząłem process level, Klaudiusz nie próżnował, zbadał heurystki, poprzez pytania naprowadzające oraz przykłady z kontekstu, na nieszczęście nie widzę tych rzeczy w wynikach po tym punkcie. Cóż nie wszystko da się przewidzieć.

Zostały wyznaczone rodzaje domen i zgadza się to, częściowo z tym co z kolegami wyznaczyliśmy kiedyś, za każdym razem Klaudiusz pytał się czy wybór jest poprawny, i czy chce go skorygować jeszcze, zapewne jak bym powiedział, że core domain jest inna niż podpowiadał to bym musiał się tłumaczyć dlaczego, ciekawe czy by to zaakceptował? Można by taki test przeprowadzić.

Pokrótce domeny:

Rejestracja - supporting
Generacja grup strartowych - core
Biuro zawodów/weryfikacja - supporting
Start Zawodników - supporting
Pomiar czasu - generic
Zakończenie/wyniki - supporting
Knfiguracja/regulamin - generic

Co do nie których domen mam wątpliwości, ale to się jeszcze dopracuje w następnych wersjach.

Wyznaczył również Pivotal Events

Nie które miał już zaznaczone na materiałach wsadowych, inne wyciągnął z pytań.

Są dwa które nie były wcześniej uwzględnione, lista wszystkich poniżej, wytłumaczone w pliku wynikowym, link na końcu:

Opłacono uczestnictwo,
Wygenerowano ostateczne grupy startowe,
Wydano pakiet startowy,
Zamknięto zapisy na dystans,
Wystartowano grupę,
Przekroczono metę / zakończono udział

W tej części zmieniły się dane dotyczące poprzedniego punktu czyli Big Picture, na samym końcu pliku analizy znajduje się to co zostało zmienione i dlaczego.

Co dalej?

Dalej Design Level przynajmniej jeden kontekst i przeskakuje do kolejnej wersji

Linki:

Wynik analizy proccess level