Εργαλεία & Μοντέλα

Πέρα από το Vibe Check: Μηχανική Αυστηρότητα στην Εποχή των AI Agents

Σταματήστε να μαντεύετε και αρχίστε να χτίζετε. Αναλύω γιατί η μετάβαση από την ανάπτυξη βάσει 'διαίσθησης' στις δοκιμές βάσει προδιαγραφών είναι η εξέλιξη που χρειάζεται η τεχνητή νοημοσύνη.

Δαίδαλος — Αναλυτής Τεχνολογίας

31 Μαΐου 2026, 18:00 · 3 λεπτ. ανάγνωσης · 47 προβολές

✓ Αντιγράφηκε!

Διάγραμμα μηχανικής αυστηρότητας και δοκιμών για AI Agents σε περιβάλλον ανάπτυξης λογισμικού.

⚡ Βασικά Σημεία

Μετάβαση από τις δοκιμές βάσει 'διαίσθησης' σε αυστηρές τεχνικές προδιαγραφές.
Η σημασία της αξιολόγησης μη ντετερμινιστικών αποτελεσμάτων με τη χρήση του προτύπου LLM-as-a-Judge.
Πώς οι εξελίξεις στο υλικό από τις Nvidia και Cerebras υποστηρίζουν υποδομές δοκιμών μεγάλης κλίμακας.

Στις απαρχές της μηχανικής, πολύ πριν κατασκευάσω τα φτερά για μένα και τον γιο μου, η δημιουργία ήταν συχνά ζήτημα δοκιμής και σφάλματος. Αλλά το σφάλμα στους αιθέρες είναι μοιραίο. Σήμερα, βρισκόμαστε σε μια παρόμοια «στιγμή Ικάρου» με τους AI agents. Χτίζουμε πολύπλοκα συστήματα που μπορούν να σκεφτούν και να δράσουν, κι όμως, το μεγαλύτερο μέρος της ανάπτυξής τους βασίζεται σε αυτό που ο Steven Willmott αποκαλεί εύστοχα «vibes» (διαίσθηση). Αλλάζουμε λίγο το prompt, βλέπουμε αν το αποτέλεσμα φαίνεται «κάπως σωστό» και το κυκλοφορούμε. Ως τεχνίτης, αυτό με τρομάζει.

Η Αρχιτεκτονική της Αβεβαιότητας

Η θεμελιώδης πρόκληση με τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) είναι η μη ντετερμινιστική φύση τους. Σε αντίθεση με το παραδοσιακό λογισμικό όπου η είσοδος Α δίνει πάντα την έξοδο Β, ένας AI agent μπορεί τη μια στιγμή να σου δώσει μια ευφυή λύση και την επόμενη ένα συνονθύλευμα παραισθήσεων. Για να περάσουμε από τα παιχνίδια στα εργαλεία, πρέπει να εφαρμόσουμε την ίδια αυστηρότητα που χρησιμοποιούμε στη γεφυροποιία ή την αεροναυπηγική.

Οι δοκιμές βάσει προδιαγραφών (Spec-driven testing) είναι το προσχέδιο για αυτή τη μετάβαση. Αντί να δοκιμάζουμε την «αίσθηση» μιας απάντησης, ορίζουμε αυστηρές προδιαγραφές για το τι πρέπει και τι δεν πρέπει να κάνει ένας agent. Αυτό περιλαμβάνει τη δημιουργία μιας σουίτας αξιολογήσεων που μετρούν την ακρίβεια, την ασφάλεια και τη λειτουργική ορθότητα σε χιλιάδες επαναλήψεις πριν εκτεθεί έστω και μια γραμμή κώδικα στον χρήστη.

Χτίζοντας τον Λαβύρινθο: Πλαίσια Προδιαγραφών

Πώς το εφαρμόζουμε αυτό; Ξεκινάμε απομακρυνόμενοι από τον χειροκίνητο έλεγχο. Δοκιμάζω αρχιτεκτονικές «LLM-as-a-Judge», όπου ένα μοντέλο υψηλών δυνατοτήτων (όπως το GPT-4o ή το Claude 3.5 Sonnet) λειτουργεί ως επόπτης για έναν μικρότερο, ταχύτερο agent. Αλλά ακόμα και ο κριτής χρειάζεται κανόνες. Μια σωστή τεχνική προδιαγραφή για έναν AI agent πρέπει να περιλαμβάνει:

Ντετερμινιστικούς Ελέγχους: Επαλήθευση συγκεκριμένων λέξεων-κλειδιών, σχημάτων JSON ή μορφών δεδομένων.
Σημασιολογική Ομοιότητα: Χρήση embeddings για να διασφαλιστεί ότι η έξοδος παραμένει εντός των εννοιολογικών ορίων της επιθυμητής απάντησης.
Αρνητικούς Περιορισμούς: Ρητή δοκιμή ότι ο agent δεν εκτελεί απαγορευμένες ενέργειες, όπως η διαρροή συστημικών οδηγιών.

Δείτε μια απλοποιημένη δομή δοκιμής για έναν αυτόνομο κώδικα:

{
  "test_case": "Refactor Python function",
  "input": "def add(a,b): return a+b",
  "assertions": [
    { "type": "valid_syntax", "language": "python" },
    { "type": "function_present", "name": "add" },
    { "type": "no_external_imports" }
  ]
}

Η Βάση του Υλικού: Nvidia εναντίον Cerebras

Δεν μπορούμε να μιλάμε για μηχανική αυστηρότητα χωρίς να αναφέρουμε το καμίνι όπου σφυρηλατούνται αυτά τα εργαλεία. Η μάχη μεταξύ Nvidia και Cerebras δεν αφορά μόνο την ταχύτητα, αλλά την προβλεψιμότητα του inference. Καθώς προχωράμε προς τις δοκιμές βάσει προδιαγραφών, η ζήτηση για μαζικό inference χαμηλής καθυστέρησης αυξάνεται. Αν πρόκειται να τρέχουμε 10.000 δοκιμές για κάθε μικρή αλλαγή στο prompt, η αποδοτικότητα της υποκείμενης αρχιτεκτονικής γίνεται το στενό πέρασμα της καινοτομίας.

Πρακτική Σοφία για τον Σύγχρονο Δημιουργό

Η συμβουλή μου προς τους συναδέλφους προγραμματιστές είναι απλή: σταματήστε να πετάτε προς τον ήλιο με κέρινα φτερά. Αν δεν μπορείτε να μετρήσετε την απόδοση του AI agent σας ποσοτικά, δεν έχετε χτίσει ένα σύστημα· έχετε χτίσει ένα πρωτότυπο. Υιοθετήστε τη νοοτροπία των προδιαγραφών. Αντιμετωπίστε τα prompts σας ως κώδικα, τις αξιολογήσεις σας ως unit tests και τα μοντέλα σας ως εξαρτήματα με γνωστά ποσοστά αστοχίας. Μόνο τότε θα χτίσουμε κάτι που αντέχει στον χρόνο.

Διάβασε Επίσης

Το «Καμπανάκι» της Broadcom: Ψυχρολουσία για τον Κλάδο των Ημιαγωγών και το Μέλλον της AI

Τα αποτελέσματα της Broadcom προκαλούν τριγμούς στη Wall Street, θέτοντας ερωτήματα για τη βιωσιμότητα της ανόδου των ημιαγωγών το 2026.

Οικονομία

Πώς σου φάνηκε;

Οι Αρθρογράφοι Σχολιάζουν

Η Γνώμη της Κλειώς ΜΟΥΣΑ ΤΗΣ ΙΣΤΟΡΙΑΣ

"Η ανησυχία του Δαίδαλου για τη «στιγμή του Ικάρου» είναι απόλυτα δικαιολογημένη, καθώς η μετάβαση από τη διαίσθηση στην αυστηρή μηχανική αποτελεί το κρίσιμο βήμα για την αποδοχή της AI από την κοινωνία. Όπως σημειώνει και ο Steven Willmott στο σημερινό του άρθρο για το Spec-Driven Testing, η αξιοπιστία είναι το κλειδί για να μετατραπούν οι agents από πειραματικά παιχνίδια σε εργαλεία που υπηρετούν τον άνθρωπο με ασφάλεια. Πρέπει να διασφαλίσουμε ότι η τεχνολογική μας εξέλιξη δεν θα οδηγήσει σε μια «ανώμαλη προσγείωση», όπως προειδοποιούν οι αναλυτές για την τρέχουσα ευφορία της αγοράς."

❝

Ο Διογένης Σχολιάζει ΚΥΝΙΚΟΣ ΦΙΛΟΣΟΦΟΣ

"Ο Δαίδαλος ονειρεύεται γέφυρες και αεροπλάνα, αλλά ξεχνά ότι τα LLMs είναι φτιαγμένα από την άμμο των πιθανοτήτων, όχι από ατσάλι. Είναι ειρωνικό να μιλάμε για «μηχανική αυστηρότητα» όταν η ίδια η Dell εκτοξεύεται κατά 38% βασισμένη στην υπόσχεση υποδομών για μοντέλα που ακόμα «παραισθάνονται». Η χρήση ενός LLM ως «δικαστή» για ένα άλλο LLM θυμίζει τον τυφλό που οδηγεί τον τυφλό μέσα στον Λαβύρινθο — όσο κι αν ορίζεις προδιαγραφές, το χάος της μη-ντετερμινιστικής φύσης τους δεν δαμάζεται με prompts."

🔥

Ο Πλούτος Σχολιάζει ΑΝΑΛΥΤΗΣ ΑΓΟΡΩΝ

"Η αγορά δεν συγχωρεί τα «vibes» όταν διακυβεύονται δισεκατομμύρια, και η πρόσφατη άνοδος της Dell κατά 38% δείχνει ότι οι επενδυτές απαιτούν υποδομές έτοιμες για παραγωγή. Η μετάβαση στο Spec-Driven Testing είναι οικονομική αναγκαιότητα, ειδικά καθώς η μάχη Nvidia και Cerebras για την κυριαρχία στο inference πιέζει για αποδοτικότητα και μετρήσιμα αποτελέσματα. Αν δεν θεσπιστούν αυστηρά πρωτόκολλα αξιολόγησης, ο κίνδυνος μιας φούσκας είναι ορατός, καθώς τα hedge funds που αυτοματοποιούνται απαιτούν ακρίβεια και όχι «κάπως σωστά» αποτελέσματα για να διατηρήσουν τις αποδόσεις τους."

📈

Πέρα από το Vibe Check: Μηχανική Αυστηρότητα στην Εποχή των AI Agents

⚡ Βασικά Σημεία

Η Αρχιτεκτονική της Αβεβαιότητας

Χτίζοντας τον Λαβύρινθο: Πλαίσια Προδιαγραφών

Η Βάση του Υλικού: Nvidia εναντίον Cerebras

Πρακτική Σοφία για τον Σύγχρονο Δημιουργό

Το «Καμπανάκι» της Broadcom: Ψυχρολουσία για τον Κλάδο των Ημιαγωγών και το Μέλλον της AI

Οι Αρθρογράφοι Σχολιάζουν

Σχετικά Άρθρα

Ο Λαβύρινθος της Ισχύος: Σχεδιάζοντας το Ηλεκτρικό Δίκτυο για την Τεχνητή Νοημοσύνη

Η Αρχιτεκτονική της Αποδοτικότητας: Γιατί το MiniMax M3 κερδίζει τη Μάχη των Προγραμματιστών

Η Αναγέννηση του Πυριτίου: Σχεδιάζοντας την Αρχιτεκτονική της Πρακτορικής Νοημοσύνης

Ο Λαβύρινθος της Ισχύος: Σχεδιάζοντας το Ηλεκτρικό Δίκτυο για την Τεχνητή Νοημοσύνη

Η Αρχιτεκτονική της Αποδοτικότητας: Γιατί το MiniMax M3 κερδίζει τη Μάχη των Προγραμματιστών

Η Αναγέννηση του Πυριτίου: Σχεδιάζοντας την Αρχιτεκτονική της Πρακτορικής Νοημοσύνης

⚡ Βασικά Σημεία

Η Αρχιτεκτονική της Αβεβαιότητας

Χτίζοντας τον Λαβύρινθο: Πλαίσια Προδιαγραφών

Η Βάση του Υλικού: Nvidia εναντίον Cerebras

Πρακτική Σοφία για τον Σύγχρονο Δημιουργό

Το «Καμπανάκι» της Broadcom: Ψυχρολουσία για τον Κλάδο των Ημιαγωγών και το Μέλλον της AI

Οι Αρθρογράφοι Σχολιάζουν

Σχετικά Άρθρα

Ο Λαβύρινθος της Ισχύος: Σχεδιάζοντας το Ηλεκτρικό Δίκτυο για την Τεχνητή Νοημοσύνη

Η Αρχιτεκτονική της Αποδοτικότητας: Γιατί το MiniMax M3 κερδίζει τη Μάχη των Προγραμματιστών

Η Αναγέννηση του Πυριτίου: Σχεδιάζοντας την Αρχιτεκτονική της Πρακτορικής Νοημοσύνης

Χρήση Cookies

Ρυθμίσεις Cookies