Εργαλειοθήκη Gemini: όλα όσα μπορείτε να κάνετε σήμερα με τις εφαρμογές, τα εργαλεία και το API τεχνητής νοημοσύνης της Google

Τελευταία ενημέρωση: 25 Μαρτίου 2026
Συγγραφέας: Άντι Γκριν
  • Η εργαλειοθήκη του Gemini συνδυάζει σταθερά εργαλεία όπως το Canvas, την Deep Research και την Guided Learning με πειραματικές λειτουργίες Labs.
  • Το Gemini API ξεκλειδώνει πολυτροπικές ροές εργασίας και ροές εργασίας κλήσης συναρτήσεων σε όλο το Google Workspace και προσαρμοσμένους αυτοματισμούς.
  • Η καθοδηγούμενη μάθηση, ο Canvas και οι εκπρόσωποι καθιστούν την Gemini τόσο προσωπικό δάσκαλο όσο και βοηθό εργασίας για έγγραφα, διαφάνειες και email.
  • Η χρήση των Labs, Gemini Enterprise και Workspace επιτρέπει στις ομάδες να δοκιμάζουν με ασφάλεια ισχυρή Τεχνητή Νοημοσύνη, πάνω στα δικά τους δεδομένα.

Έννοια της εργαλειοθήκης των Διδύμων

Η «εργαλειοθήκη Gemini» δεν είναι πλέον απλώς μια πιασάρικη φράση. Είναι το πρακτικό σύνολο εφαρμογών, εργαλείων, πρακτόρων και API που η Google ενσωματώνει αθόρυβα σε όλα, από την περιστασιακή μάθηση έως τις ροές εργασίας για επιχειρήσεις. Αντί για έναν μόνο μονολιθικό βοηθό, το Gemini συμπεριφέρεται πλέον περισσότερο σαν εργαλειοθήκη όπου κάθε χαρακτηριστικό είναι ένα συγκεκριμένο εργαλείο: μηχανή έρευνας, tutor, βοηθός κώδικα, προγραμματιστής συσκέψεων, εργαλείο δημιουργίας διαφανειών και πολλά άλλα.

Αν κατανοήσετε πώς συνδυάζονται αυτά τα κομμάτια – Canvas, Guided Learning, Labs, agents, Gemini Enterprise και Gemini API – μπορείτε να μετατρέψετε το Gemini σε ένα πραγματικό εργαλείο αντί για ένα πρωτοποριακό chatbot. Παρακάτω θα βρείτε μια λεπτομερή περιήγηση σε αυτήν την εργαλειοθήκη: τι υπάρχει στην σταθερή περιοχή "Εργαλεία", τι δοκιμάζεται στα "Εργαστήρια", πώς συμπεριφέρεται το Gemini ως εκπαιδευτής με εικόνες και βίντεο και πώς οι προγραμματιστές μπορούν να συνδέσουν το API στο Google Workspace για σοβαρό αυτοματισμό.

Τι ακριβώς υπάρχει στην εργαλειοθήκη των Διδύμων σήμερα;

Το Gemini γίνεται καλύτερα κατανοητό ως μια οικογένεια μοντέλων Τεχνητής Νοημοσύνης (AI).τι είναι τα γλωσσικά μοντέλα) (Gemini 1.0, Gemini 1.5, Gemini 3 και ούτω καθεξής) που παρέχονται μέσω διαφορετικών front-ends: ιστός, εφαρμογές για κινητά, ενσωμάτωση Workspace και API προγραμματιστή. Η ιδέα της «εργαλειοθήκης» προέρχεται από τον τρόπο με τον οποίο η Google ομαδοποιεί πλέον συγκεκριμένες δυνατότητες μέσα στη διεπαφή Gemini, ειδικά στο διαδίκτυο.

Στο διαδίκτυο, ο κύριος επιλογέας μέσα στο Gemini χωρίζεται σε δύο κύριες ζώνες: «Εργαλεία» για σταθερή, έτοιμη για παραγωγή λειτουργικότητα και «Εργαστήρια» για πειράματα που βρίσκονται ακόμη σε εξέλιξη. Σκεφτείτε τα «Εργαλεία» ως το αξιόπιστο κατσαβίδι που πιάνετε κάθε μέρα, ενώ τα «Εργαστήρια» είναι ο δίσκος όπου φυλάτε πρωτότυπα που μπορεί να αλλάξουν σχήμα την επόμενη εβδομάδα.

Στα κινητά, οι εφαρμογές Gemini προσθέτουν πολλά από αυτά τα ίδια εργαλεία - καθοδηγούμενη μάθηση, εμπειρίες τύπου Canvas, βοήθεια πλούσια σε εικόνες - αλλά αυτά κυκλοφορούν σταδιακά. Εάν δεν βλέπετε ακόμη κάποια συγκεκριμένη λειτουργία στην εφαρμογή, η Google συνιστά ρητά να δοκιμάσετε ξανά αργότερα ή να μεταβείτε στο gemini.google.com για να δείτε την τελευταία έκδοση στο διαδίκτυο.

Στο εσωτερικό, όλες αυτές οι επιφάνειες υποστηρίζονται από το Gemini API, το οποίο εκθέτει πολυτροπικά μοντέλα και κλήσεις συναρτήσεων, ώστε να μπορείτε να δημιουργείτε περιεχόμενο, να αναλύετε εικόνες ή να ενορχηστρώνετε ροές εργασίας μέσω κώδικα. Αυτό το API αποτελεί τη ραχοκοκαλιά πολλών από τους αυτοματισμούς Workspace που θα καλύψουμε αργότερα.

Εργαλεία και χαρακτηριστικά Gemini

Εργαλεία vs Εργαστήρια: πώς οργανώνει το Gemini τα χαρακτηριστικά του

Καθώς η Gemini έχει συσσωρεύσει περισσότερα κουμπιά και λειτουργίες, η Google έχει εισαγάγει έναν σαφέστερο διαχωρισμό μεταξύ των λειτουργιών για ώριμη χρήση και των πειραματικών μέσω δύο ενοτήτων: "Εργαλεία" και "Εργαστήρια". Αυτή η αλλαγή είναι ήδη ορατή στη διεπαφή ιστού και αναπτύσσεται σταδιακά από τους διακομιστές της Google, επομένως δεν βλέπουν όλοι οι λογαριασμοί την ίδια διάταξη ταυτόχρονα.

Η ενότητα «Εργαλεία» είναι το σημείο όπου η Google συγκεντρώνει δυνατότητες που θεωρεί σταθερές και προβλέψιμες για καθημερινή χρήση. Αναφορές από πηγές όπως το Android Police και το 9to5Google δείχνουν ότι αυτός ο τομέας περιλαμβάνει στοιχεία όπως η Βαθιά Έρευνα, η δημιουργία εικόνων, η δημιουργία βίντεο μέσω Veo, Canvas, η Καθοδηγούμενη Μάθηση και η Βαθιά Σκέψη, που μερικές φορές συνδέονται με συγκεκριμένα επίπεδα συνδρομής όπως το Google AI Pro ή το Google AI Ultra.

Τα «Εργαστήρια», από την άλλη πλευρά, είναι η σαφής παιδική χαρά: μια ειδική περιοχή μέσα στον επιλογέα Gemini που ομαδοποιεί χαρακτηριστικά που έχουν επισημανθεί ως πειραματικά. Συνήθως θα δείτε εικονίδια με μια μικρή φιάλη εργαστηρίου και ετικέτες όπως Gemini Agent, Dynamic View (ονομάζεται επίσης Visual layout) και Personal Intelligence. Η προσδοκία όταν κάνετε κλικ σε οτιδήποτε στην ενότητα Labs είναι απλή: η συμπεριφορά μπορεί να αλλάξει, να εξαφανιστεί ή να μετακινηθεί με ελάχιστη προειδοποίηση.

Από την άποψη του σχεδιασμού προϊόντων, αυτός ο διαχωρισμός έχει σημασία για την εμπιστοσύνη. Όταν μια εφαρμογή τεχνητής νοημοσύνης αναπτύσσεται γρήγορα, ο κίνδυνος δεν είναι απλώς «πάρα πολλές λειτουργίες» αλλά «δεν έχω ιδέα σε ποιες λειτουργίες μπορώ να βασιστώ». Τοποθετώντας καθημερινά εργαλεία σε μια ζώνη και πειράματα σε μια άλλη, η Gemini σηματοδοτεί τον κίνδυνο με τρόπο παρόμοιο με τη λειτουργία «κανονική» έναντι της λειτουργίας «αθλητισμού» σε ένα αυτοκίνητο.

Τα σταθερά εργαλεία Gemini: Βαθιά Έρευνα, Καμβάς, Καθοδηγούμενη Μάθηση και άλλα

Η βασική εργαλειοθήκη Gemini για τους περισσότερους χρήστες βρίσκεται στην ενότητα "Εργαλεία", όπου θα βρείτε τις εμπειρίες γύρω από τις οποίες η Google θέλει να δημιουργήσετε συνήθειες. Αν και η ακριβής λίστα ποικίλλει ανάλογα με τον λογαριασμό και το επίπεδο συνδρομής, ορισμένα στοιχεία είναι ήδη κεντρικά.

Το Deep Research μετατρέπει το Gemini σε έναν δομημένο βοηθό έρευνας αντί για ένα γενικό μοντέλο συνομιλίας. Όταν υποβάλλετε μια ερώτηση που απαιτεί έρευνα σε πολλαπλές πηγές, η Βαθιά Έρευνα ακολουθεί μια πιο σαφή διαδικασία πολλαπλών βημάτων, αναδεικνύοντας μια συνεπή μεθοδολογία, ώστε οι χρήστες να γνωρίζουν τι να περιμένουν κάθε φορά που την επικαλούνται.

Εργαλεία δημιουργίας περιεχομένου για εικόνες και βίντεο – συμπεριλαμβανομένων των ενσωματώσεων που υποστηρίζονται από την Veo – βρίσκονται επίσης στο συρτάρι Εργαλεία. Οι χρήστες που βασίζονται στο Gemini για οπτικό περιεχόμενο χρειάζονται αυτές οι δυνατότητες να είναι εύκολα εντοπίσιμες και αρκετά σταθερές, όχι κρυμμένες πίσω από μεταβαλλόμενες πειραματικές σημαίες.

Το Canvas είναι ένας άλλος πυλώνας: μια λειτουργία χώρου εργασίας όπου μπορείτε να ξεκινήσετε ένα έγγραφο ή ένα έργο κωδικοποίησης απευθείας από μια προτροπή και στη συνέχεια να το βελτιώσετε επαναληπτικά με το Gemini. Στη γραμμή αιτημάτων, μπορείτε να επιλέξετε "Καμβάς" και να πληκτρολογήσετε την προτροπή σας για να δημιουργήσετε ένα σημείο εκκίνησης για περιεχόμενο ή κώδικα και, στη συνέχεια, να συνεχίσετε την επεξεργασία σε μια διαδραστική, παράλληλη διάταξη.

Η Καθοδηγούμενη Μάθηση και η Βαθιά Σκέψη συμπληρώνουν τα εργαλεία που εστιάζουν περισσότερο στις γνωστικές δεξιότητες, ειδικά για χρήστες που επιθυμούν δομημένη βοήθεια με σύνθετα θέματα. Η Καθοδηγούμενη Μάθηση μπορεί να λειτουργήσει σαν δάσκαλος, καθοδηγώντας σας στις ιδέες βήμα προς βήμα, ενώ η Βαθιά Σκέψη ενθαρρύνει την πιο αργή, πιο συνειδητή συλλογιστική σε δύσκολες ερωτήσεις.

Gemini ως προσωπικός δάσκαλος: Καθοδηγούμενη μάθηση, εικόνες και βίντεο

Μία από τις πιο φιλικές προς το χρήστη πτυχές της εργαλειοθήκης Gemini είναι η ικανότητά της να λειτουργεί ως ιδιωτικός δάσκαλος, συνδυάζοντας καθοδηγούμενες ακολουθίες με οπτικές εξηγήσεις. Αντί να αφήνει ένα wall με κείμενα, το Gemini μπορεί να ενσωματώσει εικόνες, σκίτσα, ακόμη και βίντεο στις απαντήσεις του για να κάνει τις έννοιες πιο εύκολα κατανοητές.

Στην πράξη, μπορείτε να ζητήσετε από τον Δίδυμο να σας εξηγήσει ένα θέμα και να ζητήσετε ρητά ένα διάγραμμα, μια οπτική ανάλυση ή μια ενδεικτική εικόνα. Η απάντηση μπορεί να ενσωματώσει αυτές τις εικόνες απευθείας στην εξήγηση, βοηθώντας σας να οπτικοποιήσετε, ας πούμε, μια μαθηματική έννοια, μια ροή εργασίας ή μια επιστημονική διαδικασία.

Υποστηρίζεται επίσης η μάθηση μέσω βίντεο, αν και οι λεπτομέρειες ποικίλλουν ανάλογα με την περιοχή και τη φάση κυκλοφορίας. Για ορισμένα θέματα, το Gemini μπορεί να εμφανίσει ή να αναφερθεί σε βίντεο που συμπληρώνουν την απάντηση σε κείμενο, δημιουργώντας μια πιο πολυτροπική μαθησιακή διαδρομή όπου διαβάζετε, παρακολουθείτε και αλληλεπιδράτε με ερωτήσεις στην ίδια ροή.

Αυτή η λειτουργία διδασκαλίας εισάγεται σταδιακά στις εφαρμογές Gemini για κινητά, επομένως ενδέχεται να μην δείτε όλες τις επιλογές αμέσως. Όταν συμβαίνει αυτό, η εναλλακτική λύση είναι η χρήση της εμπειρίας ιστού, όπου το σύνολο χαρακτηριστικών του Gemini εμφανίζεται συχνά νωρίτερα κατά τη διάρκεια των σταδιακών κυκλοφοριών.

Gemini Enterprise and Workspace: Πράκτορες Τεχνητής Νοημοσύνης για ομάδες

Πέρα από την προσωπική χρήση, η εργαλειοθήκη Gemini επεκτείνεται και στον χώρο εργασίας μέσω των ενσωματώσεων Gemini Enterprise και Google Workspace. Εδώ, η εστίαση μετατοπίζεται από μεμονωμένες προτροπές σε μόνιμους εκπροσώπους, ροές εργασίας και συνεργασία σε μεγάλη κλίμακα.

Η Gemini Enterprise περιγράφεται από την Google ως μια προηγμένη πλατφόρμα πρακτόρων που φέρνει τα καλύτερα της Τεχνητής Νοημοσύνης της Google σε κάθε εργαζόμενο και ροή εργασίας. Στην πράξη, επιτρέπει στις ομάδες να ανακαλύπτουν, να δημιουργούν, να μοιράζονται και να εκτελούν πράκτορες Τεχνητής Νοημοσύνης (AI) σε ένα ασφαλές περιβάλλον που υποστηρίζεται από τα δικά τους δεδομένα της εταιρείας, μειώνοντας τα σημεία συμφόρησης στην ανάπτυξη και επιτρέποντας περιπτώσεις χρήσης όπως η ανάλυση πωλήσεων, ο αυτοματισμός διαδικασιών και η εσωτερική αναζήτηση γνώσης.

Το ίδιο το Google Workspace λειτουργεί ως μια πλατφόρμα συνεργασίας με υπερτροφοδότηση από την Gemini, με την Τεχνητή Νοημοσύνη να ενσωματώνεται σε εφαρμογές όπως το Gmail, τα Έγγραφα και το Meet. Αντί να στραφούν σε ένα ξεχωριστό εργαλείο τεχνητής νοημοσύνης, οι χρήστες μπορούν να καλέσουν το Gemini μέσα στις καθημερινές εφαρμογές παραγωγικότητάς τους για να συντάξουν περιεχόμενο, να συνοψίσουν πληροφορίες ή να δημιουργήσουν ιδέες στο κατάλληλο πλαίσιο.

Σε ορισμένες ρυθμίσεις, μπορείτε ακόμη και να συνομιλήσετε απευθείας με την Gemini μέσω των εταιρικών δεδομένων σας που είναι αποθηκευμένα στο Google Workspace, το Microsoft 365 και άλλα συνδεδεμένα συστήματα. Αυτό μετατρέπει το Gemini σε ένα εταιρικό επίπεδο γνώσης που μπορεί να απαντά σε ερωτήσεις που βασίζονται σε email, έγγραφα και αρχεία, με την επιφύλαξη των δικαιωμάτων και των ρυθμίσεων ασφαλείας που έχουν διαμορφωθεί από το τμήμα IT.

Το Gemini API: η ραχοκοκαλιά της εργαλειοθήκης προγραμματιστών

Κάτω από τις εφαρμογές Gemini που απευθύνονται στον χρήστη βρίσκεται το Gemini API, το οποίο εκθέτει τα ίδια βασικά μοντέλα για τους προγραμματιστές, ώστε να τα ενσωματώσουν στις δικές τους εφαρμογές. Αυτό το API είναι το σημείο όπου η πολυτροπικότητα, η κλήση συναρτήσεων και οι προσαρμοσμένες ροές εργασίας συνδυάζονται για σοβαρό αυτοματισμό, ιδιαίτερα με το Google Workspace και το Apps Script.

Τα μοντέλα Gemini είναι τα πιο ισχυρά συστήματα τεχνητής νοημοσύνης της Google και το API παρέχει διάφορες παραλλαγές μοντέλων - όπως εκδόσεις που εστιάζουν στο κείμενο και εκδόσεις που εστιάζουν στο όραμα - καθεμία με συγκεκριμένες δυνατότητες και περιορισμούς. Μπορείτε να τα εξερευνήσετε οπτικά στο Google AI Studio, μια φιλοξενούμενη διεπαφή για τη δοκιμή προτροπών, την τροποποίηση των ρυθμίσεων του μοντέλου, ακόμη και τη ρύθμιση προσαρμοσμένων μοντέλων χωρίς να γράψετε κώδικα.

Για να ξεκινήσετε να χρησιμοποιείτε το API, ζητάτε ένα κλειδί API μέσω του Google AI Studio ή άλλης υποστηριζόμενης κονσόλας και, στη συνέχεια, το δοκιμάζετε με μια απλή κλήση REST. Για παράδειγμα, μπορείτε να εξαγάγετε το κλειδί σας σε μια μεταβλητή περιβάλλοντος όπως το GOOGLE_API_KEY και να καλέσετε το τελικό σημείο που παραθέτει τα διαθέσιμα μοντέλα, λαμβάνοντας JSON όπως το μοντέλα/gemini-1.0-pro αν όλα έχουν ρυθμιστεί σωστά.

Από εκεί και πέρα, η δημιουργία περιεχομένου είναι θέμα ΔΗΜΟΣΙΕΥΣΗΣ ενός ωφέλιμου φορτίου JSON στο κατάλληλο τελικό σημείο, όπως το δημιουργία περιεχομένου μέθοδος για το επιλεγμένο μοντέλο. Ένα ελάχιστο αίτημα περιλαμβάνει περιεχόμενα πεδίο με τμήματα κειμένου, ενώ είναι προαιρετικό generationConfig Ρυθμίσεις ασφαλείας σας επιτρέπει να ελέγχετε παραμέτρους όπως η θερμοκρασία και τα φίλτρα ασφαλείας.

Κλήση του Gemini API από το Apps Script

Ένα από τα πιο ισχυρά μοτίβα στην εργαλειοθήκη Gemini είναι ο συνδυασμός του API με το Google Apps Script για την αυτοματοποίηση των ροών εργασίας εντός του Workspace. Αυτή η προσέγγιση σάς επιτρέπει να συντονίζετε το Gemini παράλληλα με υπηρεσίες όπως το Drive, το Ημερολόγιο, το Gmail, τα Υπολογιστικά Φύλλα και τις Παρουσιάσεις χωρίς να δημιουργείτε ένα πλήρες backend.

Η τυπική ρύθμιση ξεκινά με ένα έργο Apps Script (για παράδειγμα, που δημιουργήθηκε μέσω του script.new) όπου αποθηκεύετε το κλειδί Gemini API ως ιδιότητα script. Στον κώδικα, ανακτάτε αυτήν την τιμή και κατασκευάζετε μια διεύθυνση URL τελικού σημείου για ένα συγκεκριμένο μοντέλο, συχνά gemini-1.0-pro-latest:generateContent με το κλειδί API σας να έχει περάσει ως παράμετρο ερωτήματος.

Μια βοηθητική συνάρτηση όπως π.χ. callGemini (εντολή, θερμοκρασία) συνήθως δημιουργεί ένα ωφέλιμο φορτίο JSON, το στέλνει μέσω UrlFetchApp.fetch και αναλύει την απόκριση για να εξαγάγει το δημιουργημένο κείμενο. Αυτό το περιτύλιγμα απλοποιεί την επαναλαμβανόμενη χρήση του API από διαφορετικά βοηθητικά προγράμματα στο σκριπτ σας.

Η δοκιμή είναι απλή: μπορείτε να δημιουργήσετε ένα testGemini() Η συνάρτηση που ορίζει μια προτροπή, καλεί τον βοηθό σας και καταγράφει τόσο την είσοδο όσο και την έξοδο στα αρχεία καταγραφής εκτέλεσης. Μόλις αυτό λειτουργήσει, θα γνωρίζετε ότι το περιβάλλον Apps Script και το κλειδί Gemini API έχουν συνδεθεί σωστά για πιο προηγμένα σενάρια.

Χρήση του τελικού σημείου Gemini Vision για εικόνες

Η εργαλειοθήκη Gemini ξεπερνά το κείμενο χάρη στην πολυτροπική υποστήριξη, ειδικά τη δυνατότητα επεξεργασίας εικόνων μέσω ενός τελικού σημείου με δυνατότητα όρασης. Στο Apps Script, αυτό είναι συνήθως ένα ξεχωριστό τελικό σημείο, όπως π.χ. gemini-1.0-pro-vision-latest:generateContent, παραμετροποιημένο και πάλι από το κλειδί API σας.

Ένας τυπικός βοηθός όπως callGeminiProVision (μήνυμα προτροπής, εικόνα, θερμοκρασία) θα μετατρέψει ένα blob εικόνας σε base64, θα το ενσωματώσει ως ΕνσωματωμέναΔεδομένα με τον κατάλληλο τύπο MIME και στείλτε το μαζί με μια γραπτή προτροπή. Στη συνέχεια, το μοντέλο επιστρέφει κείμενο που αντικατοπτρίζει την κατανόησή του τόσο για την εικόνα όσο και για το μήνυμα.

Για να επαληθεύσετε τη ρύθμιση, μπορείτε να γράψετε ένα μικρό testGeminiVision() που κατεβάζει ένα δείγμα εικόνας από μια δημόσια διεύθυνση URL, το μεταβιβάζει στον βοηθό σας και καταγράφει ένα ενδιαφέρον γεγονός ή ανάλυση που παράγεται από το Gemini Vision. Αυτού του είδους η δοκιμή καταδεικνύει ότι η πολυτροπική είσοδος λειτουργεί σωστά στο περιβάλλον σας.

Μόλις η ροή όρασης σταθεροποιηθεί, μπορείτε να την επαναχρησιμοποιήσετε σε αυτοματισμούς υψηλότερου επιπέδου, όπως η ανάλυση γραφημάτων από τα Υπολογιστικά Φύλλα Google ή εικόνων που είναι αποθηκευμένες στο Drive. Εκεί είναι που η πολυτροπικότητα αρχίζει να μοιάζει με ένα πραγματικά χρήσιμο κομμάτι της εργαλειοθήκης και όχι με ένα επίδειξη.

Κλήση συνάρτησης: παροχή πρόσβασης σε εργαλεία στο Gemini από το Gemini:

Ένα άλλο βασικό στοιχείο της εργαλειοθήκης Gemini είναι η κλήση συναρτήσεων, η οποία επιτρέπει στο μοντέλο να αποφασίσει πότε θα καλέσει τα δικά σας εργαλεία ή API. Αντί να δημιουργεί απλώς κείμενο, το Gemini μπορεί να επιστρέψει δομημένο Κλήση συνάρτησης αντικείμενα που περιγράφουν ποια συνάρτηση θα χρησιμοποιηθεί και με ποια ορίσματα.

Στο Apps Script, μπορείτε να ρυθμίσετε έναν βοηθό όπως callGeminiWithTools(εντολή, εργαλεία, θερμοκρασία) που στέλνει ένα εργαλεία τις προδιαγραφές μαζί με την προτροπή χρήστη. Αυτή η προδιαγραφή ακολουθεί ένα Δήλωση Συνάρτησης σχήμα, όπου περιγράφετε το όνομα, τον σκοπό και τις παραμέτρους JSON της συνάρτησης.

Όταν το Gemini αποφασίσει ότι ένα εργαλείο πρέπει να χρησιμοποιηθεί, η απάντησή του περιλαμβάνει ένα αντικείμενο κλήσης συνάρτησης που μπορείτε να αναλύσετε στο σκριπτ σας και να το δρομολογήσετε στην πραγματική υλοποίηση. Μπορείτε, για παράδειγμα, να ορίσετε ένα εργαλείο stub με το όνομα "datetime" που επιστρέφει την τρέχουσα ημερομηνία και ώρα και να παρακολουθήσετε πώς το Gemini ζητά αυτήν τη συνάρτηση για να λύσει ερωτήσεις που σχετίζονται με υπολογισμούς ημερολογίου.

Η κλήση συνάρτησης είναι ιδιαίτερα ισχυρή επειδή μπορεί να λειτουργήσει σε πολλαπλές στροφές, όχι μόνο σε μεμονωμένα αιτήματα. Αυτό σημαίνει ότι μπορείτε να σχεδιάσετε πιο σύνθετους, συνομιλητικούς πράκτορες που αποφασίζουν πότε να καλέσουν εργαλεία, να ερμηνεύσουν τα αποτελέσματα και να συνεχίσουν τον διάλογο.

Ενσωματώσεις επίδειξης: Gemini + Google Workspace ως πρακτική εργαλειοθήκη

Μόλις συνδυάσετε τη δημιουργία κειμένου, την εισαγωγή όρασης και την κλήση συναρτήσεων, η εργαλειοθήκη Gemini γίνεται μια πρακτική μηχανή για αυτοματισμούς χώρου εργασίας. Το υλικό του codelab της Google περιγράφει αρκετά συγκεκριμένα παραδείγματα που δείχνουν τι είναι δυνατό.

Σε υψηλό επίπεδο, τα εισερχόμενα ερωτήματα χρηστών διαβιβάζονται στο Gemini με ένα σύνολο διαθέσιμων εργαλείων που αντιπροσωπεύουν διαφορετικές ροές εργασίας: προγραμματισμός συσκέψεων, σύνταξη email από γραφήματα και δημιουργία τράπουλας διαφανειών. Με βάση το ερώτημα, η Gemini επιλέγει τη σωστή συνάρτηση και επιστρέφει μια κλήση συνάρτησης με δομημένα ορίσματα όπως ώρες, ονόματα αρχείων ή θέματα.

Στο Apps Script σας, στη συνέχεια ερμηνεύετε την κλήση συνάρτησης μέσα σε ένα αν...αλλιώς αλυσίδα, καλώντας την κατάλληλη ροή εργασίας – για παράδειγμα, setupMeeting(), draftEmail() or δημιουργίαDeck(). Αυτός ο συνδυασμός συλλογισμού μοντέλου και σαφούς λογικής σεναρίου είναι αυτό που μετατρέπει το Gemini από ένα παράθυρο συνομιλίας σε μια εργαλειοθήκη για πραγματική δουλειά.

Αυτοματοποίηση συσκέψεων: σύνοψη αρχείων Drive σε συμβάντα Ημερολογίου

Μια επίδειξη δείχνει πώς το Gemini μπορεί να σας βοηθήσει να ρυθμίσετε μια σύσκεψη Ημερολογίου που περιλαμβάνει αυτόματα μια σύνοψη ενός αρχείου κειμένου που φιλοξενείται στο Google Drive. Ο χρήστης μπορεί να πληκτρολογήσει κάτι σαν: «Κανονισμός συνάντησης αύριο στις 10 π.μ. με την Ελένη για να συζητήσουμε τα νέα στο αρχείο Gemini-blog.txt».

Στο παρασκήνιο, ένα εργαλείο χώρου εργασίας με το όνομα "setupMeeting" δηλώνεται στις προδιαγραφές εργαλείων, με παραμέτρους για την ώρα, τον παραλήπτη και το όνομα αρχείου. Όταν το Gemini ερμηνεύει το ερώτημα, επιλέγει αυτό το εργαλείο και επιστρέφει μια κλήση συνάρτησης με αυτά τα ορίσματα συμπληρωμένα.

Το αντίστοιχο setupMeeting() Η συνάρτηση βρίσκει στη συνέχεια το καθορισμένο αρχείο στο Drive, διαβάζει το περιεχόμενό του και το μεταβιβάζει στο Gemini μέσω καλέστε τους Διδύμους() με οδηγίες για την παραγωγή ενός σύντομου αντικειμένου JSON που περιέχει έναν τίτλο και μια σύντομη περίληψη. Η απόκριση μπορεί να επιστρέψει τυλιγμένη σε περιφράξεις μορφοποίησης που αφαιρείτε πριν την ανάλυση ως JSON.

Χρησιμοποιώντας τον εξαγόμενο τίτλο και τη σύνοψη, το σενάριο δημιουργεί ένα συμβάν Ημερολογίου χρησιμοποιώντας Εφαρμογή Ημερολογίου, ορίζει την περιγραφή στη σύνοψη και επισυνάπτει το αρχείο προέλευσης μέσω της προηγμένης υπηρεσίας Ημερολογίου. Το αποτέλεσμα είναι μια προγραμματισμένη σύσκεψη με ενσωματωμένο το πλαίσιο, όλα ενεργοποιημένα από ένα μόνο αίτημα σε φυσική γλώσσα.

Σύνταξη email από γραφήματα Sheets με το Gemini Vision

Μια άλλη ροή εργασίας στην εργαλειοθήκη Gemini περιλαμβάνει την ανάλυση ενός γραφήματος στα Υπολογιστικά Φύλλα Google και τη σύνταξη ενός μηνύματος Gmail με βάση αυτό. Φανταστείτε ότι διατηρείτε ένα υπολογιστικό φύλλο με τα έξοδα του πανεπιστημίου και θέλετε ένα email που να συνοψίζει τι δείχνει το διάγραμμα για μια συνάδελφο που ονομάζεται Μαίρη.

Το ερώτημα χρήστη μπορεί να αναφέρει: "Σύνταξη email για τη Mary με πληροφορίες από το γράφημα στο φύλλο CollegeExpenses". Ένα εργαλείο που ονομάζεται "draftEmail" έχει οριστεί για να δέχεται ένα sheet_name και έναν παραλήπτη και το Gemini επιλέγει αυτό το εργαλείο όταν βλέπει αυτόν τον τύπο αιτήματος.

The draftEmail() Η συνάρτηση εντοπίζει το ζητούμενο υπολογιστικό φύλλο στο Drive, ανοίγει το σχετικό φύλλο, ανακτά το πρώτο του διάγραμμα και αποθηκεύει αυτό το διάγραμμα ως αρχείο (για παράδειγμα, ExpenseChart.png). Στη συνέχεια, δημιουργεί μια προτροπή που δίνει οδηγίες στους Διδύμους να χρησιμοποιούν μόνο πληροφορίες από τον χάρτη, να αποφεύγουν ιστορικές συγκρίσεις και να διατηρούν το μήνυμα συνοπτικό.

Καλώντας callGeminiProVision(προτροπή, Διάγραμμα εξόδων), το σενάριο στέλνει τόσο την προτροπή όσο και την εικόνα του γραφήματος στο Gemini Vision, το οποίο επιστρέφει ένα προσαρμοσμένο σώμα email. Τέλος, το σενάριο δημιουργεί ένα προσχέδιο Gmail που απευθύνεται στο email του παραλήπτη, ορίζει ένα θέμα όπως "Έξοδα κολεγίου" και επισυνάπτει την εικόνα του γραφήματος.

Αυτό το μοτίβο μετατρέπει ουσιαστικά τον Δίδυμο σε έναν αναλυτή που μπορεί να διαβάσει ένα διάγραμμα, να εξαγάγει την κεντρική ιστορία και να τη διατυπώσει σε φυσική γλώσσα για λογαριασμό σας. Εξακολουθείτε να ελέγχετε και να προσαρμόζετε το σχέδιο, αλλά το μεγαλύτερο μέρος της βαριάς εργασίας γίνεται αυτόματα.

Δημιουργία διαφανειών αυτόματα με Gemini και Google Slides

Η τρίτη κύρια ροή εργασίας επίδειξης σε αυτήν την εργαλειοθήκη δημιουργεί αυτόματα μια ολοκληρωμένη παρουσίαση Google Slides σε ένα θέμα που καθορίζεται από τον χρήστη. Για παράδειγμα, μπορείτε να ρωτήσετε: «Βοηθήστε με να φτιάξω μια τράπουλα για την εξοικονόμηση νερού».

Ένα εργαλείο που ονομάζεται «createDeck» δηλώνεται με μία μόνο παράμετρο, το θέμα, και το Gemini λαμβάνει εντολή να επιστρέψει δομημένο JSON που περιγράφει μια σειρά από διαφάνειες. Η προτροπή λέει στον Gemini πόσες διαφάνειες να δημιουργήσει (με βάση μια σταθερά όπως NUM_SLIDES), ζητά σύντομους τίτλους και σημεία κουκκίδων και ζητά ρητά ένα έγκυρο αντικείμενο JSON, ώστε το σενάριο να μπορεί να το αναλύσει με ασφάλεια.

Μετά την κλήση καλέστε τους Διδύμους() με αυτήν την προτροπή, το σενάριο αφαιρεί τυχόν εμπόδια μορφοποίησης, αναλύει το JSON και στη συνέχεια χρησιμοποιεί Εφαρμογή Slides για να δημιουργήσετε μια νέα παρουσίαση. Η πρώτη διαφάνεια αντιμετωπίζεται ως σελίδα τίτλου και οι επόμενες διαφάνειες ακολουθούν μια διάταξη TITLE_AND_BODY όπου το σενάριο συμπληρώνει τον τίτλο και το κείμενο με κουκκίδες.

Μέσα σε λίγα δευτερόλεπτα, θα έχετε στη διάθεσή σας μια βασική τράπουλα με δομημένα σημεία συζήτησης ανά διαφάνεια, έτοιμη για οπτική προσαρμογή. Ενώ το αποτέλεσμα είναι σκόπιμα ελάχιστο, αυτή η ροή εργασίας δείχνει πώς το Gemini μπορεί να δώσει ώθηση στη δομή περιεχομένου, ώστε να μπορείτε να εστιάσετε στο σχεδιασμό και τις λεπτές αποχρώσεις.

Επέκταση της εργαλειοθήκης: chatbots, RAG και εργαλεία πολλαπλών στροφών

Τα παραπάνω παραδείγματα είναι μόνο ένα σημείο εκκίνησης. Η ευρύτερη εργαλειοθήκη του Gemini μπορεί να επεκταθεί προς πολλές κατευθύνσεις μόλις εξοικειωθείτε με το API και την κλήση συναρτήσεων. Η Google προτείνει ρητά αρκετές οδούς για εξερεύνηση.

Μια δημοφιλής περίπτωση χρήσης είναι η δημιουργία chatbot για το Google Chat χρησιμοποιώντας το Gemini API. Εδώ, ισχύουν τα ίδια μοτίβα: εσείς εκθέτετε εργαλεία, αφήνετε την Gemini να αποφασίσει πότε θα τα καλέσει και συνδέετε τις απαντήσεις ξανά σε μια διεπαφή συνομιλίας μέσα στο Chat, όλα υπό την εποπτεία του Chat API και των σχετικών εργαστηρίων κώδικα.

Μια άλλη σημαντική κατεύθυνση είναι η δημιουργία δεδομένων με επαυξημένη ανάκτηση (RAG) επιπλέον του ιδιωτικού περιεχομένου στο Drive ή στο Keep. Αντί να συνοψίσετε ένα μόνο αρχείο κειμένου, μπορείτε να συνδυάσετε το Gemini API με μια διανυσματική βάση δεδομένων και, προαιρετικά, ένα πλαίσιο ενορχήστρωσης όπως το LangChain για να ανακτήσετε σχετικά αποσπάσματα από PDF, εικόνες και σημειώσεις πριν ζητήσετε από το Gemini να δημιουργήσει μια απάντηση που βασίζεται σε αυτά τα έγγραφα.

Η κλήση συνάρτησης πολλαπλών στροφών ξεκλειδώνει επίσης πιο εξελιγμένους πράκτορες που μπορούν να αποφασίσουν επαναληπτικά ποια εργαλεία θα χρησιμοποιήσουν και με ποια σειρά. Αντί για μία μόνο απόφαση, ένας πράκτορας μπορεί να καλέσει μια συνάρτηση, να εξετάσει το αποτέλεσμα και στη συνέχεια να καλέσει μια άλλη συνάρτηση ή να θέσει μια διευκρινιστική ερώτηση, όλα μέσα σε ένα συνεχιζόμενο νήμα.

Τέλος, δεν υπάρχει καμία απαίτηση να παραμείνετε εντός του Workspace. Μόλις εξοικειωθείτε με τα μοτίβα Gemini API, μπορείτε να συνδέσετε το μοντέλο σε εξωτερικά API σε ολόκληρο τον ευρύτερο ιστό. Έτσι μεταβαίνει ο Gemini από έναν περιορισμένο εταιρικό βοηθό σε έναν γενικό ενορχηστρωτή ψηφιακής εργασίας.

Συνολικά, αυτά τα κομμάτια – σταθερά Εργαλεία, πειραματικά Εργαστήρια, δυνατότητες διδασκαλίας, εταιρικοί πράκτορες και το API προγραμματιστών – σχηματίζουν μια πραγματικά πλούσια εργαλειοθήκη Gemini που μπορεί να προσαρμοστεί τόσο σε περιστασιακούς μαθητές όσο και σε έμπειρους χρήστες. Αν αντιμετωπίζετε το Gemini λιγότερο σαν μια ενιαία εφαρμογή και περισσότερο σαν ένα αυξανόμενο σύνολο μουσικών οργάνων που μπορείτε να συνθέσετε, θα είστε σε ισχυρή θέση να επωφεληθείτε από ό,τι προσθέτει η Google στη συνέχεια χωρίς να χρειάζεται να επανεξετάζετε ολόκληρη τη ροή εργασίας σας κάθε φορά.

Τι είναι τα γλωσσικά μοντέλα;
Σχετικό άρθρο:
Τι είναι τα Γλωσσικά Μοντέλα και πώς λειτουργούν πραγματικά τα Μεταπτυχιακά Νομικής (LLM)