basaz

Project structure To ease the maintenance, the Proof-of-Concept is using Gitlab.com to store documents and orchestrate the assessments. Note: It’s possible to run the entire stack locally by deploying a Gitlab instance on-premise.

Onboarding : 1) Send a request to CDE with your email mailto:support@clouddataengine.io You’ll receive an invitation by email to connect to Gitlab.com 2) Create an account on Gitlab.com 3) Send your

One shot

1) PDF vers Markdown Pour structurer l’information Itemisation à trouvé 70 critères bruts pour être sûr de coller le plus possible à l’esprit du schéma de conformité, car la fiabilité d’un LLM pour identifier les critères n’ était pas suffisante. Les 70 critères bruts couvrent l’ensemble des 5 sections du processus de Cloud Switching.

2) Ces 70 critères ont été reformulé sous forme de prompt pour LLM avec du LLM-as-Judge et l’utilisation d’un model type Instruct. Les models Instruct ont un fort taux de reproductibilité.

A Chaque déclachement d’un évaluation

1) Pour chaque document fournis par le client pour un service donnée, une base de donnée de vectors est calculée, avec un model de type Embeddings. 2) Pour chaque prompt de l’étape 2, une préselection de sources pertinentes aux prompts est réalisée (calcul de distance de vecteurs par produits scalaire) 3) Les sources sélectionnées sont injectés dans un prompt et donnée à un LLM de type Thinking pour analyse.

Benchmark : Un total de 3 type de model à été utilisé : Model Instruct : - google/gemma-3-27b-it - meta-llama/Llama-3.3-70B-Instruct - mistral-large-latest - moonshotai/Kimi-K2-Instruct - Qwen/Qwen3-Coder-480B-A35B-Instruct - Qwen/Qwen3-235B-A22B-Instruct-2507 - Qwen/Qwen3-30B-A3B-Instruct-2507

Model Embeddings: - BAAI/bge-multilingual-gemma2 - Qwen/Qwen3-Embedding-8B

Model Assessment: - google/gemma-3-27b-it - meta-llama/Llama-3.3-70B-Instruct - meta-llama/Llama-Guard-3-8B - mistral-large-2512 - moonshotai/Kimi-K2-Thinking - Qwen/Qwen3-Next-80B-A3B-Thinking - Qwen/Qwen3-235B-A22B-Thinking-2507 - Qwen/Qwen3-30B-A3B-Thinking-2507

Conclusion du benchmark: -> model de prompt Conclusion : le type de model utilisé pour du LLM-as-judge a peu d’inpact car les models type Instruct sont conçus pour respecter les instructions du prompts. -> models d’embeddings Conclusion : les 2 modèles se comporte sensiblement pareil. Les sources sélections sont identiques d’un assessment à un autre. -> model d’assessment : Qwen/Qwen3-235B-A22B-Thinking-2507: good overall thinking, low level of reproducibility (🇨🇳) mistral-large-2512: good level of reproducibility, cautious on the analysis but expensive (🇫🇷) meta-llama/Llama-3.3-70B-Instruct: fast, cheap and high level of reproducibility, but lenient on the analysis (🇺🇸)

Certains models ont un context pour petit pour contenir les sources fournis par cette méthode : ex de models avec un context trop petit : meta-llama/Llama-Guard-3-8B

On a fait un RAG : vector Une amélioration est de faire du Agentic RAG

LLM provider : All models are open-weight and can be run locally on premises. Tested hardware: AMD Radeon Pro W7800 32GB (bought online consumer retail price 1805€HT) Model for LLM-as-judge > 50tok/s Model for Embeddings: > 50tok/s Model for Assessment: - Les plus gros: o Qwen/Qwen3-235B-A22B-Thinking-2507 avec Mixture of Expert (MoE): 7.1tok/s o google/gemma-3-27b-it : 5.8tok/s o meta-llama/Llama-3.3-70B-Instruct : 1.2tok/s o moonshotai/Kimi-K2-Thinking : 0.5tok/s

Il est techniquement possible de faire tourner l’assessment on premise, avec du temps. Pour le faire un premise, il faut : - Déployer un Ollama en local avec support GPU - Configurer les variables d’environments NEBIUS_API_KEY et NEBIUS_API_URL de la CI pour pointer vers votre instance Ollama. Pour une mise en production avec 5 assessments en parallèle de façon constante, une NVIDIA RTX Pro 6000 Blackwell Max-Q est recommandée.