Algorithme à la con, manipulation de chaines de caracteres

EDIT dans les commentaires, Ben propose une solution en une ligne de code avec une regex:D

J'ai une base de donnée mal foutue (spamoi qui l'ai conçue) dans laquelle les noms et prénoms sont dans le même champs. Une typographie est respectée, toutes les lettres du nom sont en majuscules tandis que seule la première lettre de chaque prénom l'est. Plus dur, il n'y a pas de tiret, les noms ou prénoms composés sont séparés par des espaces.

Dans la base de données contenant plus d'un millier d’identités, il n'est jamais arrivé qu'un nom de famille ait trois composantes. Maximum deux. C'est pour ça que par flegme je me suis arrêté à cette possibilité dans l'algo ci dessous.

C'est la quatrième fois en 3 ans que je suis amené à travailler sur une passerelle où cette mauvaise conception me gonfle fortement.

la première fois, en java, compilé, j'ai paumé la source du truc.
Refait en Vb6 pareil, pareil, un code de moins de 50 lignes, on se fiche un peu de devoir le refaire.
Refait en vb6 cette fois, j'ai retrouvé la source
Là c'est en php que ça m'intéresse de le faire.

Ça n'a pas trop d’intérêt mais comme ce n'est peut être pas la dernière fois que j'ai à me pencher sur ce problème, je garde les algos sur ce blog:

En PHP

function separenomprenom($stringname)
{
    /*
	*NomPac
    * Il est sous cette forme: 'NOM Prenom' voire
    *                          'NOM COMPOSE Prenom' ou encore
    *                          'NOM Prenom composé'
    *On va spliter les espaces. Si on obtient deux champs on est dans le cas 1
    *pour distinguer les autres cas on va tester la deuxième lettre
    *pour savoir si elle est en majuscules.
	*/
	$nomexplode=explode(" ",$stringname);
	if (count($nomexplode)==2)
	{ //NOM Prénom
		return array('nom'=>$nomexplode[0],'prenom'=>$nomexplode[1]);
	}
	else
	{
		//test sur la deuxieme lettre du second mot
		if(preg_match_all('/[A-Z]/', substr($nomexplode[1],1,1),$res)==1)
		{ //NOM NOM2 Prénom
			$prenom="";
			for($i=2; $i<count($nomexplode)+1;$i++)
			{
				$prenom = $prenom.$nomexplode[$i]." ";
			}
			return array('nom'=>$nomexplode[0]." ".$nomexplode[1],'prenom'=>$prenom);
		}
		else
		{ //NOM Prénom Prénom2
			$prenom="";
			for($i=1; $i<count($nomexplode)+1;$i++)
			{
				$prenom = $prenom.$nomexplode[$i]." ";
				return array('nom'=>$nomexplode[0],'prenom'=>$prenom);
			}
		}
	}
}

En basic

J'ai testé le script php sur plusieurs centaines de noms, mais pas le basic que je viens de modifier pour qu'il soit lisible retiré du script global (il peut y avoir une erreur qui traine).

'NomPac
    ' Il est sous cette forme: 'NOM Prenom' voire
    '                          'NOM COMPOSE Prenom' ou encore
                                'NOM Prenom composé'
    'On va spliter les espaces. Si on obtient deux champs on est dans le cas 1
    'pour distinguer les autres cas on va tester la deuxième lettre
    'pour savoir si elle est en majuscules.
 
 
nomsplit() = Split(NomPac, " ")
If UBound(nomsplit(), 1) = 1 Then
	'nom Prénom
	nom = nomsplit(0)
	prenom= nomsplit(1)
Else
	'test sur la deuxieme lettre du second mot
	If Asc(Mid(nomsplit(1), 2, 1)) < 91 Then 'c'est une majuscule donc la suite du nom de famille
		nom = nomsplit(0) & " " & nomsplit(1)
		prenom = ""                
		For i = 2 To UBound(nomsplit(), 1)
			prenom = prenom & nomsplit(i) & " "
		Next i
	Else
		nom = nomsplit(0)
		prenom ="" 
		For i = 2 To UBound(nomsplit(), 1)
			prenom = prenom & nomsplit(i) & " "
		Next i
	End If
End If

Commentaires

1. Le mardi, décembre 7 2010, 21:19 par Ben

J'étais sur que ça passerai en une regex ...

($nom, $prenom) = /((?:[A-Z]{2}\w+\s?)+)\s(.+)/;

T'en dis quoi ?

2. Le mardi, décembre 7 2010, 22:56 par gnieark

Yeah trop génial, merci!!!! je teste dès demain

J'ai du mal avec les regex, faut que je me choppe des exos tout betement là dessus.

Blog du grouik