Le génome de sorgho bicolore et la diversification des graminées | la nature

Le génome de sorgho bicolore et la diversification des graminées | la nature

Anonim

Abstrait

Le sorgho, une herbe africaine associée à la canne à sucre et au maïs, est cultivé pour l’alimentation humaine et animale, les fibres et le carburant. Nous présentons une première analyse du génome du sorgho bicolore (L.) Moench d'environ 730 mégabase, en plaçant environ 98% des gènes dans leur contexte chromosomique à l'aide d'une séquence de fusil de chasse du génome entier validée par des informations génétiques, physiques et synténiques. La recombinaison génétique est en grande partie limitée à environ un tiers du génome du sorgho avec un ordre et une densité de gènes similaires à ceux du riz. L'accumulation de rétrotransposons dans l'hétérochromatine récalcitrante par recombinaison explique la taille génomique environ 75% plus grande du sorgho par rapport au riz. Bien que la distribution des gènes et de l'ADN répétitif ait été préservée depuis la paléopolyploïdisation il y a environ 70 millions d'années, la plupart des ensembles de gènes dupliqués ont perdu un membre avant la divergence sorgho-riz. L’évolution concertée fait apparaître un segment chromosomique dupliqué vieux de quelques millions d’années. Environ 24% des gènes sont spécifiques à l'herbe et 7% sont spécifiques au sorgho. Les duplications récentes de gènes et de microARN pourraient contribuer à la tolérance à la sécheresse du sorgho.

Principale

Les plantes de Saccharinae comprennent certains des accumulateurs de biomasse les plus efficaces, fournissant des aliments et des combustibles à partir d’amidon (sorgho) et de sucre (sorgho et Saccharum , canne à sucre), et pourraient être utilisées comme cultures à biocarburants cellulosiques (sorgho, canne à sucre, Miscanthus ). La photosynthèse en C 4 revêt une importance particulière pour la productivité des Saccharinae. Elle comprend des spécialisations biochimiques et morphologiques qui augmentent l’assimilation nette du carbone à des températures élevées 1 . Malgré leur stratégie photosynthétique commune, les Saccharinae présentent de nombreuses variations morphologiques et génomiques (Figure 1 supplémentaire).

Son petit génome (environ 730 Mo) fait du sorgho un modèle attrayant pour la génomique fonctionnelle de Saccharinae et d'autres herbes C 4 . Le riz, premier génome de céréales entièrement séquencé, est plus représentatif des graminées photosynthétiques en C 3 . La tolérance à la sécheresse rend le sorgho particulièrement important dans les régions sèches telles que l'Afrique du Nord-Est (son centre de diversité) et les plaines du sud des États-Unis. La variation génétique dans la répartition du carbone entre les réserves de sucre et la masse de la paroi cellulaire, ainsi que dans la pérennité et les caractéristiques associées telles que le tallage et la rétention de la tige 2, fait du sorgho un système intéressant pour l’étude des caractères importants dans les cultures pérennes à biomasse cellulosique. Son niveau élevé de consanguinité en fait un système génétique d'association attractif 3 . Les approches transgéniques de l'amélioration du sorgho sont limitées par le flux élevé de gènes de plantes adventices apparentées 4, ce qui rend la connaissance de son potentiel génétique intrinsèque d'autant plus importante.

Reconstruction d'un génome riche en répétitions à partir de séquences de fusil de chasse

Les approches préférées pour le séquençage de génomes entiers consistent actuellement à appliquer le séquençage au fusil 5, soit à un «chemin de mosaïque» minimum des clones génomiques, soit directement à l'ADN génomique. Cette dernière approche, le séquençage par fusil de chasse à génome entier (WGS), est largement utilisée pour les génomes de mammifères. Elle est rapide, relativement économique et réduit le biais de clonage. Cependant, son applicabilité a été remise en question pour les génomes de plantes répétitifs riches en ADN 6 .

Malgré une teneur répétée d'environ 61%, une séquence génomique de haute qualité a été assemblée à partir du génotype de sorgho homozygote BTx623 en utilisant WGS et intégrant les éléments suivants: (1) l'équivalent génomique 8, 5 des lectures appariées 7 à partir de banques génomiques couvrant un maximum de 100 - gamme de tailles de plaquettes (Tableau supplémentaire 1), résolvant de nombreuses régions répétitives; et (2) une longueur de lecture de haute qualité, en moyenne de 723 pb, facilitant l'assemblage. La comparaison avec 27 chromosomes artificiels bactériens finis (BAC) a montré que l'assemblage WGS était complet à> 98, 46% et précis avec une erreur inférieure à 1 erreur par 10 kb (note complémentaire 2.5).

La comparaison avec une carte génétique à haute densité 8, une carte physique 9 à base de "contenants d'empreintes digitales" (FPC) et la séquence de riz 6 a amélioré l'assemblage du sorgho WGS (notes complémentaires 1 et 2). Parmi les 201 plus grands échafaudages (couvrant 678, 9 Mo, soit 97, 3% de l'ensemble), 28 présentaient des incohérences avec au moins deux de ces sources de données (note complémentaire 2.6), souvent proches d'éléments répétitifs. Après avoir rompu l’assemblage aux points de discordance, les 229 échafaudages résultants ont un N50 (nombre d’échafaudages couvrant collectivement au moins 50% de l’assemblage) de 35 et de L50 (longueur du plus petit des échafaudages parmi ceux couvrant collectivement 50%). l'assemblée) de 7, 0 Mb. Un total de 38 (2%) des 1 869 contigs FPC 9 ont été jugés erronés, contenant> 5 extrémités BAC tombant dans des échafaudages de séquences différentes.

Un total de 127 échafaudages contenant 625, 7 Mb (89, 7%) d’ADN et 1 476 contigs FPC pourraient être attribués à des emplacements chromosomiques et orientés. Quinze extrémités de chromosome sur vingt se terminent par des répétitions télomériques. Les 102 autres échafaudages étaient généralement plus petits (53, 2 Mo, 7, 6%), 85 (83%) contenant une abondance bien supérieure à la moyenne de la répétition centromérique Cen38 (réf. 10) et avec seulement 374 gènes prédits. Ces 102 échafaudages ont fusionné seulement 193 contigs FPC, probablement en raison de la plus grande abondance de répétitions récalcitrantes à la cartographie physique basée sur des clones 9 et pouvant être omises dans les approches BAC par BAC 11 .

Evolution de la taille du génome et ses causes

La quantité d’ADN environ 75% supérieure dans le génome du sorgho par rapport au riz est principalement constituée d’hétérochromatine. L’alignement sur les cartes génétiques 8 et cytologiques 12 suggère que le sorgho et le riz contiennent des quantités similaires d’euchromatine (respectivement 252 et 309 Mo; tableau supplémentaire 7), ce qui représente 97 à 98% de la recombinaison (1 025, 2 cM et 1 496, 5 cM, respectivement) et 75, 4. –94, 2% des gènes dans les céréales respectives, avec un ordre de gène largement colinéaire 9 . En revanche, l’hétérochromatine de sorgho occupe au moins 460 Mo (62%), bien plus que dans le riz (63 Mo, 15%). L'expansion du génome ma 3 × du maïs depuis sa divergence par rapport au sorgho 13 est plus dispersée - l'ADN recombinogène a augmenté de 4, 5 × à 1 382 Mb, soit bien plus que ce qui peut être expliqué par la duplication du génome 14 .

L'expansion de la taille nette du génome du sorgho par rapport au riz a largement impliqué des rétrotransposons à répétition terminale longue (LTR). Le génome du sorgho contient 55% de rétrotransposons, intermédiaire entre le génome plus grand du maïs (79%) et le plus petit génome du riz (26%). Le sorgho ressemble plus étroitement au riz car il présente un rapport plus élevé d’éléments ressemblant à du gypsy au copia (3, 7 à 1 et 4, 9 à 1) au maïs (1, 6 à 1: tableau 10 supplémentaire).

Bien que l'activité récente du rétroélément soit largement répartie dans le génome du sorgho, le chiffre d'affaires est rapide (comme dans d'autres céréales 15 ), les éléments péricentromériques persistant plus longtemps. De jeunes insertions de rétrotransposon de LTR (<0, 01 million d'années) ont été réparties de manière aléatoire le long des chromosomes, ce qui suggère qu'elles sont préférentiellement éliminées des régions riches en gènes 9 mais s'accumulent dans des régions pauvres en gènes (figure 1; voir aussi la note complémentaire 3.1). . Les temps d'insertion suggèrent une vague majeure de rétrotransposition <1 Myr il y a, après une vague plus petite 1–2 Myr 1 (Fig. 2 supplémentaire).

Image

Les diagrammes en aires quantifient les rétrotransposons (55%), les gènes (6% exons, 8% introns), les transposons à l'ADN (7%) et les répétitions centromériques (2%). Les lignes entre les chromosomes 3 et 9 relient les gènes dupliqués colinéaires. Les pistes de la carte thermique détaillent la distribution des éléments sélectionnés. Les chiffres pour tous les chromosomes du sorgho figurent dans la note complémentaire 3. Cen38, Répétition centromérique spécifique du sorgho 10 ; RT, rétrotransposons (classe I); LTR-RTs, rétrotransposons à répétition terminale longue; ADN-TE, transposons d'ADN (classe II).

Image pleine taille

  • Télécharger la diapositive PowerPoint

Les éléments de type CACTA, les transposons prédominants de l'ADN du sorgho (4, 7% du génome), semblent reloger des gènes et des fragments de gènes, tout comme le riz 'Pack-Mules' 16 et les hélitrons de maïs 17 . De nombreux éléments CACTA du sorgho sont des dérivés de délétion non autonomes dans lesquels les gènes de transposon ont été remplacés par un ADN de non-transposon comprenant des exons d'un ou de plusieurs gènes cellulaires, à titre d'exemple pour la famille G118 (figure 2). Parmi les 13 775 éléments CACTA identifiés (note complémentaire 3.4), 200 ne codent pour aucune protéine de transposon mais contiennent au moins un fragment de gène cellulaire.

Image

La famille G118 de CACTA ne comprend qu'un seul élément «mère» complet et probablement autonome. Parmi les 18 dérivés de délétion, seuls les 500–2 500 pb terminaux sont conservés, 8 fragments de gènes étant porteurs de manière interne. Un sous-groupe relativement homogène (106, 111 et 112) est probablement apparu récemment, alors que d'autres dérivés sont uniques. Les emplacements des résultats pour les protéines de riz connues sont indiqués par des cases colorées. Les descriptions des fragments de gènes étrangers sont indiquées sous les cases. HP, protéine hypothétique.

Image pleine taille

  • Télécharger la diapositive PowerPoint

Au total, les transposons d'ADN constituent 7, 5% du génome du sorgho, intermédiaire entre le maïs (2, 7%) et le riz (13, 7%; tableau complémentaire 10). Des éléments transposables miniatures à répétition inversée, représentant 1, 7% du génome, sont associés à des gènes (Fig. 1; voir aussi la note complémentaire 3), comme dans les autres céréales 6 . Les hélicoptères, environ 0, 8% du génome, manquent presque tous d'hélicase dans le sorgho comme dans le maïs 17, mais contiennent moins de fragments de gènes dans le sorgho que le maïs (note complémentaire 3.5). L'insertion d'ADN organellaire n'a contribué que pour 0, 085% au génome nucléaire du sorgho, beaucoup moins que le 0, 53% du riz (note complémentaire 2.7).

Le complément génétique du sorgho

Parmi 34 496 modèles de gènes de sorgho, nous avons trouvé environ 27 640 gènes véritablement codants pour les protéines en combinant des méthodes de prédiction génique basées sur l'homologie et ab initio avec des séquences exprimées à partir de sorgho, de maïs et de canne à sucre (Note complémentaire 4). Des preuves d'épissure alternative se trouvent dans 1 491 locus.

5 197 autres modèles de gènes sont généralement plus courts que les gènes authentiques (souvent <150 acides aminés); avoir peu d'exons (souvent un) et aucun support d'étiquette de séquence exprimée (EST) (comparé à 85% pour les gènes authentiques); sont plus divergents des gènes du riz; et se retrouvent souvent dans des familles nombreuses avec des annotations «hypothétiques», «non caractérisées» et / ou rétro-liées, malgré le masquage répété (Note complémentaire 4). Une concentration élevée dans les régions péricentromériques où les gènes de bonne foi sont rares (Fig. 1) suggère que beaucoup de ces modèles de gènes de faible confiance sont dérivés de rétroéléments. Nous avons également identifié 727 pseudogènes traités et 932 modèles contenant des domaines connus uniquement des transposons.

Les distributions de taille d'exon des gènes orthologues de sorgho et de riz sont en accord étroit, et la position et la phase de l'intron montrent une concordance> 98% (Note complémentaire 5). La taille des introns a été conservée entre le sorgho et le riz, bien qu’elle ait augmenté chez le maïs en raison de transpositions 18 .

La plupart des paralogues chez le sorgho sont dupliquées de manière proximale, y compris 5 303 gènes dans 1 947 familles de 2 gènes ou plus (note complémentaire 4.3). Le plus long ensemble de gènes en tandem est constitué de 15 gènes du cytochrome P450. D'autres extensions de gènes en tandem spécifiques au sorgho comprennent les hydrolases de type halogéno-déshalogénase (PF00702), les répétitions FNIP (PF05725) et les protéines de stérilité masculine (PF03015).

Nous avons confirmé la localisation génomique de 67 micro-ARN de sorgho (miARN) connus et identifié 82 miARN supplémentaires (note complémentaire 4.4). Cinq groupes situés à moins de 500 pb les uns des autres représentent des miARN polycistroniques putatifs, similaires à ceux d’ Arabidopsis et d’ Oryza . Les précurseurs de miARN naturels antisens (nat-miARN) de la famille miR444 (réf. 19) ont été identifiés en trois exemplaires.

Inventaires comparatifs de gènes d'angiospermes

Le nombre et la taille des familles de gènes de sorgho sont similaires à ceux d’ Arabidopsis , du riz et du peuplier (fig. 3 et note complémentaire 4.6). Au total, 9 503 familles de gènes de sorgho (58%) ont été partagées par les quatre espèces et 15 225 (93%) avec au moins une autre espèce. Près de 94% (25 875) des gènes de sorgho de confiance ont des orthologues dans le riz, l' Arabidopsis et / ou le peuplier. Ensemble, ces compléments de gènes définissent 11 502 familles de gènes ancestraux des angiospermes représentées dans au moins un génome contemporain des graminées et des rosidés. Cependant, 3.983 (24%) familles de gènes ont des membres uniquement dans les graminées sorgho et riz; 1 153 (7%) semblent être uniques au sorgho.

Image

Le nombre de familles de gènes (grappes) et le nombre total de gènes en grappes sont indiqués pour chaque intersection d'espèces et d'espèces.

Image pleine taille

  • Télécharger la diapositive PowerPoint

Les domaines Pfam surreprésentés, sous-représentés ou même absents chez le sorgho par rapport au riz, au peuplier et à Arabidopsis peuvent refléter des particularités biologiques propres à la lignée de sorgho (tableau complémentaire 20). Les domaines surreprésentés dans le sorgho sont généralement présents dans les autres organismes, à l'exception notable du domaine α-kafirine qui représente la plupart des protéines de stockage des semences et correspond aux zéines de maïs 20, mais qui est absent du riz.

Les protéines contenant le système de liaison aux nucléotides – riches en répétition de la leucine (NBS-LRR) associées au système immunitaire de la plante ne sont environ que la moitié moins fréquentes chez le sorgho que chez le riz. Une recherche avec 12 domaines NBS parmi les séquences de gènes publiées du riz, du maïs, du blé et d' Arabidopsis a révélé 211 gènes codant NBS-LRR chez le sorgho, 410 chez le riz et 149 chez Arabidopsis 21 . Les gènes du sorgho NBS-LRR codent principalement pour le type CC des domaines N-terminaux. Seuls deux gènes de sorgho (Sb02g005860 et Sb02g036630) contiennent le domaine TIR et aucun ne contient un domaine NBS. Les gènes NBS-LRR sont plus abondants sur le chromosome 5 du sorgho (62) et son homologue chez le riz (chromosome 11, 106). L'enrichissement des gènes NBS-LRR dans ces régions génomiques correspondantes suggère la conservation de la localisation du gène R, contrairement à une proposition selon laquelle le mouvement du gène R pourrait être avantageux 22 .

Evolution des voies et processus distinctifs

L'évolution de la photosynthèse en C 4 dans la lignée du Sorgho impliquait la réorientation des gènes progéniteurs en C 3 ainsi que le recrutement et la divergence fonctionnelle des duplications géniques anciennes et récentes. L'orthophosphate dikinase de pyruvate de C 4 unique de sorgho ( ppdk ) et le gène phosphoenolpyruvate carboxylase kinase ( ppck ) et ses deux isoformes (produits par la duplication du génome entier) n'ont qu'un seul orthologue dans le riz. Des duplicata supplémentaires formés dans le maïs après la scission sorgho-maïs ( Zmppck 2 et Zmppck 3). Le gène de l'enzyme malique ( me ) dépendant du NADP en C 4 a une isoforme adjacente mais chacune correspond à un homologue de maïs différent, ce qui suggère une duplication en tandem avant la scission sorgho-maïs. Le gène de la malate déshydrogénase de C 4 ( mdh ) et son isoforme sont également adjacents, mais partagent une similarité de 97% d'acides aminés et correspondent au gène unique connu de Mdh du maïs, suggérant une duplication en tandem du sorgho après sa scission avec le maïs. Les gènes Me et Mdh du riz sont une copie unique, ce qui suggère une duplication et un recrutement de la voie C 4 après la divergence Panicoideae – Oryzoideae (Note complémentaire 9).

La séquence de sorgho renforce les inférences reposant précédemment uniquement sur le riz, sur la relation existant entre les différents inventaires de gènes d'herbe et de dicotylédones et leurs types respectifs de parois cellulaires 23, 24 . Dans les graminées, les microfibrilles de cellulose recouvertes de liaisons mixtes (1 → 3), (1 → 4) -β-d-glucanes sont entrelacées de glucurono- arabinoxylanes et d'un vaste complexe de phénylpropanoïdes 25 . La séquence de sorgho corrobore largement les différences entre les dicotylédones et le riz dans la distribution des gènes de biogenèse de la paroi cellulaire (note complémentaire 10). Par exemple, la superfamille CesA / Csl et les callose synthases ont divergé pour former de nouveaux sous-groupes ou des sous-groupes fonctionnellement non essentiels ont été sélectivement perdus, tels que CslB et CslG perdus dans les graminées, et CslF et CslH ont été perdus d'espèces avec une cellule de type dicotylédone murs 26 . Les gènes CslF et CslH, auparavant uniques au riz , sont présents dans le sorgho. Arabidopsis contient un seul gène du groupe F GT31, alors que le sorgho et le riz en contiennent six et dix, respectivement.

L'adaptation caractéristique du sorgho à la sécheresse peut être en partie liée à l'expansion d'un miARN et de plusieurs familles de gènes. Le miARN de riz 169g, régulé positivement lors du stress de sécheresse 27, a cinq homologues du sorgho (sbi-MIR169c, sbi-MIR169d, sbi-MIR169.p2, sbi-MIR169.p6 et sbi-MIR169.p7). La cible prédite par calcul de la sous-famille sbi-MIR169 comprend des membres de la famille des facteurs de transcription du facteur Y de la centrale nucléaire (NF-Y) B, liée à l'amélioration des performances sous sécheresse d' Arabidopsis et du maïs 28 . Les gènes contenant le domaine du cytochrome P450, souvent impliqués dans les toxines de nettoyage telles que celles accumulées en réponse au stress, sont abondants chez le sorgho avec 326 contre 228 chez le riz. Les expansines, enzymes qui rompent les liaisons hydrogène et sont responsables de diverses réactions de croissance pouvant être liées à la durabilité du sorgho, apparaissent en 82 exemplaires chez le sorgho, contre 58 chez le riz et 40 chez Arabidopsis et le peuplier.

Duplication et diversification des génomes de céréales

La duplication du génome entier chez un ancêtre commun des céréales est reflétée dans les «quatuors» de gènes de sorgho et de riz (Fig. 4). Au total, 19 929 modèles de gènes de sorgho (57, 8%) étaient en blocs alignés avec le riz (note complémentaire 6). Après la duplication partagée du génome entier, une seule copie a été conservée pour 13 667 (68, 6%) gènes colinéaires, 13 526 (99%) étant orthologues dans le riz-sorgho, ce qui indique que la plupart des pertes génétiques sont antérieures à la divergence des taxons. Le sorgho et le riz ont conservé les deux copies de 4 912 gènes (14, 2%), alors que le sorgho a perdu une copie de 1 070 (3, 1%) et le riz a perdu une copie de 634 (1, 8%). Ces tendances sont susceptibles de prédire d'autres génomes de graminées, les lignages de graminées les plus importants ayant divergé d'un ancêtre commun à peu près au même moment 29 (voir également la note complémentaire 7).

Image

Les diagrammes à points montrent des alignements intergénomiques (or) et intragénomiques (noirs). Un quartet sorgho-riz présentant des régions orthologues et paralogues (dupliquées) est agrandi. La perte de gènes peu fréquente (rouge; voir légende) après divergence sorgho-riz est à l'origine de "cas spéciaux" dans lesquels il existe des paralogues mais pas d'orthologues. Chaque région de sorgho correspond à deux régions de maïs dupliquées 39, la perte du gène du maïs étant suggérée lorsque les loci de sorgho ne correspondent qu’à l’un des deux. Étant donné que les TA du maïs sont essentiellement inachevés, les loci de sorgho sont alignés sur les centres. Notez l’échelle différente nécessaire pour la distance physique du maïs. Les diagrammes de points plus grands sont indiqués dans la note complémentaire 6.

Image pleine taille

  • Télécharger la diapositive PowerPoint

Bien que la plupart des gènes perdus après la duplication se soient produits chez un ancêtre céréalier commun, certains schémas spécifiques à la lignée se produisent. Un total de 2 et 10 domaines fonctionnels de protéines (Pfam) ont montré un enrichissement pour les doublons et les singletons (respectivement) de sorgho mais pas de riz (Note complémentaire 6.1). Comme on pense que la divergence sorgho-riz a eu lieu 20 Myr ou plus après la duplication du génome 29, cela suggère que même une perte de gènes à long terme affecte différemment les groupes fonctionnels des gènes.

Une région génomique a fait l’objet d’une forte évolution concertée. Il a déjà été suggéré que les chromosomes 11 et 12 du riz partagent une duplication segmentaire ∼ 5–7-Myr-old 30, 31, 32 . Nous avons trouvé un segment dupliqué dans les régions correspondantes des chromosomes 5 et 8 du sorgho (Fig. 5). Les paralogues sorgho – sorgho et riz – riz de cette région montrent des taux de substitution d'ADN synonyme ( K s ) de 0, 44 et 0, 22, respectivement, ce qui correspond à seulement 34 et 17 millions de divergence. Cependant, la valeur de K s des orthologues sorgho – riz est de 0, 63, ce qui est similaire aux moyennes respectives du génome (0, 81, 0, 87). Nous émettons l'hypothèse que la duplication segmentaire apparente résultait en réalité de la duplication pan-cérébrale du génome entier et se différenciait du reste du (des) chromosome (s) du fait d'une évolution concertée agissant de manière indépendante sur le sorgho, le riz et peut-être d'autres. La conversion génique et la recombinaison illégitime sont plus fréquentes dans la région riz 11–12 qu'ailleurs dans le génome 33 . Des cartes physiques et génétiques suggèrent des segments terminaux partagés des chromosomes correspondants chez le blé (4, 5) 34, le millet à feuille de sétaire (VII, VIII) et le millet perlé (groupes de liaison 1, 4) 35 .

Image

Quatre chromosomes homologues de riz et de sorgho (11 et 12 chez le riz; 5 et 8 chez le sorgho) sont représentés, avec la densité des gènes tracée. 'L' et 'S' montrent respectivement les bras long et court. Les lignes montrent les K entre les paires de gènes homologues et les couleurs sont utilisées pour indiquer différentes dates des événements de conversion.

Image pleine taille

  • Télécharger la diapositive PowerPoint

Synthèse et implications

La comparaison des génomes de sorgho, de riz et d’autres génomes clarifie l’ensemble des gènes de l’herbe. Des paires de gènes de sorgho et de riz orthologues, associées à des duplications paralogues récentes, définissent 19 542 familles de gènes de graminées conservées, chacune représentant un gène de l'ancêtre commun sorgho-riz. Notre nombre de gènes de sorgho est similaire à celui d'une annotation de riz préparée manuellement (RAP2) 36, mais cette similarité masque certaines différences. Environ 2 054 orthologues syntènes partagés par notre annotation de sorgho et l'annotation de riz TIGR5 (réf. 37) sont absents de RAP2. Inversement, environ 12 000 annotations TIGR5 peuvent être des éléments transposables ou des pseudogènes, comprenant de grandes familles de gènes hypothétiques dans les RAP2 de sorgho et de riz, souvent avec de courts exons, peu d'introns et un support EST limité. Des cas phylogénétiquement incongrus de perte apparente de gènes (par exemple, gènes partagés par Arabidopsis et le sorgho mais pas par le riz: Fig. 3) peuvent également suggérer des lacunes de séquence ou des erreurs d’annotation.

L'architecture du génome de l'herbe peut refléter les effets de recombinaison et de sélection spécifiques à l'euchromatine, superposés aux processus non adaptatifs de mutation et de dérive génétique qui s'appliquent à toutes les régions génomiques 38 . Les schémas d'organisation des gènes et de l'ADN répétitif restent corrélés dans les chromosomes homologues dupliqués il y a 70 Myr (Fig. 1), malgré le renouvellement important d'éléments répétitifs spécifiques. La synténie est la plus forte et l'abondance rétroélémentaire la plus faible dans les régions chromosomiques distales. Une élimination plus tardive des rétroéléments de l'euchromatine riche en gènes qui se recombine souvent que de l'hétérochromatine qui se recombine rarement conforte l'hypothèse que la recombinaison peut préserver la structure, l'ordre et / ou l'espacement des gènes en exposant les nouvelles insertions à la sélection 9 . Une polarisation moins euchromatine-hétérochromatine chez le maïs, où la persistance des rétrotransposons dans l'euchromatine semble plus fréquente, peut refléter des variations dans l'architecture du génome de l'herbe ou peut-être une conséquence persistante de la duplication plus récente du génome 39 .

L’identification des séquences d’ADN conservées peut nous aider à comprendre les gènes essentiels et les sites de liaison définissant les graminées. Les progrès dans le séquençage de Brachypodium distachyon 40 ouvrent la voie à la triangulation phylogénétique panomoïde-oryzoïde-pooïde des modifications génomiques, ainsi qu’à l’association de certaines de ces modifications à des phénotypes allant des molécules (modèles d’expression génique) à la morphologie. La divergence entre le sorgho, le riz et Brachypodium est suffisante pour randomiser une séquence non fonctionnelle, facilitant ainsi la découverte de la séquence conservée 41, 42 de la séquence non codante (SNC) (Fig. Supplémentaire 9). Des comparaisons plus lointaines avec le dicotylédone Arabidopsis montrent la conservation de l'exon mais pas de SNC (Fig. 10 supplémentaire). Des séquences du génome des chloridoïdes et des arundinoïdes sont nécessaires pour échantillonner les lignées d'herbe restantes, et un sous-groupe tel que Ananas (ananas) ou Musa (banane) aiderait davantage à identifier les gènes et les séquences qui définissent les graminées.

Le fait que le génome du sorgho ne se soit pas reproduit dans 70 Myr 29 en fait un atout précieux pour la déduction du sort des paires de gènes et du SNC dans les herbes rédupliquées. Les régions de sorgho simples correspondent à deux régions résultant du doublage du génome spécifique du maïs 39 - le fractionnement du gène est évident (Fig. 4), et la sous-fonctionnalisation est probable (Fig. Supplémentaire 10). Le sorgho peut s’avérer particulièrement utile pour comprendre l’évolution du génome dans le clade Saccharum - Miscanthus plus étroitement apparenté: deux duplications du génome depuis sa divergence par rapport au sorgho il ya 8–9 mois 43 compliquer la génétique de la canne à sucre 44 mais les BAC de Saccharum montrent un ordre de gènes substantiellement conservé avec le sorgho (Supplément Note 11).

La conservation de la structure et de l'ordre des gènes de l'herbe facilite le développement de marqueurs d'ADN pour soutenir l'amélioration des cultures. Nous avons identifié environ 71 000 répétitions à séquence simple (SSR) chez le sorgho (Liste supplémentaire 1); sur un échantillon de 212, seuls 9 (4, 2%) ont cartographié des paralogues de leur locus source. Les amorces d'analyse d'introns conservés (Liste supplémentaire 2) pour 6 760 gènes fournissent des marqueurs d'ADN utiles dans de nombreux monocotylédones, particulièrement utiles pour les «céréales orphelines» 45 .

Premier génome de plante séquencé d'origine africaine, le sorgho ajoute de nouvelles dimensions à la recherche ethnobotanique. L’identification d’allèles sélectionnés au cours des premières étapes de la culture du sorgho, qui permet de vérifier l’hypothèse selon laquelle des mutations convergentes dans les gènes correspondants ont contribué à la domestication indépendante de céréales divergentes 46, revêtira un intérêt particulier. Une amélioration revigorée du sorgho profiterait à des régions telles que le «Sahel» africain, où la tolérance à la sécheresse fait du sorgho un aliment de base des populations humaines qui augmentent de 2, 8% par an. L'amélioration de la production de sorgho a été inférieure à celle des autres céréales. En Afrique, elle n'a augmenté que de 37% (ouest) à 38% (est) de 1961-1963 à 2005-2007 (note complémentaire 12).

Résumé des méthodes

Séquençage du génome

Un séquençage d'environ 8, 5 fois des armes à feu à paires appariées a été réalisé à l'aide des méthodologies Sanger classiques, à partir de banques de plasmides à insertion petite (∼ 2–3 kb) et moyenne (5 à 8 kb), une bibliothèque de fosmide (inserts d'environ 35 kb) et deux banques BAC bibliothèques (taille des insertions 90 et 108 kb). (Note complémentaire 1.)

Intégration de l'assemblage de fusils de chasse avec des cartes génétiques et physiques

Les plus grands 201 échafaudages, dépassant tous les 39 kb, à l'exclusion des «N», et représentant collectivement 678 902 941 pb (97, 3%) de nucléotides, ont été vérifiés pour rechercher les chimères suggérées par la carte génétique du sorgho, la carte physique du sorgho, les changements brusques de gènes ou la densité répétée, ordre des gènes du riz et couverture par les clones BAC ou fosmid (Note complémentaire 2).

Répéter l'analyse

De novo recherche des rétrotransposons LTR utilisés LTR_STRUC. La détection de novo des transposons CACTA-ADN et des MITE utilisait des programmes personnalisés (Note complémentaire 3). RepeatMasker (Open-3-1-8) (//www.repeatmasker.org) avec mips-REdat_6.2_Poaceae, une compilation de répétitions de gazon comprenant des rétrotransposons LTR spécifiques au sorgho (//mips.gsf.de / proj / plant / webapp / recat /). L'âge d'insertion des rétrotransposons LTR complets a été déterminé à partir de la distance évolutive entre 5 'et 3' soloLTR dérivée d'un alignement de ClustalW des deux soloLTR.

Annotation du gène codant pour la protéine

Des loci putatifs codant pour les protéines ont été identifiés sur la base des alignements BLAST de peptides de riz et d' Arabidopsis et d'EST de sorgho et de maïs. GenomeScan 47 a été appliqué à l'aide de paramètres spécifiques au maïs. Les structures de codage prévues ont été fusionnées avec les données EST du maïs et du sorgho à l'aide de PASA 48 .

Alignements intergénomique et intragénomique

Les diagrammes de points ont utilisé ColinearScan 49 et les alignements multiples utilisés MCScan 50, appliqués à RAP2 36 (modèles représentatifs cartographiés, 29 389 locus) et à l'ensemble d'annotation sbi1.4 (34 496 locus). Le BLASTP par paire ( E <1 × 10 -5, cinq meilleurs résultats), à la fois dans chaque génome et entre les deux génomes, a été utilisé pour récupérer des ancres potentielles. Les séquences de Zea BAC et les coordonnées de contig FPC ont été téléchargées (//www.maizesequence.org, version 7 janvier 2008). Les ZAC BAC ont été recherchés pour rechercher des orthologues des séquences codant pour le sorgho en utilisant BLAT traduit avec un score minimum de 100.

Information supplémentaire

Fichiers PDF

  1. 1.

    Information supplémentaire

    Ce fichier contient des méthodes supplémentaires, des données supplémentaires, des notes supplémentaires, des figures supplémentaires 1-15 avec des légendes, des tableaux supplémentaires 1 à 23 et des références supplémentaires.

  2. 2

    Carte thermique supplémentaire

    Ce fichier contient une carte thermique montrant le paysage génomique de tous les chromosomes, y compris les deux illustrés à la figure 1.

Fichiers Zip

  1. 1.

    Liste supplémentaire

    Ce fichier contient une liste supplémentaire de toutes les répétitions en tandem trouvées dans le génome, y compris les SSR et autres éléments répétés en tandem, comme indiqué dans le texte.

  2. 2

    Information supplémentaire

    Ce fichier fait référence aux amorces d'analyse intron conservées auxquelles il est fait référence dans le texte.

commentaires

En soumettant un commentaire, vous acceptez de vous conformer à nos conditions d'utilisation et aux directives de la communauté. Si vous trouvez quelque chose d'abus ou qui n'est pas conforme à nos termes ou directives, veuillez le signaler comme étant inapproprié.