CenterForOpenScience · mkovalua · May 30, 2025 · Jun 3, 2025 · Jun 4, 2025 · Jun 4, 2025
diff --git a/mfr/core/utils.py b/mfr/core/utils.py
@@ -114,14 +114,15 @@ def get_renderer_name(name: str) -> str:
     # `ep_iterator` is an iterable object. Must convert it to a `list` for access.
     # `list()` can only be called once because the iterator moves to the end after conversion.
     ep = entry_points().select(group='mfr.renderers', name=name.lower())
+    ep_list = list(ep)
 
     # Empty list indicates unsupported file type.  Return '' and let `make_renderer()` handle it.
-    if len(ep) == 0:
+    if len(ep_list) == 0:
         return ''
 
     # If the file type is supported, there must be only one element in the list.
-    assert len(ep) == 1
-    return ep[0].value.split(":")[1].split('.')[0]
+    assert len(ep_list) == 1
+    return ep_list[0].value.split(":")[-1]
 
 
 def get_exporter_name(name: str) -> str:
@@ -135,14 +136,15 @@ def get_exporter_name(name: str) -> str:
     # `ep_iterator` is an iterable object. Must convert it to a `list` for access.
     # `list()` can only be called once because the iterator moves to the end after conversion.
     ep = entry_points().select(group='mfr.exporters', name=name.lower())
+    ep_list = list(ep)
 
     # Empty list indicates unsupported export type.  Return '' and let `make_exporter()` handle it.
-    if len(ep) == 0:
+    if len(ep_list) == 0:
         return ''
 
     # If the export type is supported, there must be only one element in the list.
-    assert len(ep) == 1
-    return ep[0].value.split(":")[1].split('.')[0]
+    assert len(ep_list) == 1
+    return ep_list[0].value.split(":")[-1]
 
 
 def sizeof_fmt(num, suffix='B'):

diff --git a/mfr/extensions/docx/__init__.py b/mfr/extensions/docx/__init__.py
@@ -0,0 +1 @@
+from .render import DocxRenderer  # noqa
diff --git a/mfr/extensions/docx/render.py b/mfr/extensions/docx/render.py
@@ -0,0 +1,40 @@
+import os
+
+import pydocx.export
+from mako.lookup import TemplateLookup
+
+from mfr.core import extension
+
+
+class DocxRenderer(extension.BaseRenderer):
+
+    TEMPLATE = TemplateLookup(
+        directories=[
+            os.path.join(os.path.dirname(__file__), 'templates')
+        ]).get_template('viewer.mako')
+
+    # Workaround to remove default stylesheet and inlined styles
+    # see: https://github.com/CenterForOpenScience/pydocx/issues/102
+    class _PyDocXHTMLExporter(pydocx.export.PyDocXHTMLExporter):
+
+        def style(self):
+            return ''
+
+        def indent(self, text, *args, **kwargs):
+            return text
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.metrics.add('pydocx_version', pydocx.__version__)
+
+    def render(self):
+        body = self._PyDocXHTMLExporter(self.file_path)
+        return self.TEMPLATE.render(base=self.assets_url, body=body)
+
+    @property
+    def file_required(self):
+        return True
+
+    @property
+    def cache_result(self):
+        return True
diff --git a/mfr/extensions/docx/templates/viewer.mako b/mfr/extensions/docx/templates/viewer.mako
@@ -0,0 +1,6 @@
+<div style="word-wrap: break-word;" class="mfrViewer">
+${body}
+</div>
+
+<script src="/static/js/mfr.js"></script>
+<script src="/static/js/mfr.child.js"></script>
diff --git a/mfr/extensions/ipynb/render.py b/mfr/extensions/ipynb/render.py
@@ -39,6 +39,7 @@ def render(self):
                 'enabled': False,
             },
         }))
+
         (body, _) = exporter.from_notebook_node(notebook)
         return self.TEMPLATE.render(base=self.assets_url, body=body)
 

diff --git a/mfr/extensions/md/render.py b/mfr/extensions/md/render.py
@@ -9,10 +9,9 @@
 
 
 class EscapeHtml(Extension):
-    def extendMarkdown(self, md, md_globals):
-        # Todo: do not see extendMarkdown explicit call and what is passed as the method args, maybe it is ok
-        del md.preprocessors['html_block']
-        del md.inlinePatterns['html']
+    def extendMarkdown(self, md):
+        md.preprocessors.deregister('html_block')
+        md.inlinePatterns.deregister('html')
 
 
 class MdRenderer(extension.BaseRenderer):

diff --git a/mfr/extensions/tabular/libs/panda_tools.py b/mfr/extensions/tabular/libs/panda_tools.py
@@ -64,7 +64,7 @@ def data_from_dataframe(dataframe):
         data_row = {}
         for name, value in frame_row.items():
             try:
-                data_row[name] = numpy.asscalar(value)
+                data_row[name] = value.item()
             except AttributeError:
                 data_row[name] = value
         data.append(data_row)

diff --git a/mfr/extensions/tabular/libs/xlrd_tools.py b/mfr/extensions/tabular/libs/xlrd_tools.py
@@ -1,6 +1,7 @@
 import xlrd
+import zipfile
 from collections import OrderedDict
-from ..exceptions import TableTooBigError
+from ..exceptions import TableTooBigError, MissingRequirementsError
 
 from ..utilities import header_population
 from mfr.extensions.tabular.compat import range, basestring
@@ -11,42 +12,84 @@ def xlsx_xlrd(fp):
     :param fp: File pointer object
     :return: tuple of table headers and data
     """
-    max_size = 10000
+    MAX_SIZE = 10000
 
-    wb = xlrd.open_workbook(fp.name)
+    try:
+        wb = xlrd.open_workbook(fp.name)
+        using_xlrd = True
+    except xlrd.biffh.XLRDError:
+        using_xlrd = False
+        try:
+            from openpyxl import load_workbook
+        except ImportError:
+            raise MissingRequirementsError(
+                'openpyxl is required to read .xlsx files',
+                function_preference='openpyxl'
+            )
+        try:
+            wb = load_workbook(fp.name, data_only=True)
+        except zipfile.BadZipFile:
+            raise xlrd.biffh.XLRDError("Excel xlsx file; not supported")
 
     sheets = OrderedDict()
 
-    for sheet in wb.sheets():
-        if sheet.ncols > max_size or sheet.nrows > max_size:
-            raise TableTooBigError('Table is too large to render.', '.xlsx',
-                                   nbr_cols=sheet.ncols, nbr_rows=sheet.nrows)
-
-        if sheet.ncols < 1 or sheet.nrows < 1:
-            sheets[sheet.name] = ([], [])
-            continue
-
-        fields = sheet.row_values(0) if sheet.nrows else []
-
-        fields = [
-            str(value)
-            if not isinstance(value, basestring) and value is not None
-            else value or f'Unnamed: {index + 1}'
-            for index, value in enumerate(fields)
-        ]
-
-        data = []
-        for i in range(1, sheet.nrows):
-            row = []
-            for cell in sheet.row(i):
-                if cell.ctype == xlrd.XL_CELL_DATE:
-                    value = xlrd.xldate.xldate_as_datetime(cell.value, wb.datemode).isoformat()
-                else:
-                    value = cell.value
-                row.append(value)
-            data.append(dict(zip(fields, row)))
-
-        header = header_population(fields)
-        sheets[sheet.name] = (header, data)
+    if using_xlrd:
+        for sheet in wb.sheets():
+            if sheet.ncols > MAX_SIZE or sheet.nrows > MAX_SIZE:
+                raise TableTooBigError('Table is too large to render.', '.xlsx',
+                                       nbr_cols=sheet.ncols, nbr_rows=sheet.nrows)
+
+            if sheet.ncols < 1 or sheet.nrows < 1:
+                sheets[sheet.name] = ([], [])
+                continue
+
+            fields = sheet.row_values(0) if sheet.nrows else []
+
+            fields = [
+                str(value)
+                if not isinstance(value, basestring) and value is not None
+                else value or f'Unnamed: {index + 1}'
+                for index, value in enumerate(fields)
+            ]
+
+            data = []
+            for i in range(1, sheet.nrows):
+                row = []
+                for cell in sheet.row(i):
+                    if cell.ctype == xlrd.XL_CELL_DATE:
+                        value = xlrd.xldate.xldate_as_datetime(cell.value, wb.datemode).isoformat()
+                    else:
+                        value = cell.value
+                    row.append(value)
+                data.append(dict(zip(fields, row)))
+
+            header = header_population(fields)
+            sheets[sheet.name] = (header, data)
+
+    else:
+        for name in wb.sheetnames:
+            ws = wb[name]
+            nrows = ws.max_row
+            ncols = ws.max_column
+            if ncols > MAX_SIZE or nrows > MAX_SIZE:
+                raise TableTooBigError('Table is too large to render.', '.xlsx',
+                                       nbr_cols=ncols, nbr_rows=nrows)
+
+            if nrows < 1 or ncols < 1:
+                sheets[name] = ([], [])
+                continue
+
+            header_row = next(ws.iter_rows(min_row=1, max_row=1, values_only=True))
+            fields = [
+                str(val) if val is not None else f'Unnamed: {i+1}'
+                for i, val in enumerate(header_row)
+            ]
+
+            data = []
+            for row in ws.iter_rows(min_row=2, max_row=nrows, max_col=ncols, values_only=True):
+                data.append(dict(zip(fields, row)))
+
+            header = header_population(fields)
+            sheets[name] = (header, data)
 
     return sheets
-Original file line number
+Diff line change
@@ Expand Up / @@ -39,6 +39,7 @@ def render(self): @@
                     'enabled': False,
                 },
             }))
             (body, _) = exporter.from_notebook_node(notebook)
             return self.TEMPLATE.render(base=self.assets_url, body=body)
@@ Expand Down @@